本申请是申请号为201580015027.0、申请日为2015年3月20日、发明名称为“用于对高阶Ambisonics(HOA)信号进行压缩的方法、用于对经压缩的HOA信号进行解压的方法、用于对HOA信号进行压缩的装置、以及用于对经压缩的HOA信号进行解压的装置”的发明专利申请的分案申请。
具体实施方式
为了更容易理解,下面扼要重述图1和图2中的现有技术解决方案。
图1示出了HOA压缩器的常规体系架构的结构。在[4]中所描述的方法中,方向分量被延展成所谓的主导声音分量。作为方向分量,主导声音分量被假设为部分地由方向信号与一些预测参数一起表示,方向信号是指具有它们被假设冲击到听众的相应方向的单声道信号,预测参数用于根据方向信号来预测原始HOA表示的部分。此外,主导声音分量被假定由所谓的基于向量的信号来表示,基于向量的信号是指具有定义基于向量的信号的方向分布的相应向量的单声道信号。在[4]中提出的HOA压缩器的整体体系架构在图1中示出。它可以被细分为在图1a中绘出的空间HOA编码部分和图1b中绘出的感知与源编码部分。空间HOA编码器提供由I个信号与描述如何创建其HOA表示的辅助信息一起组成的第一压缩HOA表示。在感知和辅助信息源编码器中,在多路复用两个编码后的表示之前,所提到的I个信号被感知编码并且辅助信息经受源编码。
常规地,空间编码如下工作。
在第一步中,原始HOA表示的第k个帧C(k)被输入到方向和向量估计处理模块,该方向和向量估计处理模块提供元组集合和元组集合由其第一个元素表示方向信号的索引并且其第二元素表示相应量化方向的元组组成。元组集合由其第一个元素表示基于向量的信号的索引并且其第二个元素表示定义信号的方向分布(即,如何计算基于向量的信号的HOA表示)的向量的元组组成。
利用元组集合和这二者,初始HOA帧C(k)在HOA分解中被分解成所有主导声音(即,方向和基于向量的)信号的帧XPS(k-1)和周围环境HOA分量的帧CAMB(k-1)。分别注意一帧的延迟,以避免块效应(blocking artifact),该延迟是由于重叠添加处理造成的。此外,HOA分解被假设为输出描述如何根据方向信号预测原始HOA表示的部分的一些预测参数ζ(k-1),以丰富主导声音HOA分量。此外,向I个可用声道提供目标分配向量vA,T(k-1),目标分配向量包含在HOA分解处理模块中确定的关于主导声音信号的分配的信息。可以假设受影响的声道被占用,这意味着它们不可用于在相应的时间帧中运输周围环境HOA分量的任何系数序列。
在周围环境分量修改处理模块中,周围环境HOA分量的帧CAMB(k-1)根据由目标分配向量vA,T(k-1)提供的信息而被修改。特别地,以下被确定:除其它方面之外,取决于关于哪些声道是可用的并且尚未被主导声音信号占用的(在目标分配向量vA,T(k-1)中包含的)信息,周围环境HOA分量的哪些系数序列要在给定的I个声道中被发送。此外,如果选定的系数序列的索引在连续的帧之间变化,则执行系数序列的渐强和渐弱。
此外,假设周围环境HOA分量CAMB(k-2)的前OMIN个系数序列总是被选择进行感知编码并发送,其中,OMIN=(NMIN+1)2,NMIN≤N典型地是比原始HOA表示的阶小的阶。为了对这些HOA系数序列进行解相关(de-correlate),建议将它们变换成从一些预定义的方向ΩMIN,d,d=1,…,OMIN撞击的方向信号(即,一般的平面波函数)。
与经修改的周围环境HOA分量CM,A(k-1)一起,临时预测的经修改的周围环境HOA分量CP,M,A(k-1)被计算,以稍后在增益控制处理模块中使用,从而允许合理的预见(lookahead)。
关于周围环境HOA分量的修改的信息与所有可能类型的信号至可用声道的分配直接相关。关于分配的最终信息包含在最终分配向量vA(k-2)中。为了计算该向量,利用包含在目标分配向量vA,T(k-1)中的信息。
声道分配利用由分配向量vA(k-2)提供的信息来向I个可用信道分配包含在XPS(k-2)中和包含在CM,A(k-2)中的适当信号,从而产生信号yi(k-2),i=1,…,I。另外,包含在XPS(k-1)中和CP,AMB(k-1中的适当信号也被分配至I个可用信道,从而产生预测信号yP,ik-2,i=1,…,I。信号yi(k-2),i=1,…,I中的每一个最终由增益控制处理,其中信号增益被平滑地修改,以达到适合于感知编码器的值范围。预测信号帧yP,i(k-2),i=1,…,I允许一种预见,以避免连续块之间的严重增益变化。假设要在空间解码器中利用增益控制辅助信息来还原增益修改,其中增益控制辅助信息由指数ei(k-2)和异常标记βi(k-2),i=1,…,I组成。
图2示出了如在[4]中提出的HOA解压器的常规体系架构的结构。常规地,HOA解压由HOA压缩器部件的配对物组成,显然这些部件以相反的次序布置。它可以被细分为在图2a中绘出的感知和源解码部分以及在图2b中绘出的空间HOA解码部分。
在感知和辅助信息源解码器中,比特流首先被解多路复用成I个信号的感知编码表示以及被解多路复用成描述如何创建其HOA表示的经编码的辅助信息。接着,执行对I个信号的感知解码和对辅助信息的解码。然后,空间HOA解码器根据该I个信号和辅助信息创建重构的HOA表示。
常规地,空间HOA解码如下工作。
在空间HOA解码器中,经感知解码的信号i∈{1,…,I}中的每一个首先与相关联的增益校正指数ei(k)和增益校正异常标记βi(k)一起被输入到逆增益控制处理模块。第i个逆增益控制处理提供经增益校正的信号帧
所有的I个经增益校正的信号帧i∈{1,…,I}与分配向量vAMB,ASSIGN(k)以及元组集合和一起被传递到声道重新分配。在上面定义了元组集合和(对于空间HOA编码),并且分配向量vAMB,ASSIGN(k)由I个分量组成,这I个分量指示:对于每个传输声道,它是否包含周围环境HOA分量的系数序列以及包含周围环境HOA分量的哪个系数序列。在声道重新分配中,经增益校正的信号帧被重新分布,以重构所有主导声音信号(即,所有方向信号和基于向量的信号)的以及周围环境HOA分量的中间表示的帧CI,AMB(k)。此外,提供周围环境HOA分量的在第k帧中有效的系数序列的索引的集合以及周围环境HOA分量的在第(k-1)帧中必须被启用、禁用和保持有效的系数序列的集合和
在主导声音合成中,主导声音分量的HOA表示是利用元组集合和预测参数的集合ζ(k+1)、元组集合以及集合和根据所有主导声音信号的帧计算的。
在周围环境合成中,周围环境HOA分量帧是利用周围环境HOA分量的在第k帧中有效的系数序列的索引的集合根据周围环境HOA分量的中间表示的帧CI,AMB(k)创建的。注意一帧的延迟,其由于与主导声音HOA分量的同步而被引入。
最后,在HOA组合中,周围环境HOA分量帧和主导声音HOA分量的帧重叠,以提供经解码的HOA帧
如由于上面对HOA压缩和解压方法的粗略描述而已经变得清楚的,压缩表示由I个量化后的单声道信号和一些附加辅助信息组成。这I个量化后的单声道信号中的固定数量OMIN表示周围环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本。其余I-OMIN个信号的类型可以在连续的帧之间变化,要么是方向的、基于向量的、空的,要么是表示周围环境HOA分量CAMB(k-2)的附加系数序列。这样而言,压缩的HOA表示意味着是整体式的。特别地,一个问题是如何将所描述的表示分割成低质量基本层和增强层。
根据所公开的发明,用于质量基本层的候选是包含周围环境HOA分量CAMB(k-2)的前OMIN个系数序列的空间变换版本的OMIN个声道。使这OMIN个声道(不失一般性地,前OMIN个声道)成为形成低质量基本层的好选择的原因是它们的时间不变类型。但是,各信号缺乏对于声音场景必不可少的任何主导声音分量。这也可以在周围环境HOA分量CAMB(k-1)的常规计算中看到,该常规计算是通过根据下式从原始HOA表示C(k-1)中减去主导声音HOA表示CPS(k-1)来执行的
CAMB(k-1)=C(k-1)-CPS(k-1) (1)
这个问题的解决方案是将低空间分辨率的主导声音分量包括到基本层中。
在下面描述所提出的对HOA压缩的改良。
图3示出了根据本发明一个实施例的HOA压缩器的空间HOA编码和感知编码部分的体系架构的结构。为了还将低空间分辨率的主导声音分量包括到基本层中,在空间HOA编码器(参见图1a)中由HOA分解处理输出的周围环境HOA分量CAMB(k-1)由以下修改版本代替
其元素由下式给出
换句话说,用原始HOA分量的系数序列代替周围环境HOA分量的被假定总是以空间变换形式发送的前OMIN个系数序列。空间HOA编码器的其它处理模块可以保持不变。
重要的是注意,HOA分解处理的这种变化可以被看作是使HOA压缩工作在所谓“双层”或“两层”模式下的初始操作。这种模式提供可以被分成低质量基本层和增强层的比特流。使用或不使用这个模式可以由总比特流的访问单元中的单个比特发信号通知。
为了提供用于基本层和增强层的比特流而对比特流多路复用的可能结果修改在图3和4中示出,如下面进一步描述的。
基本层比特流仅包括经感知编码的信号i=1,…,OMIN,和由指数ei(k-2)和异常标记βi(k-2),i=1,…,OMIN组成的对应的经编码的增益控制辅助信息。其余经感知编码的信号i=OMIN+1,…,O和经编码的其余辅助信息被包括到增强层比特流中。然后基本层和增强层比特流和被联合发送,而不是以前的总比特流
在图3和图4中,示出了用于对HOA信号进行压缩的装置,HOA信号是具有HOA系数序列的输入时间帧(C(k))的输入HOA表示。所述装置包括在图3中示出的用于对输入时间帧的空间HOA编码和后续感知编码的空间HOA编码和感知编码部分以及在图4中示出的用于源编码的源编码器部分。空间HOA编码和感知编码部分包括方向和向量估计模块301、HOA分解模块303、周围环境分量修改模块304、声道分配模块305、以及多个增益控制模块306。
方向和向量估算模块301适于执行HOA信号的方向和向量估计处理,其中包括用于方向信号的第一元组集合和用于基于向量的信号的第二元组集合的数据被获得,第一元组集合中每个第一元组包括方向信号的索引和相应的量化方向,并且第二元组集合中每个第二元组包括基于向量的信号的索引以及定义信号的方向分布的向量。
HOA分解模块303适于将HOA系数序列的每个输入时间帧分解成一帧多个主导声音信号XPS(k-1)和一帧周围环境HOA分量其中主导声音信号XPS(k-1)包括所述方向声音信号和所述基于向量的声音信号,并且其中周围环境HOA分量包括表示输入HOA表示与主导声音信号的HOA表示之间的残差(residual)的HOA系数序列,并且其中该分解还提供预测参数ξ(k-1)和目标分配向量vA,T(k-1)。预测参数ξ(k-1)描述如何根据主导声音信号XPS(k-1)内的方向信号预测HOA信号表示的部分,从而丰富主导声音HOA分量,并且目标分配向量vA,T(k-1)包含关于如何向给定的I个声道分配主导声音信号的信息。
周围环境分量修改模块304适于根据由目标分配向量vA,T(k-1)提供的信息修改周围环境HOA分量CAMB(k-1),其中,取决于有多少声道被主导声音信号占用,确定周围环境HOA分量CAMB(k-1)的哪些系数序列要在给定的I个声道中被发送,并且其中修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1)被获得,并且其中最终分配向量vA(k-2)是根据目标分配向量vA,T(k-1)中的信息获得的。
声道分配模块305适于利用由目标分配向量vA,T(k-1)提供的信息来向给定的I个声道分配从分解获得的主导声音信号XPS(k-1)、修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1)的被确定的系数序列,其中,运输信号yi(k-2),i=1,…,I和预测的运输信号yP,i(k-2),i=1,…,I被获得。
多个增益控制模块306适于对运输信号yi(k-2)和预测的运输信号yP,i(k-2)执行增益控制(805),其中,增益修改的运输信号zi(k-2)、指数ei(k-2)和异常标记βi(k-2)被获得。
图4示出了根据本发明的一个实施例的HOA压缩器的源编码器部分的体系架构的结构。图4中所示的源编码器部分包括感知编码器310、具有两个编码器320、330(即,基本层辅助信息源编码器320和增强层辅助信息编码器330)的辅助信息源编码器模块、以及两个多路复用器340、350(即,基本层比特流多路复用器340和增强层比特流多路复用器350)。辅助信息源编码器可以在单个辅助信息源编码器模块中。
感知编码器310适于对所述经增益修改的运输信号zi(k-2)进行感知编码806,其中感知编码的运输信号i=1,…,I被获得。
辅助信息源编码器320、330适于对包括所述指数ei(k-2)和异常标记βi(k-2)、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)和所述最终分配向量vA(k-2)的辅助信息进行编码,其中,经编码的辅助信息被获得。
多路复用器340、350适于将经感知编码的运输信号和经编码的辅助信息多路复用成经多路复用的数据流其中在分解中获得的周围环境HOA分量包括输入HOA表示的在OMIN个最低位置(即,具有最低索引的那些位置)的第一HOA系数序列cn(k-1)和在其余较高位置的第二HOA系数序列cAMB,n(k-1)。如以下关于方程(4)-(6)所解释的,第二HOA系数序列是输入HOA表示与主导声音信号的HOA表示之间的残差的HOA表示的部分。另外,前OMIN个指数ei(k-2),i=1,…,OMIN和异常标记βi(k-2),i=1,…,OMIN在基本层辅助信息源编码器320中被编码,其中经编码的基本层辅助信息被获得,并且其中OMIN=(NMIN+1)2和O=(N+1)2,NMIN≤N且OMIN≤I并且NMIN是预定义的整数值。前OMIN个经感知编码的运输信号i=1,…,OMIN和经编码的基本层辅助信息在基本层比特流多路复用器340(其为所述多路复用器之一)中被多路复用,其中,基本层比特流被获得。基本层辅助信息源编码器320是辅助信息源编码器之一,或者它在辅助信息源编码器模块中。
其余的I-OMIN个指数ei(k-2),i=OMIN+1,…,I和异常标记βi(k-2),i=OMIN+1,…,I、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)和所述最终分配向量vA(k-2)在增强层辅助信息编码器330中被编码,其中经编码的增强层辅助信息被获得。增强层辅助信息源编码器330是辅助信息源编码器之一,或者在辅助信息信源编码器模块中。
其余的I-OMIN个经感知编码的运输信号i=OMIN+1,…,I和经编码的增强层辅助信息在增强层比特流多路复用器350(这也是所述多路复用器之一)中被多路复用,其中,增强层比特流被获得。另外,在多路复用器或指示插入模块中添加模式指示LMFE。模式指示LMFE发信号通知被用于正确解压压缩信号的分层模式使用情况。
在一个实施例中,用于编码的装置还包括适于选择模式的模式选择器,模式由模式指示LMFE指示并且是分层模式和非分层模式之一。在非分层模式中,周围环境HOA分量仅包括表示输入HOA表示与主导声音信号的HOA表示之间的残差的HOA系数序列(即,没有输入HOA表示的系数序列)。
在下面描述所提出的对HOA解压的改良。
在分层模式下,在HOA压缩中对周围环境HOA分量CAMB(k-1)的修改通过适当修改HOA组合而在HOA解压时被考虑。
在HOA解压器中,根据图5执行基本层和增强层比特流的解复用和解码。基本层比特流被解复用成基本层辅助信息和经感知编码的信号的编码表示。随后,基本层辅助信息和经感知编码的信号的编码表示被解码,以一方面提供指数ei(k)和异常标记,并且另一方面提供经感知解码的信号。类似地,增强层比特流被解复用和解码,以提供经感知解码的信号和其余的辅助信息(参见图5)。采用这种分层模式,空间HOA解码部分也必须被修改,以考虑在空间HOA编码中对周围环境HOA分量CAMB(k-1)的修改。修改在HOA组合中完成。
特别地,重构后的HOA表示
由其修改版本代替
其元素由下式给出
这意味着,对于前OMIN个系数序列,主导声音HOA分量不被添加到周围环境HOA分量,因为它已经被包括在其中。HOA空间解码器的所有其它处理模块保持不变。
在下面,简要考虑在仅存在低质量基本层比特流的情况下的HOA解压。
比特流首先被解复用和解码,以提供重构后的信号和由指数ei(k)和异常标记βi(k)组成的对应的增益控制辅助信息,i=1,…,OMIN。注意,在缺少增强层的情况下,经感知编码的信号i=OMIN+1,…,O不可用。解决此情况的可能方式是将信号i=OMIN+1,…,O设为零,这自动地使重构的主导声音分量CPS(k-1)为零。
在下一步中,在空间HOA解码器中,前OMIN个逆增益控制处理模块提供经增益校正的信号帧i=1,…,OMIN,这些经增益校正的信号帧被用于通过声道重新分配来构造周围环境HOA分量的中间表示的帧CI,AMB(k)。注意,周围环境HOA分量的在第k帧中有效的系数序列的索引的集合仅包含索引1,2,…,OMIN。在周围环境合成中,前OMIN个系数序列的空间变换被还原,以提供周围环境HOA分量帧CAMB(k-1)。最后,根据方程(6)来计算重构的HOA表示。
图5和图6示出了根据本发明的一个实施例的HOA解压器的体系架构的结构。该装置包括如图5中所示的感知解码和源解码部分、如图6中所示的空间HOA解码部分、以及适于检测分层模式指示LMFD的模式检测器,该分层模式指示LMFD指示压缩HOA信号包括经压缩的基本层比特流和经压缩的增强层比特流。
图5示出了根据本发明的一个实施例的HOA解压器的感知解码和源解码部分的体系架构的结构。
感知解码和源解码部分包括第一解复用器510、第二解复用器520、基本层感知解码器540和增强层感知解码器550、基本层辅助信息源解码器530和增强层辅助信息源解码器560。
第一解复用器510适于对经压缩的基本层比特流进行解复用,其中第一经感知编码的运输信号i=1,…,OMIN和第一经编码的辅助信息被获得。
第二解复用器520适于对经压缩的增强层比特流进行解复用,其中第二经感知编码的运输信号i=OMIN+1,…,I和第二经编码的辅助信息被获得。
基本层感知解码器540和增强层感知解码器550适于对经感知编码的运输信号i=1,…,I进行感知解码904,其中经感知解码的运输信号被获得,并且其中,在基本层感知解码器540中,基本层的所述第一经感知编码的运输信号i=1,…,OMIN被解码并且第一经感知解码的运输信号i=1,…,OMIN被获得。在增强层感知解码器550中,增强层的所述第二经感知编码的运输信号i=OMIN+1,…,I被解码并且第二经感知解码的运输信号i=OMIN+1,…,I被获得。
基本层辅助信息源解码器530适于对第一经编码的辅助信息进行解码905,其中第一指数ei(k),i=1,…,OMIN和第一异常标记βi(k),i=1,…,OMIN被获得。
增强层辅助信息源解码器560适于对第二经编码的辅助信息进行解码906,其中第二指数ei(k),i=OMIN+1,…,I和第二异常标记βi(k),i=OMIN+1,…,I被获得,并且其中进一步的数据被获得。进一步的数据包括用于方向信号的第一元组集合和用于基于向量的信号的第二元组集合第一元组集合中的每个元组包括方向信号的索引和相应的量化方向,并且第二元组集合中的每个元组包括基于向量的信号的索引和定义基于向量的信号的方向分布的向量。另外,预测参数ξ(k+1)和周围环境分配向量vAMB,ASSIGN(k)被获得,其中周围环境分配向量vAMB,ASSIGN(k)包括指示对于每个传输声道它是否包含周围环境HOA分量的系数序列以及包含周围环境HOA分量的哪些系数序列的分量。
图6示出了根据本发明的一个实施例的HOA解压器的空间HOA解码部分的体系架构的结构。空间HOA解码部分包括多个逆增益控制单元604、信道重新分配模块605、主导声音合成模块606,以及周围环境合成模块607、HOA组合模块608。
多个逆增益控制单元604适于执行逆增益控制,其中所述第一经感知解码的运输信号i=1,…,OMIN根据第一指数ei(k),i=1,…,OMIN和第一异常标记βi(k),i=1,…,OMIN被变换为第一经增益校正的信号帧i=1,…,OMIN,并且其中第二经感知解码的运输信号i=OMIN+1,…,I根据第二指数ei(k),i=OMIN+1,…,I和第二异常标记βi(k),i=OMIN+1,…,I被变换为第二经增益校正的信号帧i=OMIN+1,…,I。
声道重新分配模块605适于向I个声道重新分布911第一和第二经增益校正的信号帧i=1,…,I,其中主导声音信号的帧被重构,主导声音信号包括方向信号和基于向量的信号,并且其中,修改后的周围环境HOA分量被获得,并且其中该分配是根据所述周围环境分配向量vAMB,ASSIGN(k)并根据所述第一和第二元组集合和中的信息进行的。
另外,声道重新分配模块605适于生成修改后的周围环境HOA分量的在第k帧中有效的系数序列的第一索引集合以及修改后的周围环境HOA分量的在第(k-1)帧中必须被启用、禁用和保持有效的系数序列的第二索引集合
主导声音合成模块606适于根据所述主导声音信号合成912主导HOA声音分量的HOA表示,其中第一和第二元组集合预测参数ξ(k+1)和第二索引集合被使用。
周围环境合成模块607适于根据修改后的周围环境HOA分量合成913周围环境HOA分量其中,进行对前OMIN个声道的逆空间变换,并且其中第一索引集合被使用,该第一索引集合是周围环境HOA分量的在第k帧中有效的系数序列的索引。
如果分层模式指示LMFD指示具有至少两层的分层模式,则周围环境HOA分量在其OMIN个最低位置(即,具有最低索引的那些位置)包括经解压的HOA信号的HOA系数序列,并且在其余较高位置包括作为残差的HOA表示的部分的系数序列。该残差是经解压的HOA信号与主导HOA声音分量的HOA表示之间的残差。
另一方面,如果分层模式指示LMFD指示单层模式,则不包括经解压的HOA信号的HOA系数序列,并且周围环境HOA分量是经解压的HOA信号与主导HOA声音分量的HOA表示之间的残差。
HOA合成模块608适于使主导声音分量的HOA表示与周围环境HOA分量相加,其中主导声音信号的HOA表示的系数和周围环境HOA分量的对应系数相加,并且其中,经解压的HOA信号被获得,并且其中,
如果分层模式指示LMFD指示具有至少两层的分层模式,则仅最高的I-OMIN个系数声道通过主导HOA声音分量和周围环境HOA分量的相加来获得,并且经解压的HOA信号的最低OMIN个系数声道是从周围环境HOA成拷贝的。另一方面,如果分层模式指示LMFD指示单层模式,则经解压的HOA信号的所有系数声道通过主导HOA声音分量和周围环境HOA分量的相加来获得。
图7示出了帧从周围环境HOA信号到修改后的周围环境HOA信号的变换。
图8示出了用于对HOA信号进行压缩的方法的流程图。
用于对高阶Ambisonics(HOA)信号进行压缩的方法800包括输入时间帧的空间HOA编码以及后续的感知编码和源编码,HOA信号是具有HOA系数序列的输入时间帧C(k)的N阶输入HOA表示。
空间HOA编码包括以下步骤:
在方向和向量估计模块301中执行HOA信号的方向和向量估计处理801,其中获得包括用于方向信号的第一元组集合和用于基于向量的信号的第二元组集合的数据,第一元组集合中的每个元组包括方向信号的索引和相应的量化方向,并且第二元组集合中的每个元组包括基于向量的信号的索引和定义信号的方向分布的向量,
在HOA分解模块303中将HOA系数序列的每个输入时间帧分解802成一帧多个主导声音信号XPS(k-1)和一帧周围环境HOA分量其中主导声音信号XPS(k-1)包括方向声音信号和基于向量的声音信号,并且其中周围环境HOA分量包括表示输入HOA表示与主导声音信号的HOA表示之间的残差的HOA系数序列,并且其中分解802还提供预测参数ξ(k-1)和目标分配向量vA,T(k-1),预测参数ξ(k-1)描述如何根据主导声音信号XPS(k-1)中的方向信号预测HOA信号表示的部分以便丰富主导源HOA分量,并且目标分配向量vA,T(k-1)包含关于如何向给定数量(I)的声道分配主导声音信号的信息,
在周围环境分量修改模块304中根据由目标分配向量vA,T(k-1)提供的信息修改803周围环境HOA分量CAMB(k-1),其中,取决于有多少声道被主导声音信号占用,确定周围环境HOA分量CAMB(k-1)的哪些系数序列要在给定的I个的声道中被发送,并且其中获得修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1),并且其中从目标分配向量vA,T(k-1)中的信息获得最终分配向量vA(k-2),
在声道分配模块105中利用由最终分配向量vA(k-2)提供的信息向给定的I个声道分配804从解压获得的主导声音信号XPS(k-1)、以及修改后的周围环境HOA分量CM,A(k-2)和临时预测的修改后的周围环境HOA分量CP,M,A(k-1)的确定的系数序列,其中获得运输信号yi(k-2),i=1,…,I和预测的运输信号yP,i(k-2),i=1,…,I,并且
在多个增益控制模块306中对运输信号yi(k-2)和预测的运输信号yP,i(k-2)执行增益控制805,其中获得增益修改的运输信号zi(k-2)、指数ei(k-2)和异常标记βi(k-2)。
感知编码和源编码包括以下步骤:
在感知编码器310中对所述经增益修改的运输信号zi(k-2)进行感知编码806,其中获得经感知编码的运输信号i=1,…,I,
在一个或多个辅助信号源编码器320、330中对包括所述指数ei(k-2)和异常标记βi(k-2)、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)和所述最终分配向量vA(k-2)的辅助信息进行编码807,其中获得经编码的辅助信息以及
对经感知编码的运输信号和经编码的辅助信息进行多路复用808,其中获得多路复用的数据流
在分解步骤802中获得的周围环境HOA分量包括输入HOA表示的在OMIN个最低位置(即,具有最低索引的那些位置)的第一HOA系数序列cn(k-1)和其余更高位置的第二HOA系数序列cAMB,n(k-1)。第二系数序列是输入HOA表示与主导声音信号的HOA表示之间的残差的HOA表示的部分。
前OMIN个指数ei(k-2),i=1,…,OMIN和异常标记βi(k-2),i=1,…,OMIN在基本层辅助信息源编码器320中被编码,其中获得经编码的基本层辅助信息并且其中OMIN=(NMIN+1)2和O=(N+1)2,NMIN≤N且OMIN≤I并且NMIN是预定义的整数值。
前OMIN个经感知编码的运输信号i=1,…,OMIN和经编码的基本层辅助信息在基本层比特流多路复用器340中被多路复用809,其中获得基本层比特流
其余的I-OMIN个指数ei(k-2),i=OMIN+1,…,I)和异常标记βi(k-2),i=OMIN+1,…,I、所述第一元组集合和第二元组集合所述预测参数ξ(k-1)和所述最终分配向量vA(k-2)(在图中也被示为vAMB,ASSIGN(k))在增强层辅助信息编码器330中被编码,其中获得经编码的增强层辅助信息
其余的I-OMIN个经感知编码的运输信号i=OMIN+1,…,I和经编码的增强层辅助信息在增强层比特流多路复用器350中被多路复用810,其中获得增强层比特流
如上所述,模式指示被添加811,该模式指示发信号通知分层模式的使用。模式指示是通过指示插入模块或多路复用器添加的。
在一个实施例中,该方法还包括将基本层比特流增强层比特流和模式指示多路复用到单个比特流中的最后一步。
在一个实施例中,所述主导方向估计取决于在能量上占主导的HOA分量的方向功率分布。
在一个实施例中,在修改周围环境HOA分量时,如果所选择的HOA系数序列的HOA序列索引在连续的帧之间变化,则执行系数序列的渐强和渐弱。
在一个实施例中,在修改周围环境HOA分量时,执行周围环境HOA分量(CAMB(k-1))的局部解相关。
在一个实施例中,第一元组集合中所包括的量化方向是主导方向。
图9示出了用于对压缩HOA信号进行解压的方法的流程图。
在本发明的该实施例中,用于对压缩的HOA信号进行解压的方法900包括感知解码和源解码以及后续的空间HOA解码,以获得HOA系数序列的输出时间帧并且该方法包括检测901指示压缩高阶Ambisonics(HOA)信号包括经压缩的基本层比特流和经压缩的增强层比特流的分层模式指示LMFD的步骤。
感知解码和源解码包括以下步骤:
对经压缩的基本层比特流进行解复用902,其中获得第一经感知编码的运输信号i=1,…,OMIN和第一经编码的辅助信息
对经压缩的增强层比特流进行解复用903,其中获得第二经感知编码的运输信号i=OMIN+1,…,I和第二经编码的辅助信息
对经感知编码的运输信号i=1,…,I进行感知解码904,其中获得经感知解码的运输信号并且其中,在基本层感知解码器540中,基本层的所述第一经感知编码的运输信号i=1,…,OMIN被解码并且第一经感知解码的运输信号i=1,…,OMIN被获得,并且其中,在增强层感知解码器550中,增强层的所述第二经感知编码的运输信号i=OMIN+1,…,I被解码并且第二经感知解码的运输信号i=OMIN+1,…,I被获得,
在基本层辅助信息源解码器530中对第一经编码的辅助信息进行解码905,其中获得第一指数ei(k),i=1,…,OMIN和第一异常标记βi(k),i=1,…,OMIN,以及
在增强层辅助信息源解码器560中对第二经编码的辅助信息进行解码906,其中获得第二指数ei(k),i=OMIN+1,…,I和第二异常标记βi(k),i=OMIN+1,…,I,并且其中获得进一步的数据,进一步的数据包括用于方向信号的第一元组集合和用于基于向量的信号的第二元组集合第一元组集合中的每个元组包括方向信号的索引和相应的量化方向,并且第二元组集合中的每个元组包括基于向量的信号的索引和定义基于向量的信号的方向分布的向量,并且进一步地,其中获得预测参数ξ(k+1)和周围环境分配向量vAMB,ASSIGN(k)。周围环境分配向量vAMB,ASSIGN(k)包括指示对于每个传输声道它是否包含周围环境HOA分量的系数序列以及包含周围环境HOA分量的哪个系数序列的分量。
空间HOA解码包括以下步骤:
执行910逆增益控制,其中所述第一经感知解码的运输信号i=1,…,OMIN根据所述第一指数ei(k),i=1,…,OMIN和所述第一异常标记βi(k),i=1,…,OMIN被变换成第一经增益校正的信号帧i=1,…,OMIN,并且其中所述第二经感知解码的运输信号i=OMIN+1,…,I根据所述第二指数ei(k),i=OMIN+1,…,I和所述第二异常标记βi(k),i=OMIN+1,…,I被变换成第二经增益校正的信号帧i=OMIN+1,…,I,
在声道重新分配模块605中将第一和第二经增益校正的信号帧i=1,…,I重新分布911至I个声道,其中主导声音信号的帧被重构,主导声音信号包括方向信号和基于向量的信号,并且其中获得修改后的周围环境HOA分量并且其中该分配是根据所述周围环境分配向量vAMB,ASSIGN(k)和所述第一和第二元组集合中的信息进行的,
在声道重新分配模块605中生成911b修改后的周围环境HOA分量的在第k帧中有效的系数序列的第一索引集合以及修改后的周围环境HOA分量的在第(k-1)帧中必须被启用、禁用和保持有效的系数序列的第二索引集合
在主导声音合成模块606中根据所述主导声音信号合成912主导HOA声音分量的HOA表示,其中第一和第二元组集合预测参数ξ(k+1)和第二索引集合被使用,
在周围环境合成模块607中根据修改后的周围环境HOA分量合成913周围环境HOA分量其中对前OMIN个声道进行逆空间变换,并且其中第一索引集合被使用,该第一索引集合是周围环境HOA分量的在第k帧中有效的系数序列的索引,其中,取决于分层模式指示LMFD,周围环境HOA分量具有至少两种不同配置之一,以及
在HOA组合模块608中使914主导HOA声音分量和周围环境HOA分量的HOA表示相加,其中主导声音信号的HOA表示的系数和周围环境HOA分量的对应系数被相加,并且其中获得经解压的HOA信号并且其中以下条件适用:
如果分层模式指示LMFD指示具有至少两层的分层模式,则通过主导HOA声音分量和周围环境HOA分量的相加仅获得最高的I-OMIN个系数声道,并且从周围环境HOA分量拷贝经解压的HOA信号的最低OMIN个系数声道。否则,如果所述分层模式指示LMFD指示单层模式,则经解压的HOA信号的所有系数声道都是通过主导HOA声音分量和周围环境HOA分量的相加获得的。
取决于分层模式指示LMFD的周围环境HOA分量的配置如下:
如果分层模式指示LMFD指示具有至少两层的分层模式,则周围环境HOA分量在其OMIN个最低位置包括经解压的HOA信号的HOA系数序列,并且在其余更高位置包括如下系数序列:该系数序列是经解压的HOA信号与主导HOA声音分量的HOA表示之间的残差的HOA表示的部分。
另一方面,如果分层模式指示LMFD指示单层模式,则周围环境HOA分量是经解压的HOA信号与主导HOA声音分量的HOA表示之间的残差。
在一个实施例中,压缩HOA信号表示是在经多路复用的比特流中,并且用于对压缩HOA信号进行解压的方法还包括对压缩HOA信号表示进行解复用的初始步骤,其中获得所述经压缩的基本层比特流所述经压缩的增强层比特流和所述分层模式指示LMFD。
图10示出了根据本发明的一个实施例的HOA解压器的空间HOA解码部分的体系架构的结构。
有利地,例如,如果未接收到EL或者如果BL质量足够,则可以仅解码BL。对于这种情况,EL的信号可以在解码器被设置为零。于是,在声道重新分配模块605中向I个声道重新分布911第一和第二经增益校正的信号帧i=1,…,It是非常简单的,因为主导声音信号的帧是空的。修改后的周围环境HOA分量的在第(k-1)帧中必须被启用、停用和保持有效的系数序列的第二索引集合被设置为零。因此,在主导声音合成模块606中根据主导声音信号合成912主导HOA声音分量的HOA表示可以被跳过,并且在周围环境合成模块607中根据修改后的周围环境HOA分量合成913周围环境HOA分量对应于常规的HOA组合。
对于不需要低质量基本层比特流的应用,例如对于基于文件的压缩,HOA压缩的原始(即,整体式的、不可扩展的、非分层的)模式仍然可以是有用的。对周围环境HOA分量CAMB的经空间变换的前OMIN个系数序列(其为原始HOA表示与方向HOA表示之差)进行感知编码而非对原始HOA分量C的经空间变换的系数序列进行感知编码的主要优点在于,在前一种情况下,要被感知编码的所有信号之间的互相关减少。信号zi,i=1,…,I之间的任何互相关都会造成在空间解码处理期间感知编码噪声的相长性叠加(constructive superposition),而同时无噪声的HOA系数序列在叠加时被抵消。这种现象被称为感知噪声去掩蔽。
在分层模式下,在每个信号zi,i=1,…,OMIN之间以及还在信号zi,i=1,…,OMIN和zi,i=OMIN+1,…,I之间存在高度互相关,因为周围环境HOA分量n=1,…,OMIN的修改后的系数序列包括方向HOA分量的信号(参见方程(3))。相反,对于原始、非分层模式,情况不是这样。因此可以得出结论,由分层模式引入的传输健壮性以压缩质量为代价。但是,与传输健壮性的提高相比,压缩质量的降低是少的。如以上已经示出的,所提出的分层模式在至少上述情况下是有利的。
虽然已经示出、描述和指出了本发明的如被应用于其优选实施例的基本新颖特征,但是将理解,在不背离本发明的精神的情况下,本领域技术人员可以在所描述的装置和方法、所公开的设备的形式和细节以及它们的操作中进行各种省略、替换和改变。以下是明确想要的:为了实现相同结果而以基本相同方式执行基本相同功能的那些要素的所有组合都在本发明的范围之内。从一个所述实施例到另一个的要素替换也是完全预期和设想的。
将理解,已仅仅以举例的方式描述了本发明,并且在不背离本发明的范围的情况下可以进行细节的修改。
在说明书以及(适当的时候)权利要求和附图中公开的每个特征可以单独地或者以任何适当的组合提供。在适当的时候,特征可以以硬件、软件或者二者的组合实现。在适用的时候,连接可以被实现为无线的连接或有线的(不一定是直接或专用的)连接。
权利要求中出现的标号仅仅是通过说明的方式,并且对权利要求的范围将没有限制作用。
引用的参考文献
[1]EP12306569.0
[2]EP12305537.8(公开为EP2665208A)
[3]EP133005558.2
[4]ISO/IEC JTC1/SC29/N14264,MPEG-H 3D音频的工作草案1-HOA文本,2014年1月