CN101044552A - 语音编码装置和语音编码方法 - Google Patents
语音编码装置和语音编码方法 Download PDFInfo
- Publication number
- CN101044552A CN101044552A CNA2005800360114A CN200580036011A CN101044552A CN 101044552 A CN101044552 A CN 101044552A CN A2005800360114 A CNA2005800360114 A CN A2005800360114A CN 200580036011 A CN200580036011 A CN 200580036011A CN 101044552 A CN101044552 A CN 101044552A
- Authority
- CN
- China
- Prior art keywords
- spectrum
- decoding
- transform function
- linear transform
- standard deviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Abstract
能够使比特率的增加抑制到最小限度,同时能够实现量化性能的提高的语音编码装置。在该装置中,在第二层编码单元(40),标准偏差计算单元(408)计算乘以解码标度因子比后的第一层解码谱的标准偏差σc并输出到选择单元(409),选择单元(409)基于标准偏差σc选择用哪一个非线性变换函数作为对残差谱进行非线性变换的函数,非线性变换函数单元(410)基于选择单元(409)的选择结果,选择所准备的多个非线性变换函数#1~#N中的其中一个并输出到逆变换单元(411),逆变换单元(411)使用从非线性变换函数单元(410)输出的非线性变换函数,对存储于残差谱码本(412)的残差谱候补进行逆变换(扩展处理),并输出到加法器(413)。
Description
技术领域
本发明涉及语音编码装置和语音编码方法,特别涉及适合于可扩展编码的语音编码装置和语音编码方法。
背景技术
为了在移动通信系统中的电波资源等的有效利用,人们期求以低比特压缩语音信号的技术。但另一方面,人们还期望提高通话语音的质量和实现现场感强的通话服务。为了实现它,除了语音信号的高质量化以外,最好对频带更宽的音频信号等语音以外的信号也能够实现高质量的编码。
对这种相互相反的要求,将多个编码技术分层式地合并的研究备受关注。该研究中有一种分层地组合第一层和第二层的编码方式,该第一层使用适合于语音信号的模式,将输入信号以低比特率编码,该第二层使用也适合于语音以外的信号的模式,将输入信号与在第一层的解码信号的差值信号编码。因为在具有这种分层结构的编码方式中通过编码所获得的比特流具有可扩展性(即,即使从比特流的一部分信息也能够获得解码信号),所以被称为可扩展编码。可扩展编码由于其特性,具有能够灵活地适应于比特率不同的网络间的通信的特点。该特点可以说适合于预计在将来由IP协议合并多种多样的网络的网络环境。
作为以往的可扩展编码,例如有使用以MPEG-4(Moving Picture ExpertsGroup phase-4)标准化的技术进行可扩展编码(参照非专利文献1)。在该可扩展编码中,第一层采用适合于语音信号的CELP(Code Excited Linear Prediction;码激励线性预测),作为第二层采用例如对于从原始信号减去第一层的解码信号的残差信号的AAC(Advanced Audio Coder)和Twin VQ(Transform DomainWeighted Interleave Vector Quantization;变换域加权交织矢量量化)等变换编码方法。
另外还有在变换编码中有效率地量化频谱的技术(参照专利文献1)。该技术是,将频谱分块,然后求出标准偏差,它表示该块中所包含的系数的偏差度。然后,根据该标准偏差的值,估计块中所包含的系数的概率密度函数,并选择适合于该概率密度函数的量化器。通过该技术,能够降低频谱的量化误差而改善音质。
(专利文献1)专利第3299073号公报
(非专利文献1)三木弼一编著,“MPEG-4の全て”,初版,(株)工业调查会,1998年9月30日,p.126-127
发明内容
本发明需要解决的问题
然而,在专利文献1所记载的技术中,因为根据作为量化对象的信号本身的分布来选择量化器,所以必需将选择了哪一个量化器的选择信息编码并传输到解码装置。由此,在作为附加信息传输该选择信息时,比特率相应地增加。
本发明的目的是,提供能够将比特率的增加抑制到最小限度,同时提高量化性能的语音编码装置和语音编码方法。
解决问题的方案
本发明的语音编码装置是进行具有由多个层构成的分层结构的编码的语音编码装置,它所采用的结构包括:分析单元,对低层的解码信号进行频率分析,从而计算低层的解码谱;选择单元,基于所述低层的解码谱的偏差度,选择多个非线性变换函数中的一个非线性变换函数;逆变换单元,对非线性变换后的残差谱,使用由所述选择单元选择的非线性变换函数进行逆变换;以及加法单元,将逆变换后的残差谱与所述低层的解码谱相加,从而获得高层的解码谱。
本发明的有益效果
根据本发明,能够将比特率的增加抑制到最小限度,同时能够提高量化性能。
附图说明
图1是表示本发明实施方式1的语音编码装置的结构的方框图。
图2是表示本发明实施方式1的第二层编码单元的结构的方框图。
图3是表示本发明实施方式1的误差比较单元的结构的方框图。
图4是表示本发明实施方式1的第二层编码单元的结构的方框图(变形例)。
图5是表示本发明实施方式1的第一层解码谱的标准偏差与误差谱的标准偏差的关系的座标图。
图6是表示本发明实施方式1的误差谱的标准偏差的估计方法的图。
图7是本发明实施方式1的非线性变换函数的一个例子的图。
图8是表示本发明实施方式1的语音解码装置的结构的方框图。
图9是表示本发明实施方式1的第二层解码单元的结构的方框图。
图10是表示本发明实施方式2的误差比较单元的结构的方框图。
图11是表示本发明实施方式3的第二层编码单元的结构的方框图。
图12是表示本发明实施方式3的误差谱的标准偏差的估计方法的图
图13是表示本发明实施方式3的第二层解码单元的结构的方框图。
具体实施方式
下面,参照附图详细地说明本发明的实施方式。另外,在各个实施方式,进行具有由多个层构成的分层结构的可扩展编码。还有,在各个实施方式,作为一个例子设以下前提;即:(1)可扩展编码的分层结构为第一层(低层)和高于第一层的第二层(高层)的两层;(2)作为在第二层的编码,在频域进行编码(变换编码);(3)作为第二层的编码的变换方式,使用MDCT(ModifiedDiscrete Cosine Transform;改进离散余弦变换);(4)在第二层的编码中,将输入信号频带分为多个子带(频带),以各个子带为单位进行编码;(5)在第二层的编码中,与临界频带相对应地进行子带的分割,并以Bark标度等间隔地分割。
(实施方式1)
本发明实施方式1的语音编码装置的结构如图1所示。
在图1中,第一层编码单元10将通过对所输入的语音信号(原始信号)进行编码来获得的编码参数输出到第一层解码单元20和复用单元50。
第一层解码单元20由从第一层编码单元10输出的编码参数生成第一层的解码信号,并输出到第二层编码单元40。
另一方面,延迟单元30对所输入的语音信号(原始信号)赋予规定的长度的延迟,并输出到第二层编码单元40。该延迟是用于调整在第一层编码单元10和第一层解码单元20发生的时间延迟的。
第二层编码单元40对从延迟单元30输出的原始信号用从第一层解码单元20输出的第一层解码信号进行频谱编码,并将通过该频谱编码所获得的编码参数输出到复用单元50。
复用单元50将从第一层编码单元10输出的编码参数与从第二层编码单元40输出的编码参数复用,作为比特流输出。
接着,进一步详细地说明第二层编码单元40。第二层编码单元40的结构为如图2所示。
在图2中,MDCT分析单元401对从第一层解码单元20输出的第一层解码信号通过MDCT变换进行频率分析,从而计算MDCT系数(第一层解码谱),并将第一层解码谱输出到标度因子编码单元404和乘法器405。
MDCT分析单元402对从延迟单元30输出的原始信号通过MDCT变换进行频率分析,从而计算MDCT系数(原始谱),并将原始谱输出到标度因子编码单元404和误差比较单元406。
听觉掩蔽计算单元403使用从延迟单元30输出的原始信号,计算具有预先规定的带宽的每个子带的听觉掩蔽(masking),并将该听觉掩蔽通知给误差比较单元406。人的听觉特性中有听觉掩蔽特性,即在听见一个信号时,与该信号频率相似的声音进入耳朵里也难以听见。利用所述听觉掩蔽的目的为:利用这样的人的听觉掩蔽特性,通过使难以听见量化失真的频率的频谱的量化比特数分配得少,使易于听见量化失真的频率的频谱的量化比特数分配得多,从而实现高效率的频谱编码。
标度因子编码单元404进行标度因子(表示频谱轮廓的信息)的编码。作为表示频谱轮廓的信息,使用每个子带的平均振幅。标度因子编码单元404基于从MDCT分析单元401输出的第一层解码谱,计算在第一层解码信号中的各个子带的标度因子。与此同时,标度因子编码单元404基于从MDCT分析单元402输出的原始谱,计算原始信号的各个子带的标度因子。然后,标度因子编码单元404计算第一层解码信号的标度因子与原始信号的标度因子之比,并将通过编码该标度因子比而获得的编码参数输出到标度因子解码单元407和复用单元50。
标度因子解码单元407基于从标度因子编码单元404输出的编码参数,对标度因子比进行解码,并将该解码后的比(解码标度因子比)输出到乘法器405。
乘法器405按每个对应的子带将从MDCT分析单元401输出的第一层解码谱乘以从标度因子解码单元407输出的解码标度因子比,将乘法运算的结果输出到标准偏差计算单元408和加法器413。其结果,第一层解码谱的标度因子接近于原始谱的标度因子。
标准偏差计算单元408计算乘以解码标度因子比后的第一层解码谱的标度偏差σc并输出到选择单元409。在计算该标准偏差σc时,需要将频谱分离为振幅值和正号/负号信息,对振幅值计算标准偏差。通过该标准偏差的计算,能够使第一层解码谱的偏差度定量化。
选择单元409基于从标准偏差计算单元408输出的标准偏差σc,选择用哪一个非线性变换函数作为由逆变换单元411对残差谱进行非线性逆变换的函数,并将表示其选择结果的信息输出到非线性变换函数单元410。
非线性变换函数单元410基于选择单元409的选择结果,将准备的多个非线性变换函数#1~#N中的其中一个输出到逆变换单元411。
在残差谱码本412中,存储了将残差谱通过非线性变换而压缩的多个残差谱的候补。存储于残差谱码本412的残差谱候补可以是标量或是矢量。另外,残差谱码本412是预先使用学习用的数据来设计的。
逆变换单元411使用从非线性变换函数单元410输出的非线性变换函数对存储于残差谱码本412的残差谱候补中的其中一个进行逆变换(扩展处理),并输出到加法器413。这是因为第二层编码单元40采取使扩展后的信号的误差最小化的结构。
加法器413将乘以解码标度因子比后的第一层解码谱与逆变换后(扩展后)的残差谱候补相加,并输出到误差比较单元406。该加法运算的结果所获得的频谱相当于第二层解码谱的候补。
也就是说,第二层编码单元40具有与后述的语音解码装置所具备的第二层解码单元相同的结构,它生成将在第二层解码单元生成的第二层解码谱的候补。
误差比较单元406使用从听觉掩蔽计算单元403通知的听觉掩蔽,对残差谱码本412中的一部分或全部的残差谱候补,进行原始谱与第二层解码谱候补的比较,从而在残差谱码本412中搜索最合适的残差谱候补。然后,误差比较单元406将表示该搜索出的残差谱的编码参数输出到复用单元50。
图3表示误差比较单元406的结构。在图3中,减法器4061从原始谱中减去第二层解码谱候补而生成误差频谱,并输出到掩蔽对误差比计算单元4062。掩蔽与误差比计算单元4062计算相对于听觉掩蔽的误差频谱的大小的比(掩蔽与误差比),对人的听觉上能够察觉何种程度的误差频谱进行定量化。这里,虽然计算出的掩蔽与误差比越大时相对于听觉掩蔽的误差频谱越小,但被人察觉的听觉上的失真变小。搜索单元4063在残差谱码本412中的一部分或全部的残差谱候补中,搜索在掩蔽对误差比最大(即,被察觉的误差频谱最小)时的残差谱候补,并将表示该搜索出的残差谱候补的编码参数输出到复用单元50。
另外,作为第二层编码单元40的结构,也可采用从图2所示的结构中除去标度因子编码单元404和标度因子解码单元407的结构。此时,第一层解码谱没有以标度因子校正振幅值而被送到加法器413。也就是说,成为将扩展后的残差谱直接与第一层解码谱相加的结构。
另外,在上述说明中,说明了在逆变换单元411对残差谱进行逆变换(扩展处理)的结构,但也可采用如下结构。即,通过从原始谱减去乘以标度因子比后的第一层解码谱而生成目标残差谱,对该目标残差谱用所选择的非线性变换函数进行正变换(压缩处理),在残差谱码本中搜索并决定与非线性变换后的目标残差谱最接近的残差谱的结构。在该结构中,采用对目标残差谱用非线性变换函数进行正变换(压缩处理)的正变换单元以取代逆变换单元411。
另外,如图4所示,也可采用如下结构,即,残差谱码本412包括与各个非线性变换函数#1~#N对应的残差谱码本#1~#N,来自选择单元409的选择结果信息也被输入到残差谱码本412。在该结构中,基于在选择单元409的选择结果,在残差谱码本#1~#N中选择与在非线性变换函数单元410所选择的非线性变换函数对应的一个残差谱码本。通过采取这样的结构,能够使用最适合于各个非线性变换函数的残差谱码本,因此能够进一步提高语音质量。
接着,对在选择单元409中的基于第一层解码谱的标准偏差σc的非线性变换函数的选择加以详细说明。图5的座标图表示第一层解码谱的标准偏差σc与从原始谱减去第一层解码谱来生成的误差谱的标准偏差σe的关系。另外,该座标图为对于约30秒的语音信号的结果。这里所说的误差谱相当于第二层作为编码对象的频谱。因此,重要的是如何对该误差谱以较少的比特数来高质量(使听觉上的失真小)地进行编码。
这里,在对于第一层编码的比特的分配充分大时,误差谱的特性就接近白色。但是在实用的比特分配下,误差谱的特性不能充分白化,而误差谱的特性成为在某种程度类似于原始信号的频谱特性的特性。因此,可以认为第一层解码谱(以接近原始谱的方式编码而获得的频谱)的标准偏差σc和误差谱的标准偏差σe之间有相关。
从图5的座标图也可以确认上述情况。即,从图5的座标图上可以看出,第一层解码谱的标准偏差σc(第一层解码谱的偏差度)和误差谱的标准偏差σe(误差谱的偏差度)之间是正相关。也就是说,有以下倾向,即,在第一层解码谱的标准偏差σc小时误差谱的标准偏差σe也小,在第一层解码谱的标准偏差σc大时误差谱的标准偏差σe也大。
于是利用该关系,在本实施方式,在选择单元409中基于第一层解码谱的标准偏差σc估计误差谱的标准偏差σe,并从非线性变换函数#1~#N中选择最适合于该估计出的标准偏差σe的非线性变换函数。
使用图6说明基于第一层解码谱的标准偏差σc来决定误差谱的标准偏差σe的具体例。在图6中,横轴表示第一层解码谱的标准偏差σc,纵轴表示误差谱的标准偏差σe。在第一层解码谱的标准偏差σc属于范围X时,预先确定的范围X的代表点所表示的标准偏差σe被决定为误差谱的标准偏差σe的估计值。
如上述,通过基于第一层解码谱的标准偏差σc(第一层解码谱的偏差度)来估计误差谱的标准偏差σe(误差谱的偏差度),并选择最适合于该估计值的非线性变换函数,从而能够高效率地编码误差谱。而且,因为在语音解码装置端也能够获得第一层的解码信号,所以不需向语音解码装置端传输用于表示非线性变换函数的选择结果的信息。由此,能够抑制比特率的增大而高质量地进行编码。
下面,在图7表示非线性变换函数的一个例子。在此例中使用三种对数函数(a)~(c)。在选择单元409选择的非线性变换函数是根据编码对象的标准偏差的估计值(在本实施方式,第一层解码谱的标准偏差σc)的大小被选择。即,在标准偏差较小时,选择如函数(a)的适合于偏差较小的信号的非线性变换函数,而标准偏差较大时,选择如函数(c)的适合于偏差较大的信号的非线性变换函数。这样,在本实施方式,根据误差谱的标准偏差σe的大小,选择非线性变换函数中的一个。
作为非线性变换函数,使用例如以式(1)表示的用于μ律PCM的非线性变换函数。
在式(1)中,A和B代表规定了非线性变换函数的特性的常数,sgn()代表返回代码的函数。底b取正实数。预先准备μ不同的多个非线性变换函数,基于第一层解码谱的标准偏差σc,选择在编码误差谱时使用哪一个非线性变换函数。对标准偏差较小的误差谱使用μ较小的非线性变换函数,而对标准偏差较大的误差谱使用μ较大的非线性变换函数。因为合适的μ依赖于第一层编码的性质,所以应事先利用学习用的数据来决定。
另外,作为非线性变换函数,可利用以式(2)表示的函数。
F(a,x)=A·sgn(x)·loga(1+|x|) ...式(2)
在式(2)中,A是规定非线性函数的特性的常数。此时,预先准备底a不同的多个非线性变换函数,基于第一层解码谱的标准偏差σc,选择在编码误差谱时使用哪一个非线性变换函数。对标准偏差较小的误差谱使用a较小的非线性变换函数,而对标准偏差较大的误差谱使用a较大的非线性变换函数。因为合适的a依赖于第一层编码的性质,所以应事先利用学习用的数据来决定。
另外,这些非线性变换函数只不过是一个例子,本发明不因使用如何非线性变换函数而被限制。
下面,说明在进行频谱编码时需要非线性变换的理由。频谱的振幅值的动态范围(最大振幅值与最小振幅值的比)非常大。所以,在对振幅谱进行编码时如果适用量化步长均匀的线性量化的话,需要非常多的比特数。假设在编码比特数受限制的情况下,如果步长设定得小,振幅值大的频谱被消波,该消波部分的量化误差变大。另一方面,如果步长设定得大,振幅值小的频谱的量化误差变大。所以,在对如振幅谱那样动态范围大的信号进行编码时,使用非线性变换函数进行非线性变换之后再编码的方法很有效。此时重要的是使用合适的非线性变换函数。另外,在进行非线性变换时,将频谱分离为振幅值和正号/负号信息,首先对振幅值进行非线性变换。在非线性变换之后进行编码,对其解码值附加正号/负号信息。
另外,在本实施方式,基于将全频带汇总处理的结构进行说明,但本发明不限于此,也可采用如下结构,即,将频谱分割为多个子带,对每个子带基于第一层解码谱的标准偏差估计误差谱的标准偏差,并使用最适合于该估计出的标准偏差的非线性变换函数对各个子带的频谱进行编码的结构。
另外,第一层解码信号频谱的偏差度有越低的频域偏差度越大,越高的频域偏差度越小的倾向。利用该倾向,也可使用分别对多个子带的每一个设计并准备的多个非线性变换函数。此时采取按每个子带具备多个非线性变换函数410的结构。也就是说,对应于各个子带的非线性变换函数单元分别具有非线性变换函数#1~#N的组。并且,选择单元409对多个子带的每一个,分别选择对于多个子带的每一个所准备的多个非线性变换函数#1~#N中的一个非线性变换函数。通过采取这样的结构,能够对每个子带使用最合适的非线性变换函数,而且能够提高量化性能而提高语音质量。
下面,使用图8说明本发明实施方式1的语音解码装置的结构。
在图8中,分离单元60将所输入的比特流分离为编码参数(第一层用)和编码参数(第二层用),并分别输出到第一层解码单元70和第二层解码单元80。编码参数(第一层用)为在第一层编码单元10获得的编码参数,例如在第一层编码单元10采用CELP(Code Excited Linear Prediction)时,该编码参数由LPC系数、音调延迟(lag)、驱动信号、增益信息等构成。编码参数(第二层用)为标度因子比的编码参数和残差谱的编码参数。
第一层解码单元70由第一层编码参数生成第一层的解码信号并输出到第二层解码单元80,同时根据需要作为质量低的解码信号输出。
第二层解码单元80使用第一层解码信号、标度因子比的编码参数和残差谱的编码参数,生成第二层的解码信号、即质量高的解码信号,并根据需要输出该解码信号。
这样,能够由第1层解码信号担保再现语音的最低限度的质量,由第二层解码信号提高再现语音的质量。另外,输出第一层解码信号或第二层解码信号的哪一方是依赖于能否根据网络环境(分组丢失的发生等)获得第二层解码参数,或依赖于应用(application)和用户的设定等。
接着,进一步详细地说明第二层解码单元80。第二层解码单元80的结构是如图9所示。其中,图9所示的标度因子解码单元801、MDCT分析单元802、乘法器803、标准偏差计算单元804、选择单元805、非线性变换函数单元806、逆变换单元807、残差谱码本808以及加法器809分别对应于语音编码装置的第二层编码单元40(图2)所具备的标度因子解码单元407、MDCT分析单元401、乘法器405、标准偏差计算单元408、选择单元409、非线性变换函数单元410、逆变换单元411、残差谱码本412以及加法器413,并且,对应的各个结构具有同一功能。
在图9中,标度因子解码单元801基于标度因子比的编码参数对标度因子比进行解码,并将该解码的比(解码标度因子比)输出到乘法器803。
MDCT分析单元802通过MDCT变换对第一层解码信号进行频率分析而计算MDCT系数(第一层解码谱),并将第一层解码谱输出到乘法器803。
乘法器803对于每个对应的子带,将从MDCT分析单元802输出的第一层解码谱乘以从标度因子解码单元801输出的解码标度因子比,将乘法运算结果输出到标准偏差计算单元804和加法器809。其结果,第一层解码谱的标度因子接近于原始谱的标度因子。
标准偏差计算单元804计算乘以解码标度因子比后的第一层解码谱的标准偏差σc并输出到选择单元805。通过该标准偏差的计算,能够使第一层解码谱的偏差度定量化。
选择单元805基于从标准偏差计算单元804输出的标准偏差σc,选择用哪一个非线性变换函数作为在逆变换单元807对残差谱进行非线性逆变换的函数,并将表示其选择结果的信息输出到非线性变换函数单元806。
非线性变换函数单元806基于选择单元805的选择结果,将准备的多个非线性变换函数#1~#N中的一个输出到逆变换单元807。
在残差谱码本808中存储将残差谱通过非线性变换而压缩的多个残差谱的候补。存储于残差谱码本808的残差谱候补可以是标量或是矢量。另外,残差谱码本808是预先使用学习用的数据来设计的。
逆变换单元807使用从非线性变换函数单元806输出的非线性变换函数,对存储于残差谱码本808的残差谱候补中的一个进行逆变换(扩展处理)并输出到加法器809。根据从分离单元60输入的残差谱的编码参数来选择残差谱候补中被施以逆变换的残差谱。
加法器809将乘以解码标度因子比后的第一层解码谱与逆变换后(扩展后)的残差谱候补相加,并输出到时域变换单元810。该加法运算的结果所获得的频谱相当于频域的第二层解码谱。
时域变换单元810在将第二层解码谱变换到时域的信号后,根据需要进行合适的窗口乘法和重叠加法等处理来避免在帧间发生的间断,并输出最终的高质量解码信号。
这样,根据本实施方式,从第一层解码谱的偏差度估计误差谱的偏差度,在第二层选择最适合于该偏差度的非线性变换函数。此时,即使不将非线性变换函数的选择信息从语音编码装置传输到语音解码装置,也能够在语音解码装置与语音编码装置同样地选择非线性变换函数。由此,在本实施方式,不需将非线性变换函数的选择信息从语音编码装置传输到语音解码装置。因此,能够提升量化性能而不使比特率增大。
(实施方式2)
图10表示本发明实施方式2的误差比较单元406的结构。如该图所示,本实施方式的误差比较单元406具备加权误差计算单元4064以代替实施方式1的结构(图3)中的掩蔽对误差比计算单元4062。在图10中,对与图3同一结构赋予同一标号并省略说明。
加权误差计算单元4064对从减法器4061输出的误差谱乘以由听觉掩蔽决定的加权函数,从而计算其能量(加权误差能量)。加权函数基于听觉掩蔽的大小而决定,对听觉掩蔽较大的频率,因为在该频率下的失真难以听见,所以加权设定得小。相反地,对听觉掩蔽较小的频率,因为在该频率下的失真容易听见,所以加权设定得大。加权误差计算单元4064这样地以使在听觉掩蔽较大的频率的误差谱的影响小、使在听觉掩蔽较小的频率的误差谱的影响大的方式赋予加权后计算能量。然后,将所计算出的能量值输出到搜索单元4063。
搜索单元4063搜索在残差谱码本412中的一部分或全部的残差谱候补中使加权误差能量最小时的残差谱候补,并将表示该搜索出的残差谱候补的编码参数输出到复用单元50。
通过进行这样的处理,能够实现使听觉上的失真小的第二层编码单元。
(实施方式3)
本发明实施方式3的第二层编码单元40的结构,如图11所示。如该图所示,本实施方式的第二层编码单元40具备选择编码单元414而代替实施方式1的结构(图2)中的选择单元409。在图11中,对与图2相同的结构赋予同一标号,并省略说明。
对于选择编码单元414,从乘法器405输入乘以解码标度因子比后的第一层解码谱,同时从标准偏差计算单元408输入该第一层解码谱的标准偏差σc。另外,对于选择编码单元414,从MDCT分析单元402输入原始谱。
首先,选择编码单元414,基于标准偏差σc来限定误差谱的估计标准偏差可取的值。接着,选择编码单元414由原始谱和乘以解码标度因子比后的第一层解码谱而求误差谱,计算该误差谱的标准偏差,并从如上述限定的估计标准偏差中选择最接近于该标准偏差的估计标准偏差。然后,选择编码单元414根据所选择的估计标准偏差(误差谱的偏差度),与实施方式1同样地选择非线性变换函数,同时将对表示所选择的估计标准偏差的选择信息进行编码的编码参数输出到复用单元50。
复用单元50将从第一层编码单元10输出的编码参数、从第二层编码单元40输出的编码参数与从选择编码单元414输出的编码参数进行复用,并作为比特流输出。
使用图12进一步详细地说明在选择编码单元414的误差谱的标准偏差的估计值的选择方法。在图12中,横轴表示第一层解码谱的标准偏差σc,纵轴表示误差谱的标准偏差σe。在第一层解码谱的标准偏差σc属于范围X时,误差谱的标准偏差的估计值可限定为估计值σe(0)、估计值σe(1)、估计值σe(2)、估计值σe(3)中的某一个。在这四个估计值中,选择最接近误差谱的标准偏差的估计值,该估计值由原始谱和乘以解码标度因子比后的第一层解码谱而求。
这样,基于第一层解码谱的标准偏差,限定多个误差谱的估计标准偏差可取的估计值,从该限定的估计位置中,选择最接近误差谱的标准偏差的估计值,该估计值由原始谱和乘以解码标度因子比后的第一层解码谱而求,所以通过对基于第一层解码谱的标准偏差的估计值的变动分量进行编码,能够求更正确的标准偏差,而且能够提高量化性能而提高语音质量。
接着,使用图13说明本发明实施方式3的第二层解码单元80的结构。如该图所示,本实施方式的第二层解码单元80具备选择编码单元811而代替实施方式1的结构(图9)中的选择单元805。在图13中,对与图9相同的结构赋予同一标号,并省略说明。
对选择编码单元811输入由分离单元60分离出的选择信息的编码参数。选择编码单元811基于选择信息所表示的估计标准偏差来选择用哪一个非线性变换函数作为对残差谱进行非线性变换的函数,并将表示该选择结果的信息输出到非线性变换函数单元806。
以上说明了本发明的实施方式。
另外,在上述各个实施方式,也可不使用第一层解码谱的标准偏差,而直接对误差谱的标准偏差进行编码。此时,虽然用于表示误差谱的标准偏差的代码量增大,但对于第一层解码谱的标准偏差与误差谱的标准偏差的相关较小的帧也能够提高其量化性能。
另外,还可对每个帧切换下述两种处理方法,即,(i)基于第一层解码谱的标准偏差来限定误差谱的标准偏差可取的估计值,以及(ii)不使用第一层解码谱的标准偏差,直接对误差谱的标准偏差进行编码。此时,对第一层解码谱的标准偏差与误差谱的标准偏差的相关为规定值以上的帧进行(i)的处理,而对该相关小于规定值的帧进行(ii)的处理。这样,通过根据第一层解码谱的标准偏差与误差谱的标准偏差之间的相关值而自适应地切换处理(i)和处理(ii),能够进一步提高量化性能。
另外,在上述各个实施方式,使用标准偏差作为表示频谱的偏差度的指标,但另外还可使用分散、最大振幅谱与最小振幅谱的差或比等。
另外,在上述各个实施方式,说明了作为变换方式使用MDCT的情况,但不限于此,在使用其它变换方式,例如DFT、余弦变换或小波变换等时也可同样地适用本发明。
另外,在上述各个实施方式,将可扩展编码的分层结构设为第一层(低层)和第二层(高层)的两层而进行说明,但不限于此,能够在具有三层以上的分层结构的可扩展编码中同样地适用本发明。此时,将多个层中的任意一个视为上述各个实施方式中的第一层,并将高于该层的层视为上述各个实施方式中的第二层,从而能够同样地适用本发明。
再有,在各个层处理的信号的采样率不同时也可适用本发明。在第n层处理的信号的采样比率以Fs(n)表示时,Fs(n)≤Fs(n+1)的关系成立。
另外,上述各个实施方式的语音编码装置和语音解码装置还可装载于在移动通信系统中所使用的无线通信移动台装置和无线通信基站装置等无线通信装置。
另外,在上述实施方式中,举例说明由硬件构成本发明的情况,但本发明还能够以软件实现。
另外,用于上述实施方式的说明中的各功能块通常被作为集成电路的LSI来实现。这些块既可以被单独地集成为一个芯片,也可以是一部分或全部被集成为一个芯片。
虽然此处称为LSI,但根据集成程度,可以被称为IC、系统LSI、超级LSI(Super LSI)、或特大LSI(Ultra LSI)。
另外,实现集成电路化的方法不仅限于LSI,也可使用专用电路或通用处理器实现之。在LSI制造后可利用可编程的FPGA(Field Programmable GateArray),或者可以使用可重构LSI内部的电路单元的连接和设定的可重构处理器。
再者,随着半导体的技术进步或随之派生的其它技术的出现,如果能够出现替代LSI集成电路化的新技术,当然可利用新技术进行功能块的集成化。还存在着适用生物技术等的可能性。
本说明书是根据2004年10月27日申请的日本专利申请第2004-312262号。其内容全部包含于此。
工业实用性
本发明可适用于在移动通信系统和使用互联网协议的分组通信系统等中的通信装置的用途。
Claims (8)
1.一种语音编码装置,进行具有由多个层构成的分层结构的编码,该语音编码装置包括:
分析单元,对低层的解码信号进行频率分析而计算低层的解码谱;
选择单元,基于上述低层的解码谱的偏差度,选择多个非线性变换函数中的一个非线性变换函数;
逆变换单元,对非线性变换后的残差谱,使用由上述选择单元选择的非线性变换函数进行逆变换;以及
加法单元,将逆变换后的残差谱与上述低层的解码谱相加,而获得高层的解码谱。
2.如权利要求1所述的语音编码装置,还包括:
多个残差谱码本,分别对应于所述多个非线性变换函数。
3.如权利要求1所述的语音编码装置,其中,
所述选择单元对多个子带的每一个,选择为所述多个子带的每一个准备的多个非线性变换函数中的一个非线性变换函数。
4.如权利要求1所述的语音编码装置,其中,
所述选择单元根据由所述低层的解码谱的偏差度而估计的误差谱的偏差度,选择所述多个非线性变换函数中的一个非线性变换函数。
5.如权利要求4所述的语音编码装置,其中,
所述选择单元还对表示所述误差谱的偏差度的信息进行编码。
6.一种无线通信移动台装置,包括如权利要求1所述的语音编码装置
7.一种无线通信基站装置,包括如权利要求1所述的语音编码装置。
8.一种语音编码方法,进行具有由多个层构成的分层结构的编码,该语音编码方法包括:
分析步骤,对低层的解码信号进行频率分析而计算低层的解码谱;
选择步骤,基于上述低层的解码谱的偏差度,选择多个非线性变换函数中的一个非线性变换函数;
逆变换步骤,对非线性变换后的残差谱,使用在上述选择步骤中所选择的非线性变换函数进行逆变换;以及
加法步骤,将逆变换后的残差谱与上述低层的解码谱相加而获得高层的解码谱。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004312262 | 2004-10-27 | ||
JP312262/2004 | 2004-10-27 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101044552A true CN101044552A (zh) | 2007-09-26 |
Family
ID=36227787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005800360114A Pending CN101044552A (zh) | 2004-10-27 | 2005-10-25 | 语音编码装置和语音编码方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8099275B2 (zh) |
EP (1) | EP1806737A4 (zh) |
JP (1) | JP4859670B2 (zh) |
KR (1) | KR20070070189A (zh) |
CN (1) | CN101044552A (zh) |
BR (1) | BRPI0518193A (zh) |
RU (1) | RU2007115914A (zh) |
WO (1) | WO2006046547A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009109139A1 (zh) * | 2008-03-05 | 2009-09-11 | 华为技术有限公司 | 超宽带扩展编码、解码方法、编码器及超宽带扩展系统 |
WO2011063694A1 (zh) * | 2009-11-27 | 2011-06-03 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
JP4771674B2 (ja) * | 2004-09-02 | 2011-09-14 | パナソニック株式会社 | 音声符号化装置、音声復号化装置及びこれらの方法 |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
BRPI0616624A2 (pt) | 2005-09-30 | 2011-06-28 | Matsushita Electric Ind Co Ltd | aparelho de codificação de fala e método de codificação de fala |
WO2007043643A1 (ja) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法 |
WO2007063913A1 (ja) * | 2005-11-30 | 2007-06-07 | Matsushita Electric Industrial Co., Ltd. | サブバンド符号化装置およびサブバンド符号化方法 |
DE602007013026D1 (de) * | 2006-04-27 | 2011-04-21 | Panasonic Corp | Audiocodierungseinrichtung, audiodecodierungseinrichtung und verfahren dafür |
WO2008072737A1 (ja) * | 2006-12-15 | 2008-06-19 | Panasonic Corporation | 符号化装置、復号装置およびこれらの方法 |
US20090006081A1 (en) * | 2007-06-27 | 2009-01-01 | Samsung Electronics Co., Ltd. | Method, medium and apparatus for encoding and/or decoding signal |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
KR101418354B1 (ko) * | 2007-10-23 | 2014-07-10 | 삼성전자주식회사 | 음성 통신 시스템에서 플레이아웃 스케줄링 방법 및 장치 |
CN101971251B (zh) * | 2008-03-14 | 2012-08-08 | 杜比实验室特许公司 | 像言语的信号和不像言语的信号的多模式编解码方法及装置 |
CN101582259B (zh) * | 2008-05-13 | 2012-05-09 | 华为技术有限公司 | 立体声信号编解码方法、装置及编解码系统 |
EP2407964A2 (en) * | 2009-03-13 | 2012-01-18 | Panasonic Corporation | Speech encoding device, speech decoding device, speech encoding method, and speech decoding method |
US9230551B2 (en) * | 2010-10-18 | 2016-01-05 | Nokia Technologies Oy | Audio encoder or decoder apparatus |
US10553228B2 (en) * | 2015-04-07 | 2020-02-04 | Dolby International Ab | Audio coding with range extension |
KR20210135492A (ko) * | 2019-03-05 | 2021-11-15 | 소니그룹주식회사 | 신호 처리 장치 및 방법, 그리고 프로그램 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2956548B2 (ja) * | 1995-10-05 | 1999-10-04 | 松下電器産業株式会社 | 音声帯域拡大装置 |
JPH08278800A (ja) * | 1995-04-05 | 1996-10-22 | Fujitsu Ltd | 音声通信システム |
JP3299073B2 (ja) * | 1995-04-11 | 2002-07-08 | パイオニア株式会社 | 量子化装置及び量子化方法 |
US5884269A (en) * | 1995-04-17 | 1999-03-16 | Merging Technologies | Lossless compression/decompression of digital audio data |
KR100261254B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치 |
JPH10288852A (ja) | 1997-04-14 | 1998-10-27 | Canon Inc | 電子写真感光体 |
US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
US6614370B2 (en) * | 2001-01-26 | 2003-09-02 | Oded Gottesman | Redundant compression techniques for transmitting data over degraded communication links and/or storing data on media subject to degradation |
US20020133246A1 (en) * | 2001-03-02 | 2002-09-19 | Hong-Kee Kim | Method of editing audio data and recording medium thereof and digital audio player |
AU2003213149A1 (en) * | 2002-02-21 | 2003-09-09 | The Regents Of The University Of California | Scalable compression of audio and other signals |
EP1483759B1 (en) * | 2002-03-12 | 2006-09-06 | Nokia Corporation | Scalable audio coding |
US7275036B2 (en) * | 2002-04-18 | 2007-09-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data |
US7752052B2 (en) * | 2002-04-26 | 2010-07-06 | Panasonic Corporation | Scalable coder and decoder performing amplitude flattening for error spectrum estimation |
JP3881946B2 (ja) * | 2002-09-12 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
FR2849727B1 (fr) * | 2003-01-08 | 2005-03-18 | France Telecom | Procede de codage et de decodage audio a debit variable |
CN1748443B (zh) * | 2003-03-04 | 2010-09-22 | 诺基亚有限公司 | 多声道音频扩展支持 |
DE602004004950T2 (de) * | 2003-07-09 | 2007-10-31 | Samsung Electronics Co., Ltd., Suwon | Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren |
-
2005
- 2005-10-25 EP EP05799366A patent/EP1806737A4/en not_active Withdrawn
- 2005-10-25 JP JP2006543163A patent/JP4859670B2/ja not_active Expired - Fee Related
- 2005-10-25 KR KR1020077009516A patent/KR20070070189A/ko not_active Application Discontinuation
- 2005-10-25 WO PCT/JP2005/019579 patent/WO2006046547A1/ja active Application Filing
- 2005-10-25 BR BRPI0518193-3A patent/BRPI0518193A/pt not_active Application Discontinuation
- 2005-10-25 CN CNA2005800360114A patent/CN101044552A/zh active Pending
- 2005-10-25 US US11/577,424 patent/US8099275B2/en active Active
- 2005-10-25 RU RU2007115914/09A patent/RU2007115914A/ru not_active Application Discontinuation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009109139A1 (zh) * | 2008-03-05 | 2009-09-11 | 华为技术有限公司 | 超宽带扩展编码、解码方法、编码器及超宽带扩展系统 |
WO2011063694A1 (zh) * | 2009-11-27 | 2011-06-03 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
US8694325B2 (en) | 2009-11-27 | 2014-04-08 | Zte Corporation | Hierarchical audio coding, decoding method and system |
Also Published As
Publication number | Publication date |
---|---|
WO2006046547A1 (ja) | 2006-05-04 |
US8099275B2 (en) | 2012-01-17 |
EP1806737A4 (en) | 2010-08-04 |
JPWO2006046547A1 (ja) | 2008-05-22 |
BRPI0518193A (pt) | 2008-11-04 |
EP1806737A1 (en) | 2007-07-11 |
KR20070070189A (ko) | 2007-07-03 |
JP4859670B2 (ja) | 2012-01-25 |
RU2007115914A (ru) | 2008-11-10 |
US20080091440A1 (en) | 2008-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101044552A (zh) | 语音编码装置和语音编码方法 | |
CN1266673C (zh) | 可伸缩音频编码的有效改进 | |
CN101044554A (zh) | 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法 | |
CN1150516C (zh) | 语音编码方法和语音编码器 | |
CN1942928A (zh) | 音频信号编码 | |
CN101044553A (zh) | 可扩展编码装置、可扩展解码装置及其方法 | |
CN1183685C (zh) | 用于熵编码信号量化变换系数的系统和方法 | |
CN1950883A (zh) | 可伸缩性解码装置及增强层丢失的隐藏方法 | |
CN1225723C (zh) | 噪声抑制系统和方法以及网络噪声抑制器 | |
CN1795495A (zh) | 音频编码设备、音频解码设备、音频编码方法和音频解码方法 | |
CN1922658A (zh) | 音频信号的分类 | |
CN101031960A (zh) | 可扩展性编码装置和可扩展性解码装置及其方法 | |
CN1739142A (zh) | 用于可变比特率语音编码中的线性预测参数的稳健预测向量量化的方法和设备 | |
CN1697328A (zh) | 快速视频编解码变换实现 | |
CN1655236A (zh) | 用于预测量化有声语音的方法和设备 | |
CN1783144A (zh) | 使用后向自适应规则进行整数数据的无损自适应Golomb/Rice编码和解码 | |
CN1681213A (zh) | 无损音频编码/解码方法和装置 | |
CN1787383A (zh) | 变换、编码、逆变换和解码音频信号的方法和设备 | |
CN1918632A (zh) | 音频编码 | |
CN101273404A (zh) | 语音编码装置以及语音编码方法 | |
CN101040323A (zh) | 音响信号编码装置和音响信号解码装置 | |
CN1509469A (zh) | 语音编解码器中用于线频谱频率矢量量化的方法和系统 | |
WO2007088853A1 (ja) | 音声符号化装置、音声復号装置、音声符号化システム、音声符号化方法及び音声復号方法 | |
CN1735928A (zh) | 用于可变速率音频编解码的方法 | |
CN101055720A (zh) | 对音频信号编码和解码的方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070926 |