CN101395661B - 音频编码和解码的方法和设备 - Google Patents

音频编码和解码的方法和设备 Download PDF

Info

Publication number
CN101395661B
CN101395661B CN2007800077800A CN200780007780A CN101395661B CN 101395661 B CN101395661 B CN 101395661B CN 2007800077800 A CN2007800077800 A CN 2007800077800A CN 200780007780 A CN200780007780 A CN 200780007780A CN 101395661 B CN101395661 B CN 101395661B
Authority
CN
China
Prior art keywords
audio signal
causal
sample
prediction
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007800077800A
Other languages
English (en)
Other versions
CN101395661A (zh
Inventor
A·塔莱布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Publication of CN101395661A publication Critical patent/CN101395661A/zh
Application granted granted Critical
Publication of CN101395661B publication Critical patent/CN101395661B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

一种用于音频编码和解码的方法包括将当前音频信号样本主编码(12)成编码表示(T(n))和将第一先前音频信号样本非因果编码(13)成编码增强表示(ET(n-N+))。该方法还包括向最终用户提供编码表示。在最终用户处,该方法包括将编码表示(T*(n))主解码(52)成当前已接收音频信号样本和将编码增强表示(ET*(n-N+))非因果解码(53)成增强的第一先前已接收音频信号样本。该方法还包括基于增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。还介绍了用于音频编码和解码的装置和系统。

Description

音频编码和解码的方法和设备
技术领域
本发明一般涉及音频信号样本的编码和解码。 
背景技术
在音频信号、且具体而言在语音信号中,在相邻样本之间存在高度相关。为了执行语音信号的高效量化和编码,可在编码前去除此类冗余。 
可通过两个缓慢时变线性预测滤波器来高效地对语音信号建模,这两个缓慢时变线性预测滤波器分别对频谱包络和频谱精细结构建模。声道的形状主要确定短时间频谱包络,而频谱精细结构主要归因于声带的周期振动。 
在现有技术中,经常使用线性模型对音频信号中的冗余建模。一种去除冗余的公知技术是通过使用预测,具体而言使用线性预测。从先前音频信号样本来预测原始当前音频信号样本,先前音频信号样本可以是原始样本或预测样本。残差定义为原始音频信号样本与预测音频信号样本之间的差。量化器搜索残差的最佳表示,例如,指向内部码本的索引。残差表示和线性预测滤波器的参数作为原始当前音频信号样本的表示提供。在解码器中,表示随后可用于重建当前音频信号样本的已接收版本。 
线性预测通常用于短期相关。理论上,可在任何阶使用LP滤波器。但是,由于莱文森-德宾算法的数值稳定性问题及在存储空间和算术运算方面所导致许多的复杂性原因,使用大阶线性预测是极不可取的。另外,将LP系数编码所需的比特率禁止此类使用。在实践中使用的LP预测器的阶数一般不超过20个系数。例如,宽带语音编码 AMR-WB的标准具有16阶的LPC滤波器。 
为在保持质量的同时进一步降低所需的比特率量,需要正确地利用在有声语音段中的语音信号的周期性。为此,且由于线性预测一般将利用在不到一个基音周期中包含的相关,经常在线性预测残差上使用基音预测器。因此可利用音频信号中的长期相关性。 
虽然当前标准化的语音编解码器以极低比特率提供可接受的质量,但相信通过极少额外比特的代价,质量可得到进一步增强。现有技术的语音和音频编码算法的一个次要问题是,用于语音或音频信号的现有技术的模型虽然很有效率,但未将音频信号中存在的所有可能冗余考虑在内。在一般的音频编码中,且具体而言在语音编码中,始终存在在给定质量下降低所需比特率或在给定比特率下得到更好质量的需要。 
此外,现在经常要求使用嵌入式或分层方法以便适应质量与比特率之间的关系。但是,在给定比特率,并且对于给定编码结构,与非分层编码器相比,嵌入式或分层语音编码器经常显得存在质量损失。为了通过相同的编码结构体验相同的质量,经常要求增大比特率。 
发明内容
本发明的一个目的是进一步利用音频信号中存在的冗余。本发明的又一目的是提供一种易于在嵌入式或分层方法中应用的编码-解码方案。本发明还有的又一目的是提供另外的冗余利用而不会造成太大的延迟。 
上述目的通过根据随附权利要求的方法和装置而得以实现。通常,在第一方面,用于音频编码和解码的方法包括将当前音频信号样本主编码成当前音频信号样本的编码表示和将第一先前音频信号样本非因果编码成第一先前音频信号样本的编码增强表示。该方法还包括将当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示提供到最终用户。在最终用户处,该方法包括将当前音频信号样 本的编码表示主解码成当前已接收音频信号样本和将第一先前音频信号样本的编码增强表示非因果解码成增强的第一先前已接收音频信号样本。该方法还包括基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。 
在第二方面,用于音频编码的方法包括将当前音频信号样本主编码成当前音频信号样本的编码表示和将第一先前音频信号样本非因果编码成第一先前音频信号样本的编码增强表示。该方法还包括提供当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。 
在第三方面,用于音频解码的方法包括在最终用户处获得当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。该方法还包括将当前音频信号样本的编码表示主解码成当前已接收音频信号样本和将第一先前音频信号样本的编码增强表示非因果解码成增强的第一先前已接收音频信号样本。该方法还包括基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。 
在第四方面,用于音频信号样本的编码器包括:接收音频信号样本的输入;主编码器部分,连接到输入并设置用于将当前音频信号样本编码成当前音频信号样本的编码表示;以及非因果编码器部分,连接到输入并设置用于将第一先前音频信号样本编码成第一先前音频信号样本的编码增强表示。编码器还包括输出,该输出连接到主编码器部分和非因果编码器部分并设置用于提供当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。 
在第五方面,用于音频信号样本的解码器包括输入,该输入设置用于接收通过主编码器编码的当前音频信号样本的编码表示和由非因果编码器编码的第一先前音频信号样本的编码增强表示。该解码器还包括:主解码器部分,连接到输入并设置用于将当前音频信号样本 的编码表示主解码成当前已接收音频信号样本;以及非因果解码器部分,连接到输入并设置用于将第一先前音频信号样本的编码增强表示非因果解码成增强的第一先前已接收音频信号样本。该解码器还包括信号调节器,该调节器连接到主解码器部分和非因果解码器部分并设置用于基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本之间的比较来改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。 
在第六方面,音频调解(mediating)系统的终端包括根据第四方面的编码器和根据第五方面的解码器的至少之一。 
在第七方面,音频系统包括具有根据第四方面的编码器的至少一个终端和具有根据第五方面的解码器的至少一个终端。 
本发明允许有效率地使用预测原理,以便降低在语音信号中和一般在音频信号中存在的冗余。这会导致编码效率和质量的提高而不存在不可接受的延迟。通过使用通用化的预测,本发明还允许嵌入式编码。 
附图说明
通过结合附图,参照以下说明,可最好地理解本发明及其其它目的和优点,其中: 
图1A是因果编码的示意图; 
图1B是使用过去和将来信号样本编码的示意图; 
图1C是根据本发明的因果和非因果编码的示意图; 
图2A是示出开环预测编码的方框图; 
图2B是示出闭环预测编码的方框图; 
图3是示出自适应码本编码的方框图; 
图4是根据本发明的编码器和解码器设备实施例的方框图; 
图5是根据本发明的预测编码器和预测解码器的设备实施例的方框图;
图6是通过使用残差参数的最优滤波和量化来增强主编码器的示意图; 
图7是利用非因果自适应码本范例的实施例的方框图; 
图8是在单个帧内使用非因果关系的示意图; 
图9是根据本发明的方法实施例的步骤的流程图;以及 
图10是估计的恶化质量的曲线图。 
具体实施方式
在本公开内容中论述了音频信号。然后,假定音频信号是在与某个时间相关联的连续信号样本中提供的。 
在使用预测模型对音频信号样本编码时,利用连续信号样本之间的关系去除冗余信息。图1A中示出了一个简单的草图,其示出一组信号样本10,每个样本与某个时间相关联。当前信号样本s(n)的编码是基于当前信号样本s(n)及多个先前信号样本s(n-N)、...s(n-1)(原始信号样本或信号样本的表示)而产生。此类编码称为因果编码CE,这是因为它涉及在要将当前信号样本s(n)编码的时间瞬间(timeinstance)之前可用的信息。描述信号样本s(n)的因果编码CE的参数T随后被传送以便存储和/或实现最终用途。 
在当前信号样本与将来信号样本之间也存在关系。此类关系也可用于去除冗余。在图1B中,一个简单的草图示出了这些相关性。一般情况下,基于当前信号样本s(n)、与时间n之前的时间相关联的信号样本s(n-1)、...、s(n-N-)或其表示及与时间n之后的时间相关联的信号样本s(n+1)、...、s(n+N+)或其表示,来进行时间n处的信号样本s(n)的编码。涉及仅在要将信号样本编码的时间瞬间之后可用的信息的编码称为非因果编码NCE。在其它说明中,如果应用预测编码,则也可使用术语逆测(postdiction)和溯测(retrodiction)。 
由于利用了不同信号样本之间的更多关系,因此图1B中在时间n处进行的信号样本编码一般更可能优于图1A中提供的编码。但是, 如图1B所示系统的主要缺点是,该编码只在对应于N+个信号样本的某个时间延迟D后才可用,以便将以后信号样本中的信息也结合进去。此外,在将使用非因果编码的信号样本解码时,由于在此处也要收集“将来”的信号样本,因此,造成了附加的延迟。通常,由于为了将一个信号样本解码而需要过去和将来的已解码信号样本可用,因此,此方法不可能实现。 
根据本发明,介绍了在图1C中以示意图方式示出的另一非因果方法。此处,先提供基本上根据现有技术的因果编码CE,以得到编码信号样本s(n)的参数P并最终得到与其相关的解码信号。同时,为先前信号样本(n-N+)提供附加的非因果编码NCE,以产生参数NT。如果时间和信令资源允许,可利用此附加的非因果编码NCE来升级或增强先前解码信号。如果此类延迟不可接受,则可忽略附加的非因果编码NCE。如果进行已解码信号样本的升级,则确实会引入延迟。除此方法可实现外,也注意到,相对于图1B的编码方案,延迟减少了一半,这是因为在非因果编码到达时,在解码器处确实有全部必需的信号样本可用。将在此处下面的多个实施例中进一步描述和论述此基本设想。 
结合本设想使用的因果及非因果编码方案可以是利用连续信号样本之间的冗余的几乎任何种类方案。非排他性的示例有变换编码和CELP编码。因果和非因果编码的编码方案可能不一定是相同的类型,但在一些情况下,如果根据类似的方案进行这两种编码,则可能产生另外的优点。但是,在下面的实施例中,使用预测编码方案作为编码方案的模型示例。目前,预测编码方案也被视为是在本发明中使用的优选方案。 
为此,在陈述本发明的细节之前,先对现有技术的因果预测编码进行了一定深度的描述以提供科学基础。 
可区分用于去除冗余的两种类型的因果预测模型。第一种类型是所谓的开环因果预测,它基于原始音频信号样本。第二种类型是闭环 因果预测,并且基于预测和重构的音频信号样本,即,原始音频信号样本的表示。 
基于利用开环因果预测的冗余去除过程的语音编解码器可如图2A所示大致视为基于典型预测的编码器和解码器的方框图。有关感觉加权的考虑在当前陈述中被忽略以便简化基本理解,并且因此未示出。 
作为开环预测的通用设置,通过使用以下关系,在预测器20中从先前的原始音频信号样本s(n-1)、s(n-2)、...、s(n-N)预测提供到编码器11的因果预测编码器部分16的输入14的原始当前音频信号样本s(n): 
s ^ ( n ) = P ( s ( n - 1 ) , s ( n - 2 ) , . . . , s ( n - N ) ) . - - - ( 1 )
此处,
Figure G2007800077800D00072
表示用于s(n)的开环预测,而P(.)是因果预测器,并且N是预测阶数。开环残差(n)在此处为减法器22的计算部件中定义为: 
e ~ ( n ) = s ( n ) - s ^ ( n ) . - - - ( 2 )
此处为量化器30的编码部件将搜索
Figure G2007800077800D00074
的最佳表示R。通常,此类表示R的索引指向内部码本。表征预测器20的表示R和参数F提供到发射器(TX)40,并编码成当前音频信号样本s(n)的编码表示T。编码表示T经存储以供将来使用,或者传送到最终用户。 
当前音频信号样本s(n)的编码表示T*的已接收版本由输入54接收到解码器51的因果预测解码器部分56的接收器(RX)41中。在接收器41中,编码表示T*解码成已接收残差
Figure G2007800077800D00075
信号的已接收表示R*,并解码成用于解码器预测器21的已接收参数F*。理想情况下,编码表示T*、已接收残差e*(n)信号的已接收表示R*和已接收参数F*等于编码器中对应的量值。但是,可能存在传输误码,从而造成在已接收数据中的微小误码。因果预测解码器部分56的解码部件(此处为反量化器31)提供已接收开环残差e*。通常,接收内部码本索引并使用对应的码本条目。解码器预测器21由参数F*启动,以便基于先前 已接收音频信号样本s*(n-1),s*(n-2),...s*(n-N)来提供预测
Figure G2007800077800D00082
s ^ * ( n ) = P ( s ‾ * ( n - 1 ) , s ‾ * ( n - 2 ) , . . . , s ‾ * ( n - N ) ) . - - - ( 3 )
随后,当前已接收音频信号样本s*(n)在此处为加法器23的计算部件中计算为: 
s ‾ * ( n ) = s ^ * ( n ) + e ‾ * ( n ) . - - - ( 4 )
当前已接收音频信号样本s*(n)提供到解码器预测器21以供将来使用,并用作解码器51的输出55的输出信号。 
类似地,基于利用闭环因果预测的冗余去除过程的语音编解码器可如图2B所示大致视为基于典型预测的编码器和解码器的方框图。闭环残差信号可定义为在预测使用此处表示为s(n-1),s(n-2),...,s(n-N)的重构音频信号样本、而不是原始音频信号样本时获得的信号。闭环预测在此情况下将书写为: 
s ^ ( n ) = P ( s ‾ ( n - 1 ) , s ‾ ( n - 2 ) , . . . , s ‾ ( n - N ) ) , - - - ( 5 )
并且闭环残差将书写为: 
e ( n ) = s ( n ) - s ^ ( n ) . - - - ( 6 )
从e(n)的表示R,再次得到解码残差e(n),该残差在加法器24中与闭环预测
Figure G2007800077800D0008075608QIETU
(n)相加,以便为预测器20提供重构音频信号样本s(n)以供将来预测中使用。重构音频信号样本s(n)因此是原始音频信号样本s(n)的表示。 
在接收器侧,解码过程与图2A所示相同。 
等式(1)、(3)和(5)使用通用预测器,该预测器在一般情况下可以是非线性的。现有技术的线性预测,即使用线性预测器的估计经常用作语音和音频编解码器中去除冗余的部件。对于此类情况,预测器P(.)书写为其变元的线性函数。等式(5)随后变为:
s ^ ( n ) = P ( s ‾ ( n - 1 ) , s ‾ ( n - 2 ) , . . . , s ‾ ( n - N ) )
= Σ i = 1 N a i s ‾ ( n - i ) - - - ( 7 )
系数α1、α2、...、αL称为线性预测(LP)系数。大多数现代语音或音频编解码器使用时变LP系数以便适应音频信号的时变性质。LP系数容易通过在自相关序列上应用例如莱文森-德宾算法估计得出,而序列是逐帧估计得出的。 
线性预测经常用于短期相关,LP预测器的阶数一般不超过20个系数。例如,宽带语音编码AMR-WB的标准具有16阶的LPC滤波器。 
理论上,可在任何阶使用LP滤波器。但是,由于莱文森-德宾算法的数值稳定性及在存储空间和算术运算方面所导致许多的复杂性原因,此使用是极不可取的。另外,将LP系数编码所需的比特率禁止此类使用。 
为在保持质量的同时进一步降低所需的比特率量,需要正确地利用在有声语音段中的语音信号的周期性。为此,且由于线性预测一般将利用在不到一个基音周期中包含的相关,通常在线性预测残差上使用基音预测器。公知有两种不同的方法并且经常被使用以便利用语音信号中的长期相关性。 
第一种方法是基于自适应码本范例。自适应码本包含LP激励信号的最近过去的重叠段。使用此方法,线性预测合成分析编码器通常将使用自适应码本贡献和固定码本贡献两者来对激励信号编码。 
就通过闭环长期预测从激励信号去除周期性和随后使用固定码本对提示信号编码而言,第二种方法更直接。 
两种方法实际上在概念上和实现方面均很类似。图3示出了例如由量化器30(图2A&B)使用自适应33和固定32码本贡献提供的激励生成。在自适应码本方法中,在加法器36中作为两个分量的加权和来得到激励信号:
e ‾ ij ( n ) = g LTP c LTP i ( n ) + g FCB c FCB j ( n ) - - - ( 8 )
变量gLTP34和gFCB35分别表示自适应码本和固定码本增益。索引j表示固定码本32条目。索引i表示自适应码本33索引。此自适应码本33由作为最近合成的激励信号的先前段的条目组成: 
c LTP i ( n ) = e ‾ ( n - d ( i ) ) - - - ( 9 )
延迟函数d(i)指定自适应码本向量的开始。由于复杂性原因,增益和索引的确定通常以顺序的方式执行。首先,找到自适应码本贡献,即,对应的索引及增益。随后,视特定实现而定,在从目标激励信号或加权语音减除后,找到固定码本的贡献。 
在优化器19中通过将待量化的残差信号e(n)与e(n)比较,找到一组最优码本参数。残差信号的最佳表示R在此类情况下通常将包括gLTP、gFCB和延迟函数d(i)。 
自适应码本范例也具有滤波器解释,其中使用了基音预测器滤波器,并且通常书写为: 
1 P ( z ) = 1 1 - g LTP z - d ( i ) - - - ( 10 )
也存在相同概念的几种变化,如在延迟函数不限于整数基音延迟(pitch delay),而是也可包含分数延迟时。另外的变化是多抽头基音预测,它很类似于分数基音延迟,这是因为这两种方法都使用多抽头滤波器。另外,这两种方法产生极其类似的结果。通常,阶数为2q+1的基音预测器由如下表达式给出: 
P ( z ) = 1 - Σ k = - q q b k z - D + k - - - ( 11 )
几种最新标准化的编解码器使用上述结构进行语音编码。众所周知的示例包括3GPP AMR-NB和3GPP AMR-WB编解码器。另外,AMR-WB+混合结构的ACELP部分也使用此类结构来对语音和音频进行高效编码。
通常,在开环中估计整数基音延迟,以使得原始信号与其预测值之间的平方误差降到最低。原始信号此处在广义方面理解,因此,也可使用加权。在允许的基音范围(2到20ms)中使用穷举搜索。 
本发明的一个重要概念是使用非因果编码,并且在优选实施例中,使用非因果预测编码作为用于去除冗余的部件和用于编码的部件。非因果预测也可称为反向时间预测。非因果预测可以为线性和非线性的。使用线性预测时,非因果预测包括例如非因果基音预测,但也可由非因果短期线性预测表示。更简单地说,将来的信号用于形成当前信号的预测。但是,由于将来通常在编码时是不可用的,因此,经常使用延迟以便访问信号的将来样本。非因果预测随后变成基于当前信号和/或在要预测的信号后出现的其它先前信号来预测先前信号。 
在用于非因果预测的通用设置中,通过使用以下等式,从将来的信号样本s(n+1)、s(n+2)、...、s(n+N+)来预测原始语音信号样本s(n)或一般为音频信号样本或者甚至任何信号样本: 
s ^ + ( n ) = P + ( s ( n + 1 ) , s ( n + 2 ) , . . . , s ( n + N + ) ) - - - ( 12 )
此处, 
Figure DEST_PATH_GSB00000745835400012
表示用于s(n)的非因果开环预测。上标(+)在此情况下用于将它与“普通”开环预测区分,并且为完整性起见,此处“普通”开环预测使用上标(-)重新书写为: 
s ^ - ( n ) = P - ( s ( n - 1 ) , s ( n - 2 ) , . . . , s ( n - N - ) ) - - - ( 13 )
非因果和因果预测器表示为P+(.)和P-(.),并且预测器阶数分别表示为N+和N-。 
同样地,开环残差可定义为: 
e ~ + ( n ) = s ( n ) - s ^ + ( n ) ( 14 )
e ~ - ( n ) = s ( n ) - s ^ - ( n )
也可类似地定义闭环残差。对于因果预测的情况,此类定义与更上面给出的定义完全相同。但是,对于非因果预测,由于编码器实质上是因果过程,所以尽管有某个延迟,但此类定义不可能使用通过相同非因果预测、甚至通过使用另外延迟引起的预测。实际上,编码器使用非因果预测以便将样本编码,这将取决于将来的编码。因此可观察到,除非我们翻转时间之箭,否则非因果预测无法直接用作用于编码或去除冗余的部件,但在该情况下,它将成为具有反向时间语音的因果预测。 
但是,可以在闭环中以间接方式有效率地使用非因果预测。一个此类实施例是主要通过因果预测器P-(.)对信号进行编码,之后基于由因果预测器P-(.)预测的信号,以后向闭环方式使用非因果预测器P+(.)。 
在图4中,示出了应用到语音或音频编码的非因果编码的一个实施例。主编码器和非因果预测的组合用作用于编码和去除冗余的部件。在本实施例中,利用了非因果预测编码,并且利用了因果预测编码为主编码。编码器11在输入14处接收信号样本10。主编码部分,此处为因果编码部分12,具体而言在此实施例中为因果预测编码部分16,接收当前信号样本10,并产生当前音频信号样本s(n)的编码表示T,该表示在输出15处提供。当前信号样本10也提供到非因果编码部分13,在此实施例中是非因果预测编码部分17。非因果预测编码部分17在输出15处提供先前音频信号样本s(n-N+)的编码增强表示ET。非因果预测编码部分17可将其运算也基于从因果预测编码部分16提供的信息18。 
在解码器51中,在输入54处接收当前音频信号样本s(n)的编码表示T*及先前音频信号样本s(n-N+)的编码增强表示ET*。已接收编码表示T*提供到主因果解码部分,此处为因果解码部分52,并且具体而言在此实施例中为因果预测解码部分56。因果预测解码部分56提供当前已接收音频信号样本s-(n)55-。编码增强表示ET*提供到非因果解码部分53,在此实施例中为非因果预测解码部分57。非因果预测解码部分57提供增强的先前已接收音频信号样本。基于增强的先 前已接收信号样本,先前已接收音频信号样本s*(n-N+)在信号调节器59中增强,该调节器可以是非因果预测解码部分57的一部分或单独的部分。增强的先前已接收音频信号样本
Figure G2007800077800D00131
在解码器51的输出55+处提供。 
在图5中,示出了应用到音频编码的非因果闭环预测的又一详细实施例。因果预测器部分易于从图2B识别。但在图5中,示出了非因果预测器120如何使用主编码语音信号18的将来样本。对应的样本58在用于非因果预测器121的解码器51中也可用。当然,要施加延迟才能访问这些样本。 
组合器125也引入了一个另外的“组合”函数。组合器125的函数由基于闭环因果预测将主编码信号(即,s-(n-N+))和取决于s-(n)的以后样本的非因果预测器的输出组合而组成,即: 
s ^ + ( n - N + ) = P + ( s ‾ - ( n - N + + 1 ) , s ‾ - ( n - N + + 2 ) , . . . , s ‾ - ( n ) ) - - - ( 15 )
此组合可以是线性或非线性的。此模块的输出可书写为 
s ~ ( n - N + ) = C ( s ^ + ( n - N + ) , s ‾ - ( n - N + ) ) - - - ( 16 )
优选地,组合函数C(.)经选择以将由此处为减法器122的计算部件提供的组合信号与原始语音信号s(n-N+)之间的结果误差降到最低,并且该误差定义为: 
e ~ ( n - N + ) = s ( n - N + ) - s ~ ( n - N + ) . - - - ( 17 )
误差最小化在此处象通常一样是就某个预定的保真度标准而言的广义理解,如均方误差(MSE)或加权均方误差(wMSE)等。此结果误差残差在此处为量化器130的编码部件中进行量化,以便提供音频信号样本s(n-N+)的编码增强表示ET。 
结果误差也可以量化,以使得结果语音信号 
s ~ ‾ ( n - N + ) = e ~ ‾ ( n - N + ) + s ~ ( n - N + ) - - - ( 18 )
就所述预定保真度标准而言尽可能接近原始语音信号。 
最后,应注意,预测器P-(.)20和P+(.)120及组合函数C(.)125可以是随时间变化的并选择为符合原始语音信号的时变特征和/或针对保真度标准为最优的。因此,控制这些函数的时变参数也要编码并由发射器140传送。在解码器中接收到时,使用这些参数来使得能够解码。 
在解码器侧,非因果预测解码部分57在接收器141中接收编码增强表示ET*,并且通过此处为量化器131的解码部件将它解码成残差样本信号。编码增强表示ET*的其它参数用于非因果解码器预测器121以便产生预测增强信号样本。此预测增强信号样本在组合器126中与主预测信号样本组合,并在此处为加法器123的计算部件中与残差信号相加。组合器126和加法器123此处一起构成了信号调节器59。 
与一般非线性预测相比,线性预测具有更低的复杂性,并且使用更简单。另外,一个常识是,作为用于语音信号产生的模型,线性预测是绰绰有余的。 
在前面部分中,假定预测器P-(.)和P+(.)及组合函数C(.)是通用的。实际上,简单的线性模型经常用于这些函数。预测器成为线性滤波器,类似于等式(7),而组合函数成为加权和。 
理论上,如果信号稳定,并且两个预测器使用相同的阶数,则在开环中使用相同窗口估计时的因果和非因果预测器将产生一组相同的系数。原因是,线性预测滤波器是线性相位,因此前向和后向预测误差具有相同的能量。这实际上由低延迟语音编解码器用于从过去解码语音信号得到LPC滤波器系数,例如,LD-CELP。 
与后向线性预测相反,非因果线性预测在一般情况下将重新估计要在一组相同的解码语音样本上应用的新“后向预测”滤波器,由此将在第一“主”编码期间发生的频谱变化考虑在内。另外,信号的非稳定性在第二遍时在增强编码器中被正确考虑在内。 
本发明很适用于分层的语音编码。首先,简短概述现有技术的分 层编码。 
语音编码中的可伸缩性通过与通用音频编码相同的轴实现:带宽、信噪比和空间(信道数量)。但是,由于语音压缩主要用于多信道操作仍不是很常见的会话型通信目的,因此关于语音编码可伸缩性的最大关注集中在SNR和音频带宽可伸缩性上。SNR可伸缩性始终是在总是互连到固定带宽8kHz PSTN的传统交换网络中的主要关注点。该SNR可伸缩性在处理临时拥塞情况中,例如在部署成本高和相对低带宽的大西洋通信电缆中体现其应用。近年来随着可用高端终端的出现,支持更高采样率、带宽可伸缩性已成为现实可能。 
今天使用最多的可伸缩语音压缩算法是64kbps G.711A/U-law对数PCM编解码器。8kHz采样的G.711编解码器将12位或13位线性PCM样本转换为8位对数样本。对数样本的有序位表示允许在G.711位流中窃取最低有效位(LSB),以使得G.711编码器实践中在48、56和64kbps之间实施SNR可伸缩。G.711编解码器的此可伸缩性在电路交换通信网络中用于实现带内控制信令的目的。使用此G.711伸缩性的最近示例是3GPP-TFO协议,该协议使得能够通过传统64kbpsPCM链路进行宽带语音建立和传输。原64kbps G.711流的8kbps最初用于允许宽带语音服务的呼叫建立,而对窄带服务质量没有大的影响。在呼叫建立后,宽带语音将使用64kbps G.711流的16kbps。支持开环可伸缩性的其它更早的语音编码标准是G.727(嵌入式ADPCM)和在某个程度上的G.722(子带ADPCM)。 
可伸缩语音编码技术中较新的发展是MPEG-4标准,该标准在SNR域和带宽域中均为MPEG4-CELP提供了可伸缩性扩展。MPE基层可通过传输附加的滤波器参数信息或另外的创新参数信息而得以增强。在MPEG4-CELP概念中,“BRSEL”类型的增强层是用于选定基层的SNR增加层,“BWSEL”层是带宽增强层,它们使得提供16kHz输出成为可能。结果是非常灵活的编码方案,比特率范围在不连续的阶段从3.85到23.8kbps。但是,MPEG-4语音编码器验证测试 确实显示,与固定多模式(不可伸缩)运算相比,可伸缩性所允许的额外灵活性要付出成本。 
国际电信联盟标准化部门ITU-T最近结束了一个名为G.729.EV的新的可伸缩编解码器的认证期。这种将来的可伸缩语音编解码器的比特率范围将从8kbps到32kbps。该编解码器将提供8-12kbps的窄带SNR可伸缩性、12-14kbps的带宽可伸缩性及以2kbps为步长从14kbps到最高32kbps的SNR可伸缩性。此编解码器的主要使用情况是允许在家庭或办公室网关中有效率地共享有限的带宽资源,例如,在几个VoIP呼叫之间共享的xDSL 64/128 kbps上行链路。另外,8kbps核将可与现有G.729 VoIP终端互操作。 
图10示出了基于即将出现的标准的初始认证结果的估计恶化质量曲线。它示出了估计的G.729.EV性能(8(NB)/16(WB)kHz Mono)。 
除G.729.EV开发外,ITU-T在研究组16问题9中正计划开发具有8kbps宽带核的新的可伸缩编解码器,并且也在问题23中讨论一个新的工作项,即,在保持一些可伸缩性特性的同时开发完全听觉带宽编解码器。 
如果将因果、非因果和组合函数重新表示为一个运算,则可将输出表示为: 
s ~ ( n ) = Σ i = - N - N + b i s ‾ - ( n + i ) - - - ( 19 )
因此可看到,使用最优因果和非因果预测器类似于将双面滤波器应用到主编码信号。双面滤波器已应用到在不同环境中的音频信号。例如,在美国专利6738739中介绍了一种使用平滑处理的预处理步骤,该平滑处理利用了前向和后向基音扩展。但是,整个滤波器全部在一个相同的时刻应用,这意味着会引入时间延迟。此外,滤波器在编码器中用于平滑处理的目的,并且不涉及实际的预测过程。 
在欧洲专利申请EP 0 532 225中,公开了一种处理信号的方法。该方法涉及输入信号样本的优选不超过5毫秒的编码帧,优选以小于 每秒16Kb采样,编码延迟优选不超过10毫秒。具有相应索引信号的每个码本向量通过增益系数调整,优选通过后向自适应调整,并且应用到级联的长期和短期滤波器以生成合成候选信号。对应于最佳地逼近相关联帧的候选信号的索引和所得到的长期滤波器(例如基音)参数可供用于随后将帧解码。短期滤波器参数随后可通过后向自适应而得到。同样,在此处,整个滤波器在一个完整的过程中应用,并且应用到已经解码的信号,即,在预测编码或解码过程中不应用它。 
与此相反,在本发明中,等式(19)描述的运算首先在时间上划分,在该方面,第一个最初结果由主编码器在一个时间实现,并且改进或增强随后由非因果预测编码器提供。这是使该运算适用于分层音频编码的属性。此外,该运算是预测编码过程的一部分,并且因此在“发射”侧和“接收器”侧、或更一般地说在编码和解码侧均执行。虽然EP 0 532 225初看起来可能与本发明有一些相似,但本文涉及完全不同的方面。 
图6示出了使用本发明原理的嵌入式编码结构。该图示出通过使用最优滤波的主编码器增强,由此将残差量化(TX)参数传送到解码器。此结构所基于的是基于主编码器的“本地合成”的输出来预测原始语音或音频信号s(n)。这表示为
在通过k索引的每个级或增强层,得到滤波器Wk_1(z),并将它应用到一个先前的层信号
Figure G2007800077800D00172
的“本地合成”,由此产生预测信号
Figure G2007800077800D00173
滤波器一般可以为因果、非因果的或双面的、HR或FIR。因此,此基本实施例对滤波器类型无限制。 
滤波器的得到使得预测误差: 
e k - 1 ( n ) = s ( n ) - s ~ k ( n ) = s ( n ) - W k - 1 ( z ) s ^ k - 1 ( n ) - - - ( 20 )
就某个预定的保真度标准而言降到最低。还通过可以是与层相关的量化器Qk_1将预测的残差量化和编码。这产生了量化预测误差: 
ek-1(n)=Qk-1(ek-1(n)).         (21)
该量化预测误差用于形成当前层的本地合成,该本地合成将用于下一层。 
s ^ k ( n ) = e ‾ k - 1 ( n ) + W k - 1 ( z ) s ^ k - 1 ( n ) - - - ( 22 )
表示预测滤波器W0(z),W1(z),...,Wkmax(z)和量化器Q0,Q1,...,Qkmax输出索引的参数会被编码和传送,以便在解码器侧,使用这些参数来将信号解码。 
此处应注意的是,通过剥离上部层,解码仍可进行,但是其质量低于在将所有层解码时获得的质量。 
通过每个附加层,本地合成将越来越接近原始语音信号。预测滤波器将接近于一致,而预测误差将趋向于零。 
概括而言,任何信号
Figure G2007800077800D0018081120QIETU
(n)到
Figure G2007800077800D0018172732QIETU
都可视为通过主编码信号s(n)而产生的信号,并且随后的信号可视为增强信号。主编码因此在一般情况下不一定只由因果分量组成,而是还可包括非因果贡献。 
滤波器与预测误差之间的这种关系可有效率地用于为预测滤波器和量化器两者统一地量化和分配位。来自主编码语音的预测用于估计原始语音。此预测的残差也可编码。此过程可重复进行,并因此提供语音信号的分层编码。 
本发明利用了此基本实施例。根据本发明,第一层包括用于提供第一近似信号的因果滤波器。此外,附加层至少之一包括非因果滤波器,它对已解码信号质量的增强给予贡献。此增强可能性由于非因果的原因而在后面的阶段才提供,并结合以后信号样本的以后因果滤波器编码来提供。根据本发明的此实施例,非因果预测用作用于嵌入式编码或分层编码的部件。因此,其中,附加层包含用于形成非因果预测的参数。 
上面进一步描述了现有技术的合成分析语音编解码器。此外,图3示出了在当前最新技术语音编解码器中使用的自适应码本范例背后的现有技术设想。此处下文介绍了如何通过使用称为非因果自适应码 本范例的备选实现来在类似的编解码器中实施本发明。 
图7示出用于非因果 自适应码本的当前优选实施例。此码本基于先前得到的主码本激励(n)。索引i和j涉及每个码本的条目。 
提供利用因果自适应码本方法的主激励码本39作为因果预测编码部分16的量化器30。不同的部分等同于前面结合图3所述内容。但是,不同的参数此处提供有“-”号以强调它们在因果预测中使用。 
提供利用非因果自适应码本方法的次要激励码本139作为非因果预测编码部分17的量化器130。次要激励码本139的主要部分类似于主激励码本39。自适应码本133和固定码本132分别提供具有自适应码本增益g+ LTP34和固定码本增益g+ FCB35的贡献。在加法器136中得到组成的激励信号。 
此外,如连接37所示,非因果自适应码本133还基于主激励码本39。它使用自适应码本的将来样本作为条目,并且此非因果自适应码本133的输出可书写为: 
e ~ ij → k ( n ) = e ‾ ij ( n + d + ( k ) ) - - - ( 23 )
映射函数d+(.)将对应的正数延迟指定到对应于后向或非因果基音预测的每个索引。该运算产生非因果LTP预测。 
最终的激励等于主激励和非因果自适应码本贡献及可能的次要固定码本贡献的加权线性组合。 
e ~ ij → kl ( n ) = g LTP + e ‾ ij ( n + d + ( k ) ) + g FCB + c i ( n ) + g e ‾ e ‾ ij ( n ) - - - ( 24 )
主激励因此提供有增益
Figure G2007800077800D0019081241QIETU
137并在加法器138中与非因果自适应码本133贡献和来自次要固定码本132的贡献相加。增益和索引的优化和量化使得保真度标准得以优化。 
虽然只描述了码本的构成,但应注意的是,非因果基音延迟可以是分数的,由此从增大的分辨率受益并因而产生更佳的性能。情况明显与因果基音预测的情况相同。此处,也可使用多抽头基音预测器。 
非因果预测此处在闭环中使用,因此基于原始语音信号的主编码。 由于信号的主编码包括因果预测,因此可重复使用诸如基音延迟等的一些作为语音信号特征的参数,而无需额外的比特率成本,以形成非因果预测。 
具体而言,结合自适应码本范例,应注意的是,情况经常是不需要重新估计基音,而是直接重复使用为因果预测估计的相同基音延迟。这在图7中由虚线38示出。这节省了比特率,而对质量无太大的影响。 
对此过程的一个细化由只重复使用整数基音延迟、然后重新优化基音的分数部分组成。 
通常,即使重新估计基音延迟,但如果考虑到非因果基音极接近因果基音,则复杂性及将此变量编码所需的位数量也会大大降低。因此,可有效率地应用诸如差分编码等技术。在复杂性方面,应明白的是,不必搜索所有基音范围。可只搜索因果基音周围的几个预定区域。总之,因此可以使映射函数d+(.)自适应地与主基音变量d-(i)相关。 
仅在有某个量的延迟时,才可应用非因果自适应码本的原理。实际上,需要将来编码激励的样本以便形成增强激励。 
在逐帧基础上操作语音编解码器时,有某个提前量可用。帧通常划分成子帧。例如,在主编码信号帧之后,在第一子帧的增强编码器可访问整个帧的激励样本而无附加的延迟。如果非因果基音延迟相对较小,则通过增强编码器来完成第一子帧编码不会有额外的延迟。这也适用于如图8中所示的第二、第三帧,其中图8示出在逐帧基础上执行非因果基音预测。在此示例中,在第四子帧处,可能需要下一帧的样本,并且这将需要附加的延迟。 
如果不允许延迟,则仍可使用非因果自适应码本,但它将只对一些子帧而并非所有子帧有效。因此,自适应码本使用的位数量将是可变的。活动和非活动状态的信令可以是隐含的,这是因为在收到基音延迟变量时,解码器会自动检测是否需要将来的信号样本。 
可考虑对上述实施例进行几个细化,如平滑处理预测滤波器参数 的内插,使用加权误差测量和心理声学误差测量。这些细化和其它细化是本领域技术人员公知的原理,在此将不详细描述。 
图9示出根据本发明的方法实施例的步骤的流程图。用于音频编码和解码的方法从步骤200开始。在步骤210中,将当前音频信号样本因果编码成当前音频信号样本的编码表示。在步骤211中,将第一先前音频信号样本非因果编码成该第一先前音频信号样本的编码增强表示。在步骤220中,将当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示提供到最终用户。此步骤可视为由以下步骤组成:通过编码器提供当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示;和在最终用户处通过解码器获得当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示。在步骤230中,当前音频信号样本的编码增强表示被因果解码成当前接收的音频信号样本。在步骤231中,第一先前音频信号样本的编码增强表示被非因果解码成增强的第一先前已接收(received)音频信号样本。最后,在步骤240中,基于第一先前已接收音频信号样本和增强的第一先前已接收音频信号样本,改进对应于第一先前音频信号样本的第一先前已接收音频信号样本。此过程在步骤299中结束。如虚线箭头250所示,此过程基本上在音频信号的整个持续时间内重复进行。 
本公开内容介绍了一种自适应码本,其特征在于使用非因果基音贡献来形成非因果自适应码本。此外,介绍了增强激励,该激励是主编码激励和至少一个非因果自适应码本激励的组合。还示出了嵌入式语音编解码器,其特征在于,每层包含用于形成预测信号的至少一个预测滤波器、用于量化预测残差信号的量化器或编码器及用于形成本地合成增强信号的部件。对于解码器也提供了类似的部件和功能。此外,还描述了具有隐含信令的可变速率非因果自适应码本形成。 
上述实施例应理解为是本发明的少数几个说明性示例。本领域的技术人员将理解,在不脱离本发明范围的情况下,可对实施例进行不 同的修改、组合和更改。具体地说,不同实施例中的不同部分解决方案可在技术上可行的情况下在其它配置中组合在一起。然而,本发明的范围由随附权利要求定义。 
参考文献 
美国专利6738739。 
欧洲专利申请EP 0 532 225。

Claims (36)

1.一种用于音频编码和解码的方法,包括以下步骤:
将当前音频信号样本s(n)主编码成所述当前音频信号样本的编码表示T(n);
将第一先前音频信号样本s(n-N+)非因果编码成所述第一先前音频信号样本的编码增强表示ET(n-N+);
将所述当前音频信号样本的所述编码表示T(n)和所述第一先前音频信号样本的所述编码增强表示ET(n-N+)提供到最终用户;
将所述当前音频信号样本的所述编码表示主解码成当前已接收音频信号样本
将所述第一先前音频信号样本的所述编码增强表示非因果解码成增强的第一先前已接收音频信号样本
Figure FSB00000820234100012
以及
基于第一先前已接收音频信号样本和所述增强的第一先前已接收音频信号样本
Figure FSB00000820234100014
改进对应于所述第一先前音频信号样本s(n-N+)的第一先前已接收音频信号样本
Figure FSB00000820234100015
2.如权利要求1所述的方法,其中所述非因果编码是基于与第一时间瞬间后出现的时间瞬间相关联的信号样本或信号样本的表示,对与所述第一时间瞬间相关联的信号样本的编码。
3.如权利要求1或2所述的方法,其中所述非因果编码是非因果预测编码,并且所述非因果解码是非因果预测解码。
4.如权利要求3所述的方法,其中非因果预测编码的所述步骤又包括:
在开环中从第一组音频信号样本得到所述第一先前音频信号样本的第一非因果预测;
所述第一组音频信号样本包括以下样本的至少其中之一:
在所述第一先前音频信号样本后出现的至少一个先前音频信号样本;以及
所述当前音频信号样本;
计算所述第一先前音频信号样本与所述第一非因果预测之间的差作为第一差;以及
将至少所述第一差和所述第一非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示;以及其中,非因果预测解码的所述步骤又包括:
将所述第一先前音频信号样本的所述编码增强表示解码成所述第一差和所述第一非因果预测的参数;
基于所述第一非因果预测的所述参数,从对应于所述第一组的第二组已接收音频信号样本得到所述增强的第一先前已接收音频信号样本的第二非因果预测;
计算所述第二非因果预测和所述第一差之和作为所述增强的第一先前已接收音频信号样本。
5.如权利要求3所述的方法,其中非因果预测编码的所述步骤又包括:
在闭环中从第一组音频信号样本的表示得到所述第一先前音频信号样本的第一非因果预测;
所述第一组音频信号样本的表示包括以下项的至少其中之一:
与在所述第一先前音频信号样本后出现的时间相关联的先前音频信号样本的至少一个表示;以及
所述当前音频信号样本的表示;
计算所述第一先前音频信号样本或所述第一先前音频信号样本的表示与所述第一非因果预测之间的差作为第一差;以及
将至少所述第一差和所述第一非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示;以及
其中,非因果预测解码的所述步骤又包括:
将所述第一先前音频信号样本的所述编码增强表示解码成所述第一差和所述第一非因果预测的参数;
基于所述第一非因果预测的所述参数,从对应于所述第一组的第二组已接收音频信号样本得到所述增强的第一先前已接收音频信号样本的第二非因果预测;
计算所述第二非因果预测和所述第一差之和作为所述增强的第一先前已接收音频信号样本。
6.如权利要求4或5所述的方法,其中所述第一非因果预测和所述第二非因果预测是线性非因果预测,由此,所述第一非因果预测的所述参数是滤波器系数。
7.如权利要求1或2所述的方法,其中所述主编码是因果编码。
8.如权利要求1所述的方法,其中所述主编码是主预测编码,并且所述主解码是主预测解码。
9.如权利要求8所述的方法,其中主预测编码的所述步骤又包括:
在开环中从第三组先前音频信号样本得到所述当前音频信号样本的第一主预测;
计算所述当前音频信号样本与所述第一主预测之间的差作为第二差;以及
将至少所述第二差和所述第一主预测的参数编码成所述当前音频信号样本的所述编码表示;以及
其中,主预测解码的所述步骤又包括:
将所述当前音频信号样本的所述编码表示解码成所述第二差和所述第一主预测的所述参数;
基于所述第一主预测的所述参数,从对应于所述第三组的第四组已接收音频信号样本得到所述当前已接收音频信号样本的第二主预测;
计算所述第二主预测和所述第二差之和作为所述当前已接收音频信号样本。
10.如权利要求8所述的方法,其中主预测编码的所述步骤又包括:
在闭环中从第三组先前音频信号样本的表示得到所述当前音频信号样本的第一主预测;
计算所述当前音频信号样本与所述第一主预测之间的差作为第二差;以及
将至少所述第二差和所述第一主预测的参数编码成所述当前音频信号样本的所述编码表示;以及
其中,主预测解码的所述步骤又包括:
将所述当前音频信号样本的所述编码表示解码成所述第二差和所述第一主预测的所述参数;
基于所述第一主预测的所述参数,从对应于所述第三组的第四组已接收音频信号样本得到所述当前已接收音频信号样本的第二主预测;
计算所述第二主预测和所述第二差之和作为所述当前已接收音频信号样本。
11.如权利要求9或10所述的方法,其中所述第一主预测和所述第二主预测是线性主预测,由此,所述第一主预测的所述参数是滤波器系数。
12.如权利要求11所述的方法,其中所述第一主预测、所述第二主预测、所述第一非因果预测和所述第二非因果预测基于自适应码本范例,由此所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示包括固定和自适应码本的量化索引。
13.如权利要求1或2所述的方法,其中提供所述当前音频信号样本的所述编码表示的所述步骤和提供所述第一先前音频信号样本的所述编码增强表示的所述步骤作为分层的编码来执行,其中,附加层包括非因果预测表示。
14.一种用于音频编码的方法,包括以下步骤:
将当前音频信号样本主编码成所述当前音频信号样本的编码表示;
将第一先前音频信号样本非因果编码成所述第一先前音频信号样本的编码增强表示;以及
提供所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示。
15.一种用于音频解码的方法,包括以下步骤:
在最终用户处获得当前音频信号样本的编码表示和第一先前音频信号样本的编码增强表示;
将所述当前音频信号样本的所述编码表示主解码成当前已接收音频信号样本;
将所述第一先前音频信号样本的所述编码增强表示非因果解码成增强的第一先前已接收音频信号样本;以及
基于第一先前已接收音频信号样本和所述增强的第一先前已接收音频信号样本,改进对应于所述第一先前音频信号样本的第一先前已接收音频信号样本。
16.一种用于音频信号样本的编码器,包括:
用于接收音频信号样本的输入;
主编码器部分,连接到所述输入并设置用于将当前音频信号样本编码成所述当前音频信号样本的编码表示;
非因果编码器部分,连接到所述输入并设置用于将第一先前音频信号样本编码成所述第一先前音频信号样本的编码增强表示;
输出,连接到所述主编码器部分和所述非因果编码器部分并设置用于提供所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示。
17.如权利要求16所述的编码器,其中所述非因果编码是基于与第一时间瞬间后出现的时间瞬间相关联的信号样本或信号样本的表示,对与所述第一时间瞬间相关联的信号样本的编码。
18.如权利要求16或17所述的编码器,其中所述非因果编码器部分是非因果预测编码器部分。
19.如权利要求18所述的编码器,其中所述非因果编码器部分又包括:
非因果预测器,设置用于在开环中从第一组音频信号样本得到所述第一先前音频信号样本的非因果预测;
所述第一组音频信号样本包括以下样本的至少其中之一:
在所述第一先前音频信号样本后出现的至少一个先前音频信号样本;以及
所述当前音频信号样本;
计算部件,设置用于获得作为所述第一先前音频信号样本与所述非因果预测之间的差的第一差;以及
编码部件,设置用于将至少所述第一差和所述非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示。
20.如权利要求18所述的编码器,其中所述非因果编码器部分又包括:
非因果预测器,设置用于在闭环中从第一组音频信号样本的表示得到所述第一先前音频信号样本的非因果预测;
所述第一组音频信号样本的表示包括以下的至少其中之一:
与在所述第一先前音频信号样本后出现的时间相关联的先前音频信号样本的至少一个表示;以及
所述当前音频信号样本的表示;
计算部件,设置用于获得作为所述第一先前音频信号样本与所述非因果预测之间的差的第一差;以及
编码部件,设置用于将至少所述第一差和所述非因果预测的参数编码成所述第一先前音频信号样本的所述编码增强表示。
21.如权利要求16或17所述的编码器,其中所述主编码器部分是因果编码器部分。
22.如权利要求19所述的编码器,其中所述主编码器部分是主预测编码器部分。
23.如权利要求22所述的编码器,其中所述主编码器部分又包括:
主预测器,设置用于在开环中从第二组先前音频信号样本得到所述当前音频信号样本的主预测;
计算部件,设置用于获得作为所述当前音频信号样本与所述主预测之间的差的第二差;以及
编码部件,设置用于将至少所述第二差和所述主预测的参数编码成所述当前音频信号样本的所述编码表示。
24.如权利要求22所述的编码器,其中所述主编码器部分又包括:
主预测器,设置用于在闭环中从第二组先前音频信号样本的表示得到所述当前音频信号样本的主预测;
计算部件,设置用于获得作为所述当前音频信号样本与所述主预测之间的差的第二差;以及
编码部件,设置用于将至少所述第二差和所述主预测的参数编码成所述当前音频信号样本的所述编码表示。
25.如权利要求23或24所述的编码器,其中所述主预测器和所述非因果预测器基于自适应码本范例,由此所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示包括固定和自适应码本的量化索引。
26.如权利要求21所述的编码器,其中所述主编码器部分的所述编码部件和所述非因果预测器编码器部分的所述编码部件连接在一起,并设置为在所述输出处将所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示作为分层的编码信息来提供,其中,附加层包括非因果预测表示。
27.一种用于音频信号样本的解码器,包括:
输入,设置用于接收由主编码器编码的当前音频信号样本的编码表示和由非因果编码器编码的第一先前音频信号样本的编码增强表示;
主解码器部分,连接到所述输入并设置用于将所述当前音频信号样本的所述编码表示主解码成当前已接收音频信号样本;
非因果解码器部分,连接到所述输入并设置用于将所述第一先前音频信号样本的所述编码增强表示非因果解码成增强的第一先前已接收音频信号样本;以及
信号调节器,连接到所述主解码器部分和所述非因果解码器部分并设置用于基于第一先前已接收音频信号样本和所述增强的第一先前已接收音频信号样本之间的比较,改进对应于所述第一先前音频信号样本的第一先前已接收音频信号样本。
28.如权利要求27所述的解码器,其中所述非因果解码是基于与第一时间瞬间后出现的时间瞬间相关联的信号样本或信号样本的表示,对与所述第一时间瞬间相关联的信号样本的解码。
29.如权利要求27或28所述的解码器,其中所述非因果解码器部分是非因果预测器解码器部分。
30.如权利要求29所述的解码器,其中所述非因果预测器解码器部分又包括:
解码部件,设置用于将所述第一先前音频信号样本的所述编码增强表示解码成第一差和非因果预测的参数;
非因果预测器,设置用于基于所述非因果预测的所述参数,从第一组已接收音频信号样本得到所述增强的第一先前已接收音频信号样本的非因果预测;
所述第一组已接收音频信号样本包括以下样本的至少其中之一:
在所述第一先前已接收音频信号样本后出现的至少一个先前已接收音频信号样本;以及
当前已接收音频信号样本;
计算部件,设置用于获得作为所述非因果预测和所述第一差之和的所述增强的第一先前已接收音频信号样本。
31.如权利要求27到28中任一项所述的解码器,其中所述主解码器部分是因果解码器部分。
32.如权利要求30所述的解码器,其中所述主解码器部分是主预测解码器部分。
33.如权利要求32所述的解码器,其中所述主解码器部分又包括:
解码部件,设置用于将所述当前音频信号样本的所述编码表示解码成第二差和主预测的参数;
主预测器,设置用于基于所述主预测的所述参数,从第二组先前已接收音频信号样本得到所述当前已接收音频信号样本的主预测;
计算部件,设置用于获得作为所述主预测和所述第二差之和的所述当前已接收音频信号样本。
34.如权利要求33所述的解码器,其中所述主预测器和所述非因果预测器基于自适应码本范例,由此所述当前音频信号样本的所述编码表示和所述第一先前音频信号样本的所述编码增强表示包括固定和自适应码本的量化索引。
35.一种音频调解系统的终端,包括至少以下之一:如权利要求16到26中任一项所述的编码器和如权利要求27到34中任一项所述的解码器。
36.一种音频调解系统,包括具有如权利要求16到26中任一项所述的编码器的至少一个终端和具有如权利要求27到34中任一项所述的解码器的至少一个终端。
CN2007800077800A 2006-03-07 2007-03-07 音频编码和解码的方法和设备 Expired - Fee Related CN101395661B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US74342106P 2006-03-07 2006-03-07
US60/743,421 2006-03-07
PCT/SE2007/050132 WO2007102782A2 (en) 2006-03-07 2007-03-07 Methods and arrangements for audio coding and decoding

Publications (2)

Publication Number Publication Date
CN101395661A CN101395661A (zh) 2009-03-25
CN101395661B true CN101395661B (zh) 2013-02-06

Family

ID=38475280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800077800A Expired - Fee Related CN101395661B (zh) 2006-03-07 2007-03-07 音频编码和解码的方法和设备

Country Status (4)

Country Link
US (1) US8781842B2 (zh)
EP (1) EP1991986B1 (zh)
CN (1) CN101395661B (zh)
WO (1) WO2007102782A2 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2007043643A1 (ja) * 2005-10-14 2009-04-16 パナソニック株式会社 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
KR100912826B1 (ko) * 2007-08-16 2009-08-18 한국전자통신연구원 G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US20110035273A1 (en) * 2009-08-05 2011-02-10 Yahoo! Inc. Profile recommendations for advertisement campaign performance improvement
BR112013020769B1 (pt) 2011-02-16 2021-03-09 Dolby Laboratories Licensing Corporation método para codificar um sinal de áudio de entrada usando um filtro de predição, dispositivo de codificação de áudio e dispositivo de decodificação de áudio
AU2012246798B2 (en) * 2011-04-21 2016-11-17 Samsung Electronics Co., Ltd Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
CN105719654B (zh) 2011-04-21 2019-11-05 三星电子株式会社 用于语音信号或音频信号的解码设备和方法及量化设备
EP2761616A4 (en) * 2011-10-18 2015-06-24 Ericsson Telefon Ab L M IMPROVED METHOD AND DEVICE FOR AN ADAPTIVE MULTIRATE CODEC
KR102251833B1 (ko) * 2013-12-16 2021-05-13 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
US9959876B2 (en) * 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
WO2016011961A1 (zh) * 2014-07-24 2016-01-28 陈仕东 非因果预测的信号编码方法、解码方法
EP3079151A1 (en) * 2015-04-09 2016-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and method for encoding an audio signal
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11610597B2 (en) * 2020-05-29 2023-03-21 Shure Acquisition Holdings, Inc. Anti-causal filter for audio signal processing

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179848A (zh) * 1995-02-08 1998-04-22 艾利森电话股份有限公司 数字信息编码的方法和装置
CN1229501A (zh) * 1997-04-16 1999-09-22 法国电信局 用前向和反向线性预测编码分析编码音频信号的方法和装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5261027A (en) * 1989-06-28 1993-11-09 Fujitsu Limited Code excited linear prediction speech coding system
US5233660A (en) 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JP3343082B2 (ja) * 1998-10-27 2002-11-11 松下電器産業株式会社 Celp型音声符号化装置
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US6738739B2 (en) 2001-02-15 2004-05-18 Mindspeed Technologies, Inc. Voiced speech preprocessing employing waveform interpolation or a harmonic model
US7272555B2 (en) * 2001-09-13 2007-09-18 Industrial Technology Research Institute Fine granularity scalability speech coding for multi-pulses CELP-based algorithm
JP3881943B2 (ja) * 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
KR100908117B1 (ko) * 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
CA2524243C (en) * 2003-04-30 2013-02-19 Matsushita Electric Industrial Co. Ltd. Speech coding apparatus including enhancement layer performing long term prediction
DE602004004950T2 (de) * 2003-07-09 2007-10-31 Samsung Electronics Co., Ltd., Suwon Vorrichtung und Verfahren zum bitraten-skalierbaren Sprachkodieren und -dekodieren
JP4805915B2 (ja) * 2004-05-04 2011-11-02 クゥアルコム・インコーポレイテッド 時間的なスケーラビリティのために2方向予測されたフレームを組み立てるための方法及び装置
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1179848A (zh) * 1995-02-08 1998-04-22 艾利森电话股份有限公司 数字信息编码的方法和装置
CN1229501A (zh) * 1997-04-16 1999-09-22 法国电信局 用前向和反向线性预测编码分析编码音频信号的方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Charles D. Creusere et al.Efficient Audio Coding Using Perfect Reconstruction Noncausal I1 Filter Banks.《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》.1996,第4卷(第2期),第115-123页. *
Ivan V. Bajic et al.Non-causal Error Control for Video Streaming over Wireless Packet Networks.《2005 International Conference on Wireless Networks, Communications and Mobile Computing》.2005,第2卷第1106-1111页. *
Juin-Hwey Chen et al.A Low-Delay CELP Coder for the CCITT 16 kb/s Speech Coding Standard.《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》.1992,第10卷(第5期),第830-849页. *

Also Published As

Publication number Publication date
EP1991986A4 (en) 2011-08-03
EP1991986B1 (en) 2019-07-31
US8781842B2 (en) 2014-07-15
WO2007102782A3 (en) 2007-11-08
CN101395661A (zh) 2009-03-25
WO2007102782A2 (en) 2007-09-13
EP1991986A2 (en) 2008-11-19
US20090076830A1 (en) 2009-03-19

Similar Documents

Publication Publication Date Title
CN101395661B (zh) 音频编码和解码的方法和设备
USRE49363E1 (en) Variable bit rate LPC filter quantizing and inverse quantizing device and method
US6980951B2 (en) Noise feedback coding method and system for performing general searching of vector quantization codevectors used for coding a speech signal
CN1957398B (zh) 在基于代数码激励线性预测/变换编码激励的音频压缩期间低频加重的方法和设备
US5778335A (en) Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
CN101488345B (zh) 有效编码语音信号的信号修改方法
KR100732659B1 (ko) 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치
JP2002526798A (ja) 複数チャネル信号の符号化及び復号化
CN108352164A (zh) 将立体声信号时域下混合为主和辅声道的使用左和右声道之间的长期相关差的方法和系统
CN104025189B (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
JPH08263099A (ja) 符号化装置
CN105793924A (zh) 用于使用修改时域激励信号的错误隐藏提供经解码的音频信息的音频解码器及方法
CN101622666B (zh) 非因果后置滤波器
CN105336337A (zh) 针对语音信号或音频信号的量化方法以及解码方法和设备
US7634402B2 (en) Apparatus for coding of variable bitrate wideband speech and audio signals, and a method thereof
CN101632119B (zh) 用于对稳态背景噪声进行平滑的方法和设备
KR20060131782A (ko) 최적의 다중 부호화 방법
Jelinek et al. G. 718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels
US8265929B2 (en) Embedded code-excited linear prediction speech coding and decoding apparatus and method
KR101610765B1 (ko) 음성 신호의 부호화/복호화 방법 및 장치
KR20130047608A (ko) 통신 시스템에서 신호 코덱 장치 및 방법
JP2011008250A (ja) ビット率拡張音声符号化及び復号化装置とその方法
US7110942B2 (en) Efficient excitation quantization in a noise feedback coding system using correlation techniques
Miki et al. Pitch synchronous innovation code excited linear prediction (PSI‐CELP)
AU2020365140A1 (en) Methods and system for waveform coding of audio signals with a generative model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130206

Termination date: 20200307

CF01 Termination of patent right due to non-payment of annual fee