CN101432804B - 对源音频信号进行编码的方法和相应的编码设备、解码方法和设备 - Google Patents

对源音频信号进行编码的方法和相应的编码设备、解码方法和设备 Download PDF

Info

Publication number
CN101432804B
CN101432804B CN200780015598.XA CN200780015598A CN101432804B CN 101432804 B CN101432804 B CN 101432804B CN 200780015598 A CN200780015598 A CN 200780015598A CN 101432804 B CN101432804 B CN 101432804B
Authority
CN
China
Prior art keywords
coding
quantization step
data group
distributes
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200780015598.XA
Other languages
English (en)
Other versions
CN101432804A (zh
Inventor
P·菲利普
C·沃
P·科郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN101432804A publication Critical patent/CN101432804A/zh
Application granted granted Critical
Publication of CN101432804B publication Critical patent/CN101432804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Abstract

本发明涉及对源音频信号进行编码的方法。按照本发明,这种方法包括下列步骤:按照至少两种不同的编码技术对表示源音频信号的至少一个变换的系数的量化步长分布进行编码,给出至少两个表示一个量化步长分布的数据组;根据预定选择准则选择表示量化步长分布的所述数据组中的一个数据组;以及发送和/或存储表示所选择的量化步长分布的数据组和表示相应编码技术的指示符。

Description

对源音频信号进行编码的方法和相应的编码设备、解码方法和设备
技术领域
本发明涉及对诸如音乐之类的音频数字信号或数字化语音信号进行编码和解码的技术领域。 
具体地说,本发明涉及在实现感知编码(perceptual encoding)中量化音频信号的谱系数的技术。 
本发明特别(但不只是)可应用于在MPEG音频标准(ISO/IEC14496-3)的环境内所提出的使用可扩缩数据编码/解码型系统对音频数字数据进行分级编码(hierarchical encoding)的系统。 
一般地说,本发明可以应用于对声音和音乐进行高效量化以便存储、压缩和通过传输信道(例如,无线或有线信道)传输声音和音乐的技术领域。 
背景技术
1传输掩蔽曲线的感知编码 
1.1音频压缩和量化 
音频压缩往往基于人耳的一定听觉能力。对音频信号的编码和量化往往要考虑这个特性。在这种情况下所用的术语是“感知编码”,或者遵从人耳心理听觉模型的编码。 
人耳不能区分一个信号在邻近频率和在有限时隙内发送的两个分量。这个性质称为听觉掩蔽(auditory masking)。此外,耳朵具有听觉门限(hearing threshold),在安静的环境内,将感觉不到所发送的低于听觉门限的声音。这个门限的值随声波频率改变。 
在压缩和/或传输音频数字信号中,可以想到的是,确定量化比特数,以量化形成信号的频谱分量,不会引入过多的量化噪声而损害 到编码后信号的质量。目标通常是减少量化比特数量以得到对信号的高效压缩。因此,必须做的是找到声音质量与信号压缩程度之间的折衷。 
所以,在经典的现有技术中,量化原理使用了人耳引起的掩蔽门限和掩蔽性质,以确定注入音频信号而在信号再现时耳朵感觉不到(即不会引入任何过分失真)的可接受的最大量化噪声量。 
1.2感知音频变换编码 
音频变换编码的详细说明可参见Jayant、Johnson和Safranek的“基于人类感知的方法的信号压缩”(“Signal Compression Based on Method of Human Perception”,Proc.Of IEEE,Vol.81,No.10,pp.1385-1422,October 1993)。 
这种技术使用了图1所例示的人耳频率掩蔽模型,图中示出了音频信号频率与人耳掩蔽门限之间的关系的例子。X轴10表示频率f(Hz),Y轴11表示声强I(dB)。人耳将信号x(t)的频谱在频域内按Bark刻度分解成一些关键频带(critical band)120、121、122、123。信号x(t)的关键频带n 120具有能量En,在频带n内和在邻近的关键频带122和123处产生掩蔽13。所关联的掩蔽门限13与“掩蔽”分量120的能量En成正比,而随关键频带低于和高于关键频带n递减。 
分量122和123在图1这个例子中受到掩蔽。此外,分量121由于低于绝对听觉门限14也受到掩蔽。于是,通过将绝对听觉门限14和与音频信号x(t)的以关键频带分析的各个分量关联的掩蔽门限组合在一起,就可以得到总的掩蔽曲线。这个掩蔽曲线表示可以在信号编码时叠加到信号上而人耳感觉不到的最大量化噪声的谱密度。于是,在量化从源音频信号频率变换得到的谱系数期间,就可形成量化步长分布(profil de pas de quantification),不很严格地也可称为注入噪声分布。 
图2为例示经典的感知编码器的原理的流程图。时间源音频信号 x(t)由时间-频率变换单元20变换到频域。于是,得到由谱系数Xn形成的信号的频谱。该频谱由心理听觉模型21分析,该模型根据绝对听觉门限和信号的每个频谱分量的掩蔽门限确定信号的总掩蔽曲线C。所得到的掩蔽曲线可用来得出可以注入的量化噪声量,从而确定用来量化谱系数或样本的比特数。确定比特数这个步骤由给出每个谱系数Xn的量化步长分布Δn的二进制分配单元22执行。二进制分配单元通过用掩蔽曲线C所给出的成形限制修改量化间隔设法达到目标比特率。量化间隔Δn由二进制分配单元22以比例因子F的形式编码,再在比特流T内作为辅助信息发送。 
量化单元23接收到谱系数Xn和所确定的量化间隔Δn后给出经量化的系数 
Figure GSB00000608769100031
最后,编码和比特流形成单元24将经量化的谱系数 和比例因子F集中在一起进行编码,形成含有经编码的源音频信号的有效负载数据和表示比例因子的数据的比特流。 
2掩蔽曲线的分级构建 
下面说明在音频数字数据分级编码环境内现有技术的缺点。然而,本发明可以应用于根据人耳心理听觉模型实现量化的各种音频数字信号编码器。这些编码器不一定是分级的。 
分级编码需要将一些编码级级联起来。第一级产生比特率最低的编码版本,而随后的这些级提供逐级增大比特率的相继改善。在音频信号编码的特定情况下,这些改善级传统上基于如在以上这节中所说明的感知变换编码。 
然而,这种分级感知变换编码的一个缺点是必须从最前面的一级或者说初级就发送所得到的比例因子。这些比例因子与有效负载数据相比占用了分配给低比特率级的一大部分比特率。 
为了克服这个缺点以节约对注入量化噪声分布(即比例因子)的传输,J.Li在“采用隐含听觉掩蔽的嵌入式音频编码(EAC)”(“Embedded Audio Coding(EAC)With Implicit Auditory  Masking”,ACM Multimedia 2002)中业已提出一种称为“隐含”技术的掩蔽技术。这种技术有赖于分级结构的编码/解码系统,在每个改善级用掩蔽曲线的近似值对掩蔽曲线进行递推估计,使掩蔽曲线逐级细化。 
因此,在分级编码的每个级利用在前一级所量化的变换系数重复更新掩蔽曲线。 
由于对掩蔽曲线的估计基于时间-频率变换的系数的量化值,因此能在编码器和解码器处同样执行,这具有避免向解码器传输量化步长分布或量化噪声的优点。 
3现有技术的缺点 
即使基于分级编码的隐含掩蔽技术避免了传输掩蔽曲线因此与经典的需发送量化步长分布的感知编码相比在比特率上有所得益,但本发明的发明者注意到它还具有一些缺点。 
确实,在编码器和解码器内同时实现的掩蔽模型一定是闭环的(closed-ended),因此可以不用精确地适合信号的特性。例如,无论需编码的频谱分量有没有音调特性都使用单个掩蔽因子。 
此外,掩蔽曲线是在信号是标准(standing)信号的假设下计算的,不能适当地应用于瞬变部分和声冲击。 
此外,由于掩蔽曲线是在每一级从前一级所量化的系数或系数残差得出,因此第一级的掩蔽曲线由于某些部分的频谱还没有编码所以是不完全的。这个不完全的曲线不一定表示所考虑的这个分级编码级的量化步长分布的最佳形状。 
发明内容
本发明提出了一种对源音频信号进行编码的方法,这种方法包括下列步骤: 
按照至少两个不同的编码技术对表示源音频信号的至少一个变换的系数的量化步长分布进行编码,给出表示量化步长分布的至少两个数据组; 
按照基于分别从所述数据组重建的信号的失真的度量和基于对所述数据组进行编码所需的比特率的选择准则,选择表示量化步长分布的所述数据组中的一个数据组;以及 
发送和/或存储表示所选择的量化步长分布的所述数据组和表示相应的编码技术的指示符。 
因此,本发明所依赖的是一种新颖的、创造性的对源音频信号的系数进行编码的途径,这种途径可以降低分配给传输量化间隔的比特率,同时还将注入量化噪声分布保持成尽可能接近从对信号的完整知识计算得出的掩蔽曲线所给定的分布。 
本发明提出在计算量化步长分布的不同可行模式之间进行选择。因此,可以在若干量化步长分布或注入噪声分布的模板之间进行选择。这个选择由指示符,例如包含在由编码器形成的发送给音频信号再现系统即解码器的比特流内的信号,报告。 
选种准则可以主要考虑每个量化步长分布的效率和对相应数据组进行编码所需的比特率。 
因此,在传送表示信号的数据所需的比特率与影响信号的失真之间得到折衷。 
量化于是得到优化。同时,使得发送不直接提供音频信号本身的表示量化步长分布的信息的数据所需的比特率最小。 
也就是说,在编码器处,量化模式的选择通过将根据需编码的音频信号估计的基准掩蔽曲线与分别与各个量化模式关联的噪声分布相比较来实现。 
与现有技术相比,本发明的技术改善了压缩效率,因此提供了更好的感知质量。 
对于编码技术中至少第一编码技术来说,数据组可以与量化步长分布的参数表示相应。 
也就是说,在所提出的量化经变换的音频信号的系数的这些技术中,有以参数表示量化步长分布的可能性。 
在一个特定实施例中,参数表示由至少一个由斜率和初始值表征的直线段形成。 
第二编码技术可以给出恒定的量化步长分布。 
这种编码模式因此提出根据信噪比(SNR)而不是根据信号的掩蔽曲线对量化步长分布编码。 
按照第三有益编码技术,量化步长分布与绝对听觉门限相应。 
也就是说,表示量化步长分布的数据组可以是空的,编码器不用向解码器发送任何量化步长分布数据。绝对听觉门限对于解码器来说是已知的。 
按照第四编码技术,表示量化步长分布的数据组可以包括所有所实施的量化间隔。 
这种第四编码技术对应于量化步长分布根据只有编码器知道的信号的掩蔽曲线确定、完全发送给解码器的情况。所需的比特率高,但信号的再现质量最佳。 
在一个特定实施例中,编码实现分级处理,给出包括一个初级和至少一个细化级的至少两个分级编码级,所述细化级包括对初级或前一细化级的细化信息。 
在这种情况下,采用第五编码技术,表示量化步长分布的数据组在给定细化级通过考虑前一分级编码级所构建的数据得出。 
因此本发明可以高效地应用于分级编码,提出按照在每个分级编码级细化量化步长分布的技术对量化步长分布进行编码。 
选择步骤可以在每个分级编码级执行。 
如果编码方法给出一些系数帧,可以为每个帧执行选择步骤。 
因此,不仅可以为每个处理帧执行信号传送,而且在对数据分级编码的特定应用中可以为每个细化级执行信号传送。 
在其他情况下,编码可以对包括一些具有预定或可变长度的帧的组执行。还可以规定,只要没有发送新的指示符,当前分布保持不变。 
本发明还涉及包括实现这样的方法的装置的对源音频信号进行编码的设备。 
本发明还涉及实现如以上所说明的编码方法的计算机程序产品。 
本发明还涉及表示源音频信号的包括表示量化步长分布的数据的经编码信号。这样的信号主要包括: 
表示在编码时根据选择准则从至少两个可用技术中选出的一个对所实现的量化步长分布进行编码的技术的指示符,所述选择准则基于分别从按照所述技术编码的量化步长分布重建的信号的失真的度量和基于按照所述技术对量化步长分布进行编码所需的比特率;以及 
表示相应量化步长分布的数据组。 
这样的信号可以主要包括:关于通过分级处理得到的包括一个初级和至少一个细化级的至少两个分级编码级的数据,所述细化级包括对初级或前一细化级的细化信息;以及表示每级的编码技术的指示符。 
在将本发明的信号组织在一些相继的系数的帧中时,信号可以包括表示用于每个帧的编码技术的指示符。 
本发明还涉及对这样的信号进行解码的方法。这种方法主要包括下列步骤: 
从经编码信号提取 
表示在编码时根据选择准则从至少两个可用技术中选出的一个对所实现的量化步长分布进行编码的技术的指示符,所述选择准则基于分别从按照所述技术编码的量化步长分布重建的信号的失真的度量和基于按照所述技术对量化步长分布进行编码所需的比特率,以及 
表示所述相应量化步长分布的数据组;以及 
根据所述数据组和由所述指示符标明的编码技术重建所述重建的量化步长分布。 
这种类型的解码方法还包括考虑所重建的量化步长分布构建表示源音频信号的重建音频信号的步骤。 
对于这些编码技术中至少第一编码技术,数据组可以与量化步长分布的参数表示相应,而重建步骤给出以至少一个直线段的形式重建的量化步长分布。 
对于这些编码技术中的至少第二编码技术,数据组可以是空的,而重建步骤给出恒定的量化步长分布。 
对于这些编码技术中的至少第三编码技术,数据组可以是空的,而量化步长分布与绝对听觉门限相应。 
对于这些编码技术中的至少第四编码技术,数据组可以包括在以上所说明的编码方法期间所实施的所有量化间隔,而构建步骤给出呈现为在编码方法期间实施的一组量化间隔形式的量化值。 
在一个特定实施例中,解码方法可以实现分级处理,给出包括一个初级和至少一个细化级的至少两个分级编码级,所述细化级包括对初级或前一细化级的细化信息。 
对于这些编码技术中的至少第五编码技术,重建步骤在给定细化级给出考虑前一分级编码级所构建的数据而得到的量化步长分布。 
本发明还涉及对表示源音频信号的经编码信号进行解码的设备,包括实现以上所说明的解码方法的装置。 
本发明还涉及实现如以上所说明的解码方法的计算机程序产品。 
附图说明
从以下以例示性和非穷举性例子的方式给出的对具体实施例的说明中和从附图中可以看到本发明的实施例的其他特征和优点,在这些附图中: 
图1例示了频率掩蔽门限; 
图2为按照现有技术实现的感知变换编码的简化流程图; 
图3例示了按照本发明的信号的一个例子: 
图4为按照本发明的编码方法的简化流程图; 
图5为按照本发明的解码方法的简化流程图;以及 
图6A和6B示意性地例示了实现本发明的编码设备和解码设备。 
具体实施方式
1编码器结构 
下面将对本发明在分级编码的具体应用中的实施例进行说明。可以回想一下,在这种方案中,分级编码在需编码的源音频信号的时间-频率变换(例如,经修改的离散余弦变换MDCT)的输出端确立了级联的感知量化间隔。 
下面将参考图4对按照本发明的这个实施例的编码器进行说明。源音频信号x(t)被直接或间接地变换到频域。确实,任选地,可以首先在编码步骤40将信号x(t)编码。这种类型的步骤由“核心”编码器实现。在这种情况下,第一编码步骤与第一分级编码级即初始级相应。这种类型的“核心”编码器可以实现编码步骤401和本地解码步骤402。于是,它给出表示以最低精细度的编码的音频信号的数据的第一比特流46。可以设想用各种编码技术来得到这个低比特率级,例如用参量编码方案,诸如在B.den Brinker、E.和W.Schuijers Oomen的“高质量音频参量编码”(“Parametric coding for high quality audio”,in Proc.112th AES Convention,Munich,Germany,2002)中所揭示的正弦编码,在M.Schroeder和B.Atal的“码激线性预测(CELP):极低比特率的高质量语音”(“Code-excited linear prediction(CELP):high quality speech at very low bit rates”,in Proc.IEEE Int.Conf.Acoust,Speech Signal Processing,Tampa,pp.937-9401985)中所揭示的CELP型分析-综合编码。 
将经本地解码器402解码的样本与x(t)的实际值相减(步骤403),得到时域内的残差信号r(t)。 
然后,在步骤41,将低比特率编码器40(或者说“核心”编码器)输出的这个残差信号从时间空间变换到频率空间。得到频域内的谱系数 
Figure GSB00000608769100091
这些系数表示“核心”编码器40给出的第一分级编码级的各个关键频带k的残差。 
下一个编码级42含有对残差 
Figure GSB00000608769100092
编码的步骤421,它与负责确定第一细化级的第一掩蔽曲线的心理听觉模型的实现422相关联。于是, 在编码步骤421的输出端得到经量化的残差系数 再将它从来自核心编码步骤40的原始系数 
Figure GSB00000608769100102
中减去(步骤423)。在下一级43的编码步骤431得到新的系数 
Figure GSB00000608769100103
并对其进行量化和编码。在这里也实施心理听觉模型432,根据先前量化的残差的系数 
Figure GSB00000608769100104
更新掩蔽门限。 
简明地说,基本编码步骤40(“核心”编码器)可以在一个终端处传输音频信号的一个低比特率版本和对这个版本解码。在变换域内对残差进行量化的后继级42、43构成了一些能构建一个从低比特率级到所希望的最大比特率的分级比特流的改善级。 
按照本发明,如图4所示,指示符ψ(1)、ψ(2)分别与相应量化级的编码级的心理听觉模型422、432关联。这个指示符的值对于每个量化级来说是特定的,控制对量化步长分布的计算的模式。它作为经量化的谱系数的442、452的帧的标题441和451安置在每个经改善的编码级42、43所形成的所关联的比特流44、45内。 
图3例示了按照这种编码技术得到的信号的结构的例子。信号组织成一系列各包括标题32和数据字段33的数据块或数据帧31。一个数据块例如与一个预定时隙的一个分级编码级的数据(包含在数据段33内的)相应。标题32可以包括一些有助于传信、解码等的信息片。按照本发明,它至少包括信息Ψ。 
2解码器结构 
下面将参考图5说明在对图3的信号进行分级解码的情况下按照本发明实现的解码方法。 
以与参考图4给出的编码方法类似的方式,解码包括若干解码细化级50、51、52。 
第一解码步骤501接收含有表示第一级在第一编码步骤期间确定的发送给解码器的指示符ψ(1)的数据530的比特流53。这个比特流还含有表示音频信号的谱系数的数据531。 
按照所接收的这些经量化的系数或经量化的系数残差和ψ(1)的 值,在第一级502实施心理听觉模型,以确定掩蔽曲线的第一估计,从而确定量化步长分布,供在解码方法的这一级处的解码器用来处理可得到的谱系数残差。 
所得到的每个关键频带k的谱系数残差 使得在步骤512可以更新下一级51的心理听觉模型,于是细化掩蔽曲线,从而细化量化步长分布。因此,这个细化考虑了级2的包含在相应编码器所发送的比特流54的标题540内的指示符ψ(2)的值、前一级的量化残差和与包含在比特流54内的与级2有关的经量化的数据541。 
在第二解码级51的输出端得到经量化的残差 
Figure GSB00000608769100112
残差 
Figure GSB00000608769100113
与前一级的残差 
Figure GSB00000608769100114
相加(56),此外还注入下一级52,类似,级52改善从解码步骤51和在步骤522的心理听觉模型的实现得到的谱系数和量化步长分布的精度。这一级还接收编码器发送的含有指示符ψ(3)的值55和经量化的频谱551的比特流55。 
所得到的经量化的残差 
Figure GSB00000608769100115
与残差 
Figure GSB00000608769100116
相加,诸如此类递推。 
总而言之,心理听觉模型随着系数被相继的细化级解码而更新。读出编码器所发送的指示符ψ,每个量化级就可以重建噪声分布(或量化步长分布)。 
下面将详细说明对于按照具体实施例的编码方法和解码方法来说是共同的对心理听觉模型和谱系数量化模型进行更新的步骤。然后,详细说明确定编码时所执行的指示符ψ的值的步骤,再说明在解码器内重建量化间隔的步骤。 
3心理听觉模型更新 
可以回想一下,心理听觉模型考虑了音频信号被人耳分解成的子频带,因此利用心理听觉信息可以确定掩蔽门限。这些门限用来确定谱系数的量化间隔。 
在本发明中,心理听觉模型更新掩蔽曲线的步骤(在编码方法的步骤422、432和在解码方法的步骤502、512、522实现)在选择量化步长分布上无论指示符ψ的值如何都保持不变。 
相反,心理听觉模型使用所更新的掩蔽曲线的方式却由指示符ψ的值而定,以确定为量化谱系数(或在前一细化级所确定的残差系数)所需的量化步长分布。 
在每个量化级l(在分级编码-解码系统的这个具体应用中),心理听觉模型使用所估计的音频信号x(t)的频谱 其中k表示时间-频率变换的频率附标。这个频谱在第一量化细化级用在核心编码器所实现的编码步骤的输出端可得到的数据初始化。在随后的量化级,根据在前一细化级的输出端的所量化的残差系数 
Figure GSB00000608769100122
按照式 
Figure GSB00000608769100123
Figure GSB00000608769100124
k=0,...,N-1更新频谱 其中N为变换在频域内的长度。 
通过将频谱 
Figure GSB00000608769100126
与心理听觉模型所得到的掩蔽模式进行卷积,就可以重建与信号x(t)关联的掩蔽门限。 
于是,得到在量化步骤l所估计的掩蔽曲线 作为与信号x(t)关联的掩蔽门限和绝对听觉曲线中最大的那个值。 
此外,编码和解码步骤各包括在首次根据核心编码器发送的数据实施心理听觉模型(编码方法的步骤422和解码方法的步骤502)期间对心理听觉模型初始化的步骤Init。 
可以根据所实现的核心编码器的类型设想若干方案,在附录中揭示了其中的一些例子。 
4量化谱系数 
在精确说明确定决定对量化步长分布的选择的指示符ψ的最佳值的技术前,首先详细说明本发明的在得知量化步长分布后计算需分配给量化音频信号的各个谱系数的比特数的方式。 
4.1二进制分配 
在这里所说明的是量化定律Q的一般情况,例如可以与将值四舍五入为最接近的整数相应。输入量化级l的残差系数 的经量化值 按照下式根据量化步长分布 
Figure GSB00000608769100131
得出: 
对于koffset(n)≤k≤koffset(n+1)和 
Figure GSB00000608769100133
对于koffset(n)≤k≤koffset(n+1)其中 
Figure GSB00000608769100134
是有整数值的系数,而koffset(n)为关键频带n的起始频率附标。 
这部分的系数gl相当于可以调整与由 
Figure GSB00000608769100135
给出的分布并行注入的量化噪声电平的恒定增益。 
在第一途径中,增益gl由分配环路确定,以便达到分配给各个量化级l的目标比特率。然后,增益gl在量化级的输出端的比特流内发送给解码器。 
在第二途径中,增益gl只是细化级l的函数,而这个函数对于解码器来说是已知的。 
4.2量化步长分布 
于是,本发明的编码和解码方法建议根据在若干编码技术或分布计算模式之间的选择确定量化步长分布 
Figure GSB00000608769100136
该选择由在比特流内发送的指示符ψ的值表示。根据这个指示符的值,或者全部发送或者部分发送甚至完全不发送量化步长分布。在这种情况下,量化步长分布在解码器内估计。 
量化级l所用的量化步长分布 
Figure GSB00000608769100137
根据本级可得到的掩蔽曲线和根据输入端的指示符ψ(l)计算。 
在一个具体实施例中,指示符ψ(l)编码成3个比特,以表示5种不同的对量化步长分布编码的技术。 
对于指示符ψ(l)的值=0的情况,不使用心理听觉模型所估计的 掩蔽曲线,量化步长分布是均匀的,遵从式 
Figure GSB00000608769100141
也就是说,在信噪比(SNR)意义上进行量化。 
对于指示符ψ(l)的值=1的情况,量化步长分布只根据绝对听觉门限按照式 
Figure GSB00000608769100142
给出,其中Qk为绝对听觉门限。 
在这种情况下,编码器不向解码器发送任何量化间隔的信息。 
对于指示符ψ(l)的值=2的情况,是在级l用心理听觉模型估计的掩蔽曲线 
Figure GSB00000608769100143
按照式 
Figure GSB00000608769100144
给出量化步长分布。可以注意到的是,这种模式只是在音频信号编码-解码系统内实现分级构建掩蔽曲线的特定应用中才是可行的。 
对于指示符ψ(l)的值=3的情况,量化间隔的分布根据可参量化和解码器已知的原型曲线给出。按照一个特定而非排它的应用,这个原型对于各个关键频带n是以dB计的仿射直线,斜率为α。可以将Dn(α)写成:log2(Dn(α))=αn+K,其中K为常数。 
通过与编码器根据对需编码的信号的谱分析计算得出的基准掩蔽曲线相关,选择斜率α的值。然后,将它的量化值 
Figure GSB00000608769100145
发送给解码器,用来按照式 
Figure GSB00000608769100146
给出量化步长分布。 
最后,对于指示符ψ(l)的值=4的情况,将编码步骤所确定的量化步长分布 
Figure GSB00000608769100147
完全发送给解码器。这些间隔值例如从编码器根据需编码的源音频信号计算得出的基准掩蔽曲线Mk得出。于是,就有: 
Δ n ( l ) = Σ k = kOffset ( n ) kOffset ( n + 1 ) - 1 M k .
5确定指示符ψ的值 
本发明提出了一种明智地选择指示符的值从而也就是选择需用来对音频信号编码和解码的量化步长分布的具体技术。在每个量化级l(在分级编码的情况下)的编码步骤都进行这种选择。 
确实,众所周知,在给定的量化级,就在需编码的信号与所重建 的信号之间所感知的失真来说最佳的量化步长分布可以通过计算基于心理听觉模型和由式 
Figure GSB00000608769100151
给出的基准掩蔽曲线得到。选择指示符ψ的值在于在就所感知的失真来说量化步长分布的优化与使分配给发送量化步长分布的比特率最小之间寻求最有效的折衷。 
为了得到这种类型的折衷引入成本函数 
C ( ψ ) = d ( Δ n ( l ) ( ψ ) , Δ n ( l ) ( ψ = 4 ) ) + θ ( ψ )
其中,ψ=0,1,2,3,4。 
这个函数用来考虑对量化步长分布编码的各种技术的效率。 
第一项 
Figure GSB00000608769100153
为与指示符ψ的每个所考虑的值(ψ=0,1,2,3,4)关联的量化步长分布与最佳分布(与指示符ψ的值=4关联,相当于基准掩蔽曲线的传输)之间的距离的度量。可以测量这个距离,作为以比特计的与使用“亚最佳”掩蔽分布关联的过分成本。这个成本函数按照下式计算: 
d ( Δ n ( l ) ( ψ ) , Δ n ( l ) ( ψ = 4 ) )
= Σ n | log 2 ( Δ n ( l ) ( ψ ) ) - log 2 ( Δ n ( l ) ( ψ = 4 ) ) - log 2 ( G 1 G 2 ) |
其中: G 1 = Σ n Δ n ( l ) ( ψ ) , G 2 = Σ n Δ n ( l ) ( ψ = 4 ) .
增益G1与G2之比可用来对量化步长分布相互标准化。 
第二项θ(ψ)表示与量化步长分布 
Figure GSB00000608769100158
的发送关联的以比特计的过分成本。也就是说,它表示必须发送给解码器以便重建量化间隔的附加比特数(除了对指示符ψ编码的以外)。也就是说: 
对于ψ=0,1,2(分别与在解码步骤期间所重新评估的对恒定量化、绝对听觉门限和掩蔽曲线编码的技术相应)的情况,θ(ψ)为零; 
在ψ=3时(与对量化步长分布进行参量编码的技术相应), θ(ψ)表示对 
Figure GSB00000608769100161
编码的比特数;以及 
在ψ=4时(与编码器将量化间隔完全发送给解码器相应),θ(ψ)为根据基准曲线给出的量化间隔 
Figure GSB00000608769100162
进行编码的比特数。 
6解码方法期间量化间隔的重建 
量化步长分布的重建在量化级l根据解码器所发送的数据执行。 
无论选来对量化间隔编码的是什么技术,即无论指示符ψ(l)的值是什么,解码器首先对作为接收到的比特流的每个帧的标题所给出的这个指示符的值进行解码,再读出调整增益gl的值。然后,按照指示符的值区别对待,情况如下: 
如果ψ(l)=4,解码器读出全部的量化间隔 
Figure GSB00000608769100163
如果ψ(l)=3,读出 再在解码器按照先前所引入的式子 
Figure GSB00000608769100165
计算量化步长分布; 
如果ψ(l)=2,解码器根据在这级l重建的掩蔽曲线 
Figure GSB00000608769100166
按照先前所引入的式子 
Figure GSB00000608769100167
计算量化间隔的分布(递推构建); 
如果ψ(l)=1,解码器按照先前所引入的基于绝对听觉门限的式子 
Figure GSB00000608769100168
计算量化步长分布:以及 
如果ψ(l)=0,解码器按照先前所引入的式子 计算量化步长分布。 
一旦在解码步骤计算出这些量化间隔、解码出在比特流内发送的先前引入的系数 
Figure GSB000006087691001610
(相对频谱系数的有效负载数据或它们的残差值),就可以按照在相对于二进制分配的本说明书第5.1节中所引入的式子得到级l的残差系数的量化值 
Figure GSB000006087691001611
7实现设备 
本发明的方法可以用结构如图6A所示的编码设备实现。 
这样的设备包括存储器M 600、配有例如微处理器和由计算机程序Pg 602驱动的处理单元601。初始化时,计算机程序602的代码指令例如装入RAM后由处理单元601的处理器执行。输入时,处理单元601接收需编码的源音频信号603。处理单元601的微处理器μP按照程序Pg 602的指令实现以上所说明的编码方法。处理单元601输出比特流604,它包括表示经编码的源音频信号的经专门量化的数据、表示量化步长分布的数据和表示指示符ψ的数据。 
本发明还提出了一种按照本发明的对表示源音频信号的编码的信号进行解码的设备,图6B示意性地例示了这种设备的原理性结构。这种设备包括存储器M 610,和配有例如微处理器并由计算机程序Pg612驱动的处理单元611。初始化时,计算机程序612的代码指令例如装入RAM后由处理单元611的处理器执行。输入时,处理单元611接收比特流613,它包括表示经编码的源音频信号的数据、表示量化步长分布的数据和表示指示符ψ的数据。处理单元601的微处理器μP按照程序Pg 612的指令实现解码方法,给出所重建的音频信号612。 
附录 
心理听觉模型可以以若干方式初始化,这取决于在初级编码步骤所实现的“核心”编码器。 
1根据正弦编码器发送的参数初始化 
正弦编码器将音频信号模型化为具有时变频率和振幅的一系列正弦波之和。频率和振幅的量化值发送给解码器。从这些值,可以构建信号的正弦分量的频谱 
Figure GSB00000608769100181
2根据CELP编码器发送的参数初始化 
根据由CELP(码激线性预测)编码器量化和发送的LPC(线性预测编码)系数am,可以按照下式得出包络频谱: 
X ^ k ( 0 ) = 1 | 1 - Σ m = 1 P a m exp ( - j 2 πmk N ) | 2
其中,N为变换的长度,而P为由CELP编码器发送的LPC系数的个数。 
3根据在核心编码器输出端解码的信号初始化 
初始频谱 可以简单地根据对在核心编码器输出端解码的信号的短期谱分析进行估计。 
还可以设想将这些初始化方法组合在一起。例如,可以通过将按照上式给出的LPC包络频谱相加、从根据CELP编码器编码的残差估计的短期频谱得出初始频谱 

Claims (14)

1.一种对源音频信号进行编码的方法,其特征在于包括下列步骤:
按照至少两个不同的编码技术对表示所述源音频信号的至少一个变换的系数的量化步长分布进行编码,给出表示量化步长分布的至少两个数据组;
根据选择准则选择表示量化步长分布的所述数据组中的一个数据组,所述选择准则在要被编码的所述源音频信号和分别基于所述数据组重建的信号之间的所感知的失真和编码所述数据组所需的比特率之间进行折衷,所述选择准则是通过比较基于要被编码的所述源音频信号而估计的基准掩蔽曲线和所述数据组而获得的;以及
发送和/或存储所选择的表示量化步长分布的所述数据组和表示相应的编码技术的指示符。
2.按照权利要求1所述的方法,其特征在于:对于至少所述编码技术中的第一编码技术,所述表示量化步长分布的数据组与所述量化步长分布的参数表示相应。
3.按照权利要求2所述的方法,其特征在于:所述参数表示由至少一段由斜率和原点值表征的直线形成。
4.按照权利要求1至3中任一项所述的方法,其特征在于:所述编码技术中的第二编码技术给出恒定的量化步长分布。
5.按照权利要求1所述的方法,其特征在于:按照第三编码技术,所述量化步长分布与绝对听觉门限相应。
6.按照权利要求1所述的方法,其特征在于:按照第四编码技术,所述表示量化步长分布的数据组包括所有所实施的量化间隔。
7.按照权利要求1所述的方法,其特征在于:所述编码实现分级处理,给出包括一个初级和至少一个细化级的至少两个分级编码级,所述细化级包括对所述初级或前一细化级进行细化的信息。
8.按照权利要求7所述的方法,其特征在于:按照第五编码技术,所述表示量化步长分布的数据组在给定细化级通过考虑前一分级编码级所构建的数据得出。
9.按照权利要求7所述的方法,其特征在于:所述选择步骤在每个分级编码级执行。
10.按照权利要求1所述的方法,其特征在于:所述方法给出一些系数帧,为每个帧执行所述选择步骤。
11.一种对源音频信号进行编码的设备,其特征在于包括:
按照至少两个不同的编码技术对表示所述源音频信号的至少一个变换的系数的量化步长分布进行编码、给出表示量化步长分布的至少两个数据组的装置;
按照选择准则选择表示量化步长分布的所述数据组中的一个数据组的装置,所述选择准则在要被编码的所述源音频信号和分别基于所述数据组重建的信号之间的所感知的失真和编码所述数据组所需的比特率之间进行折衷,所述选择准则是通过比较基于要被编码的所述源音频信号而估计的基准掩蔽曲线和所述数据组而获得的;以及
发送和/或存储所选择的表示量化步长分布的所述数据组和表示相应的编码技术的指示符的装置。
12.一种对表示源音频信号的包括表示量化步长分布的数据组的经编码信号进行解码的方法,其特征在于包括下列步骤:
从所述经编码信号提取:
表示在编码时根据选择准则从至少两个可用技术中选出的一个对所实现的量化步长分布进行编码的技术的指示符,所述选择准则在所述源音频信号和分别基于表示量化步长分布的数据组重建的信号之间的所感知的失真和编码所述数据组所需的比特率之间进行折衷,所述选择准则是在编码时通过比较基于源音频信号而估计的基准掩蔽曲线和所述数据组而获得的,以及
表示所述按照所选出的编码技术编码的量化步长分布的数据组;以及
根据所述数据组和由所述指示符标明的编码技术重建所述量化步长分布。
13.按照权利要求12所述的方法,其特征在于包括考虑所述重建的量化步长分布构建表示所述源音频信号的重建音频信号的步骤。
14.一种对表示源音频信号的包括表示量化步长分布的数据组的经编码信号进行解码的设备,其特征在于包括:
从所述经编码信号提取下列各项的装置:
表示在编码时根据选择准则从至少两个可用技术中选出的一个对所实现的量化步长分布进行编码的技术的指示符,所述选择准则在所述源音频信号和分别基于表示量化步长分布的数据组重建的信号之间的所感知的失真和编码所述数据组所需的比特率之间进行折衷,所述选择准则是在编码时通过比较基于源音频信号而估计的基准掩蔽曲线和所述数据组而获得的,以及
表示所述按照所选出的编码技术编码的量化步长分布的数据组;以及
根据所述数据组和由所述指示符标明的编码技术重建所述量化步长分布的装置。
CN200780015598.XA 2006-03-13 2007-03-12 对源音频信号进行编码的方法和相应的编码设备、解码方法和设备 Active CN101432804B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0602179A FR2898443A1 (fr) 2006-03-13 2006-03-13 Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants
FR0602179 2006-03-13
PCT/FR2007/050915 WO2007104889A1 (fr) 2006-03-13 2007-03-12 Procede de codage d'un signal audio source, dispositif de codage, procede et dispositif de decodage, signal, produits programme d'ordinateur correspondants

Publications (2)

Publication Number Publication Date
CN101432804A CN101432804A (zh) 2009-05-13
CN101432804B true CN101432804B (zh) 2013-01-16

Family

ID=36996146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200780015598.XA Active CN101432804B (zh) 2006-03-13 2007-03-12 对源音频信号进行编码的方法和相应的编码设备、解码方法和设备

Country Status (7)

Country Link
US (1) US8224660B2 (zh)
EP (1) EP1997103B1 (zh)
JP (1) JP5192400B2 (zh)
CN (1) CN101432804B (zh)
AT (1) ATE524808T1 (zh)
FR (1) FR2898443A1 (zh)
WO (1) WO2007104889A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
DE112010005020B4 (de) * 2009-12-28 2018-12-13 Mitsubishi Electric Corporation Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
US9450812B2 (en) 2014-03-14 2016-09-20 Dechnia, LLC Remote system configuration via modulated audio
EP3413306B1 (en) * 2014-03-24 2019-10-30 Nippon Telegraph and Telephone Corporation Encoding method, encoder, program and recording medium
CN106653035B (zh) * 2016-12-26 2019-12-13 广州广晟数码技术有限公司 数字音频编码中码率分配的方法和装置
US10966033B2 (en) 2018-07-20 2021-03-30 Mimi Hearing Technologies GmbH Systems and methods for modifying an audio signal using custom psychoacoustic models
US10455335B1 (en) * 2018-07-20 2019-10-22 Mimi Hearing Technologies GmbH Systems and methods for modifying an audio signal using custom psychoacoustic models
EP3614380B1 (en) 2018-08-22 2022-04-13 Mimi Hearing Technologies GmbH Systems and methods for sound enhancement in audio systems
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
CN113904900A (zh) * 2021-08-26 2022-01-07 北京空间飞行器总体设计部 一种实时遥测信源分阶相对编码方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657420A (en) * 1991-06-11 1997-08-12 Qualcomm Incorporated Variable rate vocoder
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
CN1731694A (zh) * 2004-08-04 2006-02-08 上海乐金广电电子有限公司 数字音频编码方法以及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
JP3341474B2 (ja) * 1994-07-28 2002-11-05 ソニー株式会社 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
JP3304739B2 (ja) * 1996-02-08 2002-07-22 松下電器産業株式会社 ロスレス符号装置とロスレス記録媒体とロスレス復号装置とロスレス符号復号装置
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US6499010B1 (en) * 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
JP2003195894A (ja) * 2001-12-27 2003-07-09 Mitsubishi Electric Corp 符号化装置、復号化装置、符号化方法、及び復号化方法
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
JP4212591B2 (ja) * 2003-06-30 2009-01-21 富士通株式会社 オーディオ符号化装置
US7383180B2 (en) * 2003-07-18 2008-06-03 Microsoft Corporation Constant bitrate media encoding techniques
JP4091506B2 (ja) * 2003-09-02 2008-05-28 日本電信電話株式会社 2段音声画像符号化方法、その装置及びプログラム及びこのプログラムを記録した記録媒体
DE102004009955B3 (de) * 2004-03-01 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln einer Quantisierer-Schrittweite
JP4301092B2 (ja) * 2004-06-23 2009-07-22 日本ビクター株式会社 音響信号符号化装置
WO2006054583A1 (ja) * 2004-11-18 2006-05-26 Canon Kabushiki Kaisha オーディオ信号符号化装置および方法
US7668715B1 (en) * 2004-11-30 2010-02-23 Cirrus Logic, Inc. Methods for selecting an initial quantization step size in audio encoders and systems using the same
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
JP2007183528A (ja) * 2005-12-06 2007-07-19 Fujitsu Ltd 符号化装置、符号化方法、および符号化プログラム
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5657420A (en) * 1991-06-11 1997-08-12 Qualcomm Incorporated Variable rate vocoder
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
CN1731694A (zh) * 2004-08-04 2006-02-08 上海乐金广电电子有限公司 数字音频编码方法以及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Christophe Veaux, et al..Scalable audio coding with iterative auditory masking.《AES 120TH CONVENTION》.2006,1119-1124. *
Jin Li, et al..EMBEDDED AUDIO CODING(EAC) WITH IMPLICIT AUDITORY MASKING.《PROCEEDINGS ACM MULTIMEDIA 2002. 10TH. INTERNATIONAL CONFERENCE ON MULTIMEDIA》.2002,第10卷592-601. *

Also Published As

Publication number Publication date
EP1997103B1 (fr) 2011-09-14
US8224660B2 (en) 2012-07-17
US20090083043A1 (en) 2009-03-26
ATE524808T1 (de) 2011-09-15
CN101432804A (zh) 2009-05-13
WO2007104889A1 (fr) 2007-09-20
EP1997103A1 (fr) 2008-12-03
FR2898443A1 (fr) 2007-09-14
JP2009530653A (ja) 2009-08-27
JP5192400B2 (ja) 2013-05-08

Similar Documents

Publication Publication Date Title
CN101432804B (zh) 对源音频信号进行编码的方法和相应的编码设备、解码方法和设备
CN100454389C (zh) 声音编码设备和声音编码方法
JP5219800B2 (ja) コード化されたオーディオの経済的な音量計測
CN101836251B (zh) 使用mdct频谱的组合编码的可缩放的语音和音频编码
KR101251790B1 (ko) 노이즈 필러, 노이즈 필링 파라미터 계산기, 오디오 신호의 노이즈-필드된 스펙트럴 표현을 제공하는 방법, 노이즈 필링 파라미터를 제공하는 방법, 저장 매체
EP2186087B1 (en) Improved transform coding of speech and audio signals
US5692102A (en) Method device and system for an efficient noise injection process for low bitrate audio compression
CN101933086B (zh) 处理音频信号的方法和设备
US20130218577A1 (en) Method and Device For Noise Filling
CN102144392A (zh) 用于多信道编码和解码的方法及设备
US20030233236A1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US9546924B2 (en) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
US20070198274A1 (en) Scalable audio coding
US20210366499A1 (en) Low-complexity tonality-adaptive audio signal quantization
Huang et al. Lossless audio compression in the new IEEE standard for advanced audio coding
US20020156619A1 (en) Audio coding
CN102893330B (zh) 用于处理音频信号的方法和装置
CN101350199A (zh) 音频编码器及音频编码方法
CN101071570B (zh) 耦合声道的编、解码处理方法、音频编码装置及解码装置
KR100911994B1 (ko) Hht를 이용한 음성 및 오디오 신호의 부호화/복호화장치 및 방법
Bhatt et al. Implementation of variable bitrate data hiding techniques on standard and proposed GSM 06.10 full rate coder and its overall comparative evaluation of performance
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JPH1078797A (ja) 音響信号処理方法
WO2009136872A1 (en) Method and device for encoding an audio signal, method and device for generating encoded audio data and method and device for determining a bit-rate of an encoded audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant