CN1266673C

CN1266673C - 可伸缩音频编码的有效改进

Info

Publication number: CN1266673C
Application number: CNB028285220A
Authority: CN
Inventors: S·施特赖希; M·维莱尔莫
Original assignee: Nokia Oyj
Current assignee: HMD Global Oy
Priority date: 2002-03-12
Filing date: 2002-03-12
Publication date: 2006-07-26
Anticipated expiration: 2022-03-12
Also published as: DE60214599D1; WO2003077235A1; KR100711989B1; AU2002246280A1; EP1483759A1; DE60214599T2; US20030220783A1; EP1483759B1; CN1623185A; KR20040105741A; US7277849B2

Abstract

一种将音频信号编码成具有第一层和第二层的分层数据流的音频编码方法。第二层用于增强第一层。该方法包括：形成原始数字音频信号(300)；对原始数字音频信号编码以获得第一层信号(310)；生成剩余信号(336)以反映原始信号与第一层信号之间的差值；选择原始信号或剩余信号来编码；以及通过对所选信号编码而得到第二层信号。此外，对剩余信号(336)进行评估，如果评估结果满足给定判据，则选择预定的低熵信号以将其编码成第二层信号，而不选择原始信号或剩余信号。

Description

可伸缩音频编码的有效改进

发明领域

本发明涉及一种将音频信号编码成具有第一层和第二层的分层数据流的音频编码方法，其中，所述第二层用于增强所述第一层。更具体地说，本发明涉及一种音频编码方法，其中，将原始数字音频信号编码以获得第一层信号，生成反映原始信号和第一层信号之差的剩余信号，并选择原始信号或剩余信号以便将其编码成第二层信号。

背景技术

音频即声学能量本质上是模拟的。但是，将音频表示成数字形式对于存储或传输均很方便。通过对模拟音频信号采样和数字化而获得的纯数字音频数据需要很大的存储空间和信道带宽，对高质量音频尤其如此，高质量音频例如可以按采样频率为44kHz、每样本16比特(普通的音频CD质量)的形式来表示。因此，数字音频通常是按各种已知的信源编码技术来压缩的。

感觉音频编码技术、如MPEG层-3(MP3)、MPEG-2和MPEG-4均利用了人耳的信号掩蔽特性来减少数据量。这样，就将量化噪声分散到各频率子带，从而被总信号所掩蔽，即噪声仍然是不可闻的。可以在几乎没有或几乎察觉不到音频质量下降的情况下大大减少存储容量。

感觉音频编码技术通常是可伸缩的，可生成具有基础层和至少一个增强层的分层比特流。这可实现比特率伸缩，即在解码器侧以不同的音频质量等级解码或通过流量整形或调节而降低网络中的比特率。一种方法是提供纯单声道的基础层编码并提供在音频中增加立体声质量的增强层编码。这样，可以在解码器侧选择仅对基础层信息解码(例如，如果解码器侧的接收装置只有一个扬声器)，或者选择同时对基础层信息以及增强层信息解码以生成立体声声音。

在可伸缩音频编码环境中，“基础层”和“核心层”是同义词。

ISO/IEC 14496-3：2001(E)的子部分4中描述了一部分MPEG-4音频标准，并提出了一种MPEG-4兼容的核心编解码器或CELP(码激励线性预测)类型的外部核心编解码器与AAC(高级音频编码)增强层编解码器的结合方式，以提供高效的比特率可伸缩性。

AMR-MB(自适应多速率宽带)语音编解码器是CELP型的编解码器的一个实例，该编解码器将用于第三代移动终端中，在第三代合作计划(3GPP)TS 26.190 V5.0.0(2001-03)中对此有所描述。

在所述MPEG-4音频标准中提及的可伸缩音频编码装置中，增强层编码器中的频率选择切换单元(FSSU)估计对原音频信号或剩余信号编码所需的比特量，所述剩余信号通过将原始信号从前一层(核心层)的重建输出信号中减去而导出。FSSU总是选择需要较少比特进行编码的备选者。此决定分别针对各个频率子带(即针对表示信号的各固定谱线组)作出。为了允许解码器侧的重建，编码器必须发送FSS控制信息，以指示对应于每个音频帧中的每个子带选中了两个备选者中的哪一个。根据此控制信息，随后将来自增强层解码器的输出信号加到仅在剩余信号已被编码的那些子带中的核心层解码器的输出上。

然而，本发明人已认识到类似于上述的可伸缩音频编码装置的如下问题。具体而言，对于低比特率和中等比特率(例如在12kbps-24kbps的范围内)，有时没有足够多的比特可供以一种使量化误差保持不可察觉的方式来对增强信号编码。在解码器侧，装置误差听起来像噼啪声、爆裂声等，因而非常令人讨厌。实际上，与单独的核心层输出信号相比，所述误差甚至导致可察觉质量的下降。

在现有技术中，为了防止这种效应，或者必须冒损失可闻信息的风险来限制编码频率范围，或者必须提高增强层编解码器的比特率，提高比特率可能不是所期望的，考虑到可用的网络带宽，甚至可能是不可行的。

发明内容

鉴于以上论述，本发明的目的就是解决上述问题或至少减轻上述问题，并以与现有技术同样或低得多的比特率提供改善的声音质量。

一般而言，以上目的是通过如所附独立专利权利要求书所述的一种音频编码方法、音频编码器、音频码变换器、音频解码器、计算机程序产品、集成电路和用于移动电信网的站来实现的。

简单地说，所述目的是这样实现的：除了在现有技术中选择使用剩余信号或原始信号以外，还考虑用于对增强层信号进行编码的其它替代选择。在优选实施例中，所述替代选择包括对于某些频率子带直接将核心层的输出信号作为增强层的输出。这是以如下方式来实现的：用零值或另一类似的低熵信号替换剩余信号，并通过所述FSS控制信息指示所述子带的剩余信号已编码。因此，解码器侧不需要任何额外的开销；如果FSS控制信息指示剩余信号已编码以及对应的频率子带已在编码器中用零值替换，则对于这些子带，将加上解码器中核心层的输出信号，从而将零值替换。

本发明具有至少两个主要优点：

第一，本发明可用于确保量化引起的误差从不大于只使用前一层所引起的误差。此外，因为量化引起的可闻误差非常令人讨厌，所以当前层的编码器可能被迫仅在那些可以确保掩蔽量化误差的频率子带中利用非零值进行编码。此外，可采用“频带分裂”方法，根据此方法，对于低端频率范围，前一层的输出信号完全不加修改，而增强层编解码器将只对该低端频率范围以上的一些附加高频分量编码。此方法尤其适用于包含语音的样本和适于执行语音编码的核心层编解码器；

其次，本发明可减少增强层编码过程中所需的比特数。甚至在最坏情况下，与对一个含非零值的频率子带编码相比，对一个只含零值的频率子带编码通常也会节省一些比特。在某些实验中发现，根据本发明的这一方面，可以节省大约总比特率的10％。此第二优点可用于降低增强层编解码器的比特率或减少同一帧中其它频率子带的量化误差。

除了上述发明内容，本发明人设想，如果将编码器和解码器设计成以有效方式分别对零值进行编码和解码，就可对音频信号进行更快的编码和解码。

参考如下详细公开、所附相关权利要求书以及附图，可清楚本发明的其它目的、特征和优点。

附图说明

现在将更详细地描述本发明的优选实施例，其中要参考附图，附图中：

图1是可应用本发明的电信系统的示意图；

图2是说明图1所示系统的一些部件的示意框图；

图3是根据优选实施例的可伸缩音频编解码器的示意框图；

图4显示了一种示例性谱音频帧格式，它具有多个频率子带，并可用于本发明；

图5显示了一种频率选择切换(FSS)数组，它用于指示图4所示音频帧的不同频率子带的编码音频信号的来源；

图6简要地说明根据优选实施例，以最小量化误差和最佳比特率对音频信号进行量化的主要步骤；

图7说明用于执行图6所示量化过程的改进的AAC速率/失真控制环路。

实施例的详细说明

图1是可应用本发明的电信系统的示意图。在图1所示系统中，可以借助不同的网络110、120和130在不同的单元100、112、122和132之间传送音频数据。音频数据可以表示语音、音乐或任何其它类型的声学信息。因此，语音可以从固定电话132的用户通过公用交换电话网(PSTN)130和移动电信网110，经移动电信网110的基站104，通过无线通信链路102传送到移动电话100，反之亦然。该移动电话可以是市场上可购得的用于任何已知移动电信系统，如GSM、UMTS或D-AMPS的装置。

而且，存储在数据库124中的数字化的编码音乐可以从服务器122经因特网120和移动电信网110传送到移动电话100或可访问移动电信网110的另一便携式装置112。便携式装置112可以是例如个人数字助理、具有GSM或UMTS接口的膝上型计算机、智能手持机或此类装置的另一附件等。服务器122所提供的音频数据可以不存储在数据库124中，而是直接从光学存储装置，如CD或DVD中读取。而且，服务器122可以连接到或包括于无线电广播电台中，以便通过因特网120向便携式装置100、112提供流式音频服务。

因此，图1所示的系统仅用于举例，在本发明范围内，也可能存在在不同单元之间传送音频数据的其它各种情况。

图2是移动音频数据传输系统的一般框图，包括移动终端250和网站200。例如，移动终端250可以表示图1所示的移动电话100，而网站200可表示图1中移动电信网110的基站104。

移动终端250可通过传输信道206(例如图1中的移动电话100和基站104之间的无线链路102)传送到网络站200。麦克风252接收来自移动终端250的用户的声音输入并将该输入转换为对应的模拟电信号，此信号提供给音频编码/解码单元260。此单元含音频编码器262和音频解码器264，它们共同构成音频编解码器。模拟麦克风信号经滤波、采样和数字化，然后由音频编码器262执行适用于移动电信网的音频编码。音频编码/解码单元260的输出提供给信道编码/解码单元270，其中，信道编码器272将根据移动电信网中适用的标准对编码音频信号执行信道编码。

信道编码/解码单元270的输出提供给射频(RF)单元280，该单元包括RF发送器282、RF接收器284以及一个天线(未在图2中示出)。如本技术领域所熟知，RF单元280包括各种电路，如功率放大器、滤波器、本地振荡器和混频器，它们将共同把编码音频信号调制到载波上，载波以电磁波形式从移动终端250的天线发射出去。

在经信道206传送之后，传输的RF信号及其中所含的编码音频数据由网络站200中的RF单元230接收。类似于移动终端250中的单元280，RF单元230包括RF发送器232及RF接收器234。接收器234以基本上与上述发送器282所执行的过程相反的方式接收并解调所接收的RF信号，并将输出提供给信道编码/解码单元220。信道解码器224将接收信号解码并把输出提供给编码/解码单元220，其中，音频解码器214对原来由移动终端250中的音频编码器262编码的音频数据进行解码。经解码的音频输出204(例如PCM信号)可以在移动电信网110内转发(以传送到系统中所包括的另一移动终端)或者可以转发到例如PSTN 130或者因特网120。

当音频数据沿相反方向传送，即从网络站200到移动终端250传送时，由音频编码/解码单元210的音频编码器212接收来自例如服务器122或固定电话132的音频输入信号202(如PCM信号)。在对该音频输入信号应用编码之后，由信道编码/解码单元220中的信道编码器222执行信道编码。然后，由RF单元230中的发送器232将编码音频信号调制到载波上，经信道206传送到移动终端250中的RF单元280的接收器284。接收器284的输出提供给信道编码/解码单元270的信道解码器274，在其中解码并转发给音频编码/解码单元260的音频解码器264。音频数据经音频解码器264解码，最终转换成模拟信号，该模拟信号经过滤波提供给麦克风254，麦克风254将把传来的音频信号以可闻的形式呈给移动终端250的用户。

众所周知，移动终端250的音频编码/解码单元260、信道编码/解码单元270以及RF单元280的操作由控制器290控制，控制器290具有相关联的存储器292。对应地，网络站200的音频编码/解码单元210、信道编码/解码单元220以及RF单元230的操作由具有相关存储器242的控制器240控制。

图3更详细地显示了图2所示的音频编码器262。在优选实施例中，音频编码器262包括AMR-WB核心层编解码器304(属于CELP类型)以及AAC增强层编解码器(由图3所示的大多数部件构成)。优选实施例的增强层是MPEG-4AAC编解码器；但在本发明范围内，可将MPEG-2 AAC编解码器、ISO/MPEG音频层-3(MP3)编解码器或任何其它采用例如离散余弦变换或小波变换工作的频率变换编解码器用作增强层编解码器。如何选择核心层编解码器不是本发明的中心；可以不采用AMR-WB CELP编解码器304而采用其它各种已知的编解码器(最好是但不一定是CELP类型)，包括但不限于MP3、AAC、AMR-NB(自适应多速率窄带)或EFR(增强全速率)编解码器。

包括CELP核心层编码以及AAC增强层编码的可伸缩音频编码实际上是本技术领域所熟知的；因此这里无需作详细说明。可参考例如ISO/IEC 14496-3：2001(E)子部分4。此外，AMR-WB CELP编解码器在第三代合作计划(3GPP)TS 26.190 V5.0.0(2001-03)中有描述。因此，为清楚起见，图3不是AMR-WB CELP核心层和AAC增强层音频编码器的完整示意图，而是用于说明本发明的核心方面。因而图3中已省略了AAC增强层编解码器的一些音频编码部件，例如：

TNS(时间噪声整形)。此部件对待编码音频信号的时间包络进行平滑处理，以控制编码噪声的精细时间结构。

LTP(长期预测)和预测。此部件通过预测减少音频信号的冗余度。

PNS(可察觉噪声替换)。此部件提供类噪声信道的有效表示。

M/S(中/侧立体声)。此部件增强立体声的镜像质量，并在一定程度上改善编码效率。

如图所示，音频编码器接收数字非压缩音频输入信号300，如PCM信号或者本质上可以是本技术领域已知的其它任何数字音频信号。所述音频信号可以例如由图1中的音乐或无线电广播流式服务器122提供，由PSTN 130以语音信号的形式提供，如此等等。或者如本技术领域技术人员容易理解的那样，音频编码器可适于接收来自例如麦克风的模拟电信号，并通过常规的A/D转换将该模拟信号转换成数字信号。

在优选实施例中，逐帧执行音频编码，其中，每个帧在预定时间间隔，如10毫秒内包括多个音频样本。相邻帧的音频样本可以是不重叠的或者是部分重叠的。

输入信号300提供给感觉模型330，其用途下面将会予以说明。此外，输入信号300还以如下方式提供给核心层编解码器304。首先，在部件302中对输入信号300进行向下采样(down sample)，以将采样频率变换为适合于核心层编解码器304。随后，在部件306中执行核心层编码，并在部件312中将核心层输出310连同增强层编解码器的输出370多路复用，以形成编码音频输出流314，随后在图2所示的部件222中对该输出流进行信道编码。

此外，核心层编解码器304在部件308中对编码的核心层信号解码并在部件316中对解码结果进行向上采样(up sample)，以便得到重建的核心层信号318，此信号是经核心层编码和解码之后的信号表示。类似于所有感觉音频编码，核心层编解码器304会在音频数据中引入一些失真。因此，重建的核心层信号318不会与原输入信号300相同。

原输入信号300在滤波器组320中变换成频域中的对应信号324。相应地，重建的核心层信号318在滤波器组322中变换到频域。滤波器组320和322即便在图3中显示为分立的部件，但它们可以实现为一个公用的滤波器组，该滤波器组应用符合MPEG-4标准的改进的离散余弦变换(MDCT)。

如图3中虚线328所示，必要时滤波器组320、322可以可选地由感觉模型330的输出控制，以便缩减滤波器组的窗口长度。滤波器组320和322中的MDCT变换可生成具有多个频率子带的谱音频帧。图4显示了这种音频帧的一个示例400，它具有49个子带，即401、402、...、449，共有1024个MDCT系数。这些子带可以是部分重叠的，或者可以是不重叠的。如图4所示，较低频率子带每个子带所具有的MDCT系数比较高频率子带少。经变换的原始信号324馈送给频率选择切换单元(FSSU)332以及减法单元334，减法单元334还接收经过变换的核心层信号326。减法单元334通过从原始信号324的MDCT系数中减去核心层信号326的MDCT系数而得到剩余信号336。剩余信号336提供给FSSU 332，作为由核心层编解码器304引起的误差的指示。

对于谱音频帧400的每个子带401-449，FSSU 332分别计算原始信号324和剩余信号332的感觉熵338、340。涉及对各子带编码所需的估计比特量的感觉熵可以计算为：

其中，可以根据本技术领域熟知的各种方式中的任何一种来计算信号能量。掩蔽门限由感觉模型330提供，表示这样一种极限，在该极限以下，子带内容对人耳而言是不可闻的。掩蔽门限也可以各种方法来确定，其中一种在Wang Y.和Vilermo M.所著的“AnExcitation Level Based Psychoacoustic Model for Audio Compression”(the 7th ACM International Multimedial Conference，Ocotober 30 toNovember 4，1999 Orlando，Florida，USA)论文中描述，该论文这里通过引用结合于本文中。

在部件342中，FSSU 332将计算得到的感觉熵338、340进行比较，以确定信号324和336中哪一个信号具有最小的感觉熵(并因而在具有同样质量的前提下需要较少的比特来编码)，并相应地将图5所示的FSS数组500中的各控制信息标志501-549置位。因此，针对不同的子带401-449，根据FSSU 332，在部件344和346中分别选用原始信号324或剩余信号336，从而分别形成相应的输出360和362。音频帧400的每个子带401-449具有各自相应的标志501-549，各标志最好用一个二进制位表示。FSS数组将与编码音频数据310、370一起在多路复用比特流314中传送到接收端，以在解码器对收到的编码音频数据解码时向其指示是否要将增强层信号加到核心层信号中。

通过将各频率子带401-449的原始信号324/360或剩余信号336/362的MDCT系数拷贝到一个具有图4所示格式的公共帧数组中，根据FSSU数组500中的比特位设置，从而组成FSSU 332的输出。所组成的输出对应于普通的AAC增强层编解码器，被提供给速率/失真控制过程348，此过程将在后面参照图6和图7作更详细的说明。

除了以上所述，根据优选实施例，还针对当前的频率子带401-449，并行地将剩余信号336与掩蔽门限350作比较，如部件356所示。如果确实发现剩余信号低于掩蔽门限，则这意味着核心层编解码器304引起的误差在当前频率子带内是不可闻的。因此，在这种情况下，在此特定频率子带中只将零值作为增强信号编码就已经足够了，如部件358和364所示。此条件具有最高优先级，可使感觉熵计算的输出360/362的控制作用无效，从而还有利于稍微加快后续量化过程的计算。

此外，在部件352和354中，针对每个频率子带401-449计算掩蔽门限350和剩余信号334之间的差值。为了提高精度，可以将快速傅立叶变换(FFT)而非MDCT系数用于此计算。其结果对每帧400累加，以反映核心层质量的量度，即指示核心层编解码器304在核心层对音频输入信号300编码时性能的好或坏。如后面将要描述的那样，对于每个帧，核心层质量量度将用作乘法因子(参见图7中的步骤710)，在部件348所示的后继量化过程中先于量化误差与剩余信号作比较之前应用于量化误差。

下面将参照图6和图7，描述按照优选实施例作了改进的速率/失真控制过程348。该过程基于AAC中的普通速率/失真控制过程，AAC涉及比例因子单元、量化单元和无噪声编码单元，这些单元在所述ISO/IEC 14496-3：2001(E)的附录4.B 10-11中有详细描述。

速率/失真控制过程的主要目的是为待编码音频信号提供量化和无噪声编码。根据优选实施例，量化过程600划分为一个两级过程：最初，对所有子带执行第一AAC量化过程610。此第一AAC量化过程相对于标准的AAC量化过程作了改进，即考虑剩余信号而重复对量化误差进行评估，并可根据此评估结果决定对某些子带用零值来替换剩余信号。实际的替换仅在已处理所有子带之后才进行，如图6所示的步骤620所示。最后，对所有剩余子带(即非零值)执行第二AAC量化过程630；不过这次无任何零值替换。

图7更详细地显示了AAC量化610的改进的速率/失真控制过程。由FSSU 332提供的信号702表示当前待量化的频域样本。在步骤706中，以不同的比例因子按不同方式将样本量化若干次。在每次量化之后，在步骤708计算量化误差并在步骤718中进行评估。每次，该过程都尝试改善量化噪声的“着色(coloring)”，即该过程尝试以使量化噪声的可听度最小的方式将可用比特分配给不同的频带。这是通过针对不同频带改变比例因子来完成的。比例因子(一个频带对应一个)控制量化步长大小，从而将不同的噪声量分配给各频带。在每轮量化之后，检查每个频带中的噪声，对于其中噪声最令人讨厌的频带，将在下一轮中减小其相应量化步长。

但是，此过程不一定会收敛到一个全局最优的情况，因此，对于某些频带，核心编解码器可造成比量化的剩余信号(quantizedresidual)小的误差。对于这些频带，随后仅使用核心编解码器是有利的。要注意的是，要量化的信号可以是原始信号或剩余信号(从原始信号中减去核心编解码器信号所得的信号)。

因此，以下参照图7中的步骤710-720来执行。在步骤714中要检查量化噪声和仅使用核心编解码器会得到的噪声(即FSSU 332提供的剩余信号704)，而不是在每轮量化之后只检查量化噪声。如果核心编解码器输出足够好，则无需减小此频带的量化步长大小。如果量化噪声和核心编解码器噪声均太高，则减小步长大小。

如果核心编解码器总的来说表现良好(与语音信号和语音核心编解码器的情况一样)，则最好是更进一步地修改误差计算。如果核心编解码器表现良好，这将反映在核心层质量量度710的取值上，该核心层质量量度710是在图3中的部件354中导出的。在这种情况下，可以忽略核心编解码器信号中的小误差，并且仍然可以仅使用核心编解码器信号，即便只使用核心编解码器引起的误差将比量化误差稍微大一些。使用其中核心编解码器误差稍微大于量化误差的频带中的核心编解码器信号将获得可供其中核心编解码器误差比量化误差大得多的其它频带使用的比特。因此，在图7所示步骤712中将步骤708中形成的量化误差与核心层质量量度的函数值相乘，然后在步骤714中将相乘结果与核心层噪声作比较。该函数可以例如基于简单门限。如果核心编解码器表现良好，则核心层质量量度保持在门限(例如为0)之上，且量化误差与预定常数如4相乘。否则量化误差在步骤714中的比较中保持不变。

这样形成的量化循环具有三个中断条件：

1.无可察觉量化误差出现；

2.进一步减少量化误差是不可能的；以及

3.已达到最大循环次数极限。

在运行几轮量化之后，将满足所述中断条件。如果在某些频带中使用核心编解码器输出而非量化结果仍然较好，则在这些频带中以零值来替换量化信号，如步骤720所示。此外，将标记对应这些频带的FSS信息(参见步骤716)，以指示要使用剩余信号，从而有效地使解码器在这些频带中只使用核心编解码器信号(在最后一种情况中，将不重新分配比特，但所述方法可节省比特)。

如果存在用零值替换过的频带，则量化信号需要少于所计算的比特的比特。通过在各帧之间使用比特缓冲器，这些比特可留给后续帧使用。这些比特还可用于改善当前帧的量化，方法是如图6中的步骤630所示那样再次运行量化循环，但这次从第一次(即在图6中步骤610中)取得的最终结果开始，并如上所述包括某些频带中的零值替换。在第二轮量化过程630中，对信号进行量化，同时无需进行就第一轮量化过程610所述的误差计算修改，即步骤630中的量化完全符合MPEG-4AAC标准。

作为上述的一种替代选择，可以在一个公共量化过程中决定用零值替换哪些子带，以及确定剩余(非零)子带的比特率，而不是对所有子带执行第一量化过程，用零值替换相关子带且随后对剩余子带执行附加的量化过程。

根据本发明的音频编码器可有利地包括在例如GSM或UMTS网络中的音频码变换器中。在GSM中，这种音频码变换器称为码变换/速率适配单元(TRAU)，并在来自PSTN 130的64kbps PCM语音与全速率(FR)或增强全速率(EFR)13-16kbps数字化GSM语音之间提供转换。音频码变换器可位于基站收发信台(BTS)处(为基站子系统(BSS)的组成部分)，或者位于移动交换中心(MSC)处。

上述的可伸缩音频编码功能可以实现为集成电路(ASIC)或任何其它形式的数字电路。在替代实施例中，所述可伸缩音频编码功能可以实现为计算机程序产品，该程序产品可以直接装入处理器的存储器中-优选图2所示的网络站200/移动台250的控制器240/290及其相关存储器242/292。该计算机程序产品包含在由所述处理器执行时用于提供所述可伸缩编码功能的程序代码。

根据本发明的音频编码器还可以包括在用于向网络客户(如图1中的便携式装置100、112)提供音频服务的网络服务器(如图1中的服务器122)中。

如前所述，不必对以上本发明实施例中的解码器侧作任何改变，因为该解码器将对标记在FSS数组500中的每个子带401-499中的在先层输出信号的MDCT系数求和。但是，本发明的替代实施例包括一个改进的解码器，该解码器适于接收包含编码的第一层信号和至少一个已编码的第二层信号的分层数据流。该数据流将包含编码帧，该编码帧具有多个谱子带，但另外可能具有任意已知的格式。在已将第一层信号和第二层信号二者解码之后，解码器分析第二层信号并确定每个子带的感觉质量量度。随后，解码器判断该感觉质量量度是否满足预定的判据，如果满足，则第二层信号与所述子带的第一层信号合并，以形成解码输出信号。否则，只根据该子带的第一层信号生成解码输出信号，即以零值替换第二层信号。

感觉质量量度可以包含在收到的分层数据流，即源自编码器侧的分层数据流中。或者，解码器可以通过在已解码的第二层信号中识别非自然音频分量，如毛刺、噪声或非预期的波形而导出感觉质量量度，并因此决定已解码的第二层信号是失真的，不应加到解码的第一层信号中。

以上主要参照一个实施例对本发明作了描述。但是，如本领域的技术人员容易理解的那样，在本发明范围内存在与以上所述实施例不同的同样可行的其它实施例，这些实施例由所附权利要求书限定。

要强调的是，本发明不限于一个基础层和一个增强层；本发明原理同样可适用于多层编码技术中的两个相继增强层。此外，在替代实施例中，可只使用一些而非全部频带的FSS信息并将其发送到接收侧。这在仅将增强层用于改善高频的情形中可能有用。因此，无需发送低频的FSS信息。当然，必须以缺省方式或通过与发送侧的初始握手方式将此情况通知接收侧。

此外，以上所述的音频编码器、解码器、码变换器、计算机程序和集成电路不限于以上所述的位置。例如，音频编码器可以位于图1所示的音频发送装置中的任意位置上，或者位于未示出或未描述的另一音频发送装置中。

Claims

1.一种将音频信号编码成具有第一层和第二层的分层数据流的音频编码方法，所述第二层用于增强第一层，所述方法包括如下步骤：

形成原始数字音频信号(300)；

对所述原始信号(300)编码以获得第一层信号(310)；

生成反映所述原始信号与所述第一层信号之差的剩余信号(336)；

选择所述原始信号或所述剩余信号来编码；以及

通过对所选信号编码而生成第二层信号；

其特征在于：

对所述剩余信号(336)进行评估；以及

如果所述评估结果满足给定判据，则

选择预定的低熵信号而非所述原始信号或所述剩余信号，以将其编码成所述第二层信号。

2.如权利要求1所述的方法，其特征在于：所述原始数字音频信号(300)和所述剩余信号(336)包括多个频率子带(401-449)，并且其中分别对所述多个频率子带执行评估所述剩余信号以及选择所述预定低熵信号的所述步骤。

3.如权利要求1或2所述的方法，其特征在于，所述评估步骤包括将所述剩余信号(336)与掩蔽门限(350)作比较，其中，所述判据包括发现所述剩余信号低于所述掩蔽门限。

4.如权利要求1或2所述的方法，其特征在于，所述评估步骤包括计算对所述原始信号(324)或所述剩余信号(336)量化所引起的误差。

5.如权利要求4所述的方法，其特征在于，所述判据包括量化引起的所述误差是可感觉的。

6.如权利要求4所述的方法，其特征在于，所述判据包括量化引起的所述误差大于所述剩余信号。

7.如权利要求2所述的方法，其特征在于还包括如下步骤：

提高所述多个频率子带(401-449)中至少一个频率子带的比特率，对于该频率子带，所述剩余信号未被所述预定一致信号替代。

8.如权利要求2所述的方法，其特征在于还包括如下步骤：降低所述多个频率子带(401-449)整体的比特率。

9.如权利要求2所述的方法，其特征在于还包括如下步骤：减少所述多个频率子带(401-449)中至少一个频率子带的量化误差，对于该频率子带，所述剩余信号未被所述预定一致信号替代。

10.如权利要求1或2所述的方法，其特征在于，所述预定低熵信号是恒定低振幅信号。

11.如权利要求10所述的方法，其特征在于，所述预定低熵信号具有零值振幅。

12.如权利要求1或2所述的方法，其特征在于，所述第一层信号是核心层信号。

13.如权利要求12所述的方法，其特征在于，所述第一层信号是通过自适应多速率宽带(AMR-MB)编码得到的。

14.如权利要求1或2所述的方法，其特征在于，所述第二层信号是通过高级音频编码(AAC)编码得到的。

15.如权利要求2所述的方法，其特征在于还包括如下步骤：

对所述多个频率子带(401-449)，通过将所述各频率子带的所述掩蔽门限(350)和所述剩余信号(336)之间的差值相加来累积核心层质量量度(710)；以及

在评估所述剩余信号(336)时使用所述核心层质量量度。

16.如权利要求1或2所述的方法，其特征在于还包括如下步骤：将所述第一层信号解码以获得解码的第一层信号(310)，其中，所述剩余信号(336)反映所述原始信号和所述解码的第一层信号之间的差值。

17.一种集成电路，该集成电路适于执行如权利要求1-16中任意一项所述的方法。

18.一种音频编码器，用于将音频信号编码成具有第一层和第二层的分层数据流，所述第二层用于增强所述第一层，所述编码器包括：

可以将原始数字音频信号(300)编码成第一层信号(310)的第一编码单元(304)；

用于生成反映所述原始信号与所述第一层信号之差的剩余信号(336)的部件(334)；

适于选择所述原始信号或所述剩余信号来编码以将其编码成第二层信号的第一选择器(332)；以及

可以通过对所选信号编码而生成所述第二层信号的第二编码部件；

其特征在于：

用于评估所述剩余信号(336)并提供所述评估结果满足给定判据的指示的部件；以及

第二选择器(356)，所述第二选择器与所述评估部件相关联，且适于在收到所述指示时选择预定低熵信号而非所述原始信号或所述剩余信号，以由所述第二编码部件加以编码。

19.如权利要求18所述的音频编码器，其特征在于：所述原始数字音频信号(300)和所述剩余信号(336)包括多个频率子带(401-449)，其中，所述用于评估所述剩余信号的部件和所述第二选择器(356)适于对所述多个频率子带中的各个频率子带起作用。

20.如权利要求18或19所述的音频编码器，其特征在于，所述第一编码部件是自适应多速率宽带(AMR-WB)编码器。

21.如权利要求18或19所述的音频编码器，其特征在于，所述第二编码部件是高级音频编码(AAC)编码器。

22.一种包括音频解码器的音频码变换器，其中，所述音频解码器适于接收音频输入信号并将其解码，该音频输入信号是根据本质上已知的音频编码技术来编码的，其特征在于：

如权利要求18-21中任意一项所述的音频编码器。

23.一种音频解码器，包括：用于接收包含编码的第一层信号和至少一个编码的第二层信号的分层数据流的部件、可以将所述第一层信号解码的第一解码部件以及可以将所述第二层信号解码的第二解码部件，其特征在于：

用于确定所述第二层信号的感觉质量量度的部件；

用于判断所述感觉质量量度是否满足预定判据的部件；

用于在所述感觉质量量度满足所述判据时将所述第二层信号与所述第一层信号合并以得到解码输出信号的部件；以及

用于在所述感觉质量量度不满足所述判据时只根据所述第一层信号生成所述解码输出信号的部件。

24.如权利要求23所述的音频解码器，其特征在于，所述感觉质量量度包含在所述接收的分层数据流中。

25.如权利要求23所述的音频解码器，其特征在于还包括：用于通过识别所述解码的第二层信号中的非自然音频分量而导出感觉质量量度的部件。

26.如权利要求25所述的音频解码器，其特征在于，所述非自然音频分量包含毛刺、噪声或非预期波形中的至少一项。

27.一种用于移动电信网(110)的站(200)，其包括根据权利要求18-21中任一权利要求的音频编码器、根据权利要求23的音频解码器和根据权利要求22的音频码变换器中的至少一项。

28.如权利要求27所述的站，其特征在于，所述站是基站(104)。

29.如权利要求27所述的站，其特征在于，所述站是移动终端(100，112)。