CN1761308B - 一种数字媒体数据编码和解码的方法 - Google Patents

一种数字媒体数据编码和解码的方法 Download PDF

Info

Publication number
CN1761308B
CN1761308B CN2005100673765A CN200510067376A CN1761308B CN 1761308 B CN1761308 B CN 1761308B CN 2005100673765 A CN2005100673765 A CN 2005100673765A CN 200510067376 A CN200510067376 A CN 200510067376A CN 1761308 B CN1761308 B CN 1761308B
Authority
CN
China
Prior art keywords
chunk
data
frame
audio
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005100673765A
Other languages
English (en)
Other versions
CN1761308A (zh
Inventor
S·斯尔维拉
J·D·约翰斯顿
N·苏姆普地
W-G·陈
C·梅瑟
S·斯米尔诺夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1761308A publication Critical patent/CN1761308A/zh
Application granted granted Critical
Publication of CN1761308B publication Critical patent/CN1761308B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/0078Labyrinth games
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F3/00Board games; Raffle games
    • A63F3/00003Types of board games
    • A63F3/00097Board games with labyrinths, path finding, line forming
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/06Patience; Other games for self-amusement
    • A63F9/12Three-dimensional jig-saw puzzles
    • A63F9/1252Three-dimensional jig-saw puzzles using pegs, pins, rods or dowels as puzzle elements
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H33/00Other toys
    • A63H33/04Building blocks, strips, or similar building parts
    • A63H33/06Building blocks, strips, or similar building parts to be assembled without the use of additional elements
    • A63H33/08Building blocks, strips, or similar building parts to be assembled without the use of additional elements provided with complementary holes, grooves, or protuberances, e.g. dovetails
    • A63H33/084Building blocks, strips, or similar building parts to be assembled without the use of additional elements provided with complementary holes, grooves, or protuberances, e.g. dovetails with grooves
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F9/00Games not otherwise provided for
    • A63F9/06Patience; Other games for self-amusement
    • A63F9/12Three-dimensional jig-saw puzzles
    • A63F9/1252Three-dimensional jig-saw puzzles using pegs, pins, rods or dowels as puzzle elements
    • A63F2009/1256Three-dimensional jig-saw puzzles using pegs, pins, rods or dowels as puzzle elements using a plurality of pegs
    • A63F2009/126Configuration or arrangement of the pegs

Abstract

所述技术和工具包括用于将给定格式的数字介质数据(例如音频、视频、静止图像、和/或文本等等)映射成对在诸如数字视频盘(DVD)的光盘上编码数据有用的传输或文件容器格式的技术和工具。可使用数字介质通用基本流来把数字介质流(例如音频流、视频流或图像)映射成任何任意传输或文件容器(包括光盘格式)和其它传输,诸如传播流、无线传输等等。对流中数字介质的任意给定帧进行解码所需的信息可在每个经编码帧中携带。数字介质通用基本流的实现将介质流的数据安排在帧中,这些帧具有一个或多个组块。

Description

一种数字媒体数据编码和解码的方法
相关申请 
本申请声明对以下美国临时专利申请的权利:申请号为60/562,671题为“Mapping of Audio Elementary Stream”(“音频基本流的映射”)于2004年4月14日提交的美国临时专利申请,以及申请号为60/580,995题为“Digital Media UniversalElementary Stream”(“数字介质通用基本流”)于2004年6月18日提交的美国临时专利申请,两个申请都在此引入作为参考。 
技术领域
本发明一般涉及数字介质(例如音频、射频、和/或静态图像等等)的编码和解码。 
背景技术
引入了光盘、数字视频盘、便携式数字介质播放器、数字无线网络、以及因特网上的音频和视频传送之后,数字音频和视频已变得常见了。工程师使用各种技术以有效处理数字音频和视频而仍保持数字音频或视频的质量。 
数字音频信息被处理成表示音频信息的一系列数字。例如,单个数字可表示音频采样,它是特定时间上的幅度值(即音量)。若干因素影响音频信息的质量,包括采样深度、采样率、以及信道模式。 
采样深度(或精度)指示用以表示采样的数字范围。可能用于采样的值越多质量越高,因为数字可捕捉幅度上更多微弱的变化。例如,8-比特采样有256个可能值,而16-比特采样则具有65,536个可能值。24-比特采样可非常精细地捕捉正常的音量变化,且也可捕捉特别高的音量。 
采样率(通常测量为每秒的采样数)也影响质量。采样率越高质量越高,因为可表示更大的带宽。某些普通的采样率为8,000、11,025、22,050、32,000、44,100、48,000和96,000采样/秒。 
单声和立体声是音频的两种普通信道模式。在单声模式中,音频信息在一个信道中展现。在立体声模式中,音频信息通常在标为左右信道的两个信道中展现。  通常也使用诸如5.1信道、7.1信道、或者9.1信道环绕声的其它带有多个信道的模式。高质量音频信息的成本是高比特率的。高质量音频信息消耗大量的计算机存储器和传输能力。 
许多计算机和计算机网络缺乏用以处理原始数字音频或视频的存储器或资源。编码(也称为编码技术或比特率压缩)通过把信息转换成较低比特率,降低了存储和传送音频或视频信息的成本。编码可以是无损的(其中质量不受损害)或有损的(其中解析质量受损害-尽管可能感觉音频质量并未受损害-但比特率的降低相比无损编码而言是更引入注目的)。解码(也称为解压缩)从经编码形式中提取原始信息的重建版本。 
响应于对数字介质数据的有效编码和解码的需求,已开发了许多音频和视频编码器/解码器系统(“codec-多媒体数字信号编解码器”)。例如,参看图1,音频编码器100取输入音频数据110,并使用一个或多个编码模块将其编码以产生经编码音频输出数据120。在图1中,使用分析模块130、频率变换器模块140、质量缩减器(有损编码)模块150、以及无损编码器模块160以产生经编码音频数据120。控制器170协调并控制编码过程。 
现有的音频codec包括微软公司的Windows介质音频(“WMA”)codec。某些其它codec系统由运动图象专家组(“MPEG”)、音频层3(“MP3”)标准、MPEG-2高级音频编码[“AAC”]标准或由其它诸如Dolby(提供AC-2和AC-3标准)的商业供应商提供或指定。 
不同的编码系统使用特定的基本比特流,用于包括在能够携带一个以上基本比特流的复合流中。这种复合流也称为传输流。通常,传输流在基本流上提出了诸如缓冲器尺寸限制的某些限制,并需要在基本流中包括某些信息以便于解码。通常基本流包括一访问单元以便于基本流的同步和准确解码,并提供在传输流中对不同基本流的标识。 
例如,AC-3标准的修订版A描述了由同步帧序列组成的基本流。每个同步帧包含同步信息标头、比特流信息标头、六个经编码音频数据块、以及错误校验字段。同步信息标头包含用于在比特流中获取和维持同步的信息。该同步信息包括同步字、循环冗余码校验字、采样率信息以及帧尺寸信息。比特流信息包括编码模式信息(例如信道的数量和类型)、时间码信息、以及其它参数。 
AAC标准描述了音频数据传输流(ADTS)帧,该帧包括固定标头、可变标头、任选的错误校验字、以及原始数据块。固定标头包含不随帧变化的信息(例如  同步字、采样率信息、信道配置信息等等),但仍然每帧重复以允许对比特流的随机访问。可变标头包含随帧变化的数据(例如帧长度信息、缓冲器充实度信息、原始数据块数量等等)。错误校验块包括用于循环冗余码校验的变量crc_check。 
现有的传输流包括MPEG-2系统或传输流。MPEG-2传输流可包括多个基本流,诸如一个或多个AC-3流。在MPEG-2传输流中,由至少stream_type变量、stream_id变量以及音频描述符来标识AC-3基本流。音频描述符包括用于单个AC-3流的信息,诸如比特流、信道数量、采样率、以及描述性文本字段。 
对于有关codec系统的更多信息,参见相应标准或技术出版物。 
发明内容
总而言之,详细说明涉及用于诸如音频流的数字介质编码和解码的各种技术和工具。所述技术和工具包括用于将给定格式的数字介质数据(例如音频、视频、静止图像、和/或文本等等)映射成对在诸如数字视频盘(DVD)的光盘上编码数据有用的传输或文件容器格式的技术和工具。 
本说明书详述了可由这些技术和工具使用的数字介质通用基本流,以把数字介质流映射成任何任意的传输或文件容器,包括不仅光盘格式而且其它诸如广播流、无线传输等等的传输。所述数字介质通用基本流携带在该流中解码流所需的信息。此外,可在每个经编码帧中携带解码流中数字介质的任意给定帧的信息。 
数字介质通用基本流包括称为组块的流组件。数字介质通用基本流的实现将介质流的数据安排成帧,而这些帧具有一个或多个组块。组块包括组块标头(包括组块类型标识符)以及组块数据,尽管对于某些组块类型而言并不显现组块数据,诸如组块的所有信息都在组块标头中展现的组块类型(例如块的结束组块)。在某些实现中,组块被定义为组块标头和直到下一组块标头开始的所有随后信息。 
在一实现中,数字介质通用基本流使用组块来加入有效的编码模式,包括带有同步模式和长度字段的同步组块。某些实现在“肯定签到”基础上使用可选元素来编码流。在一实现中,批组块的结束或者可使用同步模式/长度字段来标记流帧的结束。此外,在某些流的帧中,可略去同步模式/长度组块和块的结束组块。因而,同步模式/长度组块以及块的结束组块也是该流的任选元素。 
在一实现中,帧可携带定义介质流及其特征的称为流属性组块的信息。相应地,基本流的基本形式可简单地由指定codec属性的流属性组块的单一实例,以及介质有效载荷组块流组成。该基本形式对于低等待延时或低比特率的应用程序是有  用的,诸如语音或其它实时介质流应用程序。 
数字介质通用基本流还包括扩展机制,该机制使流的定义扩展能编码最近定义的codec或组块类型,而无需破坏对于现有解码器属性的兼容性。通用基本流定义是可扩展的,因为使用先前不具有语义含义的组块类型码可定义新的组块类型,且包含这种新定义组块类型的通用基本流通过通用基本流的现有的或继承的解码器保持可解析。这些新定义的组块可以是“提供长度的”(其中组块的长度在组块的语法元素中进行编码)或“长度预定义的”(其中长度在组块类型编码中隐含)。然后可由现有继承解码器的解析器“丢弃”或略去新定义的组块,不会丢失比特流解析或扫描。 
附图说明
图1是根据现有技术音频编码器系统的框图。 
图2是适当计算环境的框图。 
图3是通用音频编码器系统的框图。 
图4是通用音频解码器系统的框图。 
图5是显示使用包括一个或多个组块的帧或访问单元排列,来把第一格式的数字机制数据映射成传输或文件容器的技术的流程图。 
图6是显示用于解码帧或访问单元排列中数字介质数据的技术的流程图,该帧或访问单元排列包括从传输或文件容器中获取的一个或多个组块。 
图7示出了把WMA Pro音频基本流映射成DVD-A CA格式的示例性映射。 
图8示出了把WMA Pro音频基本流映射成DVD-AR格式的示例性映射。 
图9示出了对用于映射成任意容器的通用基本流的定义。 
具体实施方式
所述诸实施例涉及用于数字介质编码和解码的技术和工具,尤其涉及使用可被映射成任意传输或文件容器的数字介质通用基本流的编解码器。所述技术和工具包括这样的技术和工具:用于将给定格式的音频数据映射成对在诸如数字视频盘(DVD)的光盘和其它传输或文件容器上编码音频数据有用的格式。在某些实现中,数字音频数据被安排为适于后来以DVD格式翻译和存储的中间格式。该中间格式可以是例如Windows介质音频(WMA)格式,更具体地则可以是如下所述作为通用基本流的WMA格式表示。DVD格式可以是例如DVD音频录音(DVD-AR)  格式或DVD压缩音频(DVD-A CA)格式。尽管示出了这些技术对音频流的特定应用,还可以使用这些技术来编码/解码其它形式的数字介质,包括但不限于视频、静止图像、文本、超文本、以及多媒体等等。 
可组合或独立地使用各种各样的技术和工具。不同实施例实现一种或多种所述技术和工具。 
I.计算环境 
所述通用基本流和传输映射实施例可在其中执行数字介质和音频信号处理的各种装置的任一种上实现,包括:计算机、数字介质播放机、传输和接收装置、便携式介质播放机、音频会议、Web介质流应用等等。通用基本流和传输映射可以硬件电路(例如ASIC、FDGA等的电路)实现,也可以计算机或其它计算环境中执行的数字介质或音频处理软件(在中央处理单元(CPU)或数字信号处理器、音频卡等等上执行)实现,如图1所示。 
图2示出了其中可实现所述实施例的适当计算环境200的一般示例。计算环境200并非旨在暗示对本发明使用范围或功能的任何限制,因为本发明可在多种多样的通用或专用计算环境中实现。 
参照图2,计算环境200包括至少一个处理单元210和存储器220。在图2中最基本配置230包括在虚线内。处理单元210执行计算机可执行指令并可以是真实或虚拟处理器。在多处理系统中,多处理单元执行计算机可执行指令以增加处理功率。存储器220可以是易失性存储器(例如寄存器、高速缓存、RAM)、非易失存储器(例如ROM、EEPROM、闪存等)、或者是两者的某些组合。存储器220存储实现音频编码器或解码器的软件280。 
计算环境可具有附加特征。例如,计算环境200包括存储器240、一个或多个输入装置250、一个或多个输出装置260、以及一个或多个通信链接270。诸如总线、控制器或网络的相互连接机制(未示出)将计算环境200的组件相互连接起来。通常,操作系统软件(未示出)提供在计算环境200中执行的其它软件的操作环境,并协调计算环境200的组件的行动。 
存储器240可以是可移动或不可移动的,并包括磁盘、磁带或磁卡、CD-ROM、CD-RW、DVD、或任何可用于存储信息并可在计算环境200中访问的其它介质。存储器存储实现音频编码器或解码器的软件280的指令。 
输入装置250可以是诸如键盘、鼠标、笔、或跟踪球、语音输入装置、扫描装置的触摸输入装置,或向计算环境200提供输入的另一装置。对于音频,输入装  置250可以是接受模拟或数字形式音频输入的声卡或类似装置,或者向计算环境提供音频采样的CD-ROM或CD-RW。输出装置260可以是显示器、打印机、扬声器、CD刻录机、或可从计算机环境200提供输出的另一装置。 
通信连接270使能经通信介质与另一计算实体的通信。通信介质传送诸如计算机可执行指令、压缩音频或视频信息、或数据信号中的其它数据(例如已调制数据信号)的信息。已调制数据信号是具有以这种在信号中编码信息的方式来设置或改变其一个或多个特征的信号。作为示例,而非限制,通信介质包括以电学、光学、RF、红外、声学、和其它载波实现的有线和无线技术。 
本发明可在计算机可读介质的一般上下文中进行描述。计算机可读介质是可在计算环境中访问的任何可用介质。作为示例而非限制,对于计算环境200,计算机可读介质包括存储器220、存储240、通信介质、以及以上的任意组合。 
本发明可在诸如包括在程序模块中、目标真实或虚拟处理器上计算环境中执行的计算机可执行指令的一般上下文中进行描述。一般而言,程序模块包括执行特定任务或实现特定抽象数据结构的例程、程序、库、对象、类、组件、数据结构等等。在各个实施例中程序模块的功能可在程序模块之间组合或拆分。程序模块的计算机可执行指令可在本地或分布式计算环境中执行。 
II.通用音频编码器和解码器 
在某些实现中,数字视频数据被安排为适于后来映射成传输或文件容器的中间格式。音频数据可通过音频编码器安排成这种中间格式,且随后由音频解码器进行解码。 
图3是通用音频编码器300的框图,而图4是通用音频解码器400的框图。编码器和解码器中模块之间的所示关系指示编码器和解码器中信息的主要流动;为了简便起见未示出其它关系。取决于实现和所需的压缩类型,编码器或解码器的模块可添加、略去、拆分成多个模块、组合成其它模块、和/或以类似模块进行替换。 
A.音频编码器 
参照图3,示例性音频编码器300包括选择器308、多信道预处理器310、分割器/铺砌配置器320、频率变换器330、感觉模拟器340、加权器342、多信道变换器340、量化器360、熵编码器370、控制器380、以及比特流多路复用器[“MUX”]390。 
编码器300接收在某些采样深度和采样率上脉冲编码调制(PCM)格式的输入音频采样305时间序列。编码器300压缩音频采样305并多路传输由各种编码器  300模块产生的信息以用诸如微软Windows介质音频[“WMA”]格式来输出比特流395。 
选择器308选择用于音频采样305的编码模式(无损或有损模式)。无损编码模式通常用于高质量(以及高比特率)压缩。有损编码模式包括诸如加权器342和量化器360的组件,并通常用于可调质量(以及可调比特率)压缩。选择器308上的选择判决取决于用户输入或其它标准。 
对于多信道音频数据的有损编码,可任选地多信道预处理器310重新排列时间域音频采样305。多信道预处理器310可向MUX 390发送诸如用于多信道后处理的指令的侧信息。 
分割器/铺砌配置器320把音频输入采样305的帧分割成具有时变尺寸和窗口成形功能的子帧块(即窗口)。子帧块的尺寸和窗口取决于帧中瞬时信号的检测、编码模式以及其它因素。当编码器300使用有损编码时,尺寸可变的窗口允许瞬时清晰度可变。分割器/铺砌配置器320向频率变换器330输出经分割的数据块,并向MUX 390输出诸如块尺寸的侧信息。分割器/铺砌配置器320可在每个信道基础上分割多信道音频的帧。 
频率变换器330接收音频采样,并将它们转换成频率领域中的数据。频率变换器330向加权器342输出频率系数数据块,并向MUX 390输出诸如块尺寸的侧信息。频率变换器330向感觉模拟器340输出频率系数和侧信息。 
感觉模拟器340模拟人类听觉系统的属性,以改进对一给定比特率重建音频信号的感觉质量。一般而言,感觉模拟器340根据一听觉模型处理音频数据,然后向量化基带加权器342提供可用以产生音频数据的加权因子的信息。感觉模拟器340使用各种听觉模型的任一种,并向加权器342传递激励模式信息或其它信息。 
加权器342基于从感觉模拟器340接收的信息产生用于量化矩阵的加权系数,并将该加权系数应用到从频率变换器330接收的数据中。量化矩阵的加权系数包括音频数据中多个量化基带的每一个的权重。量化基带加权器342向信道加权器344输出加权系数数据块,并向MUX 390输出诸如加权因子集的侧信息。可压缩加权因子集可用于更有效的表示。 
信道加权器344基于从感觉模拟器340接收的信以及本地重建信号的质量而产生信道的信道特定权重因子(是标量)。信道加权器344向多信道变换器350输出加权系数数据块,并向MUX 390输出诸如信道权重因子集的侧信息。 
对于多信道音频数据,由信道加权器344所产生噪声频谱成型的频率系数数  据的多个信道常常是互相关联的,因而多信道变换器355可应用多信道变换。多信道变换器350产生提供给MUX 390的侧信息,它指示例如所使用的多信道变换以及多信道变换分割部分。 
量化器360量化多信道变换器350的输出,产生提供给熵编码器370的经量化系数数据以及提供给MUX 390的包括量化步长大小的侧信息。 
熵编码器370无损地压缩从量化器360接收的经量化系数数据。熵编码器370可计算用于编码音频信息的比特数,并将该信息传送给速率/质量控制器380。 
控制器380与量化器360一起工作以调整编码器300输出的比特率和/或质量。控制器380接收来自编码器300其它模块的信息,并处理收到的信息以确定给定当前条件下的所需量化因子。控制器380向量化器360输出量化因子,目的是满足质量和/或比特率限制。 
MUX 390多路复用从音频编码器300的其它模块接收的侧信息,以及从熵编码器370接收的熵经编码数据。MUX 390可包括存储要由编码器300输出的比特流395的虚拟缓冲器。缓冲器的当前充实度和其它特征可由控制器380使用以调节质量和/或比特率。 
B.视频解码器 
参照图4,相应的音频解码器400包括比特流多路分解器[“DEMUX”]410、一个或多个熵解码器420、铺砌配置解码器430、反向多信道变换器440、反向量化器/加权器450、反向频率变换器460、重叠器/相加器470、以及多信道后处理器480。解码器400比编码器300稍简单一些,因为解码器400不包括用于速率/质量控制或感觉模拟的模块。 
解码器400接收WMA格式或另一格式的经压缩音频信息的比特流405。比特流405包括经熵编码的数据以及解码器从中重建音频采样495的侧信息。 
DEMUX 410解析比特流405中的信息并将信息发送给解码器400的模块。DEMUX 410包括一个或多个缓冲器,以补偿因为音频复杂性的波动、网络不稳定性、和/或其它因素引起的比特率上的变化。 
一个或多个熵解码器420无损地解压缩从DEMUX 410接收的熵编码。通常,熵解码器420应用在编码器300中所使用熵编码技术的相反技术。为了简单,熵解码器模块在图4中示出,尽管不同的熵解码器可用于有损和无损的编码模式甚至在其中使用了。还有,为了简便,图4未示出模式选择逻辑。当解码以有损编码模式压缩的数据时,熵解码器420产生经量化频率系数数据。 
铺砌配置解码器430接收并在必要时解码信息,该信息指示来自DEMUX 410的帧的铺砌模式。然后铺砌配置解码器430向解码器400的各个其它模块传递铺砌模式信息。 
反向多信道变换器440接收来自熵解码器420的经量化频率系数数据,以及来自分割配置解码器430的分割模式信息、来自DEMUX 410的指示例如所用多信道变换和经变换铺砌部分的侧信息。使用该信息,反向多信道变换器440必要时解压缩该变换矩阵,并有选择性地和灵活地将一个或多个反向多信道变换应用到音频数据中。 
反向量化器/加权器450接收来自DEMUX 410的铺砌和信道量化因子、以及量化矩阵,并接收来自反向多信道变换器440的经量化频率系数数据。该反向量化器/加权器450必要时解压缩收到的量化因子/矩阵信息,然后执行反向量化和加权。 
反向频率变换器460接收由反向量化器/加权器450产生的频率系数数据输出、以及来自DEMUX 410的侧信息、来自分割配置解码器430的分割模式信息。反向频率变换器460把在编码器中使用的频率变换和输出块的相反应用到重叠器/相加器470中。 
除了接收来自分割配置解码器430的分割模式信息,重叠器/相加器470还接收来自反向频率变换器460的经解码信息。必要时重叠器/相加器470叠加并累加音频数据,并使帧或其它用不同模式编码的音频数据序列交错。 
多信道后处理器480可选地将重叠器/相加器470输出的时域音频采样重新排列成矩阵。多信道后处理器选择性地将视频数据重新排列成矩阵,以创建回放的仿真通道、执行诸如扬声器之间信道空间旋转的特定效果、向下折叠信道用于在较少的扬声器上回放、或用于任何其它目的。对于比特流受控后处理,后处理变换矩阵随着时间而变化,并在比特流405中发信号或被包括在比特流405中。 
对于更多有关WMA音频编码器和解码器的信息,参见专利申请号为10/642,550题为“Multi-channel Audio Encoding and Decoding”(“多信道音频编码和解码”)发表为美国专利申请发表号2004-0049379于2003年8月15日提交的美国专利;以及专利申请号为10/642,551题为“Quantization and Inverse Quantization for Audio”(“音频的量化和反向量化”)发表为美国专利申请发表号2004-0044527于2003年8月15日提交的美国专利,两个专利都在此引入作为参考。 
III.音频基本流映射中的创新 
所述技术和工具包括这样的技术和工具,用于把给定中间格式(诸如如下所  述的通用基本流格式)的音频基本流映射成适于在光盘(诸如DVD)上存储和回放的传输或其它文件容器格式。说明书和附图显示并描述了比特流格式和语义,以及用于在格式之间进行映射的技术。 
在此描述的实现中,数字介质通用基本流使用称为组块的流组件来编码流。例如,数字介质通用基本流的实现将介质流的数据安排成帧,这些帧具有一个或多个类型的一个或多个组块,诸如同步组块、格式标头/流属性组块、包括经压缩音频数据(例如WMA Pro音频数据)的音频数据组块、元数据组块、循环冗余码校验组块、时间标记组块、块结束组块、和/或某些其它类型的现有组块或在将来定义的组块。组块包括组块标头(可包括例如一字节的组块类型语法元素)和组块数据,尽管对于某些组块类型而言并不显现组块数据,诸如组块的所有信息都在组块标头中展现的组块类型(例如块的结束组块)。在某些实现中,组块被定义为组块标头和直到下一组块标头开始的所有信息(例如组块数据)。 
例如,图5示出了使用包括一个或多个组块的帧或访问单元排列,把第一格式的数字机制数据映射成传输或文件容器的技术500。在510,获取以第一格式编码的数字介质数据。在520,得到的数字介质数据被安排在包括一个或多个组块的帧或访问单元排列中。然后,在530,将在帧或访问单元排列中的数字介质数据插入传输或文件容器中。 
图6显示用于解码帧或访问单元排列中数字介质数据的技术600,该帧或访问单元排列包括从传输或文件容器中获取的一个或多个组块。在610,从传输或文件容器中获取在包括一个或多个组块的帧排列中的音频数据。然后,在620,解码获得的音频数据。 
在一实现中,通用基本流格式被映射成DVD-AR格式。在另一实现中,通用基本流格式被映射成DVD-CA区域格式。在又一实现中,通用基本流格式被映射成任一传输或文件容器。在这样的实现中,通用基本流格式被视为中间格式,因为所述技术和工具可将此格式中的数据转换或映射成随后适于在光盘上存储的格式。 
在某些实现中,通用音频基本流是Windows介质音频(WMA)格式的变体。对于有关WMA格式的更多信息,参见申请号为60/488,508题为“Lossless AudioEncoding and Decoding Tools and Techniques”(无损音频编码和解码工具和技术)于2003年7月18日提交的美国临时专利,以及申请号为60/488,727题为“AudioEncoding and Decoding Tools and Techniques”(音频编码和解码工具和技术)于2003年7月18日提交的美国临时专利,两个专利在此引入作为参考。 
一般而言,数字信息可表示为一系列数据对象(诸如访问单元、组块或帧)以便于处理和存储数字信息。例如,数字音频或视频文件可表示为一系列包含数字音频或视频采样的数据对象。 
当一系列数据对象表示数字信息时,如果数据对象尺寸相同则处理该系列得以简化。例如,假设相同尺寸的音频访问单元存储在数据结构中。使用该序列中访问单元的序数并已知序列中访问单元的尺寸,可根据该数据结构开始处的一偏移量来访问特定访问单元。 
在某些实现中,诸如图3所示编码器300的音频编码器以诸如通用基本流格式的中间格式编码音频数据。然后可使用音频数据映射器或转换器来把中间格式的流映射成适于在光盘上存储的格式(诸如具有固定尺寸访问单元的格式)。然后诸如图4所示的解码器400的一个或多个音频解码器可解码经编码音频数据。 
例如,第一格式的音频数据(例如WMA格式)被映射成第二格式(例如DVD-AR或DVD-CA格式)。首先,获取以第一格式编码的音频数据。在第一格式中,获得的音频数据被安排在具有固定尺寸或最大容许尺寸(例如当映射成DVD-AR格式时为2011字节,或某些其它最大尺寸)的帧中。该帧可包括组块,包括同步组块、格式标头/流属性组块、包括经压缩WMA Pro音频数据组块、元数据组块、循环冗余码校验组块、块结束组块、和/或某些其它类型的现有组块或在将来定义的组块。该排列使解码器(诸如数字音频/视频解码器)能访问并解码音频数据。然后将该音频数据排列以第二格式插入音频数据流中。第二格式是用于在计算机可读光学数据存储盘(例如DVD)上存储音频数据的格式。 
同步组块可包括同步模式和用于校验特定同步模式是否有效的长度字段。基本流帧的结束或者可用块结束组块来标记。此外,在基本流的基本形式中可略去诸如在瞬时应用程序中可能有用的同步组块和块结束组块(或可能其它类型组块)。 
某些实现中特定组块类型的细节提供如下。 
IV.将通用基本流映射成DVD音频格式的实现 
以下示例详述了WMA Pro经编码音频流在DVD-AR和DVD-A CA区域上的通用基本流格式表示的映射。在此例中,该映射符合在WMA Pro已被接受为可选编/解码器时DVD-CA区域的要求,也符合在WMA Pro被包括为可选编/解码器时DVD-AR规范的要求。 
图7示出了把WMA Pro流映射到DVD-A CA区域的映射。图8示出了把WMAPro流映射成DVD-AR中音频对象(AOB)的映射。在这些图所示的示例中,在  访问单元或WMA Pro帧中携带有解码给定WMA Pro帧所需的信息。在图4和5中,包括10字节数据的流属性标头,对于给定流而言是固定的。可在例如WMA Pro帧或访问单元中携带流属性信息。或者,可在CA区域CA管理器的流属性标头中、或者DVD-AR PS的包标头或所有标头中携带流属性信息。 
如图4和5所示的特定比特流元素如下所示: 
流属性:定义介质流及其特征。流属性标头包含有大量的对给定流固定的数据。有关流属性的更多细节如下在表格1中提供: 
  比特位置   字段名称   字段描述
  0-2   VersNum   WMA比特流的版本号
  3-6   BPS   经解码音频采样的比特深度(Q索引)
  7-10   cChan   音频信道数量
  11-15   SampRt   经解码音频的采样率
  16-31   CMap   信道映射
  32-47   EncOpt   编码器选项结构
  48-50   Profile Support   描述该流属于(M1,M2,M3)的编码简介的字段
  51-54   Bit-Rate   经编码流的比特率(单位为Kbps)
  55-79   Reserved   保留位-设定为0
                           表格1.流属性 
组块类型:单字节组块标头。在此例中,组块类型字段在每类数据组块之前。组块类型字段携带了对随后数据组块的描述。 
同步模式:在此例中有两个字节的同步模式,使解析器能够找到WMA Pro帧的开始。组块类型被嵌入同步模式的第一字节中。 
长度字段:在此例中,长度字段指示先前同步编码开始处的偏移。与长度字段相组合的同步模式提供足够唯一的信息组合以防止仿真。当读取器遇到一同步模式时,它向前解析到下一同步模式,并校验在第二同步模式中指定的长度与它已解析的字节长度相对应,以便从第一同步模式抵达第二同步模式。如果这得到验证,解析器遇到了有效同步模式并可开始解码。或者,解码器可通过推理用它发现的第一同步模式开始解码,而不是等待下一同步模式。这样,解码器可在解析和校验下一同步模式之前执行某些采样的回放。 
元数据:携带有关元数据类型和尺寸的信息。在此例中,元数据组块包括:指示元数据类型的1字节;指示组块尺寸字节数N的1字节(>256字节的元数据作为具有相同ID的多个组块进行传输);N字节组块;以及当没有其它元数据时用于ID标记的编码器输出零字节。 
内容描述符元数据:在此例中,元数据组块提供用于传送有关音频流内容的  基本描述性信息的低比特率信道。内容描述符元数据为32比特长。该字段是可选的,且如果必要可重复(例如每3秒1次)以节约带宽。更多有关内容描述符元数据的细节如下在表格2中提供: 
  比特位置   字段名称   字段描述
  0   Start   当此比特被设定时,它标记元数据的开始。
  1-2   Type   本字段标识当前元数据字符串的内容。值为:  Bit1   Bit2          字符串描述  0      0             标头  0      1             艺术家  1      0             专辑  1      1             未定义(自由文本)
  3-7   Reserved   应设定为0。
  8-15   Byte0   元数据的第一字节
  16-23   Byte1   元数据的第二字节
  24-31   Byte2   元数据的第三字节
                         表格2.内容描述符元数据 
真正的内容描述符字符串由接收器从包含在元数据中的字节流进行组装。流中的每个字节表示一个UTF-8字符。如果元数据字符串在块结束之前结束,则用0x00填充该元数据。字符串的开始和结束由“Type”字段中的转换隐含。因此,发送器在发送内容描述符元数据时循环所有的四个类型-即使一个或多个字符串是空的。 
CRC(循环冗余码校验):CRC涵盖了从先前CRC开始或包括先前同步模式的一切,取更接近的一个但不包括CRC本身。 
呈现时间标记:尽管未在图4和5中示出,呈现时间标记携带了时间标记信息以在必要的任何时候与视频流同步。在此例中,它被指定为6个字节以支持100纳秒的粒度。例如,为了在DVD-AR规范中提供呈现时间标记,携带它的适当位置将是在包标头中。 
V.另一通用基本流定义 
图9示出了通用基本流的另一定义,它可被用作在上例中映射成DVD音频格式的WMA音频流中间格式。更广泛地,在此例中定义的通用基本流可用来把躯体各种各样的数字介质流映射成任意传输或文件容器。 
在此例中所述的通用基本流中,数字介质被编码成数字介质的离散帧序列(例如WMA音频帧)。通用基本流以携带解码来自帧本身的任何给定数字介质帧所需所有信息的方式来编码数字介质流。 
以下是对如图9所示流帧中标头组件的描述。 
组块类型:在此例中,组块类型是在每类数据组块之前的单字节组块标头。组块类型字段携带了对随后数据组块的描述。该基本流定义定义了众多的组块类型,它包括了使基本流定义能用附加的、后来定义的组块类型来补充或扩展的转义机制。新定义的组块可以是“提供长度的”(其中组块的长度在组块的语法元素中进行编码)或“长度预定义的”(其中长度在组块类型码中隐含)。然后可由现有继承解码器的解析器“丢弃”或略去新定义的组块,不会丢失比特流解析或扫描。组块类型后面的逻辑及其使用在下一章节中详述。 
同步模型:是两个字节的同步模式,使解析器能够找到基本流帧的开始。组块类型被置于同步模式的第一字节。在此例中使用的确切模式如下详述。 
长度字段:在此例中,长度字段指示先前同步编码开始处的偏移。与长度字段相组合的同步模式提供足够唯一的信息组合以防止仿真。当读取器遇到一同步模式时,它解析到随后的长度字段、解析到下一接近的同步模式、并验证在第二同步模式中指定的长度与它已解析的从第一同步模式抵达第二同步模式所遇到的字节长度相对应。如果的确如此,解析器遇到了有效同步模式并可开始解码。对于某些帧诸如第比特率情形,可由编码器略去同步模式和长度字段。然而,编码器应当一起略去它们。 
呈现时间标记:在此例中,呈现时间标记携带了时间标记信息以在必要的任何时候与视频流同步。在所示基本流定义实现中,它被指定为6个字节以支持100纳秒的粒度。然而,该字段在指定时间标记字段长度的组块尺寸字段之后。 
在某些实现中,呈现时间标记字段可由文件容器携带,例如微软高级系统格式(ASF)或MPEG-2程序流(PS)文件容器。呈现时间标记字段被包括于在此所述的基本流定义实现中,以显示在最基本状态中流可携带解码音频流并使其与视频流同步所需的所有信息。 
流属性:定义介质流及其特征。有关流属性的更多细节如下在此例中提供。流属性标头仅需在内部数据不随流改变时在文件开始处可用。 
在某些实现中,流属性字段由文件容器携带,例如ASF或MPEG-2PS文件容器。流属性字段被包括于在此所述的基本流定义实现中,以显示在最基本状态中流可携带解码音频流所需的所有信息。如果它被包括在基本流中,该字段在指定流属性数据长度的组块尺寸字段之后。 
以上的表格1显示了用WMA Pro编/解码器进行编码的流的流属性。类似的流属性标头可对每一个编/解码器定义。 
音频数据有效载荷:在此例中,音频数据有效载荷携带经压缩数字介质数据,诸如经压缩Windows介质音频帧数据。可以用数字介质流而不是经压缩音频的方式使用基本流,在经压缩音频情形中数据有效载荷是这种流的经压缩数字介质数据。 
元数据:该字段携带有关元数据类型和尺寸的信息。可携带的元数据类型包括内容描述符、折叠、DRC等等。可如下进行元数据的结构化。 
在此例中,每个元数据组块具有: 
-指示元数据类型的1字节 
-指示组块尺寸字节数N的1字节(>256字节的元数据作为具有相同ID的多个组块进行传输) 
-N字节组块 
CRC:在此例中,CRC涵盖了从先前CRC后或在该CRC处开始并包括先前同步模式的一切,取决于哪一个更接近,直到但不包括CRC本身。 
EOB:在此例中,EOB(块结束)组块被用以标记给定块或帧的结束。如果同步组块显现,不需EOB来结束先前的块或帧。类似地,如果EOB展现,同步组块不需要定义下一块或帧的开始。对于低速率流,如果不考虑初试和起动则不必携带任一组块。 
A.组块类型 
在此例中,组块ID(组块类型)辨别在通用基本流中携带的数据类型。它足够灵活能够表示所有不同的编/解码器类型及其相关联编/解码数据,包括流属性及任何元数据,同时允许基本流扩展以携带音频、视频、或其它数据类型。后来添加的组块类型可使用LENGTH_PROVIDED或者LENGTH_PREDEFINED类以指示其长度,它使现有基本流解码器的解析器能跳过这些后来定义的解码器未经编程以解码的组块。 
在此所述的基本流定义的实现中,使用单字节组块类型字段来表示和辨别所有的编/解码数据。在所示实现中,有三类组块如表格3所示。 
  组块范围   标记类型
  0x00到0x92   LENGTH_PROVIDED
  0x93到0xBF   LENGTH_AND_MEANING_  PREDEFINED
  0xC0到0xFF   LENGTH_PREDEFINED
  0x3F   转义码  (对于附加编/解码器)
  0x7F   转义码  (对于附加流属性)
                   表格3.用于组块类的标记 
对于LENGTH_PROVIDED类的标记,数据在显式表达随后数据长度的长度字段后面。尽管数据本身可携带长度标识符,整个语法仍定义了长度字段。 
该类中元素的表格如表格4所示。 
  组块类型(十六进制)   数据流   流属性标记(十六进制)
  0x00   PCM流   0x40
  0x01   WMA语音   0x41
  0x02   RT语音   0x42
  0x03   WMA Std   0x43
  0x04   WMA+   0x44
  0x05   WMA Pro   0x45
  0x06   WMA无损   0x46
  0x07   PLEAC   0x47
  ......   ......  
  0x3E   附加编/解码器   0x7E
             表格4.LENGTH_PROVIDED类的元素 
LENGTH_PROVIDED类中元数据元素的表格如下表5所示。 
  组块类型(十六进制)   元数据
  0x80   内容描述符元数据
  0x81   向下折叠
  0x82   动态范围控制
  0x83   多字节填充元素
  0x84   呈现时间标记
  ....   ....
  0x92   附加元数据
           表格5.LENGTH_PROVIDED类中元数据元素 
LENGTH字段元素遵从标记的LENGTH_PROVIDED类。LENGTH字段元素的表格如下表6所示。 
  字段的第一  比特(MSB)   长度定义
  0   一单字节长度字段(MSB是比特7)  7个LSB(比特数是6到0)以字节数指示随后数据字段的尺寸。  这是用于除某些音频有效载荷外所有数据的最通用尺寸字段。
  1   一三字节长度字段(MSB是比特23)  比特数22到3以字节数指示随后字段的尺寸  如果使用长度字段来定义音频有效载荷的尺寸,比特数2到0  指示音频帧的数量
  1   如果比特22到3的值为“FFFFF”,这表示一转义码,而比特  2到0是不受约束的。它后面跟有4字节大小的字段,指示有  效组合的附加字节大小。该值FFFFF被加到附加的4字节无符  号位上以得到总的数据的字节数长度。
       表格6.LENGTH_PROVIDED标记后LENGTH字段的元素 
对于LENGTH_AND_MEANING_PREDEFINED的标记,下表7定义了组块类型之后字段的长度。 
  组块类型(十六进制)   名称   长度
  0x93   同步字   5字节
  0x94   CRC   2字节
  0x95   单字节填充元素   1字节
  0x96   END_OF_BLOCK   1字节
  ...   ...   ...
  0xBF   (附加标记定义)   XX
表格7.对LENGTH_AND_MEANING_PREDEFINED标记的组块类型之后字段长度 
对于LENGTH_PREDEFINED标记,组块类型的比特5到3定义了不理解该组块类型的解码器,或不需要把数据包括在该组块类型的解码器在组块类型之后必须跳过的数据长度,如表8所示。组块类型的两个最高位比特(即比特7和6)=11。 
  组块类型比特数5到3   要跳过的数据长度(单位:字节)
  000   1
  001   1
  010   2
  011   4
  100   8
  101   16
  110   32
  111   32
表格8.对LENGTH_PREDEFINED标记在组块类型之后要跳过的数据长度 
对于2-字节、4-字节、8-字节、16-字节数据,最多有8个不同标记是可能的,由组块类型的比特2到0表示。对于1-字节和32-字节数据而言,可能的标记数量加倍为16,因为1-字节和32-字节数据都可以用两种方法表示(例如,1-字节的000或001和32-字节的110或111,比特数为5到3,如上图8所示)。 
B.元数据字段 
向下折叠:该字段包含创作者控制折叠情形中有关折叠矩阵的信息。该字段携带根据所携带的折叠组合其尺寸可变化的折叠矩阵。在最坏情形中,对于从7.1(8信道,包括次低音扬声器)到5.1(6信道,包括次低音扬声器)的向下折叠,尺寸会是8x6矩阵。向下折叠字段在每个访问单元中重复以涵盖向下折叠矩阵随时间改变的情形。 
DRC:该字段包含文件的DRC(动态范围控制)信息(例如DRC系数)。 
内容描述符元数据:在此例中,元数据组块提供用于传送有关音频流内容的基本描述信息的低比特率信道。内容描述符元数据为32字节长。该字段是可选的,且如果必要可每三秒重复一次以节约带宽。有关内容描述符元数据的更多细节在上面的表格2中提供。 
真正的内容描述符字符串由接收器从元数据中所包含的字节流进行组合。流中的每个字节表示一个UTF-8字符。如果元数据字符串在结束块之前结束了,可用0x00填充元数据。字符串的开始和结束由“Type”字段中的转换暗示。因此,在发送内容描述符元数据时,发送器在所有的4个类型上循环-即使一个或多个字符串是空的。 
已在说明书和附图中描述并说明了本发明的诸原理,可以理解各种实施例可在排列和细节上作更改而不背离这些原理。应当理解在此描述的程序、过程、或方法不相关或不受限于任何特定类型的计算环境,除非另有指出。各类通用或专用计算环境可根据在此所述的教学来使用或执行操作。软件中所示实施例的元素可在硬件中得到实现,反之亦然。 

Claims (21)

1.在数字媒体系统中,一种将第一格式的数字媒体数据映射成传输格式的方法,其特征在于,所述方法包括:
获取以所述第一格式编码的数字媒体数据;
将所述获得的数字媒体数据安排在帧排列中,所述帧排列具有多个帧,其中所述帧是传输格式中单独流的访问单元,每个帧由多个组块构成,所述多个组块的每个组块包括:
同步组块,包括同步模式元素、指示先前同步模式元素开始处的偏移的长度字段以及将所述组块标识为同步组块的第一组块类型标识符;
时间标记组块,包括时间标记数据以及将所述组块标识为时间标记组块的第二组块类型标识符;
媒体有效载荷数据组块,包括媒体有效载荷数据和将所述组块标识为媒体有效载荷数据组块的第三组块类型标识符;
元数据组块,包括元数据以及将所述组块标识为元数据组块的第四组块类型标识符;
循环冗余码校验组块,包括循环冗余码校验数据以及将所述组块标识为循环冗余码校验组块的第五组块类型标识符;以及
以所述传输格式将所述数字媒体数据的帧排列插入数字媒体数据流。
2.如权利要求1所述的方法,其特征在于,所述数字媒体数据是音频,且所述传输格式用于在计算机可读数据存储光盘上存储音频数据。
3.如权利要求1所述的方法,其特征在于,所述第一格式是Windows媒体音频格式而传输格式是DVD-A经压缩音频格式。
4.如权利要求1所述的方法,其特征在于,所述第一格式是Windows媒体音频格式而传输格式是DVD音频记录格式。
5.如权利要求1所述的方法,其特征在于,所述元数据组块包括指示元数据尺寸的信息。
6.如权利要求5所述的方法,其特征在于,所述元数据组块包括指示元数据类型的信息。
7.如权利要求1所述的方法,其特征在于,所述帧排列还包括格式标头组块,所述格式标头组块包括流属性。
8.如权利要求1所述的方法,其特征在于,所述帧排列还包括内容描述符元数据。
9.如权利要求1所述的方法,其特征在于,每个帧具有固定尺寸。
10.如权利要求1所述的方法,其特征在于,所述多个帧包括可变尺寸的帧。
11.如权利要求1所述的方法,其特征在于,所述第一格式是Windows媒体音频格式而传输格式是MPEG-2程序流格式。
12.在一数字信号处理器中,一种把音频数据映射成用于在计算机可读数据存储光盘上存储音频数据的格式的方法,其特征在于,所述方法包括:
获取音频数据;
将所述获得的音频数据转换成具有固定尺寸的音频数据访问单元,所述音频数据访问单元由多个组块构成,所述多个组块的每个组块包括:
同步组块,包括同步模式元素、指示先前同步模式元素开始处的偏移的长度字段以及将所述组块标识为同步组块的第一组块类型标识符;
时间标记组块,包括时间标记数据以及将所述组块标识为时间标记组块的第二组块类型标识符;
音频有效载荷数据组块,包括音频有效载荷数据和将所述组块标识为音频有效载荷数据组块的第三组块类型标识符;
元数据组块,包括元数据以及将所述组块标识为元数据组块的第四组块类型标识符;
循环冗余码校验组块,包括循环冗余码校验数据以及将所述组块标识为循环冗余码校验组块的第五组块类型标识符;以及
将所述音频数据访问单元以一种格式插入音频数据流,所述格式为用于在计算机可读数据存储光盘上存储音频数据的格式。
13.在数字媒体系统中,一种把音频数据解码成用于在计算机可读数据存储光盘上存储音频数据的格式的方法,其特征在于,所述方法包括:
获取以用于在计算机可读数据存储光盘上存储音频数据的格式进行编码的数据,在帧排列中获得的音频数据具有固定尺寸并包括音频数据组块和元数据组块,所述帧排列具有多个帧,其中所述帧是传输格式中单独流的访问单元,每个帧由多个组块构成,所述多个组块的每个组块包括:
同步组块,包括同步模式元素、指示先前同步模式元素开始处的偏移的长度字段以及将所述组块标识为同步组块的第一组块类型标识符;
时间标记组块,包括时间标记数据以及将所述组块标识为时间标记组块的第二组块类型标识符;
音频有效载荷数据组块,包括音频有效载荷数据和将所述组块标识为音频有效载荷数据组块的第三组块类型标识符;
元数据组块,包括元数据以及将所述组块标识为元数据组块的第四组块类型标识符;
循环冗余码校验组块,包括循环冗余码校验数据以及将所述组块标识为循环冗余码校验组块的第五组块类型标识符;;以及
解码所述获得的音频数据。
14.如权利要求13所述的方法,其特征在于,其中,所述帧排列包括从中间格式转换的音频数据,所述中间格式是Windows媒体音频格式,且所述用于在计算机可读数据存储光盘上存储音频数据的格式是DVD格式。
15.在数字媒体系统中,一种把数字媒体数据编码为用于映射到传输容器中的通用基本流的方法,其特征在于,所述方法包括:
获取根据选定数字媒体编/解码器编码的数字媒体流;
将所述获取的数字媒体流安排在具有帧排列的基本流中,所述帧排列具有多个帧,其中所述帧是传输格式中单独流的访问单元,每个帧由多个组块构成,所述多个组块中的每个组块包括:
同步组块,包括同步模式元素、指示先前同步模式元素开始处的偏移的长度字段以及将所述组块标识为同步组块的第一组块类型标识符;
时间标记组块,包括时间标记数据以及将所述组块标识为时间标记组块的第二组块类型标识符;
媒体有效载荷数据组块,包括媒体有效载荷数据和将所述组块标识为媒体有效载荷数据组块的第三组块类型标识符;
元数据组块,包括元数据以及将所述组块标识为元数据组块的第四组块类型标识符;
循环冗余码校验组块,包括循环冗余码校验数据以及将所述组块标识为循环冗余码校验组块的第五组块类型标识符;以及
将所述基本流插入所述传输容器。
16.如权利要求15所述的方法,其特征在于,所述帧排列包括多个组块,每个组块具有表示所述组块类型的语法元素。
17.如权利要求16所述的方法,其特征在于,所述表示所述组块类型的语法元素允许现有基本流解码器的解析器跳过未对该解析器编程以进行解码的组块。
18.如权利要求15所述的方法,其特征在于,所述帧包括块结束组块。
19.如权利要求15所述的方法,其特征在于,所述帧包括多个语法元素,所述语法元素包括表示所述选定数字媒体编/解码器的编/解码器属性组块元素,所述编/解码器属性组块元素包括选定数字媒体编/解码器的版本信息。
20.如权利要求15所述方法,其特征在于,所述帧还包括可选组块。
21.一种对根据权利要求15的方法编码的数字媒体数据进行解码的方法,其特征在于,所述方法包括:
将所述基本流从所述传输容器中分离出来;
解析所述基本流以标识所述同步模式元素和长度字段的出现;
基于所标识的所述同步模式元素的出现来从所述传输容器的帧排列中标识所述基本流的一个帧;以及
校验由所述长度字段指示的偏移是否对应于所解析的字节的长度,以便从先前的同步模式抵达该同步模式元素的出现。
CN2005100673765A 2004-04-14 2005-04-14 一种数字媒体数据编码和解码的方法 Expired - Fee Related CN1761308B (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US56267104P 2004-04-14 2004-04-14
US60/562,671 2004-04-14
US58099504P 2004-06-18 2004-06-18
US60/580,995 2004-06-18
US10/966,443 US8131134B2 (en) 2004-04-14 2004-10-15 Digital media universal elementary stream
US10/966,443 2004-10-15

Publications (2)

Publication Number Publication Date
CN1761308A CN1761308A (zh) 2006-04-19
CN1761308B true CN1761308B (zh) 2012-05-30

Family

ID=34939242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100673765A Expired - Fee Related CN1761308B (zh) 2004-04-14 2005-04-14 一种数字媒体数据编码和解码的方法

Country Status (6)

Country Link
US (2) US8131134B2 (zh)
EP (1) EP1587063B1 (zh)
JP (1) JP4724452B2 (zh)
KR (1) KR101159315B1 (zh)
CN (1) CN1761308B (zh)
AT (1) ATE529857T1 (zh)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156610A1 (en) * 2000-12-25 2007-07-05 Sony Corporation Digital data processing apparatus and method, data reproducing terminal apparatus, data processing terminal apparatus, and terminal apparatus
US20060149400A1 (en) * 2005-01-05 2006-07-06 Kjc International Company Limited Audio streaming player
US20070067472A1 (en) * 2005-09-20 2007-03-22 Lsi Logic Corporation Accurate and error resilient time stamping method and/or apparatus for the audio-video interleaved (AVI) format
JP2007234001A (ja) * 2006-01-31 2007-09-13 Semiconductor Energy Lab Co Ltd 半導体装置
JP4193865B2 (ja) * 2006-04-27 2008-12-10 ソニー株式会社 デジタル信号切換え装置及びその切換え方法
US9680686B2 (en) * 2006-05-08 2017-06-13 Sandisk Technologies Llc Media with pluggable codec methods
US20070260615A1 (en) * 2006-05-08 2007-11-08 Eran Shen Media with Pluggable Codec
EP1881485A1 (en) * 2006-07-18 2008-01-23 Deutsche Thomson-Brandt Gmbh Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
JP4338724B2 (ja) * 2006-09-28 2009-10-07 沖電気工業株式会社 電話端末、電話通信システム及び電話端末構成用プログラム
JP4325657B2 (ja) * 2006-10-02 2009-09-02 ソニー株式会社 光ディスク再生装置、信号処理方法、およびプログラム
US20080256431A1 (en) * 2007-04-13 2008-10-16 Arno Hornberger Apparatus and Method for Generating a Data File or for Reading a Data File
US7778839B2 (en) 2007-04-27 2010-08-17 Sony Ericsson Mobile Communications Ab Method and apparatus for processing encoded audio data
KR101401964B1 (ko) * 2007-08-13 2014-05-30 삼성전자주식회사 메타데이터 인코딩/디코딩 방법 및 장치
KR101394154B1 (ko) * 2007-10-16 2014-05-14 삼성전자주식회사 미디어 컨텐츠 및 메타데이터를 부호화하는 방법과 그 장치
JP5547649B2 (ja) * 2007-11-28 2014-07-16 ソニック アイピー, インコーポレイテッド 部分的に利用可能なマルチメディアコンテンツの再生のためのシステム及び方法
JP5406276B2 (ja) * 2008-04-16 2014-02-05 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US8325800B2 (en) 2008-05-07 2012-12-04 Microsoft Corporation Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers
US8379851B2 (en) 2008-05-12 2013-02-19 Microsoft Corporation Optimized client side rate control and indexed file layout for streaming media
US8789168B2 (en) * 2008-05-12 2014-07-22 Microsoft Corporation Media streams from containers processed by hosted code
US7860996B2 (en) 2008-05-30 2010-12-28 Microsoft Corporation Media streaming with seamless ad insertion
EP2131590A1 (en) * 2008-06-02 2009-12-09 Deutsche Thomson OHG Method and apparatus for generating or cutting or changing a frame based bit stream format file including at least one header section, and a corresponding data structure
US8265140B2 (en) 2008-09-30 2012-09-11 Microsoft Corporation Fine-grained client-side control of scalable media delivery
CN102171750B (zh) * 2008-10-06 2013-10-16 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
JP4917189B2 (ja) * 2009-09-01 2012-04-18 パナソニック株式会社 デジタル放送送信装置、デジタル放送受信装置およびデジタル放送送受信システム
US20110219097A1 (en) * 2010-03-04 2011-09-08 Dolby Laboratories Licensing Corporation Techniques For Client Device Dependent Filtering Of Metadata
US9282418B2 (en) * 2010-05-03 2016-03-08 Kit S. Tam Cognitive loudspeaker system
US8755438B2 (en) * 2010-11-29 2014-06-17 Ecole De Technologie Superieure Method and system for selectively performing multiple video transcoding operations
TWI759223B (zh) * 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
KR101711937B1 (ko) * 2010-12-03 2017-03-03 삼성전자주식회사 비디오 및 오디오 통신 시스템에서 가변 길이 전송 패킷을 지원하기 위한 장치 및 방법
US8880633B2 (en) 2010-12-17 2014-11-04 Akamai Technologies, Inc. Proxy server with byte-based include interpreter
US20120265853A1 (en) * 2010-12-17 2012-10-18 Akamai Technologies, Inc. Format-agnostic streaming architecture using an http network for streaming
CN107342091B (zh) * 2011-03-18 2021-06-15 弗劳恩霍夫应用研究促进协会 计算机可读介质
US8326338B1 (en) * 2011-03-29 2012-12-04 OnAir3G Holdings Ltd. Synthetic radio channel utilizing mobile telephone networks and VOIP
EP2751993A4 (en) * 2011-08-29 2015-03-25 Tata Consultancy Services Ltd METHOD AND SYSTEM FOR INTEGRATING METADATA IN MULTIPLEXED ANALOGUE VIDEOS DIFFUSED BY A DIGITAL BROADCAST Means
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
TWI540886B (zh) * 2012-05-23 2016-07-01 晨星半導體股份有限公司 音訊解碼方法及音訊解碼裝置
KR20220164802A (ko) 2013-01-21 2022-12-13 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화
MY183382A (en) 2013-01-21 2021-02-18 Dolby Laboratories Licensing Corp Audio encoder and decoder with program loudness and boundary metadata
CN107578781B (zh) * 2013-01-21 2021-01-29 杜比实验室特许公司 利用响度处理状态元数据的音频编码器和解码器
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US20150039321A1 (en) * 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
CN109903776B (zh) 2013-09-12 2024-03-01 杜比实验室特许公司 用于各种回放环境的动态范围控制
US20150117666A1 (en) * 2013-10-31 2015-04-30 Nvidia Corporation Providing multichannel audio data rendering capability in a data processing device
WO2015190893A1 (ko) * 2014-06-13 2015-12-17 삼성전자 주식회사 멀티미디어 데이터를 관리하는 방법 및 장치
WO2016022979A1 (en) * 2014-08-07 2016-02-11 Sonic IP. Inc. Systems and methods for protecting elementary bitstreams incorporating independently encoded tiles
JP6724782B2 (ja) * 2014-09-04 2020-07-15 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
EP3518236B8 (en) * 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
CN105592368B (zh) * 2015-12-18 2019-05-03 中星技术股份有限公司 一种视频码流中版本标识的方法
US10923135B2 (en) * 2018-10-14 2021-02-16 Tyson York Winarski Matched filter to selectively choose the optimal audio compression for a metadata file
US11108486B2 (en) 2019-09-06 2021-08-31 Kit S. Tam Timing improvement for cognitive loudspeaker system
EP4035030A4 (en) 2019-09-23 2023-10-25 Kit S. Tam INDIRECT SOURCE COGNITIVE SPEAKER SYSTEM
US11197114B2 (en) 2019-11-27 2021-12-07 Kit S. Tam Extended cognitive loudspeaker system (CLS)
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5617263A (en) * 1993-05-10 1997-04-01 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for recording data suitable for a digital recording in a multiplexed fashion

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750520B1 (ko) * 1997-09-25 2007-08-21 소니 가부시끼 가이샤 부호화 스트림 생성 장치 및 방법, 데이터 전송 시스템 및 방법, 편집 시스템 및 방법
US6536011B1 (en) * 1998-10-22 2003-03-18 Oak Technology, Inc. Enabling accurate demodulation of a DVD bit stream using devices including a SYNC window generator controlled by a read channel bit counter
JP3529665B2 (ja) 1999-04-16 2004-05-24 パイオニア株式会社 情報変換方法及び情報変換装置並びに情報再生装置
JP2001086453A (ja) 1999-09-14 2001-03-30 Sony Corp 信号処理装置及び方法並びに記録媒体
GB0007870D0 (en) * 2000-03-31 2000-05-17 Koninkl Philips Electronics Nv Methods and apparatus for making and replauing digital video recordings, and recordings made by such methods
JP2002184114A (ja) 2000-12-11 2002-06-28 Toshiba Corp 音楽データの記録再生システムおよび音楽データ記憶媒体
JP2002358732A (ja) 2001-03-27 2002-12-13 Victor Co Of Japan Ltd オーディオ用ディスク、その記録装置、再生装置及び記録再生装置並びにコンピュータプログラム
US7228054B2 (en) 2002-07-29 2007-06-05 Sigmatel, Inc. Automated playlist generation
JP2004078427A (ja) 2002-08-13 2004-03-11 Sony Corp データ変換システム,変換制御装置,プログラム,記録媒体およびデータ変換方法
US7272658B1 (en) * 2003-02-13 2007-09-18 Adobe Systems Incorporated Real-time priority-based media communication
US20040165734A1 (en) * 2003-03-20 2004-08-26 Bing Li Audio system for a vehicle
US7782306B2 (en) * 2003-05-09 2010-08-24 Microsoft Corporation Input device and method of configuring the input device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5617263A (en) * 1993-05-10 1997-04-01 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for recording data suitable for a digital recording in a multiplexed fashion

Also Published As

Publication number Publication date
US20050234731A1 (en) 2005-10-20
EP1587063B1 (en) 2011-10-19
EP1587063A2 (en) 2005-10-19
US20120130721A1 (en) 2012-05-24
US8131134B2 (en) 2012-03-06
EP1587063A3 (en) 2009-11-04
JP4724452B2 (ja) 2011-07-13
CN1761308A (zh) 2006-04-19
US8861927B2 (en) 2014-10-14
JP2005327442A (ja) 2005-11-24
ATE529857T1 (de) 2011-11-15
KR20060045675A (ko) 2006-05-17
KR101159315B1 (ko) 2012-06-22

Similar Documents

Publication Publication Date Title
CN1761308B (zh) 一种数字媒体数据编码和解码的方法
CN100588124C (zh) 无损音频解码/编码方法和装置
KR101664434B1 (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
CN1813286B (zh) 音频编码方法、音频编码器以及数字介质编码方法
JP5254933B2 (ja) オーディオデータ復号化方法
CN101371447B (zh) 使用扩展带频率编码的复变换信道编码
CN101036183B (zh) 用于立体声兼容的多声道音频编码/解码的方法和设备
US7283967B2 (en) Encoding device decoding device
CN101484937B (zh) 使用缓冲器调节对已预测编码的数据进行解码
CN101223582B (zh) 一种音频编码方法、音频解码方法及音频编码器
CN106233380A (zh) 多对象音频的编码后位速率减少
CN102306494B (zh) 对音频信号编码和解码的方法和设备
CN101615396A (zh) 音频编码设备、音频解码设备及其方法
US7245234B2 (en) Method and apparatus for encoding and decoding digital signals
CN102047564A (zh) 将重叠变换因式分解成两个块变换
CN101151659A (zh) 可扩缩多通道音频编码
WO2002103685A1 (fr) Appareil et procede de codage, appareil et procede de decodage et programme
CN102365680A (zh) 音频信号的编码和解码方法及其装置
KR20070037945A (ko) 오디오 신호의 부호화/복호화 방법 및 장치
CN100435486C (zh) 音频编码及解码的方法及其装置
TW200816655A (en) Method and apparatus for an audio signal processing
CN101361277B (zh) 处理音频信号的方法和装置
CN1826635B (zh) 音频文件格式转换

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CI01 Publication of corrected invention patent application

Correction item: Priority sorting

Correct: 2004.10.15 U S 10/966443 (sort 3)

False: 2004.10.15 U S 10/966443 (sort 1)

Number: 16

Volume: 22

CI02 Correction of invention patent application

Correction item: Priority sorting

Correct: 2004.10.15 U S 10/966443 (sort 3)

False: 2004.10.15 U S 10/966443 (sort 1)

Number: 16

Page: The title page

Volume: 22

COR Change of bibliographic data

Free format text: CORRECT: PRIORITY ¬ ORDERING; FROM: 2004.10.15 US 10/966,443¬ (ORDER 1) TO: 2004.10.15 US 10/966,443¬ (ORDER3)

ERR Gazette correction

Free format text: CORRECT: PRIORITY ¬ ORDERING; FROM: 2004.10.15 US 10/966,443¬ (ORDER 1) TO: 2004.10.15 US 10/966,443¬ (ORDER3)

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150428

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150428

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120530

Termination date: 20190414