DE60214599T2 - Skalierbare audiokodierung - Google Patents

Skalierbare audiokodierung Download PDF

Info

Publication number
DE60214599T2
DE60214599T2 DE60214599T DE60214599T DE60214599T2 DE 60214599 T2 DE60214599 T2 DE 60214599T2 DE 60214599 T DE60214599 T DE 60214599T DE 60214599 T DE60214599 T DE 60214599T DE 60214599 T2 DE60214599 T2 DE 60214599T2
Authority
DE
Germany
Prior art keywords
signal
layer
audio
coding
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60214599T
Other languages
English (en)
Other versions
DE60214599D1 (de
Inventor
Sebastian Streich
Miikka Vilermo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of DE60214599D1 publication Critical patent/DE60214599D1/de
Application granted granted Critical
Publication of DE60214599T2 publication Critical patent/DE60214599T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability

Description

  • Feld der Erfindung
  • Die vorliegende Erfindung betrifft ein Audiokodier-Verfahren zum Kodieren von Audiosignalen in einem geschichteten Datenstrom, der eine erste Schicht und eine zweite Schicht aufweist, wobei die zweite Schicht als eine Erweiterung der ersten Schicht dient. Insbesondere bezieht sich die vorliegende Erfindung auf ein Audiokodierverfahren, bei dem ein originäres bzw. originales digitales Audiosignal kodiert wird, um ein erstes Schichtsignal zu erhalten, wobei ein Restsignal erzeugt wird, um eine Abweichung zwischen dem originalen Signal und dem Signal der ersten Schicht wiederzugeben, und entweder das originale Signal oder das Restsignal ausgewählt wird, um in ein Signal der zweiten Schicht kodiert zu werden.
  • Hintergrund der Erfindung
  • Audio d.h. akustische Energie ist naturgemäß analog. Dies ist praktisch, jedenfalls, um Audio in digitaler Form zu Speicherungs- oder Übertragungszwecken darzustellen. Reine digitale Audiodaten, die durch Abtastung und Digitalisierung eines analogen Audiosignals erhalten werden, benötigen eine große Speicherkapazität und Kanalbandbreite, insbesondere für Hochqualitätsaudiomaterial, welches beispielsweise bei 16 Bits pro Abtastung, bei einer Abtastfrequenz von 44 kHz dargestellt werden kann (normale Audio CD Qualität). Folglich ist digitales Audiomaterial normalerweise gemäß verschiedenen bekannten Quellkodierverfahren komprimiert.
  • Wahrnehmungs-Audiokodiertechniken, wie MPEG Layer-3 (MP3), MPEG-2 und MPEG-4, machen alle Gebrauch von den Signalmaskierungseigenschaften des menschlichen Ohrs, um die Menge von Daten zu reduzieren. Indem dies gemacht wird, wird das Quantisierungsrauschen auf solche Weise auf Frequenzbänder verteilt, dass es durch das Gesamtsignal überdeckt bzw. maskiert wird, d.h. es bleibt unhörbar. Eine beträchtliche Speichergrößenreduzierung ist so mit kleinem oder keinem wahrnehmbaren Verlust der Audioqualität möglich.
  • Wahrnehmungs-Audiokodiertechniken sind oft skalierbar und erzeugen einen geschichteten Bitstrom, welcher eine Basisschicht und mindestens eine Erweiterungsschicht aufweist. Dies ermöglicht eine Bitratenskalierbarkeit, d.h. Dekodieren auf verschiedenen Audioqualitäts-Levels auf der Dekodiererseite oder Reduzierung der Bitrate in dem Netzwerk, durch Verkehrs-Gestaltung oder Bearbeitung bzw. Konditionierung. Ein Ansatz ist es, die Basisschichtkodierung nur in mono bereitzustellen und eine Erweiterungsschichtkodierung bereitzustellen, welche dem Audiomaterial Stereoqualität anhängt. Auf diese Art und Weise ist es auf der Dekodiererseite möglich, zu wählen, nur die Basisschichtinformation zu dekodieren (zur Sicherheit in dem Fall, dass die Empfängervorrichtung auf der Dekodiererseite nur einen Sprecher aufweist) oder die Basisschichtinformation, sowie die Erweiterungsschichtinformation so zu dekodieren, um Stereoklang zu erzeugen.
  • Innerhalb des Zusammenhangs von skalierbarer Audiokodierung, werden "Basisschicht" und "Kernschicht" als Synonym verwendet.
  • ISO/IEC 14496-3:2001(E), Subpart 4, beschreibt einen Teil des MPEG-4 Audiostandards und deutet auf eine Kombination von entweder einem MPEG-4 konformen Kerncodec, oder einem externen Kerncodec vom CELP-Typ (Code Excited Linear Predicition), mit einem AAC (Advanced Audio Coding) Erweiterungsschichtcodec, um eine effiziente Bitratenskalierbarkeit bereitzustellen.
  • Der AMR-WB (Adaptive Multi-Rate Wideband) Sprachcodec ist ein Beispiel eines CELP-Typ-Codecs, der in der dritten Generation von Mobilendgeräten verwendet werden wird, und ist in dem 3rd Generation Partnership Project (3GPP) TS 26.190 V5.0.0 (2001-03) beschrieben.
  • In einer skalierbaren Audiokodieranordnung wie die, auf welche in dem oben erwähnten MPEG-4 Audiostandard Bezug genommen wurde, berechnet eine frequenzselektive Schaltungseinheit (frequency selective switching unit) (FSSU) in dem Erweiterungsschichtkodierer die Menge bzw. den Betrag von Bits, die benötigt werden, um entweder das originale Audiosignal, oder ein Restsignal zu kodieren, welches durch das Abziehen des originalen Signals und des rekonstruierten Ausgangssignals der vorhergehenden Schicht (der Kernschicht) abgeleitet wird. Die FSSU wählt immer die Alternative, die weniger Bits zur Kodierung benötigt. Diese Entscheidung wird für jedes einzelne Subband (d.h. für jede fixierte Gruppe von Spektrallinien, die das Signal darstellen), innerhalb eines Audiorahmens gemacht. Um eine Rekonstruktion auf der Dekodiererseite zu ermöglichen, muss der Kodierer FSS-Steuerungsinformation übertragen, um anzuzeigen, welche der zwei Alternativen für jedes Sub-Band in jedem Audiorahmen ausgewählt wurden. Gemäß dieser Steuerungsinformation, wird dann das Ausgangssignal des Erweiterungsschichtdekodierers, an den Ausgang des Kernschichtdekodierers nur in diesen Sub-Bändern hinzugefügt, bei denen das Restsignal kodiert wurde.
  • Jedenfalls haben die gegenwärtigen Erfinder das folgende Problem anhand einer skalierbaren Audiokodiervorrichtung, wie die oben beschriebene, identifiziert. Insbesondere für niedrige und bescheidene Bitrates, z.B. in dem Bereich von 12 kbps–24 kbps, werden manchmal nicht genug Bits vorhanden sein, um das Erweiterungssignal in einer solchen Weise zu kodieren, dass die Quantisierungsfehler nicht wahrnehmbar bleiben. Auf der Kodiererseite, werden solche Fehler wie Knallen, Knacken usw. klingen und werden deshalb sehr störend sein. Tatsächlich können solche Fehler sogar zu einer Verminderung der wahrgenommenen Qualität, verglichen mit dem Ausgangssignal der Kernschicht alleine führen.
  • Bei dem Stand der Technik würde man, um diesen Effekt zu verhindern, entweder den kodierten Frequenzbereich beschränken müssen, mit der Gefahr des Verlustes von hörbarer Information, oder die Bitrate für den Erweiterungsschichtcodec erhöhen, was keine wünschenswerte oder sogar mögliche Option, angesichts der vorhandenen Bandbreite sein kann.
  • Zusammenfassung der Erfindung
  • Angesichts der oben erwähnten Umstände ist es ein Ziel der Erfindung, wie durch die beigefügten unabhängigen Ansprüche festgelegt, das Problem, welches oben behandelt wurde zu lösen, oder zumindest zu reduzieren, und eine bessere Tonqualität bei den selben oder reduzierten Bitraten bereitzustellen, als in dem Stand der Technik.
  • Allgemein wird das oben genannte Ziel mittels eines Audiokodierverfahrens, einem Audiokodierer, einem Audiokodeumsetzer, einem Audiodekodierer, einem Computerprogrammprodukt, einer integrierten Schaltung und einer Station für ein mobiles Telekommunikationsnetzwerk gemäß den beigefügten unabhängigen Patentansprüchen erreicht.
  • Einfach ausgedrückt wird das Ziel erreicht, durch die Berücksichtigung einer zusätzlichen Alternative zum Kodieren des Erweiterungsschichtsignals, zusätzlich zu der Auswahl zwischen dem Verwenden entweder des Rest- oder des Originalsignals, in dem Stand der Technik. In einer bevorzugten Ausführungsform besteht die Alternative aus dem Annehmen des Ausgangssignals der Kernschicht, direkt als die Ausgabe der Erweiterungsschicht für einige Sub-Bänder. Dies wird vollbracht, indem das Restsignal mit Nullen, oder mit einem anderen Signal mit einer ähnlich geringen Entropie ersetzt wird und zeigt in der oben beschriebenen FSS-Steuerungsinformation an, dass das Restsignal für das besagte Sub-Band kodiert wird. Folglich wird kein zusätzlicher Overhead auf der Dekodiererseite benötigt; falls die FSS-Steuerungsinformation anzeigt, dass das Restsignal kodiert worden ist und die zugehörigen Frequenzsub-Bänder in dem Kodierer durch Nullen ersetzt worden sind, wird das Ausgangssignal der Kernschicht in dem Kodierer für diese Subbänder angehängt, und ersetzt folglich die Nullen.
  • Die Erfindung liefert mindestens zwei bedeutende Vorteile:
    Erstens kann die Erfindung verwendet werden, um sicherzustellen, dass der durch Quantisierung verursachte Fehler nie größer ist als der Fehler, der durch die Verwendung der vorangehenden Schicht alleine verursacht wird. Zusätzlich, da die hörbaren Fehler, die durch die Quantisierung verursacht werden, sehr unerfreulich sind, kann der Kodierer der momentanen Schicht gezwungen werden, Nicht-null-Werte, zum Kodieren in nur diesen Frequenzsubbändern zu verwenden, bei denen das Ausblenden des Quantisierungsfehlers sichergestellt werden kann. Außerdem ist eine "Bandspaltungs"-Annäherung verfügbar, gemäß der das Ausgangssignal der vorangehenden Schicht komplett unverändert, für den unteren Grenzfrequenzbereich bleibt, wobei der Erweiterungsschichtcodec nur einige zusätzliche Hochfrequenzkomponenten über dem unteren Grenzfrequenzbereich kodiert. Diese Annäherung ist insbesondere anwendbar für Proben, die Sprache und einen Kernschichtcodec beinhalten, was die Sprachkodierung gut ausführt.
  • Zweitens reduziert die Erfindung die benötigte Anzahl von Bits in dem Kodierprozess der Erweiterungsschicht. Das Kodieren eines Frequenz-Sub-Bandes, welches nur Nullen, im Gegensatz zu Nicht-null-Werten beinhaltet, wird gewöhnlich auch im schlimmsten Fall einige Bits sichern. Dank diesem Aspekt der Erfindung wurde in den Experimenten herausgefunden, dass bis zu 10 % Einsparung in der gesamten Bitrate erreichbar sind. Dieser zweite Vorteil kann entweder verwendet werden um die Bitrate des Erweiterungsschichtcodecs zu reduzieren, oder um die Quantisierungsfehler der anderen Frequenzbänder in demselben Rahmen zu reduzieren.
  • Zusätzlich zu dem oben genannten, sehen die gegenwärtigen Erfinder ein schnelleres Kodieren und Dekodieren von Audiosignalen vor, vorausgesetzt dass der Kodierer und der Dekodierer vorgesehen sind, entsprechend Nullen in einer effizienten Art und Weise zu kodieren und zu dekodieren.
  • Andere Ziele, Eigenschaften und Vorteile der vorliegenden Erfindung, werden aus der folgenden detaillierten Offenbarung der angehängten abhängigen Ansprüche, sowie aus den Zeichnungen ersichtlich werden.
  • Kurze Beschreibung der Zeichnungen
  • Eine bevorzugte Ausführungsform der vorliegenden Erfindung wird nun in größerem Detail beschrieben werden, wobei Bezug auf die beiliegenden Zeichnungen genommen wird, in denen:
  • 1 eine schematische Darstellung eines Telekommunikationssystems ist, in der die vorliegende Erfindung angewendet werden kann.
  • 2 ein schematisches Blockdiagramm ist, das einige der Elemente der 1 darstellt.
  • 3 ein schematisches Blockdiagramm eines skalierbaren Audiokodierers, gemäß einer bevorzugten Ausführungsform ist.
  • 4 ein veranschaulichendes spektrales Audiorahmenformat darstellt, welches eine Vielzahl von Frequenzsubbändern aufweist und welches für die vorliegende Erfindung verwendet werden kann.
  • 5 ein frequenzselektives Schaltungs-(FSS)Feld darstellt, welches dazu dient, die Ursprünge des kodierten Audiosignals für die verschiedenen Frequenzsubbänder, des in
  • 4 gezeigten Audiorahmens, anzuzeigen.
  • 6 kurz die Hauptschritte zur Quantisierung des Audiosignals, mit minimierten Quantisierungsfehlern und optimalen Bitraten gemäß der vorliegenden Erfindung darstellt.
  • 7 eine modifizierte AAC Rate/Verzerrungskontrollschleife, zum Ausführen der Quantisierung der 6 darstellt.
  • Detaillierte Offenbarung der Ausführungsformen
  • 1 ist eine schematische Darstellung eines Telekommunikationssystems, in dem die vorliegende Erfindung angewendet werden kann. In dem System der 1, können Audiodaten zwischen verschiedenen Einheiten 100, 112, 122 und 132, mittels verschiedener Netzwerke 110, 120, und 130 übermittelt werden. Die Audiodaten können Sprache, Musik oder jede andere Art akustischer Information darstellen. Folglich kann Sprache von einem Benutzer eines ortsfesten Telefons 132 durch ein öffentliches Telefonnetz (public switched telephone network) (PSTN) 130 und ein Mobiltelekommunikationsnetzwerk 110, über eine Basisstation 104 hiervon, über eine kabellose Nachrichtenverbindung 102, zu einem Mobiltelefon 100, und umgekehrt übermittelt werden. Das Mobiltelefon kann jede handelsüblich erhältliche Vorrichtung für jedes bekannte Telekommunikationssystem, wie GSM, UMTS oder D-AMPS sein.
  • Außerdem kann digital kodierte Musik, die in einer Datenbank 124 gespeichert ist, von einem Server 122, über das Internet 120 und das Mobiltelekommunikationsnetzwerk 110 zu dem Mobiltelefon 100, oder zu einer anderen tragbaren Vorrichtung 112, welche Zugang zu dem mobilen Telekommunikationsnetzwerk 110 hat, übertragen werden. Die tragbare Vorrichtung 112 kann, beispielsweise ein Minicomputer (personal digital assistant), ein Laptopcomputer mit einer GSM oder UMTS Schnittstelle, ein schmuckes Headset oder anderes Zubehör für solche Vorrichtungen usw. sein. Anstatt sie in der Datenbank 124 zu speichern, können Audiodaten, die durch den Server 122 geliefert werden, direkt von einem optischen Speicher, wie einer CD oder DVD, gelesen werden. Außerdem kann der Server 122 verbunden werden mit, oder eingeschlossen werden in eine Rundfunkstation, um strömende (streaming) Audiodienste über das Internet 120, an die tragbaren Vorrichtungen 100, 112 zu liefern.
  • Folglich bedient das in 1 dargestellte System nur beispielhafte Zwecke und verschiedene andere Situationen, bei denen Audiodaten zwischen verschiedenen Einheiten übermittelt werden, sind innerhalb des Bereichs der Erfindung möglich.
  • 2 präsentiert ein übliches Blockdiagramm eines Mobilaudiodaten-Übertragungssystems, einschließlich eines Mobilendgerätes 250 und einer Netzwerkstation 200. Das Mobilendgerät 250 kann beispielsweise das Mobiltelefon 100, der 1 darstellen, wobei die Netzwerkstation 200, die Basisstation 104, des Mobiltelekommunikationsnetzwerkes 110 in 1 darstellen kann.
  • Das Mobilendgerät 250 kann Sprache über einen Übertragungskanal 206 (z.b. die kabellose Verbindung 102 zwischen dem Mobiltelefon 100 und der Basisstation 104 in 1), zu der Netzwerkstation 200 übermitteln. Ein Mikrophon 252 empfängt eine akustische Eingabe von einem Benutzer des Mobilendgerätes 250, und wandelt die Eingabe in ein entsprechendes analoges elektrisches Signal um, welches an einen Audio-Kodier-/-dekodier-Block 260 geliefert wird. Dieser Block weist einen Audiokodierer 262 und einen Audiodekodierer 264 auf, die zusammen einen Audiocodec bilden. Das analoge Mikrophonsignal wird gefiltert, abgetastet und digitalisiert, bevor der Audiokodierer 262 eine Audiokodierung, die auf das Telekommunikationsnetzwerk anwendbar ist, durchführt. Eine Ausgabe des Audio-kodier-/-dekodier-Blocks 260 wird an einen Kanal-kodier-/-dekodier-Block 270 geliefert, in dem ein Kanalkodierer 272 eine Kanalkodierung an dem kodierten Audiosignal, gemäß dem anwendbaren Standard in dem Mobiltelekommunikationsnetzwerk durchführen wird.
  • Eine Ausgabe des Kanal-kodier-/-dekodier-Blocks 270 wird an einen Funkfrequenzblock (RF) block 280 geliefert, der einen RF-Sender 282, einen RF-Empfänger 284 sowie eine Antenne (nicht gezeigt in 2) einschließt. Wie dem Fachbereich wohl bekannt ist, umfasst der RF Block 280 verschiedene Schaltungen, wie Leistungsverstärker, Filter, lokale Oszillatoren und Mischer, welche zusammen das kodierte Audiosignal auf eine Trägerwelle anpassen, welche als elektromagnetische Wellen, von einer Antenne des Mobilendgerätes 250 aus verbreitet werden.
  • Nachdem es über den Kanal 206 übermittelt worden ist, wird das übertragene RF-Signal, mit seinen darin enthaltenen, kodierten Audiodaten, durch einen RF-Block 230 in der Netzwerkstation 200 empfangen. Ähnlich wie Block 280 in dem Mobilendgerät 250, umfasst der RF-Block 230 einen RF-Sender 232, sowie einen RF-Empfänger 234. Der Empfänger 234 empfängt und demoduliert, in einer Art und Weise, die im Wesentlichen umgekehrt zu dem Ablauf, der durch den Sender 282, wie oben beschrieben durchgeführt wurde, das empfangene RF-Signal, und liefert eine Ausgabe zu einem Kanal-kodier-/-dekodier-Block 220. Ein Kanaldekodierer 224 dekodiert das empfangene Signal und liefert eine Ausgabe zu einem Audio-kodier-/-dekodier-Block 210, in dem ein Audiodekodierer 214 die Audiodaten dekodiert, die original durch den Audiokodierer 262 in dem Mobilendgerät 250 kodiert wurden. Eine dekodierte Audioausgabe 204, beispielsweise ein PCM-Signal, kann innerhalb des Mobiltelekommunikationsnetzwerkes 110 weitergeleitet werden (um zu einem anderen Mobilendgerät übertragen zu werden, welches in dem System eingeschlossen ist) oder kann alternativ zu z.B. dem PSTN 130 oder dem Internet 120 weitergeleitet werden.
  • Wenn Audiodaten in entgegen gesetzter Richtung übermittelt werden, d.h. von der Netzwerkstation 200, zu dem Mobilendgerät 250, wird ein Audioeingangssignal 202 (wie das PCM-Signal) von z.B. dem Server 122 oder dem ortsfesten Telefon 132 durch einen Audiokodierer 212, des Audio -kodier-/-dekodier-Blocks 210 empfangen. Nachdem das Audiokodieren auf das Audioeingangssignal angewendet worden ist, wird das Kanalkodieren durch einen Kanalkodierer 222, in dem Kanal-kodier-/-dekodier-Block 220 durchgeführt. Dann wird das kodierte Audiosignal auf eine Trägerwelle, mittels eines Senders 232 des RF-Blocks 230 moduliert, und wird über den Kanal 206 an den Empfänger 284, des RF-Blocks 280, in dem Mobilendgerät 250 übermittelt. Eine Ausgabe des Empfängers 284, wird an den Kanaldekodierer 274 des Kanal-kodier-/-dekodier-Blocks 270 übermittelt, wird darin kodiert und wird an den Audiokodierer 264 des Audio -kodier-/-dekodier-Blocks 260 weitergeleitet. Die Audiodaten werden durch den Audiodekodierer 264 dekodiert, und werden schließlich in ein analoges Signal gewandelt, welches gefiltert ist und an einen Lautsprecher 254 geliefert wird, der das übertragene Audiosignal, dem Benutzer des Mobilendgerätes 250 akustisch darstellt. Wie allgemein bekannt, wird der Betrieb des Audio-kodier-/-dekodier-Blocks 260, des Kanal-kodier-/-dekodier-Blocks 270 sowie des RF-Blocks 280, des Mobilendgerätes 250, durch eine Steuerung 290 gesteuert, welche einen zugehörigen Speicher 292 aufweist. Demzufolge wird der Betrieb des Audio-kodier-/-dekodier-Blocks 210, des Kanal-kodier-/-dekodier-Blocks 220, sowie des RF-Blocks 230, der Netzwerkstation 200, durch eine Steuerung 240 gesteuert, welche einen zugehörigen Speicher 242 aufweist.
  • 3 stellt den Audiokodierer 262 der 2, in größerem Detail dar. In der bevorzugten Ausführungsform, schließt der Kodierer 262 einen AMR-WB Kernschichtcodec 304 ein, welcher vom CELP-Typ ist, sowie einen AAC-Erweiterungsschichtcodec, welcher durch die Mehrheit der Elemente in 3 gebildet wird. Der Erweiterungsschichtcodec der bevorzugten Ausführungsform ist ein MPEG-4 AAC Codec; jedenfalls könnte auch MPEG-2 AAC ISO/MPEG Audio Layer-3 (MP3), oder jeder andere Frequenztransformierende Codec, mit z.B. einer diskreten Kosinustransformation, oder einer Wavelet-Transformation als Erweiterungsschichtcodec, innerhalb des Bereichs der Erfindung verwendet werden. Die Auswahl des Kernschichtcodecs ist nicht zentral in der vorliegenden Erfindung; verschiedene andere bekannte Codecs (vorzugsweise, aber nicht notwendigerweise CELP-Codecs), können anstatt des AMR-WB CELP Codecs 304 verwendet werden, einschließlich, aber nicht beschränkt auf MP3, AAC, AMR-NB (Adaptive Multi-Rate Narrow Band) oder EFR (Enhanced Full Rate).
  • Skalierbare Audiokodierung, die eine CELP-Kernschichtkodierung, sowie eine AAC Erweiterungsschichtkodierung einbezieht, ist an sich in dem technischen Feld wohl bekannt; folglich ist hierin keine detaillierte Beschreibung erforderlich. Bezug genommen wird beispielsweise auf ISO/IEC 14496-3:2001 (E), Subpart 4. Außerdem sind AMR-WB CELP Codecs in dem 3rd Generation Partnership Project (3GGP) TS 26.190 V5.0.0 (2001-3) beschrieben. Daher ist aus Gründen der Klarheit die 3 keine komplette Darstellung einer AMR-WB CELP Kernschicht und eines AAC Erweiterungschichtaudiokodierers, dient aber eher der Darstellung der zentralen Aspekte der vorliegenden Erfindung. Folglich sind einige Audiokodierelemente für den AAC-Erweiterungsschichtcodec, beispielsweise in Fig. ausgelassen worden:
    TNS zeitliche Rauschformung (Temporal Noise Shaping). Flacht die zeitliche Hülle des Audiosignals, das kodiert werden soll ab, um die Feinzeitstruktur (fine time structure) des Kodierrauschens zu steuern.
    LTP Langzeitvoraussage (Long Term Prediction) und Voraussage. Reduziert die Redundanz des Funksignals mittels Voraussage.
    Intensity/Coupling. Verbessert die Stereokodierfähigkeit.
    PNS Wahrnehmungsrauschaustausch (Perceptual Noise Substitution). Liefert eine wirksame Darstellung von rauschartigen Kanälen.
    M/S (Mid/Side stereo). Erweitert die Darstellungsqualität und verbessert gewissermaßen die Kodiereffizienz.
  • Wie in der Zeichnung zu sehen ist, empfängt der Audiokodierer ein digitales, nicht-komprimiertes Audioeingabesignal 300, wie ein PCM-Signal oder, im Wesentlichen, jedes andere digitale, in dem technischen Feld bekannte Audiosignal. Das Audiosignal kann beispielsweise von dem Musik- oder Funkübertragungsströmungsserver 122 in 1, von dem PSTN 130, als ein Tonsignal übertragen werden, usw. alternativ kann der Audiokodierer angepasst werden, um ein analoges elektrisches Signal von z.B. einem Mikrofon zu empfangen, und das analoge Signal in ein digitales Signal, mittels einer gewöhnlichen A/D Wandlung zu wandeln, wie es für einen Fachmann leicht ersichtlich ist.
  • In der bevorzugten Ausführungsform, wird die Audiokodierung auf einer frame-by-frame Basis gebildet, bei der jeder Rahmen eine Vielzahl von Audioabtastungen, innerhalb einer vorbestimmten Zeitperiode umfasst, wie ein Vielfaches von 10 ms. Die Audioabtastungen von benachbarten Rahmen können entweder nicht-überlappend oder teilweise überlappend sein.
  • Das Eingabesignal 300 wird zu einem Wahrnehmungsmodell 330 gesendet, dessen Zweck später erklärt werden wird. Außerdem wird das Eingabesignal 300 zu dem Kernschichtcodec 304, in folgender Weise geliefert. Zuerst wird das Eingabesignal 300, bei 302 abgetastet, mit einer Tastrate, die für den Kernschichtcodec 304 angemessen ist. Dann wird eine Kernschichtkodierung bei 306 durchgeführt und eine Kernschichtausgabe 310, wird bei 312, zusammen mit einer Ausgabe 370, von dem Erweiterungsschichtcodec gemultiplext, um einen kodierten Audioausgabestrom 314 zu bilden, welcher dann bei 222 in 2 kodiert wird.
  • Außerdem dekodiert der Kernschichtcodec 304 das kodierte Kernschichtsignal 308 und tastet das dekodierte Ergebnis, bei 316 auf, um ein rekonstruiertes Kernschichtsignal 318 zu erzeugen, welches eine Darstellung des Signals, nach der Kernschichtkodierung und -dekodierung ist. Wie bei der gesamten Wahrnehmungsaudiokodierung, bezieht der Kernschichtcodec 304 etwas Verzerrung in den Audiodaten mit ein. Deshalb wird das rekonstruierte Kernschichtsignal 318 nicht dasselbe sein, wie das originale Eingangssignal 300.
  • Das originale Eingangssignal 300 wird in einer Filterbank 320, in ein entsprechendes Signal 324, in dem Frequenzbereich transformiert. Dementsprechend wird das rekonstruierte Kernschichtsignal 318 in einer Filterbank 322, in den Frequenzbereich transformiert. Sogar die in 3, als separate Elemente dargestellten Filterbanken 320 und 322, können als eine gemeinsame Filterbank implementiert werden, was eine modifizierte diskrete Kosinus-Transformation (MDCT), gemäß dem MPEG-4 Standard anlegt.
  • Wie durch eine gepunktete Linie 328 in 3 angezeigt, können die Filterbanken 320, 322 optional durch eine Ausgabe von dem Wahrnehmungsmodel 330 gesteuert werden um, falls nötig, die Fensterlänge der Filterbanken zu reduzieren. Die MDCT transformiert in den Filterbanken 320 und 322 erzeugte spektrale Audiorahmen, welche eine Vielzahl von Frequenzsubbändern aufweisen. 4 stellt ein Beispiel eines solchen Audiorahmens 400 dar, welcher 49 Sub-Bänder 401, 402, ..., 449, mit insgesamt 1024 MDCT-Koeffizienten aufweist. Die Subbänder können teilweise überlappt, oder alternativ nicht-überlappt sein. Wie in 4 zu sehen, weisen die niedrigeren Frequenzsubbänder weniger MDCT-Koeffizienten pro Sub-Band auf, als höhere Frequenz-Sub-Bänder. Das transformierte Originalsignal 324, wird an eine frequenzselektive Schaltungseinheit (FSSU) 332 und außerdem an eine Subtraktionseinheit 334 gespeist, welche auch das transformierte Kernschichtsignal 326 empfängt. Die Subtraktionseinheit 334, erzeugt durch das Subtrahieren der MDCT-Koeffizienten des Kernschichtsignals 326, von denen des Originalsignals 324, ein Restsignal 336. Das Restsignal 336 wird an die FSSU 332 übertragen, und ist eine Anzeige der durch den Kernschichtcodec 304 verursachten Fehler.
  • Für jedes Sub-Band 401449 des spektralen Audiorahmens 400, berechnet die FSSU 332 die Wahrnehmungsentropien 338, 340 des Originalsignals 324 und entsprechend des Restsignals 332. Die Wahrnehmungsentropie, welche sich auf den geschätzten Betrag der benötigten Bits zur Kodierung eines individuellen Sub-Bandes bezieht, kann berechnet werden als
    Wahrnehmungsentropie = Signalenergie/Maskierungsgrenzwert,
    bei der die Signalenergie gemäß einem der verschiedenen Wege, die in dem technischen Feld wohlbekannt sind, berechnet wird. Der Maskierungsgrenzwert wird durch das Wahrnehmungsmodel 330 bereitgestellt und stellt den Grenzwert dar, unter dem die Inhalte des Sub-Bandes nicht mehr für das menschliche Ohr hörbar sind. Der Maskierungsgrenzwert, kann ebenfalls auf zwei verschiedenen Wegen bestimmt werden, einer wird beschrieben in Wang, Y., Vilermo, M. "An Excitation Level Based Psychoacoustic Model for Audio Compression", siebte ACM International Multimedia Conference, 30 October bis 4. November, 1999 Orlando, Florida, USA.
  • Bei 342 vergleicht die FSSU 332 die berechneten Wahrnehmungsentropien 338, 340, bestimmt welches der Signale 324 und 336 die geringste Wahrnehmugsentropie hat (und, folglich, weniger Bits zum Kodieren mit der selben Qualität benötigt) und setzt entsprechend eine individuelle Steuerungsinformationsmarkierung 501549 in der FSS-Anordnung 500, was in 5 zusehen ist. Folglich wird entsprechend von der FSSU 332, für die verschiedenen Sub-Bänder 401449 bei 344 und 346, entweder das Originalsignal 324, oder das Restsignal 336, entsprechend als Ausgabe 360 und 362 ausgewählt. Jedes Sub-Band 401449 des Audiorahmens 400, weist eine entsprechende individuelle Markierung 501549 auf, welche vorzugsweise durch ein einzelnes Binärzeichen dargestellt wird. Die FSS-Anordnung wird zusammen mit den kodierten Audiodaten 310, 370 in dem gemultiplexten Bitstrom 314, auf die Empfängerseite übermittelt und wird dem Dekodierer anzeigen, ob das Erweiterungsschichtsignal dem Kernschichtsignal, während des Dekodierens der empfangenen kodierten Audiodaten hinzugefügt werden soll.
  • Die Ausgabe von der FSSU 332 ist gemäß den Bit-Einstellungen in der FSS-Anordnung 500 zusammengesetzt, durch das Kopieren der MDCT Koeffizienten des Originalsignals 324/360 oder des Restsignals 336/362, für jedes einzelne Frequenzband 401449 in eine gemeinsame Rahmenanordnung, die das in 4 gezeigte Format aufweist. Diese angeordnete Ausgabe, bezieht sich auf einen einfachen AAC-Erweiterungsschichtcodec, und wird zu einem Rate/Verzerrungskontrollprozess 348 geliefert, welcher später mit Bezug auf die 6 und 7 in größerem Detail beschrieben wird.
  • Zusätzlich zu dem oben genannten und gemäß der vorliegenden Erfindung, wird das Restsignal 336 parallel verglichen mit dem Maskierungsgrenzwert 350, für das aktuelle Frequenzband 401449, wie bei 356 gesehen werden kann. Wenn das Restsignal allerdings unter dem Maskierungsgrenzwert gefunden wird, bedeutet dies, dass der durch die Kernschicht 304 verursachte Fehler, in dem aktuellen Frequenzband nicht hörbar ist. Deshalb ist es in einem solchen Fall ausreichend, in diesem bestimmten Frequenzband nur Nullen als ein Erweiterungssignal zu kodieren, wie in 358 und 364 gezeigt. Diese Bedingung hat die höchste Priorität und überstimmt die Ausgabe 360/362 der Wahrnehmungsentropieberechnung, dadurch wird ein zusätzlicher Vorteil in einer etwas schnelleren Berechnung des nachfolgenden Quantisierungsprozesses angeboten.
  • Außerdem wird bei 352 und 354 die Differenz zwischen dem Maskierungsgrenzwert 350 und dem Restsignal 334 für jedes Frequenzband 401449 berechnet. Für eine verbesserte Genauigkeit, kann eher die schnelle Fourier-Transformation, als die MDCT-Koeffizienten für diese Berechnung verwendet werden. Die Ergebnisse werden für jeden Rahmen 400 gesammelt und spiegeln eine Messung für die Qualität und die Kernschicht wieder, d.h. ob der Kernschichtcodec 304, während des Kodierens des Audioeingangssignals 300 bei der Kernschicht, gut oder schlecht durchgeführt wurde. Wie später beschrieben wird, wird die Kernschichtqualitätsmessung für jeden Rahmen, als ein Multiplikationsfaktor verwendet (siehe 710 in 7), welcher auf den Quantisierungsfehler in dem nachfolgenden Quantisierungsprozess in 348 angewendet wird, bevor er mit dem Restsignal verglichen wird.
  • Der Rate/Verzerrungskontrollprozess 348, wie gemäß der bevorzugten Ausführungsform modifiziert, wird nun mit Bezug auf die 6 und 7 beschrieben. Er basiert auf dem normalen Rate/Verzerrungskontrollprozess in AAC, der eine Skalierfaktoreneinheit, eine Quantisierungseinheit und eine rauschlose Kodiereinheit einschließt, welche im Detail in Annex 4.B.10-11, des oben erwähnten ISO/IEC 14496-32001 (E), Subpart 4 beschrieben wird.
  • Das Hauptziel des Rate/Verzerrungskontrollprozesses ist es, Quantisierung und rauschloses Kodieren des Audiosignals, das kodiert werden soll, bereitzustellen. Gemäß der bevorzugten Ausführungsform, wird der Quantisierungsprozess 600 in ein zweistufiges Verfahren aufgeteilt: Zunächst wird ein erster AAC-Quantisierungsprozess 610, für alle Sub-Bänder durchgeführt. Dieser erste AAC-Quantisierungsprozess ist im Gegensatz zu der AAC-Standard-Quantisierung in der Richtung modifiziert, dass der Quantisierungsfehler in Hinblick auf das Restsignal wiederholt abgeschätzt wird, und dass in Antwort auf diese Abschätzung entschieden werden kann, das Restsignal mit Nullen für einige Sub-Bänder auszutauschen. Der eigentliche Austausch geschieht nur sobald alle Sub-Bänder verarbeitet wurden, wie bei 620 in 6 angezeigt. Schließlich wird ein zweiter AAC-Quantisierungsprozess 630, für alle restlichen (d.h., nicht-null) Sub-Bänder durchgeführt; diesmal, jedoch ohne irgendwelche Null-Ersetzungen, durchgeführt.
  • Der modifizierte Rate/Verzerrungskontrollprozess der AAC-Quantisierung 610 wird in größerem Detail in 7 dargestellt. Ein Signal 702 wird von der FSSU 332 geliefert und stellt die Stromfrequenzbereichabtastungen dar, die quantifiziert werden sollen. Bei 706 werden die Abtastungen mehrere Male, auf verschiedene Weise, mit verschiedenen Skalierungsfaktoren quantifiziert. Nach jeder Quantisierung, wird der Quantisierungsfehler bei 708 berechnet und bei 718 abgeschätzt. Jedes Mal versucht der Prozess, die verfügbaren Bits, auf verschiedene Frequenzbänder in einer Weise zu verteilen, welche die Hörbarkeit des Quantisierungrauschens minimiert. Dies ist durch das Wechseln der Skalierungsfaktoren für verschiedene Frequenzbänder getan worden. Die Skalierungsfaktoren (einer für jedes Band) kontrollieren die Quantisierungsschrittgröße, folglich werden verschiedene Rauschmengen jedem Frequenzband zugeordnet. Nach jeder Quantisierungsrunde, wird das Rauschen in jedem Band kontrolliert und in den Bändern, bei denen das Rauschen äußerst störend ist, wird die Quantisierungsschrittgröße in der nächsten Runde reduziert.
  • Allerdings läuft dieser Prozess nicht unbedingt zu einem umfassenden Optimum zusammen, und folglich, kann der Kerncodec für einige Frequenzbänder einen geringeren Fehler erzeugen, als der quantifizierte Rest. Für diese Bänder, ist es dann vorteilhaft, stattdessen das Kerncodecsignal alleine zu verwenden. Es sollte vermerkt werden, dass das Signal unter Quantisierung, entweder das originale Signal, oder das Restsignal sein kann (Kerncodecsignal abgezogen von dem Originalsignal).
  • Folglich wird das Folgende mit Bezug auf die Blöcke 710720 in 7 durchgeführt. Eher wird das Minimum des Quantisierungsrauschens und des Rauschens, das aus der Verwendung der Kerncodecausgabe alleine stammt (d.h. das Restsignal 704, welches von der FSSU 332 übermittelt wird) bei 714 geprüft, als lediglich das Quantisierungsrauschen nach jeder Quantisierungsrunde zu prüfen. Wenn die Kerncodecausgabe gut genug ist, besteht kein Bedarf, die Quantisierungsschrittgröße für dieses Frequenzband zu reduzieren. Wenn sowohl das Quantisierungsrauschen, als auch das Kerncodecrauschen zu hoch sind, wird die Schrittgröße reduziert.
  • Wenn der Kerncodec im Allgemeinen gute Arbeit leistet (wie es mit Sprachsignalen und einem Sprachkerncodec geschehen würde), ist es vorteilhaft, die Fehlerberechnung noch weiter zu modifizieren. Wenn der Kerncodec gute Arbeit leistet, wird sich dies in den Werten der Kernschichtqualitätsmessung 710 wiederspiegeln, wie bei 354 in 3 abgeleitet. In einem solchen Fall, kann das Kerncodecsignal dennoch alleine verwendet werden, sogar wenn die durch die Verwendung des Kerncodecs alleine verursachten Fehler, etwas größer wären, als die Quantisierungsfehler. Die Verwendung des Kerncodecsignals in Frequenzbändern, bei denen der Kerncodecfehler etwas größer ist, als der Quantisierungsfehler, werden Bits zur Verwendung in anderen Bändern verfügbar machen, bei denen der Kerncodecfehler viel größer ist, als der Quantisierungsfehler. Deshalb werden die Quantifizierungsfehler, die bei 708 erzeugt werden, durch einen Ablauf der Kernschichtqualitätsmessung, bei 712 in 7 vervielfacht, bevor sie mit dem Kernschichtrauschen bei 714 verglichen werden. Dieser Ablauf kann beispielsweise auf einem einfachen Grenzwert basieren. Wenn der Kerncodec gute Arbeit leistet, bleibt die Kernschichtqualitätsmessung über dem Grenzbereich (z.B. 0), und der Quantifizierungsfehler wird, durch eine vorbestimmte Konstante, wie 4, vervielfacht. Anderenfalls bleibt der Quantisierungsfehler unverändert, bei 714, in dem Vergleich.
  • Die Quantisierungsschleife, die folglich gebildet wird, weist drei Abbruchbedingungen auf:
    • 1. kein erkennbarer Quantisierungsfehler erschienen,
    • 2. keine weitere Reduzierung des Quantifizierungsfehlers ist möglich, und
    • 3. die Maximalgrenze an Schleifenläufen wurde erreicht.
  • Nachdem mehrere Quantisierungsrunden abgelaufen sind, werden die Abbruchbedingungen erreicht. In dem Fall dass es in einigen Frequenzbändern doch besser ist, die Kerncodecausgabe zu verwenden, anstatt des quantifizierten Ergebnisses, wird das quantifizierte Ergebnis in diesen Bändern mit Nullen ersetzt, wie bei 720 angezeigt. Zusätzlich, wird die FSS-Information für dieses Band markiert (siehe 716), um anzuzeigen, dass das Restsignal verwendet wird, was tatsächlich darin resultiert, dass der Dekodierer nur das Kerncodecsignal in diesen Bändern verwendet. (In letzterem Fall, werden die Bits nicht neu zugeteilt, aber das Verfahren führt zu Abspeicherungen der Bits.) Wenn dort Frequenzbänder sind, die durch Nullen ausgetauscht wurden, benötigt das quantisierte Signal weniger Bits, als berechnet wurde. Durch die Verwendung eines Bit-Puffers zwischen Rahmen, können diese Bits zur Verwendung für die folgenden Rahmen bleiben. Diese Bits können auch verwendet werden, um die Quantisierung des gegenwärtigen Rahmens, durch das nochmalige Betreiben der Quantisierungsschleife zu verbessern, wie bei 630 in 6 angezeigt, wobei aber diesmal mit dem Endergebnis, welches das erste Mal erreicht wurde, begonnen wird, d.h. in Schritt 610 der 6, und es in einigen Frequenzbändern mögliche Nullersetzungen enthält, wie oben erwähnt. Während des zweiten Quantisierungsprozesses 630, wird das Signal ohne Modifikationen in der Fehlerberechnung, welche für den ersten Quantisierungsprozess 610 erklärt wurden, quantisiert, d.h. die Quantisierung in Schritt 630 stimmt völlig mit dem MPEG-4 AAC Standard überein.
  • Als eine Alternative zu dem oben genannten ist es eher möglich, zu entscheiden, welche Sub-Bänder durch Nullen ersetzt werden sollen, sowie die Bitraten der restlichen (nicht durch Nullen ersetzten) Sub-Bänder in einem gewöhnlichen Quantsierungsprozess zu bestimmen, als einen ersten Quantisierungsprozess für alle Subbänder durchzuführen, die relevanten Sub-Bänder durch Nullen zu ersetzen und dann einen zusätzlichen Quantisierungsprozess für die restlichen Sub-Bänder durchzuführen.
  • Der Audiokodierer gemäß der Erfindung kann vorzugsweise in einen Audiocodeumsetzer eingeschlossen sein, z.B. in ein GSM- oder UMTS-Netzwerk. In GSM heißt ein solcher Audiocodeumsetzer, Codeumsetzer/Raten-Anpassungseinheit (transcoder/rate adapter unit) (TRAU), und liefert eine Konvertierung zwischen 64 kbps PCM-Sprache von dem PSTN 130 zu full rate (FR) oder enhanced full rate (EFR) 13–16 kbps digitalisierte GSM-Sprache, und umgekehrt. Der Audiocodeumsetzer kann an der Basisübertragungsstation (BTS) angeordnet werden, welche ein Teil des Basisstationssubsystems (BSS) ist, oder alternativ bei der Mobilen Vermittlungsstelle (MSC).
  • Die skalierbare Audiokodierung die oben funktionsgemäß beschrieben ist, kann als eine integrierte Schaltung (ASIC) oder als jede andere Form von digitaler Elektronik realisiert werden. In einer alternativen Ausführungsform, kann die oben erwähnte skalierbare Audiokodierfunktion als ein Computerprogrammprodukt implementiert werden, welches direkt in einen Speicher eines Prozessors – vorzugsweise die Steuerung 240/290, und seine verbundenen Speicher 242/292 der Netzwerkstation 200/Mobilstation 250 der 2 ladbar ist. Das Computerprogrammprodukt umfasst einen Programmcode zum Bereitstellen der skalierbaren Audiokodierfunktionalität, wenn es durch den Prozessor angewendet wird.
  • Der Audiokodierer gemäß der Erfindung kann auch, zum Bereitstellen von Audiodiensten an Netzwerkkunden (wie die tragbaren Vorrichtungen 100, 112 in 1), in einen Netzwerkserver eingeschlossen werden (wie der Server 122 in 1).
  • Der Audiokodierer gemäß der Erfindung kann auch in einen Netzwerkserver eingeschlossen sein (wie der Server 122 in 1), zum Bereitstellen von Audiodiensten an Netzwerkkunden (wie die tragbaren Vorrichtungen 100, 112 in 1).
  • Wie vorstehend erklärt, müssen auf der Dekodiererseite in den oben erwähnten Ausführungsformen der Erfindung keine Änderungen vorgenommen werden, da der Dekodierer die MDCT-Koeffizienten des vorhergehenden Schichtausgabesignals in jedem Sub-Band 401449, welches in dem FSS-Array 500 markiert ist anhängen wird. Jedenfalls schließt eine alternative Ausführungsform der Erfindung einen modifizierten Dekodierer ein, welcher angepasst ist, um einen geschichteten Datenstrom zu empfangen, der ein erstes Schichtsignal und mindestens ein kodiertes zweites Schichtsignal enthält. Der Datenstrom wird kodierte Rahmen mit einer Vielzahl von spektralen Sub-Bändern beinhalten, kann aber andererseits ein beliebiges bekanntes Format aufweisen. Nachdem sowohl das erste Schichtsignal, als auch das zweite Schichtsignal dekodiert wurden, analysiert der Dekodierer das zweite Schichtsignal und bestimmt eine Wahrnehmungsqualitätsmessung für jedes Sub-Band. Dann entscheidet der Dekodierer ob die Wahrnehmungsqualitätsmessung vorbestimmte Kriterien einhält und falls ja, wird die zweite Schicht mit dem ersten Schichtsignal für das besagte Sub-Band kombiniert, um ein dekodiertes Ausgabesignal zu erzeugen. Andererseits wird das dekodierte Ausgabesignal von dem ersten Schichtsignal, alleine für dieses Sub-Band erzeugt, d.h. das zweite Schichtsignal wird mit Nullen ersetzt.
  • Die Wahrnehmungsqualitätsmessung kann in den empfangenen geschichteten Datenstrom eingeschlossen werden, d.h. von der Kodiererseite stammen. Alternativ kann der Dekodierer Wahrnehmungsqualitätsmessung durch Identifizierung, in dem dekodierten Signal der zweiten Schicht, unnatürlichen Audiokomponenten, wie Spitzen, Rauschen oder unerwartete Wellenformen erhalten, und infolgedessen entscheiden, dass das dekodierte Signal der zweiten Schicht verzerrt ist und nicht an das dekodierte erste Schichtsignal angehängt werden sollte.
  • Die Erfindung wurde vor allem vorstehend, mit Bezug auf eine bevorzugte Ausführungsform beschrieben. Jedenfalls sind, wie es leicht für einen Fachmann ersichtlich sein wird, andere Ausführungsformen, als die oben offenbarten, innerhalb des Bereichs der Erfindung ebenso möglich, wie durch die angehängten Patentansprüche definiert.
  • Es ist hervorzuheben, dass die Erfindung nicht auf eine Basisschicht und eine Erweiterungsschicht begrenzt ist; die Grundsätze der Erfindung können ebenso auf zwei nachfolgende Erweiterungsschichten, in einem Mehrschichtaudiokodierverfahren angewendet werden. Zusätzlich wird die FSS-Information, in einer alternativen Ausführungsform benutzt und nur für einige Frequenzbänder, nicht für alle, an die Empfängerseite übertragen. Dies kann in einer Situation nützlich sein, bei der die Erweiterungsschicht nur zur Verbesserung der Hochfrequenzen benutzt wird. Folglich besteht kein Bedarf die FSS-Information für die niedrigen Frequenzen zu senden. Natürlich muss die Empfängerseite über diese Tatsache, – entweder durch Voreinstellung oder durch ein anfängliches „Hnandshaking" mit der Senderseite benachrichtigt werden.
  • Außerdem sind der Audiokodierer, der Dekodierer, der Codeumsetzer, das Computerprogramm und die oben beschriebene integrierte Schaltung nicht durch die oben beispielhaft erläuterten Orte eingeschränkt. Beispielsweise kann der Audiokodierer in jeder der Audioübertragungsvorrichtungen, die in 1 gezeigt sind oder in einer anderen Audioübertragungsvorrichtung, die hier nicht explizit gezeigt oder beschrieben ist, angeordnet werden.

Claims (30)

  1. Audiokodier-Verfahren zum Kodieren von Audiosignalen in einen geschichteten Datenstrom, der eine erste Schicht und eine zweite Schicht aufweist, wobei die zweite Schicht als eine Erweiterung der erste Schicht dient, wobei das Verfahren die Schritte umfasst: – Bilden eines originalen digitalen Audiosignals (300); – Kodieren des Originalsignals (300) um ein Signal der ersten Schicht (310) zu erhalten; – Erzeugen eines Restsignal (336), um eine Differenz zwischen dem Originalsignal und dem Signal der ersten Schicht wiederzugeben; – Auswählen entweder des Originalsignals oder des Restsignals zum Kodieren; und – Erzeugen eines Signals der zweiten Schicht durch Kodieren des ausgewählten Signals; gekennzeichnet durch – Auswerten des Restsignals (336); und im Falle, dass das Ergebnis der Auswertung gegebene Kriterien erfüllt, – Auswählen, anstelle des Originalsignals oder des Restsignals, eines vorbestimmten Signals niedrigen mittleren Informationsgehalts, um als das Signal der zweiten Schicht kodiert zu werden.
  2. Verfahren nach Anspruch 1, wobei das originale digitale Audiosignal (300) und das Restsignal (336) eine Vielzahl von Frequenzbändern (401449) umfassen, und wobei die Schritte des Auswertens des Restsignals und des Auswählens des vorbestimmten Signals niedrigen mittleren Informationsgehalts einzeln für die Vielzahl von Frequenzbändern ausgeführt werden.
  3. Verfahren nach Anspruch 1 oder 2, wobei der Auswerteschritt Vergleichen des Restsignals (336) mit einem Maskierungs-Schwellwert (350) einschließt und wobei die Kriterien einschließen, dass das Restsignal als unter dem Maskierungs-Schwellwert befindlich erkannt wird.
  4. Verfahren nach einem der Ansprüche 1–3, wobei der Auswerteschritt Berechnen eines Fehlers einschließt, der durch Quantisierung entweder des Originalsignals (324) oder des Restsignal (336) entstanden ist.
  5. Verfahren nach Anspruch 4, wobei die Kriterien einschließen, dass der Fehler, der durch Quantisierung entstanden ist, wahrnehmbar ist.
  6. Verfahren nach Anspruch 4 oder 5, wobei die Kriterien einschließen, dass der Fehler, der durch Quantisierung entstanden ist, größer ist als das Restsignal.
  7. Verfahren nach einem der Ansprüche 2 bis 6, umfassend den zusätzlichen Schritt des Erhöhens der Bitrate von mindestens einem der Vielzahl von Frequenzbändern (401449), für die das Restsignal nicht durch das vorbestimmt gleichförmige Signal ersetzt wurde.
  8. Verfahren nach einem der Ansprüche 2–6, umfassend den zusätzlichen Schritt des Reduzierens der totalen Bitrate für die Vielzahl von Frequenzbändern (401449) als Ganzes.
  9. Verfahren nach einem der Ansprüche 2–6, umfassend den zusätzlichen Schritt des Reduzierens der Quantisierungsfehlers von mindestens einem der Vielzahl von Frequenzbändern (401449), für die das Restsignal nicht durch das vorbestimmt gleichförmige Signal ersetzt wurde.
  10. Verfahren nach einem der vorangegangenen Ansprüche, wobei das vorbestimmte Signal niedrigen mittleren Informationsgehalts ein konstantes Niedrig-Amplituden-Signal ist.
  11. Verfahren nach Anspruch 10, wobei das vorbestimmte Signal niedrigen mittleren Informationsgehalts Null-Amplitude aufweist.
  12. Verfahren nach einem der vorangegangenen Ansprüche, wobei das Signal der ersten Schicht ein Kernschicht-Signal ist.
  13. Verfahren nach Anspruch 12, wobei das Signal der ersten Schicht durch adaptive Multi-Rate-Breitband (AMR-WB)-Kodierung erzeugt wird.
  14. Verfahren nach einem der vorangegangenen Ansprüche, wobei das Signal der zweiten Schicht durch AAC (Advanced Audio Coding)-Kodierung erzeugt wird.
  15. Verfahren nach einem der Ansprüche 2–14, umfassend die zusätzlichen Schritte – Ansammeln eines Kernschicht-Qualitätsmaßes (710) für die Vielzahl von Frequenzbändern durch Summierung der Differenzen zwischen den Maskierungs-Schwellwerten (350) und den Restsignalen (336) für die einzelnen Frequenzbänder, und – Verwendung des Kernschicht-Qualitätsmaßes, wenn das Restsignal (336) ausgewertet wird.
  16. Verfahren nach einem der vorangegangenen Ansprüche, umfassend den zusätzlichen Schritt des Dekodierns des Signals der ersten Schicht, um ein dekodiertes Signal der ersten Schicht (310) zu erhalten, wobei das Restsignal (336) eine Differenz zwischen dem Originalsignal und dem dekodierten Signal der ersten Schicht wiedergibt.
  17. Computerprogrammprodukt, das direkt in einen Speicher (242) eines Prozessors (240) geladen werden kann, wobei das Computerprogrammprodukt Programmcode umfasst, um das Verfahren gemäß einem der Ansprüche 1–16 durchzuführen, wenn es durch den Prozessor ausgeführt wird.
  18. Integrierter Schaltkreis, der ausgelegt ist ein Verfahren gemäß einem der Ansprüche 1–16 auszuführen.
  19. Audiokodiereinheit zum Kodieren von Audiosignalen in einen geschichteten Datenstrom, der eine erste Schicht und eine zweite Schicht aufweist, wobei die zweite Schicht als eine Erweiterung der erste Schicht dient, wobei die Kodiereinheit umfasst: – eine erstes Kodierelement (304), das in der Lage ist, ein originales digitales Audiosignal (300) in ein Signal der ersten Schicht (310) zu kodieren; – Mittel (334) zum Erzeugen eines Restsignal (336), um eine Differenz zwischen dem Originalsignal und dem Signal der ersten Schicht wiederzugeben; – eine erste Auswähleinheit (332), die ausgelegt ist, entweder das Originalsignal oder das Restsignal zum Kodieren als ein Signal der zweiten Schicht auszuwählen; und – ein zweites Kodierelement, das in der Lage ist, das Signal der zweiten Schicht durch Kodieren des ausgewählten Signals zu erzeugen; gekennzeichnet durch – Mittel zum Auswerten des Restsignals (336) und Bereitstellen einer Angabe, dass das Ergebnis der Auswertung gegebene Kriterien erfüllt, und – eine zweite Auswähleinheit (356), wobei die zweite Auswähleinheit mit den Auswertemitteln verknüpft ist und ausgelegt ist, bei Empfangen der Angabe, anstelle des Originalsignals oder des Restsignals, ein vorbestimmtes Signal niedrigen mittleren Informationsgehalts auszuwählen, um durch das zweite Kodierelement kodiert zu werden.
  20. Audiokodiereinheit nach Anspruch 19, wobei das originale digitale Audiosignal (300) und das Restsignal (336) eine Vielzahl von Frequenzbändern (401449) umfassen, und wobei die Mittel zum Auswerten des Restsignals und die zweite Auswahleinheit (356) ausgelegt sind, auf einzelnen der Vielzahl von Frequenzbändern zu arbeiten.
  21. Audiokodiereinheit nach Anspruch 19 oder 20, wobei das erste Kodierelement eine adaptive Multi-Rate-Breitband (AMR-WB)-Kodiereinheit ist.
  22. Audiokodiereinheit nach einem der Ansprüche 19 bis 21, wobei das zweite Kodierelement eine AAC (Advanced Audio Coding)-Kodiereinheit ist.
  23. Audiokodeumsetzter umfassend eine Audiodekodiereinheit, wobei die Audiodekodiereinheit ausgelegt ist, ein Audio-Eingangssignal zu empfangen und zu dekodieren und eine Audiokodiereinheit gemäß einem der Ansprüche 19–22.
  24. Audiodekodiereinheit, umfassend Mittel zum Empfangen eines geschichteten Datenstroms, der ein kodiertes Signal der erste Schicht und mindestens ein kodiertes Signal der zweiten Schicht umfasst, ein erstes Dekodierelement, das in der Lage ist, das Signal der ersten Schicht zu dekodieren und ein zweites Dekodierelement enthält, das in der Lage ist, das Signal der zweiten Schicht zu dekodieren, weiter umfassend: – Mittel zum Bestimmen eines Wahrnehmungs-Qualitätsmaßes für das Signal der zweiten Schicht; – Mittel zum Entscheiden, ob ein Wahrnehmungs-Qualitätsmaß vorbestimmte Kriterien erfüllt; – Mittel zum Kombinieren des Signal der zweiten Schicht mit dem Signal der ersten Schicht, um ein dekodiertes Ausgabesignal zu erzeugen, wenn das Wahrnehmungs-Qualitätsmaß vorbestimmte Kriterien erfüllt; und – Mittel zum Erzeugen des dekodierten Ausgabesignals aus dem Signal der ersten Schicht allein, wenn das Wahmehmungs-Qualitätsmaß die Kriterien nicht erfüllt.
  25. Audiodekodiereinheit nach Anspruch 24, wobei das Wahrnehmungs-Qualitätsmaß in dem empfangenen geschichteten Datenstrom eingeschlossen ist.
  26. Audiodekodiereinheit nach Anspruch 24, weiter umfassend Mittel zum Herleiten des Wahrnehmungs-Qualitätsmaßes durch Identifizierung unnatürlicher Audiokomponenten in dem dekodierten Signal der zweiten Schicht.
  27. Audiodekodiereinheit nach Anspruch 26, wobei die unnatürlichen Audiokomponenten mindestens Spitzen, Rauschen oder unerwartete Wellenformen einschließen.
  28. Station (200) für ein Mobil-Telekommunikationsnetz (110), umfassend mindestens eine Audiokodiereinheit gemäß einem der Ansprüche 19–22, eine Audiodekodiereinheit gemäß Anspruch 24 oder einen Audiokodeumsetzer gemäß Anspruch 23.
  29. Station nach Anspruch 28, wobei die Station eine Basisstation (104) ist.
  30. Station nach Anspruch 28, wobei die Station ein Mobilendgerät (100, 112) ist.
DE60214599T 2002-03-12 2002-03-12 Skalierbare audiokodierung Expired - Fee Related DE60214599T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2002/000723 WO2003077235A1 (en) 2002-03-12 2002-03-12 Efficient improvements in scalable audio coding

Publications (2)

Publication Number Publication Date
DE60214599D1 DE60214599D1 (de) 2006-10-19
DE60214599T2 true DE60214599T2 (de) 2007-09-13

Family

ID=27799827

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60214599T Expired - Fee Related DE60214599T2 (de) 2002-03-12 2002-03-12 Skalierbare audiokodierung

Country Status (7)

Country Link
US (1) US7277849B2 (de)
EP (1) EP1483759B1 (de)
KR (1) KR100711989B1 (de)
CN (1) CN1266673C (de)
AU (1) AU2002246280A1 (de)
DE (1) DE60214599T2 (de)
WO (1) WO2003077235A1 (de)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US8437347B2 (en) * 2003-10-14 2013-05-07 Qualcomm Incorporated Scalable encoding for multicast broadcast multimedia service
KR100537517B1 (ko) * 2004-01-13 2005-12-19 삼성전자주식회사 오디오 데이타 변환 방법 및 장치
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
KR100629997B1 (ko) * 2004-02-26 2006-09-27 엘지전자 주식회사 오디오 신호의 인코딩 방법
JP2007538282A (ja) * 2004-05-17 2007-12-27 ノキア コーポレイション 各種の符号化フレーム長でのオーディオ符号化
EP1603262B1 (de) * 2004-05-28 2007-01-17 Alcatel Anpassungsverfahren für ein Mehrraten-Sprach-Codec
US7490044B2 (en) * 2004-06-08 2009-02-10 Bose Corporation Audio signal processing
US7930184B2 (en) 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
US7788090B2 (en) 2004-09-17 2010-08-31 Koninklijke Philips Electronics N.V. Combined audio coding minimizing perceptual distortion
CN101027718A (zh) * 2004-09-28 2007-08-29 松下电器产业株式会社 可扩展性编码装置以及可扩展性编码方法
EP1806737A4 (de) * 2004-10-27 2010-08-04 Panasonic Corp Toncodierer und toncodierungsverfahren
KR100707184B1 (ko) * 2005-03-10 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
DE602006014957D1 (de) * 2005-04-28 2010-07-29 Panasonic Corp Audiocodierungseinrichtung und audiocodierungsverfahren
WO2006118179A1 (ja) * 2005-04-28 2006-11-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
CN101199005B (zh) * 2005-06-17 2011-11-09 松下电器产业株式会社 后置滤波器、解码装置以及后置滤波处理方法
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR100738077B1 (ko) * 2005-09-28 2007-07-12 삼성전자주식회사 계층적 오디오 부호화 및 복호화 장치와 방법
EP1949369B1 (de) 2005-10-12 2012-09-26 Samsung Electronics Co., Ltd. Verfahren und vorrichtung zum codieren/decodieren von audiodaten und erweiterungsdaten
CN101273403B (zh) * 2005-10-14 2012-01-18 松下电器产业株式会社 可扩展编码装置、可扩展解码装置以及其方法
WO2007043643A1 (ja) * 2005-10-14 2007-04-19 Matsushita Electric Industrial Co., Ltd. 音声符号化装置、音声復号装置、音声符号化方法、及び音声復号化方法
KR100739180B1 (ko) * 2005-10-20 2007-07-13 엘지전자 주식회사 이동 통신 단말기의 멀티미디어 데이터를 송수신하는 장치및 그 방법
KR101366124B1 (ko) * 2006-02-14 2014-02-21 오렌지 오디오 인코딩/디코딩에서의 인지 가중 장치
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
JP5058152B2 (ja) * 2006-03-10 2012-10-24 パナソニック株式会社 符号化装置および符号化方法
US8370138B2 (en) * 2006-03-17 2013-02-05 Panasonic Corporation Scalable encoding device and scalable encoding method including quality improvement of a decoded signal
US20080004883A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Scalable audio coding
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
WO2008062990A1 (en) * 2006-11-21 2008-05-29 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
CN101206860A (zh) * 2006-12-20 2008-06-25 华为技术有限公司 一种可分层音频编解码方法及装置
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
CN101743586B (zh) * 2007-06-11 2012-10-17 弗劳恩霍夫应用研究促进协会 音频编码器、编码方法、解码器、解码方法
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
GB2454190A (en) * 2007-10-30 2009-05-06 Cambridge Silicon Radio Ltd Minimising a cost function in encoding data using spectral partitioning
US20090132238A1 (en) * 2007-11-02 2009-05-21 Sudhakar B Efficient method for reusing scale factors to improve the efficiency of an audio encoder
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CA2611462C (en) * 2007-11-22 2013-10-22 Tyco Safety Products Canada Ltd. Alarm system audio interface tamper and state detection
KR101235830B1 (ko) * 2007-12-06 2013-02-21 한국전자통신연구원 음성코덱의 품질향상장치 및 그 방법
US8239210B2 (en) 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec
US8972247B2 (en) * 2007-12-26 2015-03-03 Marvell World Trade Ltd. Selection of speech encoding scheme in wireless communication terminals
US7889103B2 (en) 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
KR101428487B1 (ko) * 2008-07-11 2014-08-08 삼성전자주식회사 멀티 채널 부호화 및 복호화 방법 및 장치
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
AT509439B1 (de) * 2008-12-19 2013-05-15 Siemens Entpr Communications Verfahren und mittel zur skalierbaren verbesserung der qualität eines signalcodierverfahrens
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
WO2010108332A1 (zh) * 2009-03-27 2010-09-30 华为技术有限公司 编码和解码方法及装置
CN102571270A (zh) * 2009-03-27 2012-07-11 华为技术有限公司 解码方法及装置
FR2947944A1 (fr) * 2009-07-07 2011-01-14 France Telecom Codage/decodage perfectionne de signaux audionumeriques
US8442837B2 (en) 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
EP2555186A4 (de) * 2010-03-31 2014-04-16 Korea Electronics Telecomm Kodierungsverfahren und -vorrichtung sowie dekodierungsverfahren und -vorrichtung
FR2969360A1 (fr) * 2010-12-16 2012-06-22 France Telecom Codage perfectionne d'un etage d'amelioration dans un codeur hierarchique
CN103329199B (zh) 2011-01-25 2015-04-08 日本电信电话株式会社 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质
CN104170007B (zh) * 2012-06-19 2017-09-26 深圳广晟信源技术有限公司 对单声道或立体声进行编码的方法
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9225310B1 (en) * 2012-11-08 2015-12-29 iZotope, Inc. Audio limiter system and method
US9793879B2 (en) * 2014-09-17 2017-10-17 Avnera Corporation Rate convertor
JP2017009663A (ja) * 2015-06-17 2017-01-12 ソニー株式会社 録音装置、録音システム、および、録音方法
US10152977B2 (en) * 2015-11-20 2018-12-11 Qualcomm Incorporated Encoding of multiple audio signals
EP3685576A1 (de) * 2017-09-22 2020-07-29 V-Nova International Limited Gewinnung einer zieldarstellung einer zeitprobe eines signals
CN114708874A (zh) * 2018-05-31 2022-07-05 华为技术有限公司 立体声信号的编码方法和装置
CN113113032A (zh) * 2020-01-10 2021-07-13 华为技术有限公司 一种音频编解码方法和音频编解码设备

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4689760A (en) * 1984-11-09 1987-08-25 Digital Sound Corporation Digital tone decoder and method of decoding tones using linear prediction coding
GB9022326D0 (en) * 1990-10-15 1990-11-28 British Telecomm Signal coding
US5347611A (en) * 1992-01-17 1994-09-13 Telogy Networks Inc. Apparatus and method for transparent tone passing over narrowband digital channels
US5398069A (en) * 1993-03-26 1995-03-14 Scientific Atlanta Adaptive multi-stage vector quantization
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
EP0879465B1 (de) * 1996-11-07 2005-11-16 Koninklijke Philips Electronics N.V. Datenverarbeitung von einem bitstromsignal
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
US5995923A (en) * 1997-06-26 1999-11-30 Nortel Networks Corporation Method and apparatus for improving the voice quality of tandemed vocoders
US5913187A (en) * 1997-08-29 1999-06-15 Nortel Networks Corporation Nonlinear filter for noise suppression in linear prediction speech processing devices
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US6182031B1 (en) * 1998-09-15 2001-01-30 Intel Corp. Scalable audio coding system
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
JP2000305599A (ja) * 1999-04-22 2000-11-02 Sony Corp 音声合成装置及び方法、電話装置並びにプログラム提供媒体
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
FI109393B (fi) 2000-07-14 2002-07-15 Nokia Corp Menetelmä mediavirran enkoodaamiseksi skaalautuvasti, skaalautuva enkooderi ja päätelaite
EP1199711A1 (de) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Kodierung von Audiosignalen unter Verwendung von Vergrösserung der Bandbreite
AU2003213149A1 (en) * 2002-02-21 2003-09-09 The Regents Of The University Of California Scalable compression of audio and other signals
US6934679B2 (en) * 2002-03-07 2005-08-23 Microsoft Corporation Error resilient scalable audio coding

Also Published As

Publication number Publication date
DE60214599D1 (de) 2006-10-19
WO2003077235A1 (en) 2003-09-18
KR100711989B1 (ko) 2007-05-02
AU2002246280A1 (en) 2003-09-22
EP1483759A1 (de) 2004-12-08
CN1266673C (zh) 2006-07-26
US20030220783A1 (en) 2003-11-27
EP1483759B1 (de) 2006-09-06
CN1623185A (zh) 2005-06-01
KR20040105741A (ko) 2004-12-16
US7277849B2 (en) 2007-10-02

Similar Documents

Publication Publication Date Title
DE60214599T2 (de) Skalierbare audiokodierung
DE60117471T2 (de) Breitband-signalübertragungssystem
DE60110679T2 (de) Wahrnehmungs-Codierung von Audiosignalen unter Verwendung von getrennter Irrelevanzreduktion und Redundanzreduktion
DE60120504T2 (de) Verfahren zur transcodierung von audiosignalen, netzwerkelement, drahtloses kommunikationsnetzwerk und kommunikationssystem
DE69923555T2 (de) Verfahren und vorrichtung zur entropie-kodierung von quantisierten transformationskoeffizienten eines signals
DE19730130C2 (de) Verfahren zum Codieren eines Audiosignals
DE60129072T2 (de) Multimodale Sprachkodierung und Geräuschunterdrückung
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
EP2022043B1 (de) Informationssignalcodierung
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE19921122C1 (de) Verfahren und Vorrichtung zum Verschleiern eines Fehlers in einem codierten Audiosignal und Verfahren und Vorrichtung zum Decodieren eines codierten Audiosignals
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE60103424T2 (de) Verbessern der leistung von kodierungssystemen, die hochfrequenz-rekonstruktionsverfahren verwenden
DE602004013031T2 (de) Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms
DE69834010T2 (de) Skalierbares stereo Tonkodierungs- und Tondekodierungsverfahren und Vorrichtung dafür
DE69833834T2 (de) Skalierbares Audiokodier-und Dekodierverfahren und Gerät
DE19730129C2 (de) Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
DE60131766T2 (de) Wahrnehmungsbezogen verbesserte codierung akustischer signale
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE60220307T2 (de) Verfahren zur übertragung breitbandiger tonsignale über einen übertragungskanal mit verminderter bandbreite
DE60037286T2 (de) Verfahren und Vorrichtung zur Unterabtastung der im Phasenspektrum erhaltenen Information
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE102007029381A1 (de) Digitalsignal-Verarbeitungsvorrichtung, Digitalsignal-Verarbeitungsverfahren, Digitalsignal-Verarbeitungsprogramm, Digitalsignal-Wiedergabevorrichtung und Digitalsignal-Wiedergabeverfahren

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee