DE60014363T2

DE60014363T2 - Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer

Info

Publication number: DE60014363T2
Application number: DE60014363T
Authority: DE
Inventors: Shuwu Wu; John Mantegna; Keren Perlmutter
Original assignee: America Online Inc
Current assignee: Historic AOL LLC
Priority date: 1999-05-27
Filing date: 2000-05-25
Publication date: 2005-10-13
Anticipated expiration: 2020-05-26
Also published as: US20070083364A1; US6370502B1; US20050159940A1; DE60014363D1; CA2373520C; EP1181686A1; US7418395B2; US20130173271A1; EP1480201A3; EP1480201B1; EP1480201A2; US20110282677A1; CA2373520A1; DE60041790D1; US8010371B2; US6885993B2; ATE278236T1; WO2000074038A1; US20020111801A1; US20020116199A1

Description

Technisches Gebiet
Diese Erfindung betrifft die Kompression und Dekompression von kontinuierlichen Signalen und insbesondere ein Verfahren und ein System zur Reduzierung von durch die Quantisierung verursachten Block-Diskontinuitäten, die von einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen, insbesondere Audiosignalen herrühren.
Hintergrund
Es ist eine Vielzahl von Audiokompressionstechniken entwickelt worden, um Audiosignale in Kanälen mit eingeschränkter Bandbreite zu übertragen und solche Signale auf Medien mit einer begrenzten Speicherkapazität zu speichern (siehe z.B. EP-A-910067). Für eine Allzweck-Audiokompression können keine Annahmen über die Quelle oder Eigenschaften des Tons gemacht werden. Folglich müssen Kompressions-/Dekompressionsalgorithmen ausreichend allgemein sein, um mit der beliebigen Beschaffenheit von Audiosignalen umgehen zu können, was wiederum eine wesentliche Einschränkung auf lebensfähige Verfahren auferlegt. In diesem Dokument bezieht sich der Ausdruck „Audio" auf ein Signal, das im allgemeinen jeder Ton sein kann, wie Musik jeder Art, Sprache und eine Mischung aus Musik und Sprache. Eine allgemeine Audiokompression unterscheidet sich folglich von einer Sprachcodierung in einem Aspekt: in der Sprachcodierung, wo die Quelle im voraus bekannt ist, sind auf einem Modell beruhende Algorithmen praktisch.
Die meisten Verfahren zur Audiokompression können grob in zwei Hauptkategorien unterteilt werden: Zeit- und Transformationsbereichsquantisierung. Die Eigenschaften des Transformationsbereichs werden durch die reversiblen Transformationen definiert, die eingesetzt werden. Wenn eine Transformation, wie die schnelle Fourier-Transformation (FFT), diskrete Kosinus-Transformation (DCT) oder modifizierte diskrete Kosinus-Transformation (MDCT) verwendet wird, ist der Transformationsbereich zum Frequenzbereich äquivalent. Wenn Transformationen, wie die Wavelet-Transformation (WT) oder Paket-Transformation (PT) verwendet werden, stellt der Transformationsbereich eine Mischung aus einer Zeit- und Frequenzinformation dar.
Quantisierung ist eine der gebräuchlichsten und direktesten Techniken, um eine Datenkompression zu erzielen. Es gibt zwei Grundquantisierungstypen: Skalar und Vektor.
Die Skalarquantisierung codiert Datenpunkte einzeln, während die Vektorquantisierung Eingangsdaten in Vektoren gruppiert, von denen jeder als ganzes codiert wird. Die Vektorquantisierung durchsucht typischerweise ein Codebuch (eine Sammlung von Vektoren) für die nächstliegende Anpassung an einen Eingangsvektor, was einen Ausgabeindex ergibt. Ein Dequantisierer führt einfach einen Tabellennachschlag in einem identischen Codebuch aus, um den ursprünglichen Vektor zu rekonstruieren. Andere Verfahren, die keine Codebücher umfassen, sind bekannt, wie Lösungen mit einer geschlossenen Form.
Ein Codierer/Decoder („Codec") der die MPEG-Audionorm (ISO/IEC 11172-3; 1993(E)) (hier einfach „MPEG") einhält, ist ein Beispiel eines Verfahrens, das eine Zeitbereichsskalarquantisierung einsetzt. Insbesondere setzt MPEG eine Skalarquantisierung des Zeitbereichssignals in einzelnen Teilbändern ein, während die Bitzuteilung im Skalarquantisierer auf einem psychoakustischen Modell beruht, das getrennt im Frequenzbereich implementiert wird (Doppelweg-Verfahren).
Es wohlbekannt, daß eine Skalarquantisierung bezüglich der Raten-/Verzerrungskompromisse nicht optimal ist. Eine Skalarquantisierung kann keine Korrelationen zwischen benachbarten Datenpunkten ausnutzen, und folglich ergibt eine Skalarquantisierung im allgemeinen höhere Verzerrungspegel für eine gegebene Bitrate. Um die Verzerrung zu reduzieren, müssen mehr Bits verwendet werden. Folglich begrenzt die Zeitbereichsskalarquantisierung den Grad der Kompression, was zu höheren Bitraten führt.
Vektorquantisierungssysteme können für gewöhnlich bei einem gegebenen Verzerrungspegel weit bessere Kompressionsverhältnisse als die Skalarquantisierung erzielen. Jedoch ist das menschliche Hörsystem für die Verzerrung empfindlich, die mit dem Nullsetzen selbst eines einzigen Zeitbereichsabtastwertes verbunden ist. Diese Erscheinung macht eine direkte Anwendung der herkömmlichen Vektorquantisierungstechniken auf ein Zeitbereichsaudiosignal zu einem unattraktiven Vorschlag, da eine Vektorquantisierung mit einer Rate von 1 Bit pro Abtastwert oder weniger häufig zum Nullsetzen einiger Vektorkomponenten (das heißt Zeitbereichsabtastwerten) führt.
Diese Einschränkungen der auf dem Zeitbereich beruhenden Verfahren können einen dazu führen, zu schließen, daß ein auf dem Frequenzbereich beruhendes (oder allgemeiner ein auf einem Transformationsbereich beruhendes) Verfahren eine bessere Alternative im Kontext der Vektorquantisierung zur Audiokompression sein kann. Jedoch gibt es eine beträchtliche Schwierigkeit, die in einer Audiokompression gelöst werden muß, die auf Nicht-Zeitbereichsquantisierung beruht. Das Eingangssignal ist kontinuierlich, ohne praktische Grenzen der Gesamtdauer. Es ist folglich notwendig, das Audiosignal in einer stückweisen Art zu codieren. Jedes Stück wird als ein Audio-Codierungs- oder Decodierungsblock oder Rahmen bezeichnet. Das Durchführen einer Quantisierung im Frequenzbereich auf einer rahmenweisen Basis führt im allgemeinen zu Diskontinuitäten an den Rahmengrenzen. Solche Diskontinuitäten ergeben unangenehme hörbare Artefakte („Knacken" und „Knallen"). Eine Abhilfe für dieses Diskontinuitätsproblem ist es, überlappende Rahmen zu verwenden, was zu entsprechenden niedrigeren Kompressionsverhältnissen und einer höheren Berechnungskomplexität führt. Ein verbreiteteres Verfahren ist es, kritisch abgetastete Teilbandfilterbänke zu verwenden, die einen Ereignispuffer einsetzen, der die Kontinuität an Rahmengrenzen aufrechterhält, jedoch auf Kosten der Latenz im Codec-rekonstruierten Audiosignal. Der lange Ereignispuffer kann außerdem zu einer geringeren rekonstruierten Transientenantwort führen, was zu hörbaren Artefakten führt. Eine andere Klasse von Verfahren erlegt Grenzbedingungen als Beschränkungen im Audiocodierungs- und Decodierungsprozessen auf. Die formalen und exakten mathematischen Behandlungen der auf Grenzbedingungseinschränkungen beruhenden Verfahren umfassen im allgemeinen eine intensive Berechnung, die dazu neigt, für Echtzeit-Anwendungen unpraktikabel zu sein.
Die Erfinder haben festgestellt, daß es wünschenswert wäre, eine Audiokompressionstechnik bereitzustellen, die für Echtzeit-Anwendungen geeignet ist, indem sie eine reduzierte Berechnungskomplexität aufweist. Die Technik sollte eine Kompression über die volle Bandbreite mit niedriger Bitrate (etwa 1-bit pro Abtastwert) für Musik und Sprache bereitstellen, während sie auf eine Audiokompression mit höherer Bitrate anwendbar ist. Die vorliegende Erfindung stellt eine solche Technik bereit.
Zusammenfassung
Die Erfindung umfaßt ein Verfahren und ein System zur Minimierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen, insbesondere Audiosignalen herrühren. In einer Ausführungsform umfaßt die Erfindung einen Allzweck-Audio-Codec-Algorithmus mit ultraniedriger Latenz.
Gemäß einem ersten Aspekt der vorliegenden Erfindung weist ein Verfahren mit niedriger Latenz zum Ermöglichen einer Reduzierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, auf:
Bilden eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird;
Identifizieren von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und
Ausschließen von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und Rekonstruieren eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Computerprogramm bereitgestellt, das Befehle aufweist, um einen Computer zu veranlassen, das Verfahren des ersten Aspekts der Erfindung auszuführen.
Gemäß einem dritten Aspekt der vorliegenden Erfindung weist ein System zum Ermöglichen einer Reduzierung mit niedriger Latenz von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, auf:
eine Einrichtung zur Bildung eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird;
eine Einrichtung zur Identifizierung von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und
eine Einrichtung zum Ausschluß von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und zur Rekonstruktion eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
Vorteile der Erfindung umfassen:

• Ein neuartiges System zur Minimierung von Block-Diskontinuitäten, das eine flexible und dynamische Signal- oder Datenmodellierung zuläßt;
• Eine Allzweck- und hochskalierbare Audiokompressionstechnik;
• Eigenschaften eines hohen Datenkompressionsverhältnisses/einer niedrigen Bitrate, die für Anwendungen, wie die Echtzeit- oder Nicht-Echtzeitaudioübertragung über das Internet mit einer begrenzten Verbindungsbandbreite gut geeignet sind;
• Ultraniedrige Codierungslatenz bis zu null, die ideal für interaktive Echtzeitanwendungen ist;
• Ultraniedrige Bitratenkompression bei bestimmten Arten von Audio;
• Niedrige Berechnungskomplexität.

Die Details einer oder mehrere Ausführungsformen der Erfindung werden in den beigefügten Zeichnungen und der folgenden Beschreibung angegeben. Andere Merkmale, Aufgaben und Vorteile der Erfindung werden aus der Beschreibung und Zeichnungen, und aus den Ansprüchen deutlich.
Beschreibung der Zeichnungen
1A–1C sind Wellenformdiagramme für einen Datenblock, der aus einem kontinuierlichen Datenstrom abgeleitet wird. 1A zeigt eine Sinuswelle vor der Quantisierung. 1B zeigt die Sinuswelle der 1A nach der Quantisierung. 1C zeigt, daß der Quantisierungsfehler oder Rest (und folglich die Energiekonzentration) nahe der Grenzen des Blocks wesentlich zunimmt.
2 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiocodierungssystems.
3 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiocodierungssystems.
4 veranschaulicht die Grenzanalyse- und Syntheseaspekte der Erfindung.
Gleiche Bezugszahlen und Bezeichnungen in den verschiedenen Zeichnungen geben gleiche Elemente an.
Detaillierte Beschreibung
Allgemeine Konzepte
Die folgenden Unterabschnitte beschreiben Grundkonzepte, auf denen die Erfindung beruht, und Eigenschaften der bevorzugten Ausführungsform.
System zur Reduzierung der durch die Quantisierung verursachten Block-Diskontinuität.
Wenn ein kontinuierliches Signal in einer rahmenweisen oder blockweisen Art in einem Transformationsbereich codiert wird, wird eine blockunabhängige Anwendung einer verlustbehafteten Quantisierung der Transformationskoeffizienten zu einer Diskontinuität an der Blockgrenze führen. Dieses Problem hängt eng mit dem sogenannten „Gibbs-Verlust"-Problem zusammen. Man betrachte den Fall, wo die Quantisierung, die in jedem Datenblock angewendet wird, dazu dient, die ursprüngliche Signalwellenform zu rekonstruieren, im Gegensatz zu einer Quantisierung, die die ursprünglichen Signaleigenschaften reproduziert, wie seinen Frequenzgehalt. Wir definieren den Quantisierungsfehler oder „Rest" in einem Datenblock als das ursprüngliche Signal minus das rekonstruierte Signal. Wenn die fragliche Quantisierung verlustfrei ist, dann ist der Rest für jeden Block null, und es ergibt sich keine Diskontinuität (wir setzen immer voraus, daß das ursprüngliche Signal kontinuierlich ist). Jedoch ist im Fall einer verlustbehafteten Quantisierung der Rest nicht null, und infolge der blockabhängigen Anwendung der Quantisierung wird der Rest an den Blockgrenzen nicht passen; folglich wird sich eine Block-Diskontinuität im rekonstruierten Signal ergeben. Wenn der Quantisierungsfehler verglichen mit der ursprünglichen Signalstärke verhältnismäßig klein ist, d.h. sich die rekonstruierte Wellenform dem ursprünglichen Signal innerhalb eines Datenblocks annähert, tritt eine interessante Erscheinung auf: die Restenergie neigt dazu, sich an beiden Enden der Blockgrenze zu konzentrieren. Mit anderen Worten neigt die Gibbs-Verlustenergie dazu, sich an den Blockgrenzen zu konzentrieren. Bestimmte Fenstertechniken können eine solche Restenergiekonzentration weiter erhöhen.
Als Beispiel der Gibbs-Verlustenergie sind die 1A–1C Wellenformdiagramme für einen Datenblock, der aus einem kontinuierlichen Datenstrom abgeleitet wird. 1A zeigt eine Sinuswelle vor der Quantisierung. 1B zeigt die Sinuswelle der 1A nach der Quantisierung. 1C zeigt, daß der Quantisierungsfehler oder Rest (und folglich die Energiekonzentration) nahe der Grenzen des Blocks wesentlich zunimmt.
Mit diesem Konzept im Sinn beschäftigt sich ein Aspekt der Erfindung mit:

1. Einer optionalen Verwendung einer Fenstertechnik, um die Restenergiekonzentration nahe der Blockgrenzen zu erhöhen. Es wird eine Fensterfunktion bevorzugt, die durch die Identitätsfunktion (d.h. keine Transformation) für den größten Teil eines Blocks, jedoch mit glockenförmiger Abnahme nahe der Grenzen eines Blocks gekennzeichnet ist (siehe 4, die unten beschrieben wird).
2. Einer Verwendung einer dynamisch angepaßten Signalmodellierung, um die Signaleigenschaften innerhalb jedes Blocks ohne Rücksicht auf benachbarte Blöcke zu erfassen.
3. Einer effizienten Quantisierung der Transformationskoeffizienten, um die ursprüngliche Wellenform anzunähern.
4. Einer Verwendung eines Verfahrens nahe der Blockgrenzen, wo die Restenergie konzentriert ist, um die Effekte des Quantisierungsfehlers wesentlich zu reduzieren: (1) Restquantisierung (die nicht durch die vorliegende Erfindung eingeschlossen wird): Anwendung einer exakten Zeitbereichswellenform-Quantisierung des Rests (d.h. des Quantisierungsfehlers nahe den Grenzen jedes Rahmens). Im wesentlichen werden mehr Bits verwendet, um die Grenzen durch eine Codierung des Rests nahe der Blockgrenzen zu definieren. Dieses Verfahren ist in der Codierung geringfügig weniger effizient, führt jedoch zu einer Codierungslatenz von null. (2) Grenzausschluß (der nicht durch die vorliegende Erfindung eingeschlossen wird) und Interpolation: Während der Codierung werden überlappende Datenblöcke mit einem kleinen überlappenden Datenbereich verwendet, der die gesamte konzentrierte Restenergie enthält, was zu einer kleinen Codierungslatenz führt. Während der Decodierung schließt jeder rekonstruierte Block den Grenzbereich aus, wo sich die Restenergie konzentriert, was zu einem minimierten Zeitbereichsrest und einer minimierten Blockdiskontinuität führt. Es wird dann eine Grenzinterpolation verwendet, um die Blockdiskontinuität weiter zu reduzieren.
5. Modellierung der verbleibenden Restenergie als Bänder aus statistischem Rauschen, die die psychoakustische Maskierung von Artefakten bereitstellt, die in die Signalmodellierung eingeführt worden sein können, und den ursprünglichen Rauschteppich annähert.

Die Eigenschaften und Vorteile dieses Verfahrenssystems sind die folgenden:

1. Es wendet jede auf einer Transformation beruhende (tatsächlich jede auf einer reversiblen Operation beruhende) Codierung eines beliebigen kontinuierlichen Signals (einschließlich, jedoch nicht begrenzt auf Audiosignale) an, die eine Quantisierung einsetzt, die die ursprüngliche Signalwellenform annähert.
2. Große Flexibilität darin, daß es viele unterschiedliche Klassen von Lösungen zuläßt.
3. Es läßt eine adaptive blockweise Änderung der Transformation zu, was zu einer potentiell optimalen Signalmodellierung und Transientenwiedergabetreue führt.
4. Es ergibt eine sehr niedrige Codierungslatenz bis zu null, da es nicht auf einem langen Ereignispuffer beruht, um die Blockkontinuität beizubehalten.
5. Es ist einfach und weist eine niedrige Berechnungskomplexität auf.

Anwendung des Systems zur Reduzierung der durch die Quantisierung verursachten Block-Diskontinuität auf die Audiokompression.
Ein idealer Audiokompressionsalgorithmus kann die folgenden Merkmale aufweisen:

1. Flexible und dynamische Signalmodellierung zur Codierungseffizienz;
2. Kontinuitätsbewahrung, ohne eine lange Codierungslatenz einzuführen oder die Transientenwiedergabetreue zu beeinträchtigen;
3. Niedrige Rechenkomplexität für Echtzeitanwendungen.

Herkömmliche Verfahren zur Reduzierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen herrühren, beruhen typischerweise auf einem langen Ereignispuffer (z.B. mehrere Rahmen), um die Grenzkontinuität auf Kosten der Codec-Latenz, Transienten-Wiedergabetreue und Codierungseffizienz aufrechtzuerhalten. Die Transientenantwort wird infolge der Durchschnittsbildung oder des Verschmierungseffekts eines langen Ereignispuffers beeinträchtigt. Die Codierungseffizienz wird ebenfalls reduziert, da das Aufrechterhalten der Kontinuität durch einen langen Ereignispuffer eine adaptive Signalmodellierung ausschließt, die notwendig ist, wenn man sich mit der dynamischen Beschaffenheit von beliebigen Audiosignalen befaßt. Das System der vorliegenden Erfindung bietet eine Lösung zur Codierung von kontinuierlichen Daten, insbesondere Audiodaten, ohne solche Kompromisse. Wie im letzten Unterabschnitt festgestellt, ist dieses System in seiner Beschaffenheit sehr flexibel, was viele mögliche Implementierungen zur Codierung von Algorithmen zuläßt. Im folgenden wird ein neuartiger und praktisch zum allgemeinen Gebrauch geeigneter, effizienter Audiocodierungsalgorithmus mit niedriger Latenz beschrieben.
Adaptive Kosinuspaket-Transformation (ACPT).
Die (Wavelet oder Kosinus)-Paket-Transformation (PT) ist ein gut untersuchter Gegenstand der Wavelet-Forschungsgemeinschaft ebenso wie der Datenkompressionsgemeinschaft. Eine Wavelet-Transformation (WT) führt zu Transformationskoeffizienten, die eine Mischung aus Zeit- und Frequenzbereichseigenschaften darstellen. Eine Eigenschaft der WT ist es, daß sie eine mathematisch kompakte Grundlage hat. Mit anderen Worten weist die Wavelet Basisfunktionen auf, die nur in einem endlichen Bereich nicht verschwindend sind, im Gegensatz zu Sinuswellen, die sich ins Unendliche erstrecken. Der Vorteil einer solchen kompakten Grundlage ist es, daß die WT effizienter die Eigenschaften eines transienten Signalimpulses erfassen kann als es FFT oder DCT können. Die PT weist den weiteren Vorteil auf, daß sie sich durch eine Analyse der besten Basis an die Eingangssignal-Zeitskala anpassen kann (indem bestimmte Parameter, wie die Entropie minimiert werden), was zu einer noch effizienteren Darstellung eines transienten Signalereignisses führt. Obwohl man sicher WT oder PT als die Transformation der Wahl im vorliegenden Audiocodierungssystem verwenden kann, ist es die Absicht der Erfinder, ACPT als die bevorzugte Transformation für einen Audio-Codec zu präsentieren. Ein Vorteil der Verwendung einer Kosinuspaket-Transformation (CPT) zur Audiocodierung ist es, daß sie effizient transiente Signale erfas sen kann, während sie sich auch harmonischen (sinusförmigen) Signalen geeignet anpassen kann.
ACPTs sind eine Erweiterung von herkömmlichen CPTs, die eine Reihe von Vorteilen bereitstellen. Bei einer Audiocodierung mit niedriger Bitrate wird die Codierungseffizienz verbessert, indem längere Audiocodierungsrahmen (Blöcke) verwendet werden. Wenn ein stark transientes Signal in einen längeren Codierungsrahmen eingebettet ist, können CPTs die schnelle zeitliche Antwort nicht aufnehmen. Dies liegt zum Beispiel daran, daß im Algorithmus zur Analyse der besten Basis, der die Entropie minimiert, die Entropie unter bestimmten Signalbedingungen nicht die geeignetste Signatur (nichtlineare Abhängigkeit vom Signalnormierungsfaktor ist ein Grund) zur Zeitskalenadaptation sein kann. Eine ACPT stellt eine Alternative bereit, indem sie den längeren Codierungsrahmen durch einen adaptiven Umschaltmechanismus im voraus in Teilrahmen aufspaltet, und dann eine CPT auf die nachfolgenden Teilrahmen anwendet. Die „beste Basis", die mit den ACPTs verbunden ist, wird als die erweiterte beste Basis zeichnet.
Signal- und Rest-Klassifizierer (SRC).
Um eine Kompression mit niedriger Bitrate zu erreichen (z.B. mit 1 Bit pro Abtastwert oder niedriger), ist es vorteilhaft, die Koeffizienten von starken Signalkomponenten im Satz der Transformationskoeffizienten von den Koeffizienten des Rauschens und sehr schwacher Signalkomponenten zu trennen. Zum Zweck dieses Dokuments wird der Ausdruck „Rest" verwendet, um sowohl Rauschen als auch schwache Signalkomponenten zu beschreiben. Es kann ein Signal- und Rest-Klassifizierer (SRC) auf verschiedene Arten implementiert werden. Ein Verfahren ist es, alle diskreten starken Signalkomponenten vom Rest zu identifizieren, was einen Sparse-Vektor-Signalkoeffizienten-Rahmenvektor ergibt, wo anschließend eine adaptive Sparse-Vektorquantisierung (ASVQ) als der bevorzugte Quantisierungsmechanismus verwendet wird. Ein zweites Verfahren beruht auf einer einfachen Beobachtung von natürlichen Signalen: die Koeffizienten der starken Signalkomponente neigen zur Gruppenbildung. Daher würde dieses zweite Verfahren die starken Signalgruppen von den aneinandergrenzenden Restkoeffizienten trennen. Die anschließende Quantisierung des gruppierten Signalvektors kann als ein spezieller Typ des ASVQ betrachtet werden (global gruppierter Sparse-Vektortyp). Es ist gezeigt worden, daß das zweite Verfahren im allgemeinen eine höhere Codierungseffizienz ergibt, da Signalkomponenten gruppiert sind, und folglich weniger Bits erforderlich sind, um ihre Orte zu codieren.
ASVQ.
Wie im letzten Abschnitt erwähnt, ist ASVQ der bevorzugte Quantisierungsmechanismus für die starken Signalkomponenten. Für eine Erläuterung der ASVQ nehme man bitte auf die erteilte US-Patentanmeldung Serien-Nr. 08/958,567 von Shuwu Wu und John Mantegna mit dem „Audio Codec using Adaptive Sparse Vector Quantization with Subband Vector Classification", eingereicht am 28.10.97, bezug, die an den Rechtsnachfolger der vorliegenden Erfindung übertragen worden ist, und hierdurch als Verweisquelle aufgenommen ist.
Zusätzlich zu ASVQ setzt die bevorzugte Ausführungsform einen Mechanismus ein, um eine Bitzuteilung bereitzustellen, die zur Block-Diskontinuitätsminimierung geeignet ist. Diese einfache, jedoch effektive Bit-Zuteilung läßt außerdem eine Kurzzeitbitraten-Vorhersage zu, die sich im Ratensteuerungsalgorithmus als nützlich erwiesen hat.
Statistisches Rauschmodell.
Während die starken Signalkomponenten unter Verwendung ASVQ genauer codiert werden, wird der verbleibende Rest in der bevorzugten Ausführungsform anders behandelt. Erstens wird die erweiterte beste Basis zur Anwendung einer ACPT verwendet, um den Codierungsrahmen in Restteilrahmen zu unterteilen. Innerhalb jedes Restteilrahmens wird der Rest dann als Bänder aus statistischem Rauschen modelliert. Es können zwei Verfahren verwendet werden:

1. Ein Verfahren berechnet einfach die Restamplitude oder Energie in jedem Frequenzband. Dann werden zufällige DCT-Koeffizienten in jedem Band so erzeugt, daß sie zur ursprünglichen Restenergie passen. Die inverse DCT wird an den kombinierten DCT-Koeffizienten durchgeführt, um ein Zeitbereichsrestsignal zu ergeben.
2. Ein zweites Verfahren wurzelt im Zeitbereichsfilterbank-Verfahren. Wieder wird die Restenergie berechnet und quantisiert. Bei der Rekonstruktion wird eine vorbestimmte Bank von Filtern verwendet, um das Restsignal für jedes Frequenzband zu erzeugen. Die Eingabe in diese Filter ist weißes Rauschen, und die Ausgabe wird verstärkungsgeregelt, um sich der ursprünglichen Restenergie anzupassen. Dieses Verfahren bietet eine Verstärkungsinterpolation für jedes Restband zwischen Restrahmen, was eine kontinuierliche Restenergie ergibt.

Ratensteuerungsalgorithmus.
Außerdem wird hierin die Anwendung einer Ratensteuerung auf den bevorzugten Codec beschrieben. Der Ratensteuerungsmechanismus wird im Codierer eingesetzt, um den gewünschten Bereich von Bitraten besser anzustreben. Der Ratensteuerungsmechanismus arbeitet als eine Rückkopplungsschleife zum SRC-Block und zum ASVQ. Der bevorzugte Ratensteuerungsmechanismus verwendet ein lineares Modell, um die Kurzzeitbitrate vorherzusagen, die mit dem gegenwärtigen Codierungsrahmen verbunden ist. Er berechnet außerdem die Langzeit-Bitrate. Es werden dann sowohl die Kurz- als auch die Langzeit-Bitraten verwendet, um passende SRC- und ASVQ-Steuerungsparameter auszuwählen. Dieser Ratensteuerungsmechanismus bietet eine Anzahl von Vorteilen, einschließlich einer reduzierten Komplexität der Rechenkomplexität, ohne eine Quantisierung und an Ort und Stelle eine Adaptation an transiente Signale anzuwenden.
Flexibilität.
Wie oben erläutert, läßt das System zur Minimierung der durch die Quantisierung verursachten Block-Diskontinuität eine dynamische und auf einer beliebigen reversible Transformation beruhende Signalmodellierung zu. Dies stellt eine Flexibilität zur dynamischen Umschaltung unter unterschiedlichen Signalmodellen und die Möglichkeit bereit, eine nahezu optimale Codierung zu erzeugen. Dieses vorteilhafte Merkmal steht in den herkömmlichen MPEG I- oder MPEG II-Audio-Codecs oder im fortschrittlichen Audio-Codec (AAC) einfach nicht zur Verfügung. (Für eine detaillierte Beschreibung von AAC, nehme man bitte auf den Literaturverzeichnisabschnitt unten bezug). Dies ist infolge der dynamischen und beliebigen Natur von Audiosignalen wichtig. Der bevorzugte Audio-Codec der Erfindung ist ein Allzweck-Audio-Codec, der insgesamt für Musik, Töne und Sprache zutrifft. Ferner ist die dem Codec eigene niedrige Latenz besonders bei der Codierung von kurzen (in der Größenordnung von einer Sekunde) Toneffekten nützlich.
Skalierbarkeit.
Der bevorzugte Audiocodierungsalgorithmus der Erfindung ist außerdem in dem Sinne sehr skalierbar, daß er eine Audiokompression mit niedriger Bitrate (etwa 1 Bit/Abtastwert) über die volle Bandbreite bei Abtastfrequenzen, die von 8 kHz bis 44 kHz reichen, mit nur kleinen Einstellungen der Codierungsparameter erzeugen kann. Dieser Algorithmus kann auch auf eine hochqualitative Audio- und Stereokompression erweitert werden.
Audiocodierung-/Decodierung.
Die bevorzugten Ausführungsformen zur Audiocodierung und -Decodierung der Erfindung bilden ein System zur Audiocodierung- und Decodierung, das eine Audiokompression mit variablen niedrigen Bitraten in der Nähe von 0,5 bis 1,2 Bits pro Abtastwert erzielt. Dieses Audiokompressionssystem wendet sowohl eine Codierung mit niedrige Bitrate als auch eine hochqualitative transparente Codierung und Audiowiedergabe mit einer höheren Rate an. Die folgenden Abschnitte beschreiben getrennt die bevorzugten Codierer- und Decoder-Ausführungsformen.
Audiocodierung
2 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiocodierungssystems. Das bevorzugte Audiocodierungssystem kann in Software oder Hardware implementiert werden, und weist 8 Hauptfunktionsblöcke 100–114 auf, die unten beschrieben werden.
Grenzanalyse 100.
Unter Ausschluß jeder Signalvorverarbeitung, die das Eingangsaudio in eine Darstellung einer internen Codec-Abtastfrequenz und Impulscodemodulation (PCM) umwandelt, bildet die Grenzanalyse 100 den ersten Funktionsblock im Allzweck-Audiocodierer. Wie oben erläutert, kann eines von zwei Verfahren zur Reduzierung der durch die Quantisierung verursachten Block-Diskontinuitäten angewendet werden. Das erste Verfahren (Rest-Quantisierung) ergibt eine Latenz von null auf Kosten dessen, daß eine Codierung der Restwellenform nahe den Blockgrenzen erforderlich ist („nahe" bedeutet typischerweise etwa 1/16 der Blockgröße). Das zweite Verfahren (Grenzausschluß und Interpolation) führt eine sehr kleine Latenz ein, weist jedoch eine bessere Codierungseffizienz auf, da es die Notwendigkeit vermeidet. den Rest nahe den Blockgrenzen zu codieren, wo sich der größte Teil der Restenergie konzentriert. Setzt man die sehr kleine Latenz voraus, die dieses zweite Verfahren relativ zu einem MPEG AAC-Codec des Stands der Technik in die Audiocodierung einführt (wo die Latenz gegenüber einem Bruchteil eines Rahmens für den bevorzugten Codec der Erfindung mehrere Rahmen beträgt), wird es bevorzugt, zur besseren Codierungseffizienz das zweite Verfahren zu verwenden, es sei denn, eine Latenz von null ist absolut erforderlich.
Obwohl die beiden unterschiedlichen Verfahren einen Einfluß auf den anschließenden Vektorquantisierungsblock haben, kann das erste Verfahren einfach als ein Spezialfall des zweiten Verfahrens angesehen werden, insoweit als die Grenzanalysefunktion 100 und Synthesefunktion 212 (siehe 3) betroffen sind. Daher reicht eine Beschreibung des zweiten Verfahrens aus, um beide Verfahren zu beschreiben.
4 veranschaulicht die Aspekte der Grenzanalyse und -Synthese der Erfindung. Die folgende Technik wird im oberen (Codierungs-)Abschnitt der 4 dargestellt. Ein Audio-Codierungs-(Analyse- oder Synthese-)Rahmen besteht aus einer ausreichenden Anzahl von Abtastwerten Ns (die nicht weniger als 256, vorzugsweise 1024 oder 2048 betragen sollte). Im allgemeinen führen größere Ns-Werte zu einer höheren Codierungseffizienz, jedoch auf die Gefahr hin, die Genauigkeit einer schnellen transienten Antwort zu verlieren. Ein Analyseereignispuffer (HB_E) mit der Größe von sHB_E = R_E·Ns Abtastwerten aus dem vorhergehenden Codierungsrahmen wird im Codierer gehalten, wobei R_E ein kleiner Bruchteil ist (der typischerweise auf 1/16 oder 1/8 der Blockgröße eingestellt wird), um Bereiche nahe der Blockgrenzen abzudecken, die eine hohe Restenergie aufweisen. Während der Codierung des gegenwärtigen Rahmens werden sInput = (1 – R_E)·Ns Abtastwerte aufgenommen und mit den Abtastwerten in HB_E verkettet, um einen vollständigen Analyserahmen zu bilden. Im Decoder wird außerdem ein ähnlicher Synthese-Ereignispuffer (HB_D) zur Grenzinterpolationszwecken gehalten, wie in einem späteren Abschnitt beschrieben wird. Die Größe von HB_D beträgt sHB_D = R_D·sHB_E = R_D·R_E·Ns Abtastwerte, wobei R_D ein Bruchteil ist, der typischerweise auf 1/4 eingestellt wird.
Es wird eine Fensterfunktion während der Initialisierung des Audio-Codecs erzeugt, so daß sie die folgenden Eigenschaften aufweist: (1) im mittleren Bereich mit einer Größe von Ns – sHB_E + sHB_D Abtastwerten ist die Fensterfunktion gleich eins (d.h. die Identitätsfunktion); und (2) die restlichen gleich unterteilten Kanten entsprechen typischerweise der linken bzw. rechten Hälfte einer glockenförmigen Kurve. Ein typischer Kandidat einer glockenförmigen Kurve könnte eine Hamming- oder Kaiser-Bessel-Fensterfunktion sein. Diese Fensterfunktion wird dann auf die Analyserahmen-Abtastwerte angewendet. Der Analyseereignispuffer (HB_E) wird dann mit den letzten sHB_E Abtastwerten aus dem gegenwärtigen Analyserahmen aktualisiert. Dies vollendet die Grenzanalyse.
Wenn der Parameter R_E auf null gesetzt wird, reduziert sich diese Analyse auf das erste, obenerwähnte Verfahren. Daher kann die Restquantisierung als ein Spezialfall des Ausschlusses und der Interpolation der Grenze betrachtet werden.
Normierung 102.
Eine optionale Normierungsfunktion 102 im Allzweck-Audio-Codec führt eine Normierung des in Fenster gesetzten Ausgangssignals aus dem Grenzanalyseblock durch. In der Normierungsfunktion 102 wird die durchschnittliche Zeitbereichssignalamplitude über den gesamten Codierungsrahmen (Ns Abtastwerte) berechnet. Dann wird eine Skalarquantisierung der durchschnittlichen Amplitude durchgeführt. Der quantisierte Wert wird verwendet, um das Eingangszeitbereichssignal zu normieren. Der Zweck dieser Normierung ist es, den Signaldynamikbereich zu reduzieren, was zu Biteinsparungen während des späteren Quantisierungsstadiums führen wird. Diese Normierung wird aus den folgenden Gründen nach der Grenzanalyse und im Zeitbereich durchgeführt: (1) die Grenzanpassung muß am ursprünglichen Signal im Zeitbereich durchgeführt werden, wo das Signal kontinuierlich ist; und (2) wird es bevorzugt, daß die Skalarquantisierungstabelle von der nachfolgenden Transformation unabhängig ist, und muß folglich vor der Transformation ausgeführt werden. Der Skalarnormierungsfaktor wird später als Teil der Codierung des Audio-Signals codiert.
Transformation 104.
Die Transformationsfunktion 104 transformiert jeden Zeitbereichsblock zu einem Transformationsbereichsblock, der mehrere Koeffizienten aufweist. In der bevorzugten Ausführungsform ist der Transformationsalgorithmus eine adaptive Kosinuspaket-Transformation (ACPT). ACPT ist eine Erweiterung oder Verallgemeinerung der herkömmlichen Kosinuspaket-Transformation (CPT). CPT besteht aus einer Kosinuspaketanalyse (Vorwärtstransformation) und Synthese (Rücktransformation). Das folgende beschreibt die Schritte der Ausführung der Kosinuspaketanalyse in der bevorzugten Ausführungsform. Anmerkung: Es wird die Schreibweise von Matlab von Mathwork in den Pseudo-Codes durch diese gesamte Beschreibung hindurch verwendet, wobei: l:m eine Anordnung von Zahlen mit einem Startwert von 1, einer Erhöhung von 1, und einem Endwert von m bedeutet; und .*, ./, und .^2 punktweise Multiplikations-, Divisions- bzw. Quadrieroperationen angeben.
CPT:
Es sei N die Anzahl der Abtastpunkte in der Kosinuspaket-Transformation, D die Tiefe der feinsten Zeitaufspaltung, und Nc sei die Anzahl der Abtastwerte bei der feinsten Zeitaufspaltung (Nc = N/2^D, muß eine Ganzzahl sein). Es werde das folgende durchgeführt:

1. Berechne die Glockenfenster-Funktion bp (innerhalb des Bereichs) und bm (außerhalb des Bereichs):
2. Berechne Kosinuspaket-Transformationstabelle pkt für N-Punkt-Eingangsdaten x:
Die Funktion dct4 ist die diskrete Kosinustransformation des Typs IV. Wenn Nc eine Potenz von 2 ist, kann eine schnelle dct4-Transformation verwendet werden.
3. Baue den Statistikbaum stree für die anschließende Analyse der besten Basis auf. Der folgende Pseudo-Code demonstriert nur den allgemeinsten Fall, wo die Basisauswahl auf der Entropie der Paket-Transformationskoeffizienten beruht:
4. Führe die Analyse der besten Basis aus, um den besten Basisbaum btree zu bestimmen:
5. Bestimme (optimale) CPT-Koeffizienten opkt aus der Paket-Transformationstabelle und dem besten Basisbaum:

Für eine detaillierte Beschreibung der Wavelet-Transformationen, Paket-Transformationen und Kosinuspaket-Transformationen siehe den Literaturverzeichnisabschnitt unten.
Wie oben erwähnt, versagen die Algorithmen zur Auswahl der besten Basis, die durch die herkömmliche Kosinuspakettransformation geboten werden, manchmal dabei, eine (relativ gesehen) sehr schnelle Zeitanwort innerhalb eines Transformationsrahmens zu erkennen. Wir stellten fest, daß es notwendig ist, die Kosinuspaket-Transformation auf etwas zu verallgemeinern, was wir als die „adaptive Kosinuspaket-Transformation" ACPT bezeichnen. Die Grundidee hinter ACPT ist es, einen unabhängigen adaptiven Umschaltmechanismus auf einer Rahmen-Rahmen-Basis einzusetzen, um festzustellen, ob eine Vorteilung des CPT-Rahmens bei einem Zeitteilungspegel D1 erforderlich ist, wobei 0 <= D1 <= D. Wenn die Vorteilung nicht erforderlich ist, wird die ACPT fast auf die CPT reduziert, mit der Ausnahme, daß für die Analyse der besten Basis bei ACPT die maximale Tiefe der Zeitteilung D2 ist, wobei D1 <= D2 <= D.
Der Zweck der Einführung von D2 ist es, eine Einrichtung bereitzustellen, die Basisaufteilung an einem Punkt (D2) zu stoppen, der kleiner sein könnte als der maximal zulässige Wert D, wodurch die Verknüpfung zwischen der Größe des Kantenkorrekturbereichs der ACPT und der feinsten Aufteilung der besten Basis entkoppelt wird. Wenn eine Vorteilung erforderlich ist, dann wird die Analyse der besten Basis für jeden der Vorteilungsteilrahmen ausgeführt, was einen erweiterten besten Basisbaum ergibt (eine 2-D-Anordnung anstelle der herkömmlichen 1-D-Anordnung). Da es der einzige Unterschied zwischen ACPT und CPT ist, eine flexiblere Auswahl der besten Basis zuzulassen, was wir im Kontext der Audiocodierung mit niedriger Bitrate als sehr hilfreich befunden haben, ist ACPT eine reversible Transformation wie CPT.
ACPT:
Es folgt der bevorzugte ACPT-Algorithmus:

1. Berechne im voraus die Glockenfensterfunktionen bp und bm, wie im Schritt 1 des CPT-Algorithmus oben.
2. Berechne die Kosinuspaket-Transformationstabelle genau für den Zeitteilungspegel von D1; pkt(:, D1+1), wie im CPT-Schritt 2, jedoch nur für d = D1 (anstatt d = D: -1:0).
3. Führe einen adaptiven Umschaltalgorithmus durch, um festzustellen, ob eine Vorteilung am Pegel D1 für den gegenwärtigen ACPT-Rahmen benötigt wird. Es stehen viele Algorithmen für eine solchen adaptive Umschaltung zur Verfügunge. Man kann einen auf dem Zeitbereich beruhenden Algorithmus verwenden, wo die adaptive Umschaltung vor dem Schritt 2 ausgeführt werden kann. Eine weitere Klasse von Verfahren wäre es, die Pakettransformationstabellen-Koeffizienten beim Pegel D1 zu verwenden. Ein Kandidat in der Klasse von Verfahren ist es, die Entropie der Transformationskoeffizienten für alle vorgeteilten Teilrahmen einzeln zu berechnen. Dann kann ein auf der Entropie beruhendes Umschaltkriterium verwendet werden. Andere Kandidaten umfassen die Berechnung einiger transienter Signaturparameter aus den verfügbaren Transformationskoeffizienten aus Schritt 2 und die folgende Anwendung einiger geeigneter Kriterien. Das folgende beschreibt nur eine bevorzugte Implementierung:
wobei Nt eine Schwellenzahl ist, die typischerweise auf einen Bruchteil von Nj (z.B. Nj / 8) eingestellt wird. thr1 und thr2 sind zwei empirisch bestimmte Schwellenwerte. Das erste Kriterium detektiert die transiente Signalamplitudenvariation, das zweite detektiert die Transformationskoeffizienten (ähnlich zu den DCT-Koeffizienten in jedem Teilrahmen) oder die Spektralspreizung pro Entropiewerteinheit.
4. Berechne pkt an den erforderlichen Pegeln abhängig von der Vorteilungsentscheidung:
wobei D0 und D2 die maximalen Tiefen zur Zeitteilung PRE-SPLIT_REQUIRED bzw. PRE-SPLIT_NOT_REQUIRED sind.
5. Bilde Statistikbaum stree, wie im CPT-Schritt 3, nur für die erforderlichen Pegel.
6. Teile den Statistikbaum stree in den erweiterten Statistikbaum strees auf, der im allgemeinen eine 2-D-Anordnung ist. Jede 1-D-Teilanordnung ist der Statistikbaum für einen Teilrahmen. Für den PRE-SPLIT_REQUIRED-Fall gibt es 2^D1 solcher Teilanordnungen. Für den PRE-SPLIT_NOT_REQUIRED-Fall gibt es keine Aufteilung (oder genau einen Teilrahmen), so daß es nur eine Teilanordnung gibt, d.h. strees nimmt eine 1-D-Anordnung an. Die Details sind wie folgt:
7. Führe die Analyse der besten Basis durch, um den erweiterten besten Basisbaum btress für jeden der Teilrahmen auf dieselbe Weise wie im CPT-Schritt 4 zu bestimmen.
8. Bestimme die optimalen Transformationskoeffizienten opkt aus dem erweiterten besten Basisbaum. Dies umfaßt die Bestimmung von opkt für jeden der Teilrahmen. Der Algorithmus für jeden Teilrahmen ist derselbe wie im CPT-Schritt 5.

Da ACPT die Transformationstabellen-Koeffizienten nur an den erforderlichen Zeitteilungspegeln berechnet, ist ACPT im allgemeinen weniger rechnerisch komplex als CPT.
Der erweiterte beste Basisbaum (2-D-Anordnung) kann als eine Anordnung von einzelnen besten Basisbäumen (1-D) für jeden Teilrahmen betrachtet werden. Es wird eine (optimale) Technik mit variabler Länge zur Codierung eines besten Basisbaums bevorzugt:
Signal- und Restklassifizierer 106.
Die Signal- und Restklassifizierer-(SRC)-Funktion 106 ordnet die Koeffizienten jedes Zeitbereichblocks in Signalkoeffizienten und Restkoeffizienten an. Insbesondere trennt die SRC-Funktion 106 starke Eingangssignalkomponenten (die als Signal bezeichnet werden) von Rauschen und schwachen Signalkomponenten (die zusammen als Rest bezeichnet werden). Wie oben erläutert, gibt es zwei bevorzugte Verfahren für SRC. In beiden Fällen ist ASVQ eine geeignete Technik zur anschließenden Quantisierung des Signals. Das folgende beschreibt das zweite Verfahren, daß das Signal und den Rest in Gruppen identifiziert:

1. Sortiere Index in aufsteigender Reihenfolge des Absolutwerts der ACPT-Koeffizienten opkt: ax = abs(opkt); order = quickSort(ax);
2. Berechne globalen Rauschteppich gnf gnf = ax(N – Nt); wobei Nt eine Schwellenzahl ist, die typischerweise auf einen Bruchteil von N gesetzt wird.
3. Bestimme Signalgruppen, indem Zonenindizes zone im ersten Durchgang berechnet werden:
4. Bestimme die Signalgruppen im zweiten Durchgang, indem ein lokaler Rauschteppich Inf verwendet wird; sRR ist die Größe des benachbarten Restbereichs für Berechnungszwecke des lokalen Rauschteppichs, die typischerweise auf einen kleinen Bruchteil von N gesetzt wird (z.B. N/32):
5. Entferne die schwachen Signalkomponenten:
6. Entferne die Restkomponenten: index = find(zone(1,:)) > 0); zone = zone(:, index); zc = size(zone, 2);
7. Vereinige Signalgruppen, die enge Nachbarn sind:
wobei minZS die minimale Zonengröße ist, die empirisch bestimmt wird, um die benötigten Quantisierungsbits zur Codierung der Signalzonen-Indizes und Signalvektoren zu minimieren.
8. Entferne die Restkomponenten erneut, wie in Schritt 6.

Quantisierung 108.
Nachdem der SRC 106 die ACPT-Koeffizienten in Signal- und Restkomponenten trennt, werden die Signalkomponenten durch eine Quantisierungsfunktion 108 verarbeitet. Die bevorzugte Quantisierung für Signalkomponenten ist die adaptive Sparse-Vektorquantisierung (ASVQ).
Wenn man den Signalgruppen-Vektor als die ursprünglichen ACPT-Koeffizienten betrachtet, wobei die Restkomponenten auf null gesetzt sind, dann ergibt sich ein Sparse-Vektor. Wie in der erteilten US-Patentanmeldung Serien-Nr. 08/958,567 von Shuwu Wu und John Mantegna, mit dem Titel „Audio Codec using Adaptive Sparse Vector Quantization with Subband Vector Classification", eingereicht am 28.10.97, erläutert wird, ist ASVQ das bevorzugte Quantisierungsschema für solche Sparse-Vektoren. In dem Fall, wo die Signalkomponenten in Gruppen vorliegen, trifft die Typ-IV-Quantisierung in ASVQ zu. Eine Verbesserung der ASVQ-Typ-IV-Quantisierung kann in Fällen erreicht werden, wo alle Signalkomponenten in einer Anzahl von aneinanderhängenden Gruppen enthalten sind. In solchen Fällen reicht es aus, nur alle Start- und Endindizes für jede der Gruppen zu codieren, wenn der Elementstellenindex (ELI) codiert wird. Daher wird zum Zweck der ELI-Quantisierung, anstatt daß der ursprüngliche Sparse-Vektor quantisiert wird, ein modifizierter Sparse-Vektor (ein Super-Sparse-Vektor) mit nur von null verschiedenen Elementen an den Start- und Endpunkten jeder Signalgruppe codiert. Dies führt zu sehr bedeutenden Biteinsparungen. Dies ist einer der Hauptgründe dafür, daß es vorteilhaft ist, Signalgruppen anstelle von diskreten Komponenten zu betrachten. Für eine detaillierte Beschreibung der Typ-IV-Quantisierung und Quantisierung des ELI nehme man bitte auf die Patentanmeldung bezug, auf die oben verwiesen wird. Natürlich kann man sicher andere verlustfreie Techniken verwenden, wie die Lauflängencodierung mit Huffman-Codes, um den ELI zu codieren.
ASVQ unterstützt eine variable Bitzuteilung, die es zuläßt, daß verschiedene Arten von Vektoren in einer Weise unterschiedlich codiert werden, die psychoakustische Artefakte reduziert. Im bevorzugten Audio-Codec wird ein einfaches Bitzuteilungsschema implementiert, um die stärksten Signalkomponenten exakt zu quantisieren. Eine solche feine Quantisierung ist im bevorzugten System infolge des Block-Diskontinuitäten-Minimierungsmechanismus erforderlich. Zusätzlich ermöglicht die variable Bitzuteilung unterschiedliche Qualitätseinstellungen für den Codec.
Statistische Rauschanalyse 110.
Nachdem der SRC 106 ACPT-Koeffizienten in Signal- und Restkomponenten trennt, werden die Restkomponenten, die schwach und psychoakustisch weniger wichtig sind, als statistisches Rauschen modelliert, um eine niedrige Bitratencodierung zu erreichen. Die Motivation hinter einem solchen Modell ist, daß es für die Restkomponenten wichtiger ist, ihre Energiepegel korrekt zu rekonstruieren, als ihre Phaseninformation wiederherzustellen. Das statistische Rauschmodell der bevorzugten Ausführungsform folgt:

1. Konstruiere einen Restvektor, indem der ACPT-Koeffizientenvektor genommen wird und alle Signalkomponenten auf Null gesetzt werden.
2. Führe eine adaptive Kosinuspaketsynthese (siehe oben) am Restvektor durch, um ein Zeitbereichsrestsignal zu synthetisieren.
3. Verwende den erweiterten besten Basisbaum btrees, um den Restrahmen in mehrere Restteilrahmen mit variablen Größen aufzuspalten. Der bevorzugte Algorithmus ist wie folgt:
4. Optional kann es erwünscht sein, die maximalen oder minimalen Größen der Restteilrahmen durch eine weitere Unterteilung oder Vereinigung benachbarter Teilrahmen für eine praktische Bitzuteilungssteuerung zu begrenzen.
5. Optional wird für jeden Restteilrahmen eine DCT oder FFT durchgeführt, und die anschließenden Spektralkoeffizienten werden in eine Anzahl von Teilbändern gruppiert. Die Größen und die Anzahl der Teilbänder können variabel sein und dynamisch bestimmt werden. Es würde dann ein mittlerer Energiepegel für jedes spektrale Teilband berechnet. Der Teilbandenergievektor könnte dann durch eine geeignete Vektorquantisierungstechnik entweder im linearen oder logarithmischen Bereich codiert werden.

Ratensteuerung 112.
Da der bevorzugte Audio-Codec ein Allzweck-Algorithmus ist, der dazu bestimmt ist, mit beliebigen Arten von Signalen umzugehen, nutzt er die spektralen oder zeitlichen Eigenschaften eines Audiosignals aus, um die Bitrate zu reduzieren. Diese Verfahren kann zu Raten führen, die außerhalb der angestrebten Ratenbereiche liegen (manchmal sind abhängig vom Audioinhalt Raten zu niedrig, und manchmal sind Raten höher als die gewünschten). Folglich wird optional eine Ratensteuerfunktion 112 angewendet, um eine bessere Gleichmäßigkeit in die resultierenden Bitraten zu bringen.
Der bevorzugte Ratensteuerungsmechanismus arbeitet als eine Rückkopplungsschleife zu den Funktionen SRC 106 oder der Quantisierung 108. Insbesondere modifiziert der bevorzugte Algorithmus dynamisch die SRC- oder ASVQ-Quantisierungsparameter, um besser eine gewünschte Bitrate zu erhalten. Die dynamischen Parametermodifikationen werden durch die gewünschten Kurzzeit- und Langzeitbitraten betrieben. Die Kurzzeitbitrate kann als die „augenblickliche" Bitrate definiert werden, die mit dem gegenwärtigen Codierungsrahmen verbunden ist. Die Langzeitbitrate ist als die durchschnittliche Bitrate über eine große Anzahl oder alle der vorhergehend codierten Rahmen definiert. Der bevorzugte Algorithmus versucht, eine gewünschte Kurzzeitbitrate, die mit den Signalkoeffizienten verbunden ist, durch einen iterativen Prozeß anzustreben. Diese gewünschte Bitrate wird aus der Kurzzeitbitrate für den gegenwärtigen Rahmen und der Kurzzeitbitrate bestimmt, die nicht mit den Signalkoeffizienten des vorhergehenden Rahmen verbunden ist. Die erwartete Kurzzeitbitrate, die mit dem Signal verbunden ist, kann beruhend auf einem linearen Modell vorhergesagt werden: Vorhergesagt = A(q(n))·S(c(m)) + B(q(n)) (1)
Hier sind A und B Funktionen von mit der Quantisierung zusammenhängenden Parametern, die zusammen als q repräsentiert werden. Die Variable q kann Werte aus einem begrenzten Satz von Auswahlmöglichkeiten annehmen, die durch die Variable n repräsentiert werden. Eine Zunahme (Abnahme) von n führt zu einer besseren (schlechteren) Quantisierung für die Signalkoeffizienten. Hier repräsentiert S den Anteil des Rahmens, der als Signal klassifiziert wird, und es ist eine Funktion der Eigenschaften des gegenwärtigen Rahmens. S kann Werte aus einem begrenzten Satz von Auswahlmöglichkeiten annehmen, die durch die Variable m repräsentiert werden. Eine Zunahme (Abnahme) von m führt zu einem größeren (kleineren) Abschnitt des Rahmens, der als Signal klassifiziert wird.
Folglich strebt der Ratensteuerungsmechanismus die gewünschte Langzeitbitrate an, indem er die Kurzzeitbitrate vorhersagt und diese Vorhersage verwendet, um die Auswahl der mit der Klassifizierung und Quantisierung zusammenhängenden Parameter zu leiten, die mit dem bevorzugten Audio-Codec verbunden sind. Die Verwendung dieses Modells, um die Kurzzeitbitrate vorherzusagen, die mit dem gegenwärtigen Rahmen verbunden ist, bietet die folgenden Vorteile:

1. Da die Ratensteuerung durch die Eigenschaften des gegenwärtigen Rahmens geleitet wird, kann der Ratensteuerungsmechanismus an Ort und Stelle auf transiente Signale reagieren.
2. Da die Kurzzeitbitrate vorhergesagt wird, ohne eine Quantisierung durchzuführen, ergibt sich eine reduzierte Berechnungskomplexität.

Die bevorzugte Implementierung verwendet sowohl die Langzeitbitrate als auch die Kurzzeitbitrate, um den Codierer anzuleiten, eine gewünschte besser Bitrate anzustreben. Der Algorithmus wird unter vier Bedingungen aktiviert:

1. (NIEDRIG, NIEDRIG): Die Langzeitbitrate ist niedrig und die Kurzzeitbitrate ist niedrig.
2. (NIEDRIG, HOCH): Die Langzeitbitrate ist niedrig und die Kurzzeitbitrate ist hoch.
3. (HOCH, NIEDRIG): Die Langzeitbitrate ist hoch und die Kurzzeitbitrate ist niedrig.
4. (HOCH, HOCH): Die Langzeitbitrate ist hoch und die Kurzzeitbitrate ist hoch.

Die bevorzugte Implementierung des Ratensteuerungsmechanismus wird in der Dreischritt-Prozedur unten dargelegt. Die vier Bedingungen unterscheiden sich nur in Schritt 3. Die Implementierung des Schritts 3 für die Fälle 1 (NIEDRIG, NIEDRIG) und 4 (HOCH, HOCH) wird unten angegeben. Fall 2 (NIEDRIG, HOCH) und Fall 4 (HOCH, HOCH) sind identisch, mit der Ausnahme, daß sie unterschiedliche Werte für die Obergrenze der Ziel- Kurzzeitbitrate für die Signalkoeffizienten aufweisen. Fall 3 (HOCH, NIEDRIG) und Fall 1 (HOCH, HOCH) sind identisch, mit der Ausnahme, daß sie unterschiedliche Werte für die Untergrenze der Ziel-Kurzzeitbitrate für die Signalkoeffizienten aufweisen. Folglich, vorausgesetzt, n und m sind gegeben, die für den vorhergehenden Rahmen verwendet werden:

1. Berechne S(c(m)), den Anteil des Rahmens, der als Signal klassifiziert wird, beruhend auf den Eigenschaften des Rahmens.
2. Sage die erforderlichen Bits vorher, um das Signal im gegenwärtigen Rahmen beruhend auf dem linearen Modell zu quantisieren, das in Gleichung (1) oben gegeben ist, wobei das in (1) berechnete S(c(m)), A (n), und B(n) verwendet werden.
3. Bedingter Verarbeitungsschritt:

In dieser Implementierung können zusätzliche Informationen darüber, welcher Satz von Quantisierungsparametern gewählt wird, codiert werden.
Bitstromformatierung 124.
Die Indizes, die durch die Quantisierungsfunktion 108 und die statistische Rauschanalysefunktion 110 ausgegeben werden, werden durch die Bitstromformatierungsfunktion 114 in eine geeignete Bitstromform formatiert. Die Ausgabeinformation kann außerdem Zonenindizes enthalten, um den Ort der Quantisierung und statistische Rauschanalyseindizes, Ratensteuerungsinformation, beste Basisbauminformation und irgendwelche Normierungsfaktoren anzugeben.
In der bevorzugten Ausführungsform ist das Format das „ART"-Multimediaformat, das durch America Online verwendet wird und ferner in der international veröffentlichten Anmeldung WO-A-98/54637, eingereicht am 30.5.97, mit dem Titel „Encapsulated Document and Format System" beschrieben wird, das dem Rechtsnachfolger der vorliegenden Erfindung erteilt wurde. Jedoch können in einer bekannten Weise andere Formate verwendet werden. Die Formatierung kann solche Informationen, wie Identifikationsfelder, Feldedefinitionen, Fehlerdetektions- und Korrekturdaten, Versionsinformationen usw. enthalten.
Der formatierte Bitstrom repräsentiert eine komprimierte Audiodatei, die dann über einen Kanal, wie das Internet übertragen, oder auf einem Medium, wie einer magnetischen oder optischen Datenspeicherplatte gespeichert werden kann.
Audiodecodierung
3 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiodecodierungssystems. Das bevorzugte Audiodecodierungssystem kann in Software oder Hardware implementiert werden, und weist 7 Hauptfunktionsblöcke 200–212 auf, die unten beschrieben werden.
Bitstrom-Decodierung 200.
Ein ankommender Bitstrom, der vorher durch einen erfindungsgemäßen Audiocodierer erzeugt wird, wird mit einer Bitstrom-Decodierungsfunktion 200 gekoppelt. Die Decodierungsfunktion 200 zerlegt einfach die empfangenen Binärdaten in die ursprünglichen Audiodaten, wobei die Quantisierungsindizes und Analyseindizes des statistischen Rauschens in entsprechende Signal- und Rauschenergiewerte in einer bekannten Weise aufgeteilt werden.
Statistische Rauschsynthese 202.
Die Analyseindizes des statistischen Rauschens werden auf eine statistisches Rauschsynthesefunktion 202 angewendet. Wie oben erläutert, gibt es zwei bevorzugte Implementierungen der statistischen Rauschsynthese. Bei einer gegebenen codierten Spektralenergie für jedes Frequenzband kann man das statistische Rauschen für jeden der Restteilrahmen entweder im Spektralbereich oder im Zeitbereich synthetisieren.
Die Spektralbereichsverfahren erzeugen Pseudozufallszahlen, die mit dem Restenergiepegel in jedem Frequenzband skaliert werden. Diese skalierten Zufallszahlen für jedes Band werden als die synthetisierten DCT- oder FFT-Koeffizienten verwendet. Dann werden die synthetisierten Koeffizienten rücktransformiert, um ein spektral gefärbtes Zeitbereichsrauschsignal zu bilden. Diese Technik weist eine niedrigere Berechnungskomplexität als ihr Zeitbereichsgegenstück auf, und ist nützlich, wenn die Restteilrahmengrößen klein sind.
Die Zeitbereichstechnik umfaßt einen auf einer Filterbank beruhenden Rauschsynthesizer. Es wird eine Bank von Bandbegrenzungsfiltern im voraus berechnet, einer für jedes Frequenzband. Das Zeitbereichsrauschsignal wird für jeweils ein Frequenzband synthetisiert. Das folgende beschreibt die Details des Synthetisierens des Zeitbereichsrauschsignals für ein Frequenzband:

1. Ein Zufallszahlengenerator wird verwendet, um weißes Rauschen zu erzeugen.
2. Das weiße Rauschsignal wird durch den Bandbegrenzungsfilter zugeführt, um das erwünschte spektral gefärbte statistische Rauschen für das gegebene Frequenzband zu erzeugen.
3. Für jedes Frequenzband wird die Rauschverstärkungskurve für den gesamten Codierungsrahmen durch Interpolieren der codierten Restenergiepegel unter Restteilrahmen und zwischen Audiocodierungsrahmen bestimmt. Aufgrund der Interpolation ist eine solche Rauschverstärkungskurve stetig. Diese Kontinuität ist ein zusätzlicher Vorteil der auf dem Zeitbereich beruhenden Technik.
4. Schließlich wird die Verstärkungskurve auf das spektral gefärbte Rauschsignal angewendet.

Die Schritte 1 und 2 können im voraus berechnet werden, wodurch die Notwendigkeit beseitigt wird, diese Schritte während des Decodierungsprozesses zu implementieren. Es kann daher die Berechnungskomplexität reduziert werden.
Rückquantisierung 204.
Die Quantisierungsindizes werden an eine Rückquantisierungsfunktion 204 angelegt, um Signalkoeffizienten zu erzeugen. Wie im Fall der Quantisierung des erweiterten besten Basisbaums, wird der De-Quantisierungsprozeß für jeden der besten Basisbäume für jeden Teilrahmen ausgeführt. Der bevorzugte Algorithmus zur De-Quantisierung eines besten Basisbaums folgt:
Der bevorzugte De-Quantisierungsalgorithmus für die Signalkomponenten ist eine direkte Anwendung der De-Quantisierung ASVQ-Typ IV, die in der erteilten US-Patentanmeldung Serien-Nr. 08/958,567 beschrieben wird, auf die oben verwiesen wird.
Rücktransformation 206.
Die Signalkoeffizienten werden an eine Rücktransformationsfunktion 206 angelegt, um eine rekonstruierte Zeitbereichssignal-Wellenform zu erzeugen. In diesem Beispiel ist die adaptive Kosinussynthese ähnlich zu ihrem Gegenstück in der CPT mit einem zusätzlichen Schritt, daß sie den erweiterten besten Basisbaum (im allgemeinen eine 2-D-Anordnung) in den kombinierten besten Basisbaum (1-D-Anordnung) umwandelt. Dann wird die Kosinuspaketsynthese für die Rücktransformation ausgeführt. Details folgen:

1. Berechne im voraus die Glockenfenster-Funktionen bp und bm, wie im CPT-Schritt 1.
2. Verbinde die erweiterten besten Basisbäume btrees zu einem kombinierten besten Basisbaum btree, eine Umkehrung der Teilungsoperation, die im ACPT-Schritt 6 ausgeführt wird:
3. Führe eine Kosinuspaket-Synthese aus, um das Zeitbereichssignal y aus dem optimalen Kosinuspaket-Koeffizienten opkt zurückzugewinnen:

Renormierung 208.
Das rekonstruierte Zeitbereichssignal und synthetisierte statistische Rauschensignal aus der inversen adaptiven Kosinuspaket-Synthesefunktion 206 bzw. der statistischen Rauschsynthesefunktion 202 werden kombiniert, um das vollständige rekonstruierte Signal zu bilden. Das rekonstruierte Signal wird dann optional in einer Renormierungsfunktion 208 mit dem codierten Skalar-Normierungsfaktor multipliziert.
Grenzsynthese 210.
Im Decoder bildet die Grenzsynthesefunktion 210 den letzten Funktionsblock vor irgendeiner Zeitbereichsnachbearbeitung (die eine weiche Begrenzung, Skalierung und Neuabtastung einschließt, aber nicht auf sie begrenzt ist). Die Grenzsynthese wird im unteren (Decodierungs)-Abschnitt der 4 dargestellt. In der Grenzsynthesekomponente 210 wird zum Zweck der Grenzinterpolation ein Synthese-Ereignispuffer (HB_D) unterhalten. Die Größe dieses Ereignisses (sHB_D) ist ein Bruchteil der Größe des Analyseereignispuffers (sHB_E), nämlich,
sHB_E = R_D·sHB_E = R_D·R_E·Ns, wobei Ns die Anzahl der Abtastwerte in einem Codierungsrahmen ist.
Man betrachte einen Codierungsrahmen aus Ns Abtastwerten. Man bezeichne sie S[i], wobei i = 0, 1, 2 ..., Ns. Der Synthese-Ereignispuffer hält die sHB_D Abtastwerte aus dem letzten Codierungsrahmen, der an der Abtastnummer Ns – sHB_E/2 – sHB_D/2 beginnt. Das System nimmt Ns – sHB_E Abtastwerte aus dem synthetisierten Zeitbereichssignal (aus dem Renormierungsblock), die an der Abtastnummer sHB_E/2 – sHB_D/2 beginnen.
Diese Ns – sHB_E Abtastwerte werden als Vorinterpolationsausgabedaten bezeichnet. Die ersten sHB_D Abtastwerte der Vorinterpolationsausgabedaten überlappen sich zeitlich mit Abtastwerten, die im Synthese-Ereignispuffer gehalten werden. Daher wird eine einfache Interpolation (z.B. lineare Interpolation) verwendet, um die Grenzdiskontinuität zu reduzieren. Nachdem die ersten sHB_D Abtastwerte interpoliert sind, werden dann die Ns – sHB_E Ausgabedaten zum nächsten Funktionsblock gesendet (in dieser Ausführungsform, die weiche Begrenzung 212). Der Synthese-Ereignispuffer wird anschließend durch die sHB_D Abtastwerte aus dem gegenwärtigen Syntheserahmen aktualisiert, der an einer Abtastnummer Ns – sHB_E/2 – sHB_D/2 beginnt.
Die resultierende Codec-Latenz ist einfach durch die folgenden Formel gegeben, Latenz = (sHBE + sHBD)/2 = RE·(1 + RD)·Ns/2 (Abtastwerte),die ein kleiner Bruchteil des Audiocodierungsrahmen ist. Da die Latenz in Abtastwerten gegeben ist, impliziert eine höhere Eigen-Audioabtastrate im allgemeinen eine niedrigere Codec-Latenz.
Weiche Begrenzung 212.
In der bevorzugten Ausführungsform wird die Ausgabe der Grenzsynthesekomponente 210 an eine weiche Begrenzungskomponente 212 angelegt. Die Signalsättigung bei der Audiokompression mit niedrige Bitrate infolge verlustbehafteter Algorithmen ist eine bedeutende Quelle von hörbaren Verzerrungen, wenn ein einfacher und naiver „harter Begrenzungs"-Mechanismus verwendet wird, um sie zu entfernen. Eine weiche Begrenzung reduziert verglichen mit der herkömmlichen „harten Begrenzungs"-Technik die spektrale Verzerrung. Der bevorzugte weiche Begrenzungsalgorithmus wird in der erteilten US-Patentanmeldung Serien-Nr. 08/958,567 beschrieben, auf die oben verwiesen wird.
Computerimplementierung
Die Erfindung kann in Hardware oder Software, oder einer Kombination von beiden implementiert werden (z.B. programmierbaren Logikanordnungen). Wenn nicht anders angegeben, hängen die als Teil der Erfindung enthaltenen Algorithmen nicht von sich aus mit irgendeinem bestimmten Computer oder einer anderen Vorrichtung zusammen. Insbesondere können verschieden Allzweckmaschinen mit Programmen verwendet werden, die gemäß den Lehren hierin geschrieben sind, oder es kann bequemer sein, eine spezialisiertere Vorrichtung aufzubauen, um die erforderlichen Verfahrensschritte auszuführen. Jedoch wird die Erfindung vorzugsweise in einem oder mehreren Computerprogrammen implementiert, die auf programmierbaren Systemen ausgeführt werden, die jeweils mindestens einen Prozessor, mindestens ein Datenspeichersystem (einschließlich flüchtigen und nichtflüchtigen Speicher und/oder Speicherelementen), mindestens eine Eingabevorrichtung und mindestens eine Ausgabevorrichtung aufweisen. Der Programmcode wird auf den Prozessoren ausgeführt, um die hierin beschriebenen Funktionen auszuführen.
Jedes solche Programm kann in jeder gewünschen Computersprache implementiert werden (die Maschinensprache, Assemblersprache, und problemorientierte, prozedurorientierte oder objektorientierte Programmiersprachen einschließt, aber nicht auf sie beschränkt ist), um mit einem Computersystem zu kommunizieren. In jedem Fall kann die Sprache eine kompilierte oder interpretierte Sprache sein.
Jedes solche Computerprogramm ist vorzugsweise auf einem Speichermedium oder einer Vorrichtung (z.B. ROM, CD-ROM, oder magnetische oder optische Medien) gespeichert, die durch einen Allzweck- oder programmierbaren Spezialcomputer lesbar sind, um den Computer so zu konfigurieren und zu betreiben, wenn das Speichermedium oder die Vorrichtung durch den Computer gelesen wird, daß die hierin beschriebenen Prozeduren ausgeführt werden. Es kann auch in Betracht gezogen werden, daß das erfinderische System als ein computerlesbares Speichermedium implementiert wird, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium einen Computer veranlaßt, in einer spezifischen und vordefinierten Weise zu arbeiten, um die hierin beschriebenen Funktionen auszuführen.
Literaturverzeichnis

M. Bosi u.a., „ISO/IEC MPEG-2 advanced audio coding", Journal of the Audio Engineering Society, B. 45, Nr. 10, S. 789–812, Okt. 1997.
S. Mallat, „A theory for multiresolution signal decomposition: The wavelet representation", IEEE Trans. Patt. Anal. Mach. Intell., B. 11, S. 674–693, Juli 1989.
R. R. Coifman und M. V. Wickerhauser, „Entropy-based algorithms for best basis selection", IEEE Trans. Inform. Theory, Special Issue on Wavelet Transforms and Multires. Signal Anal., B. 38, S. 713–718. März 1992.
M. V. Wickerhauser, „Acoustic signal compression with wavelet packets", in Wavelets: A Tutorial in Theory and Applications, C. K. Chui, Ed. New York: Academic. 1992, S. 679–700.
C. Herley, J. Kovacevic, K. Ramchandran, und M. Vetterli, „Tilings of the Time-Frequency Plane: Construction of Arbitrary Orthogonal Bases and Fast Tiling Algorithms". IEEE Trans. on Signal Processing, B. 41, Nr. 12, S. 3341–3359, Dez. 1993.

Es sind eine Anzahl von Ausführungsformen der vorliegenden Erfindung beschrieben worden. Nichtsdestoweniger wird verstanden werden, daß verschiedene Modifikationen vorgenommen werden können, ohne den Rahmen der Erfindung zu verlassen. Zum Beispiel können einige der Schritte von verschiedenen der Algorithmen von der Reihenfolge unabhängig sein, und können folglich in einer anderen Reihenfolge ausgeführt werden, als in der oben beschriebenen. Als weiteres Beispiel kann falls gewünscht, obwohl die bevorzugten Ausführungsformen eine Vektorquantisierung verwenden, unter geeigneten Umständen eine Skalarquantisierung verwendet werden. Folglich liegen andere Ausführungsformen im Rahmen der Erfindung, die nur durch die beigefügten Ansprüche begrenzt wird.

Claims

Verfahren mit niedriger Latenz zum Ermöglichen einer Reduzierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, das aufweist: Bilden eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird; Identifizieren von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und Ausschließen von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und Rekonstruieren eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
Verfahren nach Anspruch 1, wobei das Identifizieren von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks aufweist: Durchführen einer umkehrbaren Transformation an jedem überlappenden Eingangsdatenblock, um eine Energiekonzentration im Transformationsbereich zu erhalten; Quantisieren jedes umkehrbar transformierten Blocks und Erzeugen von Quantisierungsindizes, die für eine solche Quantisierung kennzeichnend sind; und umgekehrtes Transformieren jedes quantisierten Transformationsbereichsblocks zu einem überlappenden rekonstruierten Datenblock.
Verfahren nach Anspruch 2, wobei der rekonstruierte Datenblock für Bereiche nahe der Grenze jedes überlappenden Eingangsdatenblocks kennzeichnend ist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die kontinuierlichen Daten Audiodaten enthalten.
Verfahren nach einem der vorhergehenden Ansprüche, wobei die kontinuierlichen Daten kontinuierliche Zeitbereichsdaten enthalten, wobei das Verfahren ferner das Formatieren der kontinuierlichen Zeitbereichsdaten in mehrere Zeitbereichsblöcke mit Grenzen aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner das Anwenden des Verfahrens mit niedriger Latenz auf mindestens einen eines Codierers und eines Decodierers aufweist.
Verfahren nach Anspruch 6, wobei die Anwendung des Verfahrens mit niedriger Latenz auf mindestens einen des Codierers und des Decodierers aufweist: Codieren der Quantisierungsindizes für jeden quantisierten Block als einen codierten Block, und Ausgeben jedes codierten Blocks als einen Bitstrom; Decodieren jedes codierten Blocks zu Quantisierungsindizes; und Erzeugen eines quantisierten Transformationsbereichsblocks aus den Quantisierungsindizes.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist: Interpolieren von Grenzdaten zwischen benachbarten überlappenden rekonstruierten Datenblöcken; und Voranstellen der interpolierte Grenzdaten bei dem anfänglichen Ausgangsdatenblock, um einen endgültigen Ausgangsdatenblock zu erzeugen.
Verfahren nach einem der vorhergehenden Ansprüche, das ferner das Anwenden einer Fensterfunktion auf jeden ursprünglichen Eingangsdatenblock aufweist, um die Restenergiekonzentration nahe der Grenzen eines jeden solchen ursprünglichen Eingangsdatenblocks zu erhöhen.
Verfahren nach Anspruch 9, wobei die Fensterfunktion im wesentlichen durch eine Identitätsfunktion gekennzeichnet ist, jedoch mit einer glockenförmigen Abnahme nahe der Grenzen eines Blocks.
Computerprogramm, das sich auf einem computerlesbaren Medium befindet, zum Ermöglichen einer Reduzierung mit niedriger Latenz von durch Quantisierung verursachten Block-Diskontinuitäten von kontinuierlichen Daten, die in mehreren Datenblöcken mit Grenzen formatiert sind, wobei das Computerprogramm Befehle aufweist, um einen Computer zu veranlassen, alle Schritte des Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
System zum Ermöglichen einer Reduzierung mit niedriger Latenz von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, das aufweist: eine Einrichtung zur Bildung eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird; eine Einrichtung zur Identifizierung von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und eine Einrichtung zum Ausschluß von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und zur Rekonstruktion eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
System nach Anspruch 12, wobei die Einrichtung zur Identifizierung von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks aufweist: eine Einrichtung zur Ausführung einer umkehrbaren Transformation an jedem überlappenden Eingangsdatenblock, um eine Energiekonzentration im Transformationsbereich zu ergeben; eine Einrichtung zur Quantisierung jedes umkehrbar transformierten Blocks und zur Erzeugung von Quantisierungsindizes, die für eine solche Quantisierung kennzeichnend sind; und eine Einrichtung zur umgekehrten Transformation jedes quantisierten Transformationsbereichsblocks in einen überlappenden rekonstruierten Datenblock, der für Bereiche nahe der Grenze jedes überlappenden Eingangsdatenblocks kennzeichnend ist.
System nach Anspruch 12 oder 13, in dem die kontinuierlichen Daten Audiodaten enthalten.
System nach einem der Ansprüche 12 bis 14, das ferner eine Einrichtung zur Anwendung einer Fensterfunktion auf jeden ursprünglichen Eingangsdatenblock aufweist, um die Restenergiekonzentration nahe der Grenzen eines jeden solchen ursprünglichen Eingangsdatenblocks zu erhöhen.
System nach Anspruch 15, wobei die Fensterfunktion im wesentlichen durch eine Identitätsfunktion gekennzeichnet ist, jedoch mit einer glockenförmigen Abnahme nahe der Grenzen eines Blocks.
System nach einem der Ansprüche 12 bis 16, wobei die kontinuierlichen Daten kontinuierliche Zeitbereichsdaten enthalten, wobei das System ferner eine Einrichtung zur Formatierung der kontinuierlichen Zeitbereichsdaten in mehrere Zeitbereichsblöcke mit Grenzen aufweist.
System nach einem der Ansprüche 12 bis 17, das ferner eine Einrichtung zur Anwendung des Systems mit niedriger Latenz auf mindestens einen eines Codierers und eines Decodierers aufweist.
System nach Anspruch 18, wobei die Einrichtung zur Anwendung des Systems mit niedriger Latenz auf mindestens einen des Codierers und des Decodierers aufweist: eine Einrichtung zur Codierung der Quantisierungsindizes für jeden quantisierten Block als einen codierten Block und zur Ausgabe jedes codierten Blocks als den Bitstrom; eine Einrichtung zur Decodierung jedes codierten Blocks zu Quantisierungsindizes; und eine Einrichtung zur Erzeugung eines quantisierten Transformationsbereichsblocks aus den Quantisierungsindizes.
System nach einem der Ansprüche 12 bis 19, das ferner aufweist: eine Einrichtung zur Interpolation von Grenzdaten zwischen benachbarten überlappenden rekonstruierten Datenblöcken; und eine Einrichtung zum Voranstellen der interpolierten Grenzdaten beim anfänglichen Ausgangsdatenblock, um einen endgültigen Ausgangsdatenblock zu erzeugen.