DE60014363T2 - Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer - Google Patents

Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer Download PDF

Info

Publication number
DE60014363T2
DE60014363T2 DE60014363T DE60014363T DE60014363T2 DE 60014363 T2 DE60014363 T2 DE 60014363T2 DE 60014363 T DE60014363 T DE 60014363T DE 60014363 T DE60014363 T DE 60014363T DE 60014363 T2 DE60014363 T2 DE 60014363T2
Authority
DE
Germany
Prior art keywords
block
quantization
data block
data
input data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60014363T
Other languages
English (en)
Other versions
DE60014363D1 (de
Inventor
Shuwu Wu
John Mantegna
Keren Perlmutter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Historic AOL LLC
Original Assignee
America Online Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by America Online Inc filed Critical America Online Inc
Publication of DE60014363D1 publication Critical patent/DE60014363D1/de
Application granted granted Critical
Publication of DE60014363T2 publication Critical patent/DE60014363T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0012Smoothing of parameters of the decoder interpolation

Description

  • Technisches Gebiet
  • Diese Erfindung betrifft die Kompression und Dekompression von kontinuierlichen Signalen und insbesondere ein Verfahren und ein System zur Reduzierung von durch die Quantisierung verursachten Block-Diskontinuitäten, die von einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen, insbesondere Audiosignalen herrühren.
  • Hintergrund
  • Es ist eine Vielzahl von Audiokompressionstechniken entwickelt worden, um Audiosignale in Kanälen mit eingeschränkter Bandbreite zu übertragen und solche Signale auf Medien mit einer begrenzten Speicherkapazität zu speichern (siehe z.B. EP-A-910067). Für eine Allzweck-Audiokompression können keine Annahmen über die Quelle oder Eigenschaften des Tons gemacht werden. Folglich müssen Kompressions-/Dekompressionsalgorithmen ausreichend allgemein sein, um mit der beliebigen Beschaffenheit von Audiosignalen umgehen zu können, was wiederum eine wesentliche Einschränkung auf lebensfähige Verfahren auferlegt. In diesem Dokument bezieht sich der Ausdruck „Audio" auf ein Signal, das im allgemeinen jeder Ton sein kann, wie Musik jeder Art, Sprache und eine Mischung aus Musik und Sprache. Eine allgemeine Audiokompression unterscheidet sich folglich von einer Sprachcodierung in einem Aspekt: in der Sprachcodierung, wo die Quelle im voraus bekannt ist, sind auf einem Modell beruhende Algorithmen praktisch.
  • Die meisten Verfahren zur Audiokompression können grob in zwei Hauptkategorien unterteilt werden: Zeit- und Transformationsbereichsquantisierung. Die Eigenschaften des Transformationsbereichs werden durch die reversiblen Transformationen definiert, die eingesetzt werden. Wenn eine Transformation, wie die schnelle Fourier-Transformation (FFT), diskrete Kosinus-Transformation (DCT) oder modifizierte diskrete Kosinus-Transformation (MDCT) verwendet wird, ist der Transformationsbereich zum Frequenzbereich äquivalent. Wenn Transformationen, wie die Wavelet-Transformation (WT) oder Paket-Transformation (PT) verwendet werden, stellt der Transformationsbereich eine Mischung aus einer Zeit- und Frequenzinformation dar.
  • Quantisierung ist eine der gebräuchlichsten und direktesten Techniken, um eine Datenkompression zu erzielen. Es gibt zwei Grundquantisierungstypen: Skalar und Vektor.
  • Die Skalarquantisierung codiert Datenpunkte einzeln, während die Vektorquantisierung Eingangsdaten in Vektoren gruppiert, von denen jeder als ganzes codiert wird. Die Vektorquantisierung durchsucht typischerweise ein Codebuch (eine Sammlung von Vektoren) für die nächstliegende Anpassung an einen Eingangsvektor, was einen Ausgabeindex ergibt. Ein Dequantisierer führt einfach einen Tabellennachschlag in einem identischen Codebuch aus, um den ursprünglichen Vektor zu rekonstruieren. Andere Verfahren, die keine Codebücher umfassen, sind bekannt, wie Lösungen mit einer geschlossenen Form.
  • Ein Codierer/Decoder („Codec") der die MPEG-Audionorm (ISO/IEC 11172-3; 1993(E)) (hier einfach „MPEG") einhält, ist ein Beispiel eines Verfahrens, das eine Zeitbereichsskalarquantisierung einsetzt. Insbesondere setzt MPEG eine Skalarquantisierung des Zeitbereichssignals in einzelnen Teilbändern ein, während die Bitzuteilung im Skalarquantisierer auf einem psychoakustischen Modell beruht, das getrennt im Frequenzbereich implementiert wird (Doppelweg-Verfahren).
  • Es wohlbekannt, daß eine Skalarquantisierung bezüglich der Raten-/Verzerrungskompromisse nicht optimal ist. Eine Skalarquantisierung kann keine Korrelationen zwischen benachbarten Datenpunkten ausnutzen, und folglich ergibt eine Skalarquantisierung im allgemeinen höhere Verzerrungspegel für eine gegebene Bitrate. Um die Verzerrung zu reduzieren, müssen mehr Bits verwendet werden. Folglich begrenzt die Zeitbereichsskalarquantisierung den Grad der Kompression, was zu höheren Bitraten führt.
  • Vektorquantisierungssysteme können für gewöhnlich bei einem gegebenen Verzerrungspegel weit bessere Kompressionsverhältnisse als die Skalarquantisierung erzielen. Jedoch ist das menschliche Hörsystem für die Verzerrung empfindlich, die mit dem Nullsetzen selbst eines einzigen Zeitbereichsabtastwertes verbunden ist. Diese Erscheinung macht eine direkte Anwendung der herkömmlichen Vektorquantisierungstechniken auf ein Zeitbereichsaudiosignal zu einem unattraktiven Vorschlag, da eine Vektorquantisierung mit einer Rate von 1 Bit pro Abtastwert oder weniger häufig zum Nullsetzen einiger Vektorkomponenten (das heißt Zeitbereichsabtastwerten) führt.
  • Diese Einschränkungen der auf dem Zeitbereich beruhenden Verfahren können einen dazu führen, zu schließen, daß ein auf dem Frequenzbereich beruhendes (oder allgemeiner ein auf einem Transformationsbereich beruhendes) Verfahren eine bessere Alternative im Kontext der Vektorquantisierung zur Audiokompression sein kann. Jedoch gibt es eine beträchtliche Schwierigkeit, die in einer Audiokompression gelöst werden muß, die auf Nicht-Zeitbereichsquantisierung beruht. Das Eingangssignal ist kontinuierlich, ohne praktische Grenzen der Gesamtdauer. Es ist folglich notwendig, das Audiosignal in einer stückweisen Art zu codieren. Jedes Stück wird als ein Audio-Codierungs- oder Decodierungsblock oder Rahmen bezeichnet. Das Durchführen einer Quantisierung im Frequenzbereich auf einer rahmenweisen Basis führt im allgemeinen zu Diskontinuitäten an den Rahmengrenzen. Solche Diskontinuitäten ergeben unangenehme hörbare Artefakte („Knacken" und „Knallen"). Eine Abhilfe für dieses Diskontinuitätsproblem ist es, überlappende Rahmen zu verwenden, was zu entsprechenden niedrigeren Kompressionsverhältnissen und einer höheren Berechnungskomplexität führt. Ein verbreiteteres Verfahren ist es, kritisch abgetastete Teilbandfilterbänke zu verwenden, die einen Ereignispuffer einsetzen, der die Kontinuität an Rahmengrenzen aufrechterhält, jedoch auf Kosten der Latenz im Codec-rekonstruierten Audiosignal. Der lange Ereignispuffer kann außerdem zu einer geringeren rekonstruierten Transientenantwort führen, was zu hörbaren Artefakten führt. Eine andere Klasse von Verfahren erlegt Grenzbedingungen als Beschränkungen im Audiocodierungs- und Decodierungsprozessen auf. Die formalen und exakten mathematischen Behandlungen der auf Grenzbedingungseinschränkungen beruhenden Verfahren umfassen im allgemeinen eine intensive Berechnung, die dazu neigt, für Echtzeit-Anwendungen unpraktikabel zu sein.
  • Die Erfinder haben festgestellt, daß es wünschenswert wäre, eine Audiokompressionstechnik bereitzustellen, die für Echtzeit-Anwendungen geeignet ist, indem sie eine reduzierte Berechnungskomplexität aufweist. Die Technik sollte eine Kompression über die volle Bandbreite mit niedriger Bitrate (etwa 1-bit pro Abtastwert) für Musik und Sprache bereitstellen, während sie auf eine Audiokompression mit höherer Bitrate anwendbar ist. Die vorliegende Erfindung stellt eine solche Technik bereit.
  • Zusammenfassung
  • Die Erfindung umfaßt ein Verfahren und ein System zur Minimierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen, insbesondere Audiosignalen herrühren. In einer Ausführungsform umfaßt die Erfindung einen Allzweck-Audio-Codec-Algorithmus mit ultraniedriger Latenz.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung weist ein Verfahren mit niedriger Latenz zum Ermöglichen einer Reduzierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, auf:
    Bilden eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird;
    Identifizieren von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und
    Ausschließen von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und Rekonstruieren eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Computerprogramm bereitgestellt, das Befehle aufweist, um einen Computer zu veranlassen, das Verfahren des ersten Aspekts der Erfindung auszuführen.
  • Gemäß einem dritten Aspekt der vorliegenden Erfindung weist ein System zum Ermöglichen einer Reduzierung mit niedriger Latenz von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, auf:
    eine Einrichtung zur Bildung eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird;
    eine Einrichtung zur Identifizierung von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und
    eine Einrichtung zum Ausschluß von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und zur Rekonstruktion eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
  • Vorteile der Erfindung umfassen:
    • • Ein neuartiges System zur Minimierung von Block-Diskontinuitäten, das eine flexible und dynamische Signal- oder Datenmodellierung zuläßt;
    • • Eine Allzweck- und hochskalierbare Audiokompressionstechnik;
    • • Eigenschaften eines hohen Datenkompressionsverhältnisses/einer niedrigen Bitrate, die für Anwendungen, wie die Echtzeit- oder Nicht-Echtzeitaudioübertragung über das Internet mit einer begrenzten Verbindungsbandbreite gut geeignet sind;
    • • Ultraniedrige Codierungslatenz bis zu null, die ideal für interaktive Echtzeitanwendungen ist;
    • • Ultraniedrige Bitratenkompression bei bestimmten Arten von Audio;
    • • Niedrige Berechnungskomplexität.
  • Die Details einer oder mehrere Ausführungsformen der Erfindung werden in den beigefügten Zeichnungen und der folgenden Beschreibung angegeben. Andere Merkmale, Aufgaben und Vorteile der Erfindung werden aus der Beschreibung und Zeichnungen, und aus den Ansprüchen deutlich.
  • Beschreibung der Zeichnungen
  • 1A1C sind Wellenformdiagramme für einen Datenblock, der aus einem kontinuierlichen Datenstrom abgeleitet wird. 1A zeigt eine Sinuswelle vor der Quantisierung. 1B zeigt die Sinuswelle der 1A nach der Quantisierung. 1C zeigt, daß der Quantisierungsfehler oder Rest (und folglich die Energiekonzentration) nahe der Grenzen des Blocks wesentlich zunimmt.
  • 2 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiocodierungssystems.
  • 3 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiocodierungssystems.
  • 4 veranschaulicht die Grenzanalyse- und Syntheseaspekte der Erfindung.
  • Gleiche Bezugszahlen und Bezeichnungen in den verschiedenen Zeichnungen geben gleiche Elemente an.
  • Detaillierte Beschreibung
  • Allgemeine Konzepte
  • Die folgenden Unterabschnitte beschreiben Grundkonzepte, auf denen die Erfindung beruht, und Eigenschaften der bevorzugten Ausführungsform.
  • System zur Reduzierung der durch die Quantisierung verursachten Block-Diskontinuität.
  • Wenn ein kontinuierliches Signal in einer rahmenweisen oder blockweisen Art in einem Transformationsbereich codiert wird, wird eine blockunabhängige Anwendung einer verlustbehafteten Quantisierung der Transformationskoeffizienten zu einer Diskontinuität an der Blockgrenze führen. Dieses Problem hängt eng mit dem sogenannten „Gibbs-Verlust"-Problem zusammen. Man betrachte den Fall, wo die Quantisierung, die in jedem Datenblock angewendet wird, dazu dient, die ursprüngliche Signalwellenform zu rekonstruieren, im Gegensatz zu einer Quantisierung, die die ursprünglichen Signaleigenschaften reproduziert, wie seinen Frequenzgehalt. Wir definieren den Quantisierungsfehler oder „Rest" in einem Datenblock als das ursprüngliche Signal minus das rekonstruierte Signal. Wenn die fragliche Quantisierung verlustfrei ist, dann ist der Rest für jeden Block null, und es ergibt sich keine Diskontinuität (wir setzen immer voraus, daß das ursprüngliche Signal kontinuierlich ist). Jedoch ist im Fall einer verlustbehafteten Quantisierung der Rest nicht null, und infolge der blockabhängigen Anwendung der Quantisierung wird der Rest an den Blockgrenzen nicht passen; folglich wird sich eine Block-Diskontinuität im rekonstruierten Signal ergeben. Wenn der Quantisierungsfehler verglichen mit der ursprünglichen Signalstärke verhältnismäßig klein ist, d.h. sich die rekonstruierte Wellenform dem ursprünglichen Signal innerhalb eines Datenblocks annähert, tritt eine interessante Erscheinung auf: die Restenergie neigt dazu, sich an beiden Enden der Blockgrenze zu konzentrieren. Mit anderen Worten neigt die Gibbs-Verlustenergie dazu, sich an den Blockgrenzen zu konzentrieren. Bestimmte Fenstertechniken können eine solche Restenergiekonzentration weiter erhöhen.
  • Als Beispiel der Gibbs-Verlustenergie sind die 1A1C Wellenformdiagramme für einen Datenblock, der aus einem kontinuierlichen Datenstrom abgeleitet wird. 1A zeigt eine Sinuswelle vor der Quantisierung. 1B zeigt die Sinuswelle der 1A nach der Quantisierung. 1C zeigt, daß der Quantisierungsfehler oder Rest (und folglich die Energiekonzentration) nahe der Grenzen des Blocks wesentlich zunimmt.
  • Mit diesem Konzept im Sinn beschäftigt sich ein Aspekt der Erfindung mit:
    • 1. Einer optionalen Verwendung einer Fenstertechnik, um die Restenergiekonzentration nahe der Blockgrenzen zu erhöhen. Es wird eine Fensterfunktion bevorzugt, die durch die Identitätsfunktion (d.h. keine Transformation) für den größten Teil eines Blocks, jedoch mit glockenförmiger Abnahme nahe der Grenzen eines Blocks gekennzeichnet ist (siehe 4, die unten beschrieben wird).
    • 2. Einer Verwendung einer dynamisch angepaßten Signalmodellierung, um die Signaleigenschaften innerhalb jedes Blocks ohne Rücksicht auf benachbarte Blöcke zu erfassen.
    • 3. Einer effizienten Quantisierung der Transformationskoeffizienten, um die ursprüngliche Wellenform anzunähern.
    • 4. Einer Verwendung eines Verfahrens nahe der Blockgrenzen, wo die Restenergie konzentriert ist, um die Effekte des Quantisierungsfehlers wesentlich zu reduzieren: (1) Restquantisierung (die nicht durch die vorliegende Erfindung eingeschlossen wird): Anwendung einer exakten Zeitbereichswellenform-Quantisierung des Rests (d.h. des Quantisierungsfehlers nahe den Grenzen jedes Rahmens). Im wesentlichen werden mehr Bits verwendet, um die Grenzen durch eine Codierung des Rests nahe der Blockgrenzen zu definieren. Dieses Verfahren ist in der Codierung geringfügig weniger effizient, führt jedoch zu einer Codierungslatenz von null. (2) Grenzausschluß (der nicht durch die vorliegende Erfindung eingeschlossen wird) und Interpolation: Während der Codierung werden überlappende Datenblöcke mit einem kleinen überlappenden Datenbereich verwendet, der die gesamte konzentrierte Restenergie enthält, was zu einer kleinen Codierungslatenz führt. Während der Decodierung schließt jeder rekonstruierte Block den Grenzbereich aus, wo sich die Restenergie konzentriert, was zu einem minimierten Zeitbereichsrest und einer minimierten Blockdiskontinuität führt. Es wird dann eine Grenzinterpolation verwendet, um die Blockdiskontinuität weiter zu reduzieren.
    • 5. Modellierung der verbleibenden Restenergie als Bänder aus statistischem Rauschen, die die psychoakustische Maskierung von Artefakten bereitstellt, die in die Signalmodellierung eingeführt worden sein können, und den ursprünglichen Rauschteppich annähert.
  • Die Eigenschaften und Vorteile dieses Verfahrenssystems sind die folgenden:
    • 1. Es wendet jede auf einer Transformation beruhende (tatsächlich jede auf einer reversiblen Operation beruhende) Codierung eines beliebigen kontinuierlichen Signals (einschließlich, jedoch nicht begrenzt auf Audiosignale) an, die eine Quantisierung einsetzt, die die ursprüngliche Signalwellenform annähert.
    • 2. Große Flexibilität darin, daß es viele unterschiedliche Klassen von Lösungen zuläßt.
    • 3. Es läßt eine adaptive blockweise Änderung der Transformation zu, was zu einer potentiell optimalen Signalmodellierung und Transientenwiedergabetreue führt.
    • 4. Es ergibt eine sehr niedrige Codierungslatenz bis zu null, da es nicht auf einem langen Ereignispuffer beruht, um die Blockkontinuität beizubehalten.
    • 5. Es ist einfach und weist eine niedrige Berechnungskomplexität auf.
  • Anwendung des Systems zur Reduzierung der durch die Quantisierung verursachten Block-Diskontinuität auf die Audiokompression.
  • Ein idealer Audiokompressionsalgorithmus kann die folgenden Merkmale aufweisen:
    • 1. Flexible und dynamische Signalmodellierung zur Codierungseffizienz;
    • 2. Kontinuitätsbewahrung, ohne eine lange Codierungslatenz einzuführen oder die Transientenwiedergabetreue zu beeinträchtigen;
    • 3. Niedrige Rechenkomplexität für Echtzeitanwendungen.
  • Herkömmliche Verfahren zur Reduzierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen herrühren, beruhen typischerweise auf einem langen Ereignispuffer (z.B. mehrere Rahmen), um die Grenzkontinuität auf Kosten der Codec-Latenz, Transienten-Wiedergabetreue und Codierungseffizienz aufrechtzuerhalten. Die Transientenantwort wird infolge der Durchschnittsbildung oder des Verschmierungseffekts eines langen Ereignispuffers beeinträchtigt. Die Codierungseffizienz wird ebenfalls reduziert, da das Aufrechterhalten der Kontinuität durch einen langen Ereignispuffer eine adaptive Signalmodellierung ausschließt, die notwendig ist, wenn man sich mit der dynamischen Beschaffenheit von beliebigen Audiosignalen befaßt. Das System der vorliegenden Erfindung bietet eine Lösung zur Codierung von kontinuierlichen Daten, insbesondere Audiodaten, ohne solche Kompromisse. Wie im letzten Unterabschnitt festgestellt, ist dieses System in seiner Beschaffenheit sehr flexibel, was viele mögliche Implementierungen zur Codierung von Algorithmen zuläßt. Im folgenden wird ein neuartiger und praktisch zum allgemeinen Gebrauch geeigneter, effizienter Audiocodierungsalgorithmus mit niedriger Latenz beschrieben.
  • Adaptive Kosinuspaket-Transformation (ACPT).
  • Die (Wavelet oder Kosinus)-Paket-Transformation (PT) ist ein gut untersuchter Gegenstand der Wavelet-Forschungsgemeinschaft ebenso wie der Datenkompressionsgemeinschaft. Eine Wavelet-Transformation (WT) führt zu Transformationskoeffizienten, die eine Mischung aus Zeit- und Frequenzbereichseigenschaften darstellen. Eine Eigenschaft der WT ist es, daß sie eine mathematisch kompakte Grundlage hat. Mit anderen Worten weist die Wavelet Basisfunktionen auf, die nur in einem endlichen Bereich nicht verschwindend sind, im Gegensatz zu Sinuswellen, die sich ins Unendliche erstrecken. Der Vorteil einer solchen kompakten Grundlage ist es, daß die WT effizienter die Eigenschaften eines transienten Signalimpulses erfassen kann als es FFT oder DCT können. Die PT weist den weiteren Vorteil auf, daß sie sich durch eine Analyse der besten Basis an die Eingangssignal-Zeitskala anpassen kann (indem bestimmte Parameter, wie die Entropie minimiert werden), was zu einer noch effizienteren Darstellung eines transienten Signalereignisses führt. Obwohl man sicher WT oder PT als die Transformation der Wahl im vorliegenden Audiocodierungssystem verwenden kann, ist es die Absicht der Erfinder, ACPT als die bevorzugte Transformation für einen Audio-Codec zu präsentieren. Ein Vorteil der Verwendung einer Kosinuspaket-Transformation (CPT) zur Audiocodierung ist es, daß sie effizient transiente Signale erfas sen kann, während sie sich auch harmonischen (sinusförmigen) Signalen geeignet anpassen kann.
  • ACPTs sind eine Erweiterung von herkömmlichen CPTs, die eine Reihe von Vorteilen bereitstellen. Bei einer Audiocodierung mit niedriger Bitrate wird die Codierungseffizienz verbessert, indem längere Audiocodierungsrahmen (Blöcke) verwendet werden. Wenn ein stark transientes Signal in einen längeren Codierungsrahmen eingebettet ist, können CPTs die schnelle zeitliche Antwort nicht aufnehmen. Dies liegt zum Beispiel daran, daß im Algorithmus zur Analyse der besten Basis, der die Entropie minimiert, die Entropie unter bestimmten Signalbedingungen nicht die geeignetste Signatur (nichtlineare Abhängigkeit vom Signalnormierungsfaktor ist ein Grund) zur Zeitskalenadaptation sein kann. Eine ACPT stellt eine Alternative bereit, indem sie den längeren Codierungsrahmen durch einen adaptiven Umschaltmechanismus im voraus in Teilrahmen aufspaltet, und dann eine CPT auf die nachfolgenden Teilrahmen anwendet. Die „beste Basis", die mit den ACPTs verbunden ist, wird als die erweiterte beste Basis zeichnet.
  • Signal- und Rest-Klassifizierer (SRC).
  • Um eine Kompression mit niedriger Bitrate zu erreichen (z.B. mit 1 Bit pro Abtastwert oder niedriger), ist es vorteilhaft, die Koeffizienten von starken Signalkomponenten im Satz der Transformationskoeffizienten von den Koeffizienten des Rauschens und sehr schwacher Signalkomponenten zu trennen. Zum Zweck dieses Dokuments wird der Ausdruck „Rest" verwendet, um sowohl Rauschen als auch schwache Signalkomponenten zu beschreiben. Es kann ein Signal- und Rest-Klassifizierer (SRC) auf verschiedene Arten implementiert werden. Ein Verfahren ist es, alle diskreten starken Signalkomponenten vom Rest zu identifizieren, was einen Sparse-Vektor-Signalkoeffizienten-Rahmenvektor ergibt, wo anschließend eine adaptive Sparse-Vektorquantisierung (ASVQ) als der bevorzugte Quantisierungsmechanismus verwendet wird. Ein zweites Verfahren beruht auf einer einfachen Beobachtung von natürlichen Signalen: die Koeffizienten der starken Signalkomponente neigen zur Gruppenbildung. Daher würde dieses zweite Verfahren die starken Signalgruppen von den aneinandergrenzenden Restkoeffizienten trennen. Die anschließende Quantisierung des gruppierten Signalvektors kann als ein spezieller Typ des ASVQ betrachtet werden (global gruppierter Sparse-Vektortyp). Es ist gezeigt worden, daß das zweite Verfahren im allgemeinen eine höhere Codierungseffizienz ergibt, da Signalkomponenten gruppiert sind, und folglich weniger Bits erforderlich sind, um ihre Orte zu codieren.
  • ASVQ.
  • Wie im letzten Abschnitt erwähnt, ist ASVQ der bevorzugte Quantisierungsmechanismus für die starken Signalkomponenten. Für eine Erläuterung der ASVQ nehme man bitte auf die erteilte US-Patentanmeldung Serien-Nr. 08/958,567 von Shuwu Wu und John Mantegna mit dem „Audio Codec using Adaptive Sparse Vector Quantization with Subband Vector Classification", eingereicht am 28.10.97, bezug, die an den Rechtsnachfolger der vorliegenden Erfindung übertragen worden ist, und hierdurch als Verweisquelle aufgenommen ist.
  • Zusätzlich zu ASVQ setzt die bevorzugte Ausführungsform einen Mechanismus ein, um eine Bitzuteilung bereitzustellen, die zur Block-Diskontinuitätsminimierung geeignet ist. Diese einfache, jedoch effektive Bit-Zuteilung läßt außerdem eine Kurzzeitbitraten-Vorhersage zu, die sich im Ratensteuerungsalgorithmus als nützlich erwiesen hat.
  • Statistisches Rauschmodell.
  • Während die starken Signalkomponenten unter Verwendung ASVQ genauer codiert werden, wird der verbleibende Rest in der bevorzugten Ausführungsform anders behandelt. Erstens wird die erweiterte beste Basis zur Anwendung einer ACPT verwendet, um den Codierungsrahmen in Restteilrahmen zu unterteilen. Innerhalb jedes Restteilrahmens wird der Rest dann als Bänder aus statistischem Rauschen modelliert. Es können zwei Verfahren verwendet werden:
    • 1. Ein Verfahren berechnet einfach die Restamplitude oder Energie in jedem Frequenzband. Dann werden zufällige DCT-Koeffizienten in jedem Band so erzeugt, daß sie zur ursprünglichen Restenergie passen. Die inverse DCT wird an den kombinierten DCT-Koeffizienten durchgeführt, um ein Zeitbereichsrestsignal zu ergeben.
    • 2. Ein zweites Verfahren wurzelt im Zeitbereichsfilterbank-Verfahren. Wieder wird die Restenergie berechnet und quantisiert. Bei der Rekonstruktion wird eine vorbestimmte Bank von Filtern verwendet, um das Restsignal für jedes Frequenzband zu erzeugen. Die Eingabe in diese Filter ist weißes Rauschen, und die Ausgabe wird verstärkungsgeregelt, um sich der ursprünglichen Restenergie anzupassen. Dieses Verfahren bietet eine Verstärkungsinterpolation für jedes Restband zwischen Restrahmen, was eine kontinuierliche Restenergie ergibt.
  • Ratensteuerungsalgorithmus.
  • Außerdem wird hierin die Anwendung einer Ratensteuerung auf den bevorzugten Codec beschrieben. Der Ratensteuerungsmechanismus wird im Codierer eingesetzt, um den gewünschten Bereich von Bitraten besser anzustreben. Der Ratensteuerungsmechanismus arbeitet als eine Rückkopplungsschleife zum SRC-Block und zum ASVQ. Der bevorzugte Ratensteuerungsmechanismus verwendet ein lineares Modell, um die Kurzzeitbitrate vorherzusagen, die mit dem gegenwärtigen Codierungsrahmen verbunden ist. Er berechnet außerdem die Langzeit-Bitrate. Es werden dann sowohl die Kurz- als auch die Langzeit-Bitraten verwendet, um passende SRC- und ASVQ-Steuerungsparameter auszuwählen. Dieser Ratensteuerungsmechanismus bietet eine Anzahl von Vorteilen, einschließlich einer reduzierten Komplexität der Rechenkomplexität, ohne eine Quantisierung und an Ort und Stelle eine Adaptation an transiente Signale anzuwenden.
  • Flexibilität.
  • Wie oben erläutert, läßt das System zur Minimierung der durch die Quantisierung verursachten Block-Diskontinuität eine dynamische und auf einer beliebigen reversible Transformation beruhende Signalmodellierung zu. Dies stellt eine Flexibilität zur dynamischen Umschaltung unter unterschiedlichen Signalmodellen und die Möglichkeit bereit, eine nahezu optimale Codierung zu erzeugen. Dieses vorteilhafte Merkmal steht in den herkömmlichen MPEG I- oder MPEG II-Audio-Codecs oder im fortschrittlichen Audio-Codec (AAC) einfach nicht zur Verfügung. (Für eine detaillierte Beschreibung von AAC, nehme man bitte auf den Literaturverzeichnisabschnitt unten bezug). Dies ist infolge der dynamischen und beliebigen Natur von Audiosignalen wichtig. Der bevorzugte Audio-Codec der Erfindung ist ein Allzweck-Audio-Codec, der insgesamt für Musik, Töne und Sprache zutrifft. Ferner ist die dem Codec eigene niedrige Latenz besonders bei der Codierung von kurzen (in der Größenordnung von einer Sekunde) Toneffekten nützlich.
  • Skalierbarkeit.
  • Der bevorzugte Audiocodierungsalgorithmus der Erfindung ist außerdem in dem Sinne sehr skalierbar, daß er eine Audiokompression mit niedriger Bitrate (etwa 1 Bit/Abtastwert) über die volle Bandbreite bei Abtastfrequenzen, die von 8 kHz bis 44 kHz reichen, mit nur kleinen Einstellungen der Codierungsparameter erzeugen kann. Dieser Algorithmus kann auch auf eine hochqualitative Audio- und Stereokompression erweitert werden.
  • Audiocodierung-/Decodierung.
  • Die bevorzugten Ausführungsformen zur Audiocodierung und -Decodierung der Erfindung bilden ein System zur Audiocodierung- und Decodierung, das eine Audiokompression mit variablen niedrigen Bitraten in der Nähe von 0,5 bis 1,2 Bits pro Abtastwert erzielt. Dieses Audiokompressionssystem wendet sowohl eine Codierung mit niedrige Bitrate als auch eine hochqualitative transparente Codierung und Audiowiedergabe mit einer höheren Rate an. Die folgenden Abschnitte beschreiben getrennt die bevorzugten Codierer- und Decoder-Ausführungsformen.
  • Audiocodierung
  • 2 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiocodierungssystems. Das bevorzugte Audiocodierungssystem kann in Software oder Hardware implementiert werden, und weist 8 Hauptfunktionsblöcke 100114 auf, die unten beschrieben werden.
  • Grenzanalyse 100.
  • Unter Ausschluß jeder Signalvorverarbeitung, die das Eingangsaudio in eine Darstellung einer internen Codec-Abtastfrequenz und Impulscodemodulation (PCM) umwandelt, bildet die Grenzanalyse 100 den ersten Funktionsblock im Allzweck-Audiocodierer. Wie oben erläutert, kann eines von zwei Verfahren zur Reduzierung der durch die Quantisierung verursachten Block-Diskontinuitäten angewendet werden. Das erste Verfahren (Rest-Quantisierung) ergibt eine Latenz von null auf Kosten dessen, daß eine Codierung der Restwellenform nahe den Blockgrenzen erforderlich ist („nahe" bedeutet typischerweise etwa 1/16 der Blockgröße). Das zweite Verfahren (Grenzausschluß und Interpolation) führt eine sehr kleine Latenz ein, weist jedoch eine bessere Codierungseffizienz auf, da es die Notwendigkeit vermeidet. den Rest nahe den Blockgrenzen zu codieren, wo sich der größte Teil der Restenergie konzentriert. Setzt man die sehr kleine Latenz voraus, die dieses zweite Verfahren relativ zu einem MPEG AAC-Codec des Stands der Technik in die Audiocodierung einführt (wo die Latenz gegenüber einem Bruchteil eines Rahmens für den bevorzugten Codec der Erfindung mehrere Rahmen beträgt), wird es bevorzugt, zur besseren Codierungseffizienz das zweite Verfahren zu verwenden, es sei denn, eine Latenz von null ist absolut erforderlich.
  • Obwohl die beiden unterschiedlichen Verfahren einen Einfluß auf den anschließenden Vektorquantisierungsblock haben, kann das erste Verfahren einfach als ein Spezialfall des zweiten Verfahrens angesehen werden, insoweit als die Grenzanalysefunktion 100 und Synthesefunktion 212 (siehe 3) betroffen sind. Daher reicht eine Beschreibung des zweiten Verfahrens aus, um beide Verfahren zu beschreiben.
  • 4 veranschaulicht die Aspekte der Grenzanalyse und -Synthese der Erfindung. Die folgende Technik wird im oberen (Codierungs-)Abschnitt der 4 dargestellt. Ein Audio-Codierungs-(Analyse- oder Synthese-)Rahmen besteht aus einer ausreichenden Anzahl von Abtastwerten Ns (die nicht weniger als 256, vorzugsweise 1024 oder 2048 betragen sollte). Im allgemeinen führen größere Ns-Werte zu einer höheren Codierungseffizienz, jedoch auf die Gefahr hin, die Genauigkeit einer schnellen transienten Antwort zu verlieren. Ein Analyseereignispuffer (HBE) mit der Größe von sHBE = RE·Ns Abtastwerten aus dem vorhergehenden Codierungsrahmen wird im Codierer gehalten, wobei RE ein kleiner Bruchteil ist (der typischerweise auf 1/16 oder 1/8 der Blockgröße eingestellt wird), um Bereiche nahe der Blockgrenzen abzudecken, die eine hohe Restenergie aufweisen. Während der Codierung des gegenwärtigen Rahmens werden sInput = (1 – RE)·Ns Abtastwerte aufgenommen und mit den Abtastwerten in HBE verkettet, um einen vollständigen Analyserahmen zu bilden. Im Decoder wird außerdem ein ähnlicher Synthese-Ereignispuffer (HBD) zur Grenzinterpolationszwecken gehalten, wie in einem späteren Abschnitt beschrieben wird. Die Größe von HBD beträgt sHBD = RD·sHBE = RD·RE·Ns Abtastwerte, wobei RD ein Bruchteil ist, der typischerweise auf 1/4 eingestellt wird.
  • Es wird eine Fensterfunktion während der Initialisierung des Audio-Codecs erzeugt, so daß sie die folgenden Eigenschaften aufweist: (1) im mittleren Bereich mit einer Größe von Ns – sHBE + sHBD Abtastwerten ist die Fensterfunktion gleich eins (d.h. die Identitätsfunktion); und (2) die restlichen gleich unterteilten Kanten entsprechen typischerweise der linken bzw. rechten Hälfte einer glockenförmigen Kurve. Ein typischer Kandidat einer glockenförmigen Kurve könnte eine Hamming- oder Kaiser-Bessel-Fensterfunktion sein. Diese Fensterfunktion wird dann auf die Analyserahmen-Abtastwerte angewendet. Der Analyseereignispuffer (HBE) wird dann mit den letzten sHBE Abtastwerten aus dem gegenwärtigen Analyserahmen aktualisiert. Dies vollendet die Grenzanalyse.
  • Wenn der Parameter RE auf null gesetzt wird, reduziert sich diese Analyse auf das erste, obenerwähnte Verfahren. Daher kann die Restquantisierung als ein Spezialfall des Ausschlusses und der Interpolation der Grenze betrachtet werden.
  • Normierung 102.
  • Eine optionale Normierungsfunktion 102 im Allzweck-Audio-Codec führt eine Normierung des in Fenster gesetzten Ausgangssignals aus dem Grenzanalyseblock durch. In der Normierungsfunktion 102 wird die durchschnittliche Zeitbereichssignalamplitude über den gesamten Codierungsrahmen (Ns Abtastwerte) berechnet. Dann wird eine Skalarquantisierung der durchschnittlichen Amplitude durchgeführt. Der quantisierte Wert wird verwendet, um das Eingangszeitbereichssignal zu normieren. Der Zweck dieser Normierung ist es, den Signaldynamikbereich zu reduzieren, was zu Biteinsparungen während des späteren Quantisierungsstadiums führen wird. Diese Normierung wird aus den folgenden Gründen nach der Grenzanalyse und im Zeitbereich durchgeführt: (1) die Grenzanpassung muß am ursprünglichen Signal im Zeitbereich durchgeführt werden, wo das Signal kontinuierlich ist; und (2) wird es bevorzugt, daß die Skalarquantisierungstabelle von der nachfolgenden Transformation unabhängig ist, und muß folglich vor der Transformation ausgeführt werden. Der Skalarnormierungsfaktor wird später als Teil der Codierung des Audio-Signals codiert.
  • Transformation 104.
  • Die Transformationsfunktion 104 transformiert jeden Zeitbereichsblock zu einem Transformationsbereichsblock, der mehrere Koeffizienten aufweist. In der bevorzugten Ausführungsform ist der Transformationsalgorithmus eine adaptive Kosinuspaket-Transformation (ACPT). ACPT ist eine Erweiterung oder Verallgemeinerung der herkömmlichen Kosinuspaket-Transformation (CPT). CPT besteht aus einer Kosinuspaketanalyse (Vorwärtstransformation) und Synthese (Rücktransformation). Das folgende beschreibt die Schritte der Ausführung der Kosinuspaketanalyse in der bevorzugten Ausführungsform. Anmerkung: Es wird die Schreibweise von Matlab von Mathwork in den Pseudo-Codes durch diese gesamte Beschreibung hindurch verwendet, wobei: l:m eine Anordnung von Zahlen mit einem Startwert von 1, einer Erhöhung von 1, und einem Endwert von m bedeutet; und .*, ./, und .^2 punktweise Multiplikations-, Divisions- bzw. Quadrieroperationen angeben.
  • CPT:
  • Es sei N die Anzahl der Abtastpunkte in der Kosinuspaket-Transformation, D die Tiefe der feinsten Zeitaufspaltung, und Nc sei die Anzahl der Abtastwerte bei der feinsten Zeitaufspaltung (Nc = N/2^D, muß eine Ganzzahl sein). Es werde das folgende durchgeführt:
    • 1. Berechne die Glockenfenster-Funktion bp (innerhalb des Bereichs) und bm (außerhalb des Bereichs):
      Figure 00140001
      Figure 00150001
    • 2. Berechne Kosinuspaket-Transformationstabelle pkt für N-Punkt-Eingangsdaten x:
      Figure 00150002
      Die Funktion dct4 ist die diskrete Kosinustransformation des Typs IV. Wenn Nc eine Potenz von 2 ist, kann eine schnelle dct4-Transformation verwendet werden.
    • 3. Baue den Statistikbaum stree für die anschließende Analyse der besten Basis auf. Der folgende Pseudo-Code demonstriert nur den allgemeinsten Fall, wo die Basisauswahl auf der Entropie der Paket-Transformationskoeffizienten beruht:
      Figure 00160001
    • 4. Führe die Analyse der besten Basis aus, um den besten Basisbaum btree zu bestimmen:
      Figure 00160002
      Figure 00170001
    • 5. Bestimme (optimale) CPT-Koeffizienten opkt aus der Paket-Transformationstabelle und dem besten Basisbaum:
      Figure 00170002
  • Für eine detaillierte Beschreibung der Wavelet-Transformationen, Paket-Transformationen und Kosinuspaket-Transformationen siehe den Literaturverzeichnisabschnitt unten.
  • Wie oben erwähnt, versagen die Algorithmen zur Auswahl der besten Basis, die durch die herkömmliche Kosinuspakettransformation geboten werden, manchmal dabei, eine (relativ gesehen) sehr schnelle Zeitanwort innerhalb eines Transformationsrahmens zu erkennen. Wir stellten fest, daß es notwendig ist, die Kosinuspaket-Transformation auf etwas zu verallgemeinern, was wir als die „adaptive Kosinuspaket-Transformation" ACPT bezeichnen. Die Grundidee hinter ACPT ist es, einen unabhängigen adaptiven Umschaltmechanismus auf einer Rahmen-Rahmen-Basis einzusetzen, um festzustellen, ob eine Vorteilung des CPT-Rahmens bei einem Zeitteilungspegel D1 erforderlich ist, wobei 0 <= D1 <= D. Wenn die Vorteilung nicht erforderlich ist, wird die ACPT fast auf die CPT reduziert, mit der Ausnahme, daß für die Analyse der besten Basis bei ACPT die maximale Tiefe der Zeitteilung D2 ist, wobei D1 <= D2 <= D.
  • Der Zweck der Einführung von D2 ist es, eine Einrichtung bereitzustellen, die Basisaufteilung an einem Punkt (D2) zu stoppen, der kleiner sein könnte als der maximal zulässige Wert D, wodurch die Verknüpfung zwischen der Größe des Kantenkorrekturbereichs der ACPT und der feinsten Aufteilung der besten Basis entkoppelt wird. Wenn eine Vorteilung erforderlich ist, dann wird die Analyse der besten Basis für jeden der Vorteilungsteilrahmen ausgeführt, was einen erweiterten besten Basisbaum ergibt (eine 2-D-Anordnung anstelle der herkömmlichen 1-D-Anordnung). Da es der einzige Unterschied zwischen ACPT und CPT ist, eine flexiblere Auswahl der besten Basis zuzulassen, was wir im Kontext der Audiocodierung mit niedriger Bitrate als sehr hilfreich befunden haben, ist ACPT eine reversible Transformation wie CPT.
  • ACPT:
  • Es folgt der bevorzugte ACPT-Algorithmus:
    • 1. Berechne im voraus die Glockenfensterfunktionen bp und bm, wie im Schritt 1 des CPT-Algorithmus oben.
    • 2. Berechne die Kosinuspaket-Transformationstabelle genau für den Zeitteilungspegel von D1; pkt(:, D1+1), wie im CPT-Schritt 2, jedoch nur für d = D1 (anstatt d = D: -1:0).
    • 3. Führe einen adaptiven Umschaltalgorithmus durch, um festzustellen, ob eine Vorteilung am Pegel D1 für den gegenwärtigen ACPT-Rahmen benötigt wird. Es stehen viele Algorithmen für eine solchen adaptive Umschaltung zur Verfügunge. Man kann einen auf dem Zeitbereich beruhenden Algorithmus verwenden, wo die adaptive Umschaltung vor dem Schritt 2 ausgeführt werden kann. Eine weitere Klasse von Verfahren wäre es, die Pakettransformationstabellen-Koeffizienten beim Pegel D1 zu verwenden. Ein Kandidat in der Klasse von Verfahren ist es, die Entropie der Transformationskoeffizienten für alle vorgeteilten Teilrahmen einzeln zu berechnen. Dann kann ein auf der Entropie beruhendes Umschaltkriterium verwendet werden. Andere Kandidaten umfassen die Berechnung einiger transienter Signaturparameter aus den verfügbaren Transformationskoeffizienten aus Schritt 2 und die folgende Anwendung einiger geeigneter Kriterien. Das folgende beschreibt nur eine bevorzugte Implementierung:
      Figure 00190001
      wobei Nt eine Schwellenzahl ist, die typischerweise auf einen Bruchteil von Nj (z.B. Nj / 8) eingestellt wird. thr1 und thr2 sind zwei empirisch bestimmte Schwellenwerte. Das erste Kriterium detektiert die transiente Signalamplitudenvariation, das zweite detektiert die Transformationskoeffizienten (ähnlich zu den DCT-Koeffizienten in jedem Teilrahmen) oder die Spektralspreizung pro Entropiewerteinheit.
    • 4. Berechne pkt an den erforderlichen Pegeln abhängig von der Vorteilungsentscheidung:
      Figure 00200001
      wobei D0 und D2 die maximalen Tiefen zur Zeitteilung PRE-SPLIT_REQUIRED bzw. PRE-SPLIT_NOT_REQUIRED sind.
    • 5. Bilde Statistikbaum stree, wie im CPT-Schritt 3, nur für die erforderlichen Pegel.
    • 6. Teile den Statistikbaum stree in den erweiterten Statistikbaum strees auf, der im allgemeinen eine 2-D-Anordnung ist. Jede 1-D-Teilanordnung ist der Statistikbaum für einen Teilrahmen. Für den PRE-SPLIT_REQUIRED-Fall gibt es 2^D1 solcher Teilanordnungen. Für den PRE-SPLIT_NOT_REQUIRED-Fall gibt es keine Aufteilung (oder genau einen Teilrahmen), so daß es nur eine Teilanordnung gibt, d.h. strees nimmt eine 1-D-Anordnung an. Die Details sind wie folgt:
      Figure 00200002
      Figure 00210001
    • 7. Führe die Analyse der besten Basis durch, um den erweiterten besten Basisbaum btress für jeden der Teilrahmen auf dieselbe Weise wie im CPT-Schritt 4 zu bestimmen.
    • 8. Bestimme die optimalen Transformationskoeffizienten opkt aus dem erweiterten besten Basisbaum. Dies umfaßt die Bestimmung von opkt für jeden der Teilrahmen. Der Algorithmus für jeden Teilrahmen ist derselbe wie im CPT-Schritt 5.
  • Da ACPT die Transformationstabellen-Koeffizienten nur an den erforderlichen Zeitteilungspegeln berechnet, ist ACPT im allgemeinen weniger rechnerisch komplex als CPT.
  • Der erweiterte beste Basisbaum (2-D-Anordnung) kann als eine Anordnung von einzelnen besten Basisbäumen (1-D) für jeden Teilrahmen betrachtet werden. Es wird eine (optimale) Technik mit variabler Länge zur Codierung eines besten Basisbaums bevorzugt:
    Figure 00210002
  • Signal- und Restklassifizierer 106.
  • Die Signal- und Restklassifizierer-(SRC)-Funktion 106 ordnet die Koeffizienten jedes Zeitbereichblocks in Signalkoeffizienten und Restkoeffizienten an. Insbesondere trennt die SRC-Funktion 106 starke Eingangssignalkomponenten (die als Signal bezeichnet werden) von Rauschen und schwachen Signalkomponenten (die zusammen als Rest bezeichnet werden). Wie oben erläutert, gibt es zwei bevorzugte Verfahren für SRC. In beiden Fällen ist ASVQ eine geeignete Technik zur anschließenden Quantisierung des Signals. Das folgende beschreibt das zweite Verfahren, daß das Signal und den Rest in Gruppen identifiziert:
    • 1. Sortiere Index in aufsteigender Reihenfolge des Absolutwerts der ACPT-Koeffizienten opkt: ax = abs(opkt); order = quickSort(ax);
    • 2. Berechne globalen Rauschteppich gnf gnf = ax(N – Nt); wobei Nt eine Schwellenzahl ist, die typischerweise auf einen Bruchteil von N gesetzt wird.
    • 3. Bestimme Signalgruppen, indem Zonenindizes zone im ersten Durchgang berechnet werden:
      Figure 00220001
      Figure 00230001
    • 4. Bestimme die Signalgruppen im zweiten Durchgang, indem ein lokaler Rauschteppich Inf verwendet wird; sRR ist die Größe des benachbarten Restbereichs für Berechnungszwecke des lokalen Rauschteppichs, die typischerweise auf einen kleinen Bruchteil von N gesetzt wird (z.B. N/32):
      Figure 00230002
      Figure 00240001
      Figure 00250001
    • 5. Entferne die schwachen Signalkomponenten:
      Figure 00250002
    • 6. Entferne die Restkomponenten: index = find(zone(1,:)) > 0); zone = zone(:, index); zc = size(zone, 2);
    • 7. Vereinige Signalgruppen, die enge Nachbarn sind:
      Figure 00250003
      wobei minZS die minimale Zonengröße ist, die empirisch bestimmt wird, um die benötigten Quantisierungsbits zur Codierung der Signalzonen-Indizes und Signalvektoren zu minimieren.
    • 8. Entferne die Restkomponenten erneut, wie in Schritt 6.
  • Quantisierung 108.
  • Nachdem der SRC 106 die ACPT-Koeffizienten in Signal- und Restkomponenten trennt, werden die Signalkomponenten durch eine Quantisierungsfunktion 108 verarbeitet. Die bevorzugte Quantisierung für Signalkomponenten ist die adaptive Sparse-Vektorquantisierung (ASVQ).
  • Wenn man den Signalgruppen-Vektor als die ursprünglichen ACPT-Koeffizienten betrachtet, wobei die Restkomponenten auf null gesetzt sind, dann ergibt sich ein Sparse-Vektor. Wie in der erteilten US-Patentanmeldung Serien-Nr. 08/958,567 von Shuwu Wu und John Mantegna, mit dem Titel „Audio Codec using Adaptive Sparse Vector Quantization with Subband Vector Classification", eingereicht am 28.10.97, erläutert wird, ist ASVQ das bevorzugte Quantisierungsschema für solche Sparse-Vektoren. In dem Fall, wo die Signalkomponenten in Gruppen vorliegen, trifft die Typ-IV-Quantisierung in ASVQ zu. Eine Verbesserung der ASVQ-Typ-IV-Quantisierung kann in Fällen erreicht werden, wo alle Signalkomponenten in einer Anzahl von aneinanderhängenden Gruppen enthalten sind. In solchen Fällen reicht es aus, nur alle Start- und Endindizes für jede der Gruppen zu codieren, wenn der Elementstellenindex (ELI) codiert wird. Daher wird zum Zweck der ELI-Quantisierung, anstatt daß der ursprüngliche Sparse-Vektor quantisiert wird, ein modifizierter Sparse-Vektor (ein Super-Sparse-Vektor) mit nur von null verschiedenen Elementen an den Start- und Endpunkten jeder Signalgruppe codiert. Dies führt zu sehr bedeutenden Biteinsparungen. Dies ist einer der Hauptgründe dafür, daß es vorteilhaft ist, Signalgruppen anstelle von diskreten Komponenten zu betrachten. Für eine detaillierte Beschreibung der Typ-IV-Quantisierung und Quantisierung des ELI nehme man bitte auf die Patentanmeldung bezug, auf die oben verwiesen wird. Natürlich kann man sicher andere verlustfreie Techniken verwenden, wie die Lauflängencodierung mit Huffman-Codes, um den ELI zu codieren.
  • ASVQ unterstützt eine variable Bitzuteilung, die es zuläßt, daß verschiedene Arten von Vektoren in einer Weise unterschiedlich codiert werden, die psychoakustische Artefakte reduziert. Im bevorzugten Audio-Codec wird ein einfaches Bitzuteilungsschema implementiert, um die stärksten Signalkomponenten exakt zu quantisieren. Eine solche feine Quantisierung ist im bevorzugten System infolge des Block-Diskontinuitäten-Minimierungsmechanismus erforderlich. Zusätzlich ermöglicht die variable Bitzuteilung unterschiedliche Qualitätseinstellungen für den Codec.
  • Statistische Rauschanalyse 110.
  • Nachdem der SRC 106 ACPT-Koeffizienten in Signal- und Restkomponenten trennt, werden die Restkomponenten, die schwach und psychoakustisch weniger wichtig sind, als statistisches Rauschen modelliert, um eine niedrige Bitratencodierung zu erreichen. Die Motivation hinter einem solchen Modell ist, daß es für die Restkomponenten wichtiger ist, ihre Energiepegel korrekt zu rekonstruieren, als ihre Phaseninformation wiederherzustellen. Das statistische Rauschmodell der bevorzugten Ausführungsform folgt:
    • 1. Konstruiere einen Restvektor, indem der ACPT-Koeffizientenvektor genommen wird und alle Signalkomponenten auf Null gesetzt werden.
    • 2. Führe eine adaptive Kosinuspaketsynthese (siehe oben) am Restvektor durch, um ein Zeitbereichsrestsignal zu synthetisieren.
    • 3. Verwende den erweiterten besten Basisbaum btrees, um den Restrahmen in mehrere Restteilrahmen mit variablen Größen aufzuspalten. Der bevorzugte Algorithmus ist wie folgt:
      Figure 00270001
      Figure 00280001
    • 4. Optional kann es erwünscht sein, die maximalen oder minimalen Größen der Restteilrahmen durch eine weitere Unterteilung oder Vereinigung benachbarter Teilrahmen für eine praktische Bitzuteilungssteuerung zu begrenzen.
    • 5. Optional wird für jeden Restteilrahmen eine DCT oder FFT durchgeführt, und die anschließenden Spektralkoeffizienten werden in eine Anzahl von Teilbändern gruppiert. Die Größen und die Anzahl der Teilbänder können variabel sein und dynamisch bestimmt werden. Es würde dann ein mittlerer Energiepegel für jedes spektrale Teilband berechnet. Der Teilbandenergievektor könnte dann durch eine geeignete Vektorquantisierungstechnik entweder im linearen oder logarithmischen Bereich codiert werden.
  • Ratensteuerung 112.
  • Da der bevorzugte Audio-Codec ein Allzweck-Algorithmus ist, der dazu bestimmt ist, mit beliebigen Arten von Signalen umzugehen, nutzt er die spektralen oder zeitlichen Eigenschaften eines Audiosignals aus, um die Bitrate zu reduzieren. Diese Verfahren kann zu Raten führen, die außerhalb der angestrebten Ratenbereiche liegen (manchmal sind abhängig vom Audioinhalt Raten zu niedrig, und manchmal sind Raten höher als die gewünschten). Folglich wird optional eine Ratensteuerfunktion 112 angewendet, um eine bessere Gleichmäßigkeit in die resultierenden Bitraten zu bringen.
  • Der bevorzugte Ratensteuerungsmechanismus arbeitet als eine Rückkopplungsschleife zu den Funktionen SRC 106 oder der Quantisierung 108. Insbesondere modifiziert der bevorzugte Algorithmus dynamisch die SRC- oder ASVQ-Quantisierungsparameter, um besser eine gewünschte Bitrate zu erhalten. Die dynamischen Parametermodifikationen werden durch die gewünschten Kurzzeit- und Langzeitbitraten betrieben. Die Kurzzeitbitrate kann als die „augenblickliche" Bitrate definiert werden, die mit dem gegenwärtigen Codierungsrahmen verbunden ist. Die Langzeitbitrate ist als die durchschnittliche Bitrate über eine große Anzahl oder alle der vorhergehend codierten Rahmen definiert. Der bevorzugte Algorithmus versucht, eine gewünschte Kurzzeitbitrate, die mit den Signalkoeffizienten verbunden ist, durch einen iterativen Prozeß anzustreben. Diese gewünschte Bitrate wird aus der Kurzzeitbitrate für den gegenwärtigen Rahmen und der Kurzzeitbitrate bestimmt, die nicht mit den Signalkoeffizienten des vorhergehenden Rahmen verbunden ist. Die erwartete Kurzzeitbitrate, die mit dem Signal verbunden ist, kann beruhend auf einem linearen Modell vorhergesagt werden: Vorhergesagt = A(q(n))·S(c(m)) + B(q(n)) (1)
  • Hier sind A und B Funktionen von mit der Quantisierung zusammenhängenden Parametern, die zusammen als q repräsentiert werden. Die Variable q kann Werte aus einem begrenzten Satz von Auswahlmöglichkeiten annehmen, die durch die Variable n repräsentiert werden. Eine Zunahme (Abnahme) von n führt zu einer besseren (schlechteren) Quantisierung für die Signalkoeffizienten. Hier repräsentiert S den Anteil des Rahmens, der als Signal klassifiziert wird, und es ist eine Funktion der Eigenschaften des gegenwärtigen Rahmens. S kann Werte aus einem begrenzten Satz von Auswahlmöglichkeiten annehmen, die durch die Variable m repräsentiert werden. Eine Zunahme (Abnahme) von m führt zu einem größeren (kleineren) Abschnitt des Rahmens, der als Signal klassifiziert wird.
  • Folglich strebt der Ratensteuerungsmechanismus die gewünschte Langzeitbitrate an, indem er die Kurzzeitbitrate vorhersagt und diese Vorhersage verwendet, um die Auswahl der mit der Klassifizierung und Quantisierung zusammenhängenden Parameter zu leiten, die mit dem bevorzugten Audio-Codec verbunden sind. Die Verwendung dieses Modells, um die Kurzzeitbitrate vorherzusagen, die mit dem gegenwärtigen Rahmen verbunden ist, bietet die folgenden Vorteile:
    • 1. Da die Ratensteuerung durch die Eigenschaften des gegenwärtigen Rahmens geleitet wird, kann der Ratensteuerungsmechanismus an Ort und Stelle auf transiente Signale reagieren.
    • 2. Da die Kurzzeitbitrate vorhergesagt wird, ohne eine Quantisierung durchzuführen, ergibt sich eine reduzierte Berechnungskomplexität.
  • Die bevorzugte Implementierung verwendet sowohl die Langzeitbitrate als auch die Kurzzeitbitrate, um den Codierer anzuleiten, eine gewünschte besser Bitrate anzustreben. Der Algorithmus wird unter vier Bedingungen aktiviert:
    • 1. (NIEDRIG, NIEDRIG): Die Langzeitbitrate ist niedrig und die Kurzzeitbitrate ist niedrig.
    • 2. (NIEDRIG, HOCH): Die Langzeitbitrate ist niedrig und die Kurzzeitbitrate ist hoch.
    • 3. (HOCH, NIEDRIG): Die Langzeitbitrate ist hoch und die Kurzzeitbitrate ist niedrig.
    • 4. (HOCH, HOCH): Die Langzeitbitrate ist hoch und die Kurzzeitbitrate ist hoch.
  • Die bevorzugte Implementierung des Ratensteuerungsmechanismus wird in der Dreischritt-Prozedur unten dargelegt. Die vier Bedingungen unterscheiden sich nur in Schritt 3. Die Implementierung des Schritts 3 für die Fälle 1 (NIEDRIG, NIEDRIG) und 4 (HOCH, HOCH) wird unten angegeben. Fall 2 (NIEDRIG, HOCH) und Fall 4 (HOCH, HOCH) sind identisch, mit der Ausnahme, daß sie unterschiedliche Werte für die Obergrenze der Ziel- Kurzzeitbitrate für die Signalkoeffizienten aufweisen. Fall 3 (HOCH, NIEDRIG) und Fall 1 (HOCH, HOCH) sind identisch, mit der Ausnahme, daß sie unterschiedliche Werte für die Untergrenze der Ziel-Kurzzeitbitrate für die Signalkoeffizienten aufweisen. Folglich, vorausgesetzt, n und m sind gegeben, die für den vorhergehenden Rahmen verwendet werden:
    • 1. Berechne S(c(m)), den Anteil des Rahmens, der als Signal klassifiziert wird, beruhend auf den Eigenschaften des Rahmens.
    • 2. Sage die erforderlichen Bits vorher, um das Signal im gegenwärtigen Rahmen beruhend auf dem linearen Modell zu quantisieren, das in Gleichung (1) oben gegeben ist, wobei das in (1) berechnete S(c(m)), A (n), und B(n) verwendet werden.
    • 3. Bedingter Verarbeitungsschritt:
      Figure 00300001
      Figure 00310001
  • In dieser Implementierung können zusätzliche Informationen darüber, welcher Satz von Quantisierungsparametern gewählt wird, codiert werden.
  • Bitstromformatierung 124.
  • Die Indizes, die durch die Quantisierungsfunktion 108 und die statistische Rauschanalysefunktion 110 ausgegeben werden, werden durch die Bitstromformatierungsfunktion 114 in eine geeignete Bitstromform formatiert. Die Ausgabeinformation kann außerdem Zonenindizes enthalten, um den Ort der Quantisierung und statistische Rauschanalyseindizes, Ratensteuerungsinformation, beste Basisbauminformation und irgendwelche Normierungsfaktoren anzugeben.
  • In der bevorzugten Ausführungsform ist das Format das „ART"-Multimediaformat, das durch America Online verwendet wird und ferner in der international veröffentlichten Anmeldung WO-A-98/54637, eingereicht am 30.5.97, mit dem Titel „Encapsulated Document and Format System" beschrieben wird, das dem Rechtsnachfolger der vorliegenden Erfindung erteilt wurde. Jedoch können in einer bekannten Weise andere Formate verwendet werden. Die Formatierung kann solche Informationen, wie Identifikationsfelder, Feldedefinitionen, Fehlerdetektions- und Korrekturdaten, Versionsinformationen usw. enthalten.
  • Der formatierte Bitstrom repräsentiert eine komprimierte Audiodatei, die dann über einen Kanal, wie das Internet übertragen, oder auf einem Medium, wie einer magnetischen oder optischen Datenspeicherplatte gespeichert werden kann.
  • Audiodecodierung
  • 3 ist ein Blockdiagramm eines bevorzugten erfindungsgemäßen Allzweck-Audiodecodierungssystems. Das bevorzugte Audiodecodierungssystem kann in Software oder Hardware implementiert werden, und weist 7 Hauptfunktionsblöcke 200212 auf, die unten beschrieben werden.
  • Bitstrom-Decodierung 200.
  • Ein ankommender Bitstrom, der vorher durch einen erfindungsgemäßen Audiocodierer erzeugt wird, wird mit einer Bitstrom-Decodierungsfunktion 200 gekoppelt. Die Decodierungsfunktion 200 zerlegt einfach die empfangenen Binärdaten in die ursprünglichen Audiodaten, wobei die Quantisierungsindizes und Analyseindizes des statistischen Rauschens in entsprechende Signal- und Rauschenergiewerte in einer bekannten Weise aufgeteilt werden.
  • Statistische Rauschsynthese 202.
  • Die Analyseindizes des statistischen Rauschens werden auf eine statistisches Rauschsynthesefunktion 202 angewendet. Wie oben erläutert, gibt es zwei bevorzugte Implementierungen der statistischen Rauschsynthese. Bei einer gegebenen codierten Spektralenergie für jedes Frequenzband kann man das statistische Rauschen für jeden der Restteilrahmen entweder im Spektralbereich oder im Zeitbereich synthetisieren.
  • Die Spektralbereichsverfahren erzeugen Pseudozufallszahlen, die mit dem Restenergiepegel in jedem Frequenzband skaliert werden. Diese skalierten Zufallszahlen für jedes Band werden als die synthetisierten DCT- oder FFT-Koeffizienten verwendet. Dann werden die synthetisierten Koeffizienten rücktransformiert, um ein spektral gefärbtes Zeitbereichsrauschsignal zu bilden. Diese Technik weist eine niedrigere Berechnungskomplexität als ihr Zeitbereichsgegenstück auf, und ist nützlich, wenn die Restteilrahmengrößen klein sind.
  • Die Zeitbereichstechnik umfaßt einen auf einer Filterbank beruhenden Rauschsynthesizer. Es wird eine Bank von Bandbegrenzungsfiltern im voraus berechnet, einer für jedes Frequenzband. Das Zeitbereichsrauschsignal wird für jeweils ein Frequenzband synthetisiert. Das folgende beschreibt die Details des Synthetisierens des Zeitbereichsrauschsignals für ein Frequenzband:
    • 1. Ein Zufallszahlengenerator wird verwendet, um weißes Rauschen zu erzeugen.
    • 2. Das weiße Rauschsignal wird durch den Bandbegrenzungsfilter zugeführt, um das erwünschte spektral gefärbte statistische Rauschen für das gegebene Frequenzband zu erzeugen.
    • 3. Für jedes Frequenzband wird die Rauschverstärkungskurve für den gesamten Codierungsrahmen durch Interpolieren der codierten Restenergiepegel unter Restteilrahmen und zwischen Audiocodierungsrahmen bestimmt. Aufgrund der Interpolation ist eine solche Rauschverstärkungskurve stetig. Diese Kontinuität ist ein zusätzlicher Vorteil der auf dem Zeitbereich beruhenden Technik.
    • 4. Schließlich wird die Verstärkungskurve auf das spektral gefärbte Rauschsignal angewendet.
  • Die Schritte 1 und 2 können im voraus berechnet werden, wodurch die Notwendigkeit beseitigt wird, diese Schritte während des Decodierungsprozesses zu implementieren. Es kann daher die Berechnungskomplexität reduziert werden.
  • Rückquantisierung 204.
  • Die Quantisierungsindizes werden an eine Rückquantisierungsfunktion 204 angelegt, um Signalkoeffizienten zu erzeugen. Wie im Fall der Quantisierung des erweiterten besten Basisbaums, wird der De-Quantisierungsprozeß für jeden der besten Basisbäume für jeden Teilrahmen ausgeführt. Der bevorzugte Algorithmus zur De-Quantisierung eines besten Basisbaums folgt:
    Figure 00330001
    Figure 00340001
  • Der bevorzugte De-Quantisierungsalgorithmus für die Signalkomponenten ist eine direkte Anwendung der De-Quantisierung ASVQ-Typ IV, die in der erteilten US-Patentanmeldung Serien-Nr. 08/958,567 beschrieben wird, auf die oben verwiesen wird.
  • Rücktransformation 206.
  • Die Signalkoeffizienten werden an eine Rücktransformationsfunktion 206 angelegt, um eine rekonstruierte Zeitbereichssignal-Wellenform zu erzeugen. In diesem Beispiel ist die adaptive Kosinussynthese ähnlich zu ihrem Gegenstück in der CPT mit einem zusätzlichen Schritt, daß sie den erweiterten besten Basisbaum (im allgemeinen eine 2-D-Anordnung) in den kombinierten besten Basisbaum (1-D-Anordnung) umwandelt. Dann wird die Kosinuspaketsynthese für die Rücktransformation ausgeführt. Details folgen:
    • 1. Berechne im voraus die Glockenfenster-Funktionen bp und bm, wie im CPT-Schritt 1.
    • 2. Verbinde die erweiterten besten Basisbäume btrees zu einem kombinierten besten Basisbaum btree, eine Umkehrung der Teilungsoperation, die im ACPT-Schritt 6 ausgeführt wird:
      Figure 00340002
    • 3. Führe eine Kosinuspaket-Synthese aus, um das Zeitbereichssignal y aus dem optimalen Kosinuspaket-Koeffizienten opkt zurückzugewinnen:
      Figure 00350001
      Figure 00360001
  • Renormierung 208.
  • Das rekonstruierte Zeitbereichssignal und synthetisierte statistische Rauschensignal aus der inversen adaptiven Kosinuspaket-Synthesefunktion 206 bzw. der statistischen Rauschsynthesefunktion 202 werden kombiniert, um das vollständige rekonstruierte Signal zu bilden. Das rekonstruierte Signal wird dann optional in einer Renormierungsfunktion 208 mit dem codierten Skalar-Normierungsfaktor multipliziert.
  • Grenzsynthese 210.
  • Im Decoder bildet die Grenzsynthesefunktion 210 den letzten Funktionsblock vor irgendeiner Zeitbereichsnachbearbeitung (die eine weiche Begrenzung, Skalierung und Neuabtastung einschließt, aber nicht auf sie begrenzt ist). Die Grenzsynthese wird im unteren (Decodierungs)-Abschnitt der 4 dargestellt. In der Grenzsynthesekomponente 210 wird zum Zweck der Grenzinterpolation ein Synthese-Ereignispuffer (HBD) unterhalten. Die Größe dieses Ereignisses (sHBD) ist ein Bruchteil der Größe des Analyseereignispuffers (sHBE), nämlich,
    sHBE = RD·sHBE = RD·RE·Ns, wobei Ns die Anzahl der Abtastwerte in einem Codierungsrahmen ist.
  • Man betrachte einen Codierungsrahmen aus Ns Abtastwerten. Man bezeichne sie S[i], wobei i = 0, 1, 2 ..., Ns. Der Synthese-Ereignispuffer hält die sHBD Abtastwerte aus dem letzten Codierungsrahmen, der an der Abtastnummer Ns – sHBE/2 – sHBD/2 beginnt. Das System nimmt Ns – sHBE Abtastwerte aus dem synthetisierten Zeitbereichssignal (aus dem Renormierungsblock), die an der Abtastnummer sHBE/2 – sHBD/2 beginnen.
  • Diese Ns – sHBE Abtastwerte werden als Vorinterpolationsausgabedaten bezeichnet. Die ersten sHBD Abtastwerte der Vorinterpolationsausgabedaten überlappen sich zeitlich mit Abtastwerten, die im Synthese-Ereignispuffer gehalten werden. Daher wird eine einfache Interpolation (z.B. lineare Interpolation) verwendet, um die Grenzdiskontinuität zu reduzieren. Nachdem die ersten sHBD Abtastwerte interpoliert sind, werden dann die Ns – sHBE Ausgabedaten zum nächsten Funktionsblock gesendet (in dieser Ausführungsform, die weiche Begrenzung 212). Der Synthese-Ereignispuffer wird anschließend durch die sHBD Abtastwerte aus dem gegenwärtigen Syntheserahmen aktualisiert, der an einer Abtastnummer Ns – sHBE/2 – sHBD/2 beginnt.
  • Die resultierende Codec-Latenz ist einfach durch die folgenden Formel gegeben, Latenz = (sHBE + sHBD)/2 = RE·(1 + RD)·Ns/2 (Abtastwerte),die ein kleiner Bruchteil des Audiocodierungsrahmen ist. Da die Latenz in Abtastwerten gegeben ist, impliziert eine höhere Eigen-Audioabtastrate im allgemeinen eine niedrigere Codec-Latenz.
  • Weiche Begrenzung 212.
  • In der bevorzugten Ausführungsform wird die Ausgabe der Grenzsynthesekomponente 210 an eine weiche Begrenzungskomponente 212 angelegt. Die Signalsättigung bei der Audiokompression mit niedrige Bitrate infolge verlustbehafteter Algorithmen ist eine bedeutende Quelle von hörbaren Verzerrungen, wenn ein einfacher und naiver „harter Begrenzungs"-Mechanismus verwendet wird, um sie zu entfernen. Eine weiche Begrenzung reduziert verglichen mit der herkömmlichen „harten Begrenzungs"-Technik die spektrale Verzerrung. Der bevorzugte weiche Begrenzungsalgorithmus wird in der erteilten US-Patentanmeldung Serien-Nr. 08/958,567 beschrieben, auf die oben verwiesen wird.
  • Computerimplementierung
  • Die Erfindung kann in Hardware oder Software, oder einer Kombination von beiden implementiert werden (z.B. programmierbaren Logikanordnungen). Wenn nicht anders angegeben, hängen die als Teil der Erfindung enthaltenen Algorithmen nicht von sich aus mit irgendeinem bestimmten Computer oder einer anderen Vorrichtung zusammen. Insbesondere können verschieden Allzweckmaschinen mit Programmen verwendet werden, die gemäß den Lehren hierin geschrieben sind, oder es kann bequemer sein, eine spezialisiertere Vorrichtung aufzubauen, um die erforderlichen Verfahrensschritte auszuführen. Jedoch wird die Erfindung vorzugsweise in einem oder mehreren Computerprogrammen implementiert, die auf programmierbaren Systemen ausgeführt werden, die jeweils mindestens einen Prozessor, mindestens ein Datenspeichersystem (einschließlich flüchtigen und nichtflüchtigen Speicher und/oder Speicherelementen), mindestens eine Eingabevorrichtung und mindestens eine Ausgabevorrichtung aufweisen. Der Programmcode wird auf den Prozessoren ausgeführt, um die hierin beschriebenen Funktionen auszuführen.
  • Jedes solche Programm kann in jeder gewünschen Computersprache implementiert werden (die Maschinensprache, Assemblersprache, und problemorientierte, prozedurorientierte oder objektorientierte Programmiersprachen einschließt, aber nicht auf sie beschränkt ist), um mit einem Computersystem zu kommunizieren. In jedem Fall kann die Sprache eine kompilierte oder interpretierte Sprache sein.
  • Jedes solche Computerprogramm ist vorzugsweise auf einem Speichermedium oder einer Vorrichtung (z.B. ROM, CD-ROM, oder magnetische oder optische Medien) gespeichert, die durch einen Allzweck- oder programmierbaren Spezialcomputer lesbar sind, um den Computer so zu konfigurieren und zu betreiben, wenn das Speichermedium oder die Vorrichtung durch den Computer gelesen wird, daß die hierin beschriebenen Prozeduren ausgeführt werden. Es kann auch in Betracht gezogen werden, daß das erfinderische System als ein computerlesbares Speichermedium implementiert wird, das mit einem Computerprogramm konfiguriert ist, wobei das so konfigurierte Speichermedium einen Computer veranlaßt, in einer spezifischen und vordefinierten Weise zu arbeiten, um die hierin beschriebenen Funktionen auszuführen.
  • Literaturverzeichnis
    • M. Bosi u.a., „ISO/IEC MPEG-2 advanced audio coding", Journal of the Audio Engineering Society, B. 45, Nr. 10, S. 789–812, Okt. 1997.
    • S. Mallat, „A theory for multiresolution signal decomposition: The wavelet representation", IEEE Trans. Patt. Anal. Mach. Intell., B. 11, S. 674–693, Juli 1989.
    • R. R. Coifman und M. V. Wickerhauser, „Entropy-based algorithms for best basis selection", IEEE Trans. Inform. Theory, Special Issue on Wavelet Transforms and Multires. Signal Anal., B. 38, S. 713–718. März 1992.
    • M. V. Wickerhauser, „Acoustic signal compression with wavelet packets", in Wavelets: A Tutorial in Theory and Applications, C. K. Chui, Ed. New York: Academic. 1992, S. 679–700.
    • C. Herley, J. Kovacevic, K. Ramchandran, und M. Vetterli, „Tilings of the Time-Frequency Plane: Construction of Arbitrary Orthogonal Bases and Fast Tiling Algorithms". IEEE Trans. on Signal Processing, B. 41, Nr. 12, S. 3341–3359, Dez. 1993.
  • Es sind eine Anzahl von Ausführungsformen der vorliegenden Erfindung beschrieben worden. Nichtsdestoweniger wird verstanden werden, daß verschiedene Modifikationen vorgenommen werden können, ohne den Rahmen der Erfindung zu verlassen. Zum Beispiel können einige der Schritte von verschiedenen der Algorithmen von der Reihenfolge unabhängig sein, und können folglich in einer anderen Reihenfolge ausgeführt werden, als in der oben beschriebenen. Als weiteres Beispiel kann falls gewünscht, obwohl die bevorzugten Ausführungsformen eine Vektorquantisierung verwenden, unter geeigneten Umständen eine Skalarquantisierung verwendet werden. Folglich liegen andere Ausführungsformen im Rahmen der Erfindung, die nur durch die beigefügten Ansprüche begrenzt wird.

Claims (20)

  1. Verfahren mit niedriger Latenz zum Ermöglichen einer Reduzierung von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, das aufweist: Bilden eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird; Identifizieren von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und Ausschließen von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und Rekonstruieren eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
  2. Verfahren nach Anspruch 1, wobei das Identifizieren von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks aufweist: Durchführen einer umkehrbaren Transformation an jedem überlappenden Eingangsdatenblock, um eine Energiekonzentration im Transformationsbereich zu erhalten; Quantisieren jedes umkehrbar transformierten Blocks und Erzeugen von Quantisierungsindizes, die für eine solche Quantisierung kennzeichnend sind; und umgekehrtes Transformieren jedes quantisierten Transformationsbereichsblocks zu einem überlappenden rekonstruierten Datenblock.
  3. Verfahren nach Anspruch 2, wobei der rekonstruierte Datenblock für Bereiche nahe der Grenze jedes überlappenden Eingangsdatenblocks kennzeichnend ist.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei die kontinuierlichen Daten Audiodaten enthalten.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei die kontinuierlichen Daten kontinuierliche Zeitbereichsdaten enthalten, wobei das Verfahren ferner das Formatieren der kontinuierlichen Zeitbereichsdaten in mehrere Zeitbereichsblöcke mit Grenzen aufweist.
  6. Verfahren nach einem der vorhergehenden Ansprüche, das ferner das Anwenden des Verfahrens mit niedriger Latenz auf mindestens einen eines Codierers und eines Decodierers aufweist.
  7. Verfahren nach Anspruch 6, wobei die Anwendung des Verfahrens mit niedriger Latenz auf mindestens einen des Codierers und des Decodierers aufweist: Codieren der Quantisierungsindizes für jeden quantisierten Block als einen codierten Block, und Ausgeben jedes codierten Blocks als einen Bitstrom; Decodieren jedes codierten Blocks zu Quantisierungsindizes; und Erzeugen eines quantisierten Transformationsbereichsblocks aus den Quantisierungsindizes.
  8. Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist: Interpolieren von Grenzdaten zwischen benachbarten überlappenden rekonstruierten Datenblöcken; und Voranstellen der interpolierte Grenzdaten bei dem anfänglichen Ausgangsdatenblock, um einen endgültigen Ausgangsdatenblock zu erzeugen.
  9. Verfahren nach einem der vorhergehenden Ansprüche, das ferner das Anwenden einer Fensterfunktion auf jeden ursprünglichen Eingangsdatenblock aufweist, um die Restenergiekonzentration nahe der Grenzen eines jeden solchen ursprünglichen Eingangsdatenblocks zu erhöhen.
  10. Verfahren nach Anspruch 9, wobei die Fensterfunktion im wesentlichen durch eine Identitätsfunktion gekennzeichnet ist, jedoch mit einer glockenförmigen Abnahme nahe der Grenzen eines Blocks.
  11. Computerprogramm, das sich auf einem computerlesbaren Medium befindet, zum Ermöglichen einer Reduzierung mit niedriger Latenz von durch Quantisierung verursachten Block-Diskontinuitäten von kontinuierlichen Daten, die in mehreren Datenblöcken mit Grenzen formatiert sind, wobei das Computerprogramm Befehle aufweist, um einen Computer zu veranlassen, alle Schritte des Verfahren nach einem der vorhergehenden Ansprüche auszuführen.
  12. System zum Ermöglichen einer Reduzierung mit niedriger Latenz von durch Quantisierung verursachten Block-Diskontinuitäten, die aus einer verlustbehafteten Kompression und Dekompression von kontinuierlichen Signalen kontinuierlicher Daten herrühren, die in mehreren Datenblöcken mit Grenzen formatiert sind, das aufweist: eine Einrichtung zur Bildung eines überlappenden Eingangsdatenblocks, indem ein Bruchteil eines vorhergehenden Eingangsdatenblocks einem gegenwärtigen Eingangsdatenblock vorangestellt wird; eine Einrichtung zur Identifizierung von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks; und eine Einrichtung zum Ausschluß von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks und zur Rekonstruktion eines anfänglichen Ausgangsdatenblocks aus den restlichen Daten eines solchen überlappenden Eingangsdatenblocks.
  13. System nach Anspruch 12, wobei die Einrichtung zur Identifizierung von Bereichen nahe der Grenze jedes überlappenden Eingangsdatenblocks aufweist: eine Einrichtung zur Ausführung einer umkehrbaren Transformation an jedem überlappenden Eingangsdatenblock, um eine Energiekonzentration im Transformationsbereich zu ergeben; eine Einrichtung zur Quantisierung jedes umkehrbar transformierten Blocks und zur Erzeugung von Quantisierungsindizes, die für eine solche Quantisierung kennzeichnend sind; und eine Einrichtung zur umgekehrten Transformation jedes quantisierten Transformationsbereichsblocks in einen überlappenden rekonstruierten Datenblock, der für Bereiche nahe der Grenze jedes überlappenden Eingangsdatenblocks kennzeichnend ist.
  14. System nach Anspruch 12 oder 13, in dem die kontinuierlichen Daten Audiodaten enthalten.
  15. System nach einem der Ansprüche 12 bis 14, das ferner eine Einrichtung zur Anwendung einer Fensterfunktion auf jeden ursprünglichen Eingangsdatenblock aufweist, um die Restenergiekonzentration nahe der Grenzen eines jeden solchen ursprünglichen Eingangsdatenblocks zu erhöhen.
  16. System nach Anspruch 15, wobei die Fensterfunktion im wesentlichen durch eine Identitätsfunktion gekennzeichnet ist, jedoch mit einer glockenförmigen Abnahme nahe der Grenzen eines Blocks.
  17. System nach einem der Ansprüche 12 bis 16, wobei die kontinuierlichen Daten kontinuierliche Zeitbereichsdaten enthalten, wobei das System ferner eine Einrichtung zur Formatierung der kontinuierlichen Zeitbereichsdaten in mehrere Zeitbereichsblöcke mit Grenzen aufweist.
  18. System nach einem der Ansprüche 12 bis 17, das ferner eine Einrichtung zur Anwendung des Systems mit niedriger Latenz auf mindestens einen eines Codierers und eines Decodierers aufweist.
  19. System nach Anspruch 18, wobei die Einrichtung zur Anwendung des Systems mit niedriger Latenz auf mindestens einen des Codierers und des Decodierers aufweist: eine Einrichtung zur Codierung der Quantisierungsindizes für jeden quantisierten Block als einen codierten Block und zur Ausgabe jedes codierten Blocks als den Bitstrom; eine Einrichtung zur Decodierung jedes codierten Blocks zu Quantisierungsindizes; und eine Einrichtung zur Erzeugung eines quantisierten Transformationsbereichsblocks aus den Quantisierungsindizes.
  20. System nach einem der Ansprüche 12 bis 19, das ferner aufweist: eine Einrichtung zur Interpolation von Grenzdaten zwischen benachbarten überlappenden rekonstruierten Datenblöcken; und eine Einrichtung zum Voranstellen der interpolierten Grenzdaten beim anfänglichen Ausgangsdatenblock, um einen endgültigen Ausgangsdatenblock zu erzeugen.
DE60014363T 1999-05-27 2000-05-25 Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer Expired - Lifetime DE60014363T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US321488 1994-10-12
US09/321,488 US6370502B1 (en) 1999-05-27 1999-05-27 Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
PCT/US2000/014463 WO2000074038A1 (en) 1999-05-27 2000-05-25 Reduction of quantization-induced block-discontinuities in an audio coder

Publications (2)

Publication Number Publication Date
DE60014363D1 DE60014363D1 (de) 2004-11-04
DE60014363T2 true DE60014363T2 (de) 2005-10-13

Family

ID=23250806

Family Applications (2)

Application Number Title Priority Date Filing Date
DE60014363T Expired - Lifetime DE60014363T2 (de) 1999-05-27 2000-05-25 Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer
DE60041790T Expired - Lifetime DE60041790D1 (de) 1999-05-27 2000-05-25 Verringerung der datenblock-unterbrechungen von quantisierung in einem audio-kodierer

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE60041790T Expired - Lifetime DE60041790D1 (de) 1999-05-27 2000-05-25 Verringerung der datenblock-unterbrechungen von quantisierung in einem audio-kodierer

Country Status (6)

Country Link
US (9) US6370502B1 (de)
EP (2) EP1181686B1 (de)
AT (2) ATE425531T1 (de)
CA (1) CA2373520C (de)
DE (2) DE60014363T2 (de)
WO (1) WO2000074038A1 (de)

Families Citing this family (147)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5807670A (en) * 1995-08-14 1998-09-15 Abbott Laboratories Detection of hepatitis GB virus genotypes
EP0948844A2 (de) * 1997-09-30 1999-10-13 Koninklijke Philips Electronics N.V. Verfahren und vorrichtung zur detektion von bits in einem datensignal
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
AU6175500A (en) * 1999-07-30 2001-02-19 Indinell Sociedad Anonima Method and apparatus for processing digital images and audio data
DE69932861T2 (de) * 1999-10-30 2007-03-15 Stmicroelectronics Asia Pacific Pte Ltd. Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung
JP3507743B2 (ja) * 1999-12-22 2004-03-15 インターナショナル・ビジネス・マシーンズ・コーポレーション 圧縮オーディオデータへの電子透かし方法およびそのシステム
EP1199711A1 (de) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Kodierung von Audiosignalen unter Verwendung von Vergrösserung der Bandbreite
BR0107420A (pt) * 2000-11-03 2002-10-08 Koninkl Philips Electronics Nv Processos de codificação de um sinal de entrada e de decodificação, sinal modificado modelado, meio de armazenagem, decodificador, reprodutor de áudio, e ,aparelho para codificação de sinais
US7062445B2 (en) * 2001-01-26 2006-06-13 Microsoft Corporation Quantization loop with heuristic approach
CN1167034C (zh) * 2001-02-27 2004-09-15 华为技术有限公司 图像预去噪的方法
US6757648B2 (en) * 2001-06-28 2004-06-29 Microsoft Corporation Techniques for quantization of spectral data in transcoding
US6882685B2 (en) * 2001-09-18 2005-04-19 Microsoft Corporation Block transform and quantization for image and video coding
EP1318611A1 (de) * 2001-12-06 2003-06-11 Deutsche Thomson-Brandt Gmbh Verfahren zum Erfassen eines empfindlichen Kriteriums zur Detektion eines quantisierten Spektrums
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7027982B2 (en) * 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US7242713B2 (en) * 2002-05-02 2007-07-10 Microsoft Corporation 2-D transforms for image and video coding
US6980695B2 (en) * 2002-06-28 2005-12-27 Microsoft Corporation Rate allocation for mixed content video
US7363230B2 (en) * 2002-08-01 2008-04-22 Yamaha Corporation Audio data processing apparatus and audio data distributing apparatus
US7356186B2 (en) * 2002-08-23 2008-04-08 Kulas Charles J Digital representation of audio waveforms using peak shifting to provide increased dynamic range
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
US7424434B2 (en) * 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7536305B2 (en) 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7328150B2 (en) * 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
TW573293B (en) * 2002-09-13 2004-01-21 Univ Nat Central Nonlinear operation method suitable for audio encoding/decoding and an applied hardware thereof
US6831868B2 (en) * 2002-12-05 2004-12-14 Intel Corporation Byte aligned redundancy for memory array
DE10306022B3 (de) * 2003-02-13 2004-02-19 Siemens Ag Dreistufige Einzelworterkennung
US7471726B2 (en) * 2003-07-15 2008-12-30 Microsoft Corporation Spatial-domain lapped transform in digital media compression
US7609763B2 (en) * 2003-07-18 2009-10-27 Microsoft Corporation Advanced bi-directional predictive coding of video frames
US7343291B2 (en) 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
US10554985B2 (en) 2003-07-18 2020-02-04 Microsoft Technology Licensing, Llc DC coefficient signaling at small quantization step sizes
US7738554B2 (en) * 2003-07-18 2010-06-15 Microsoft Corporation DC coefficient signaling at small quantization step sizes
US7383180B2 (en) * 2003-07-18 2008-06-03 Microsoft Corporation Constant bitrate media encoding techniques
US7580584B2 (en) * 2003-07-18 2009-08-25 Microsoft Corporation Adaptive multiple quantization
US7602851B2 (en) * 2003-07-18 2009-10-13 Microsoft Corporation Intelligent differential quantization of video coding
US8218624B2 (en) * 2003-07-18 2012-07-10 Microsoft Corporation Fractional quantization step sizes for high bit rates
US7724827B2 (en) 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7369709B2 (en) * 2003-09-07 2008-05-06 Microsoft Corporation Conditional lapped transform
JP2005202262A (ja) * 2004-01-19 2005-07-28 Matsushita Electric Ind Co Ltd 音声信号符号化方法、音声信号復号化方法、送信機、受信機、及びワイヤレスマイクシステム
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
US7680208B2 (en) * 2004-02-25 2010-03-16 Nokia Corporation Multiscale wireless communication
EP1741093B1 (de) 2004-03-25 2011-05-25 DTS, Inc. Skalierbarer verlustloser audio-codec und erstellungs-werkzeug
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
US20050232497A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation High-fidelity transcoding
KR101037931B1 (ko) * 2004-05-13 2011-05-30 삼성전자주식회사 2차원 데이터 처리를 이용한 음성 신호 압축 및 복원장치와 그 방법
US7487193B2 (en) * 2004-05-14 2009-02-03 Microsoft Corporation Fast video codec transform implementations
US7801383B2 (en) * 2004-05-15 2010-09-21 Microsoft Corporation Embedded scalar quantizers with arbitrary dead-zone ratios
US7930184B2 (en) 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
US7471850B2 (en) * 2004-12-17 2008-12-30 Microsoft Corporation Reversible transform for lossy and lossless 2-D data compression
US7305139B2 (en) * 2004-12-17 2007-12-04 Microsoft Corporation Reversible 2-dimensional pre-/post-filtering for lapped biorthogonal transform
US7428342B2 (en) * 2004-12-17 2008-09-23 Microsoft Corporation Reversible overlap operator for efficient lossless data compression
US20060217970A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for noise reduction
US20060217988A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for adaptive level control
US20060217983A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for injecting comfort noise in a communications system
US20060215683A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for voice quality enhancement
US20070160154A1 (en) * 2005-03-28 2007-07-12 Sukkar Rafid A Method and apparatus for injecting comfort noise in a communications signal
US20060217972A1 (en) * 2005-03-28 2006-09-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
US8422546B2 (en) 2005-05-25 2013-04-16 Microsoft Corporation Adaptive video encoding using a perceptual model
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
US8036274B2 (en) * 2005-08-12 2011-10-11 Microsoft Corporation SIMD lapped transform-based digital media encoding/decoding
FR2891100B1 (fr) * 2005-09-22 2008-10-10 Georges Samake Codec audio utilisant la transformation de fourier rapide, le recouvrement partiel et une decomposition en deux plans basee sur l'energie.
US7689052B2 (en) * 2005-10-07 2010-03-30 Microsoft Corporation Multimedia signal processing using fixed-point approximations of linear transforms
ES2296489B1 (es) * 2005-12-02 2009-04-01 Cesar Alonso Abad Metodo escalable de compresion de audio e imagenes.
TWI311856B (en) * 2006-01-04 2009-07-01 Quanta Comp Inc Synthesis subband filtering method and apparatus
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7974340B2 (en) * 2006-04-07 2011-07-05 Microsoft Corporation Adaptive B-picture quantization control
US8503536B2 (en) * 2006-04-07 2013-08-06 Microsoft Corporation Quantization adjustments for DC shift artifacts
US7995649B2 (en) 2006-04-07 2011-08-09 Microsoft Corporation Quantization adjustment based on texture level
US8130828B2 (en) 2006-04-07 2012-03-06 Microsoft Corporation Adjusting quantization to preserve non-zero AC coefficients
US8059721B2 (en) 2006-04-07 2011-11-15 Microsoft Corporation Estimating sample-domain distortion in the transform domain with rounding compensation
US8254717B2 (en) * 2006-04-21 2012-08-28 Tp Vision Holding B.V. Picture enhancement by utilizing quantization precision of regions
TWI316189B (en) * 2006-05-01 2009-10-21 Silicon Motion Inc Block-based method for processing wma stream
US8711925B2 (en) * 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
JP4325657B2 (ja) * 2006-10-02 2009-09-02 ソニー株式会社 光ディスク再生装置、信号処理方法、およびプログラム
WO2008072670A1 (ja) * 2006-12-13 2008-06-19 Panasonic Corporation 符号化装置、復号装置、およびこれらの方法
US20100049512A1 (en) * 2006-12-15 2010-02-25 Panasonic Corporation Encoding device and encoding method
US8238424B2 (en) 2007-02-09 2012-08-07 Microsoft Corporation Complexity-based adaptive preprocessing for multiple-pass video compression
US8942289B2 (en) * 2007-02-21 2015-01-27 Microsoft Corporation Computational complexity and precision control in transform-based digital media codec
US8498335B2 (en) * 2007-03-26 2013-07-30 Microsoft Corporation Adaptive deadzone size adjustment in quantization
US8243797B2 (en) * 2007-03-30 2012-08-14 Microsoft Corporation Regions of interest for quality adjustments
US8442337B2 (en) * 2007-04-18 2013-05-14 Microsoft Corporation Encoding adjustments for animation content
US8331438B2 (en) 2007-06-05 2012-12-11 Microsoft Corporation Adaptive selection of picture-level quantization parameters for predicted video pictures
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8254455B2 (en) * 2007-06-30 2012-08-28 Microsoft Corporation Computing collocated macroblock information for direct mode macroblocks
US8457958B2 (en) 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
US8239210B2 (en) 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
US8386271B2 (en) * 2008-03-25 2013-02-26 Microsoft Corporation Lossless and near lossless scalable audio codec
US8189933B2 (en) * 2008-03-31 2012-05-29 Microsoft Corporation Classifying and controlling encoding quality for textured, dark smooth and smooth video content
US8164862B2 (en) * 2008-04-02 2012-04-24 Headway Technologies, Inc. Seed layer for TMR or CPP-GMR sensor
US8325800B2 (en) 2008-05-07 2012-12-04 Microsoft Corporation Encoding streaming media as a high bit rate layer, a low bit rate layer, and one or more intermediate bit rate layers
US8379851B2 (en) * 2008-05-12 2013-02-19 Microsoft Corporation Optimized client side rate control and indexed file layout for streaming media
US8369638B2 (en) 2008-05-27 2013-02-05 Microsoft Corporation Reducing DC leakage in HD photo transform
US8447591B2 (en) * 2008-05-30 2013-05-21 Microsoft Corporation Factorization of overlapping tranforms into two block transforms
US7949775B2 (en) * 2008-05-30 2011-05-24 Microsoft Corporation Stream selection for enhanced media streaming
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
US8265140B2 (en) * 2008-09-30 2012-09-11 Microsoft Corporation Fine-grained client-side control of scalable media delivery
US8275209B2 (en) * 2008-10-10 2012-09-25 Microsoft Corporation Reduced DC gain mismatch and DC leakage in overlap transform processing
ES2404084T3 (es) * 2008-12-30 2013-05-23 Arcelik Anonim Sirketi Equipo de audio y procedimiento de procesamiento de señales del mismo
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8396114B2 (en) * 2009-01-29 2013-03-12 Microsoft Corporation Multiple bit rate video encoding using variable bit rate and dynamic resolution for adaptive video streaming
US8311115B2 (en) * 2009-01-29 2012-11-13 Microsoft Corporation Video encoding using previously calculated motion information
US8189666B2 (en) 2009-02-02 2012-05-29 Microsoft Corporation Local picture identifier and computation of co-located information
US8533181B2 (en) * 2009-04-29 2013-09-10 Oracle International Corporation Partition pruning via query rewrite
US8270473B2 (en) * 2009-06-12 2012-09-18 Microsoft Corporation Motion based dynamic resolution multiple bit rate video encoding
KR101282193B1 (ko) * 2009-11-10 2013-07-04 한국전자통신연구원 칼만 필터와 fir 필터를 사용한 동영상 인코더에서의 비트율 제어 방법
WO2011076285A1 (en) * 2009-12-23 2011-06-30 Nokia Corporation Sparse audio
US8705616B2 (en) 2010-06-11 2014-04-22 Microsoft Corporation Parallel multiple bitrate video encoding to reduce latency and dependences between groups of pictures
US9591318B2 (en) 2011-09-16 2017-03-07 Microsoft Technology Licensing, Llc Multi-layer encoding and decoding
US11089343B2 (en) 2012-01-11 2021-08-10 Microsoft Technology Licensing, Llc Capability advertisement, configuration and control for video coding and decoding
JPWO2013118476A1 (ja) * 2012-02-10 2015-05-11 パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America 音響/音声符号化装置、音響/音声復号装置、音響/音声符号化方法および音響/音声復号方法
EP2873074A4 (de) * 2012-07-12 2016-04-13 Nokia Technologies Oy Vektorquantisierung
JP6065452B2 (ja) * 2012-08-14 2017-01-25 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
KR102204136B1 (ko) 2012-08-22 2021-01-18 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법
JP6146069B2 (ja) 2013-03-18 2017-06-14 富士通株式会社 データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム
ES2628127T3 (es) * 2013-04-05 2017-08-01 Dolby International Ab Cuantificador avanzado
KR102150496B1 (ko) 2013-04-05 2020-09-01 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US11146903B2 (en) 2013-05-29 2021-10-12 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
KR102244612B1 (ko) 2014-04-21 2021-04-26 삼성전자주식회사 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법
US9620137B2 (en) * 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
FI3405950T3 (fi) * 2016-01-22 2022-12-15 Stereoaudiokoodaus ILD-pohjaisella normalisoinnilla ennen keski/sivupäätöstä
US10602028B2 (en) * 2016-07-08 2020-03-24 Hewlett-Packard Development Company, L.P. Color table compression
US11386913B2 (en) 2017-08-01 2022-07-12 Dolby Laboratories Licensing Corporation Audio object classification based on location metadata
US11277455B2 (en) 2018-06-07 2022-03-15 Mellanox Technologies, Ltd. Streaming system
US11625393B2 (en) * 2019-02-19 2023-04-11 Mellanox Technologies, Ltd. High performance computing system
EP3699770A1 (de) 2019-02-25 2020-08-26 Mellanox Technologies TLV Ltd. System und verfahren zur kollektiven kommunikation
US11750699B2 (en) 2020-01-15 2023-09-05 Mellanox Technologies, Ltd. Small message aggregation
US11252027B2 (en) 2020-01-23 2022-02-15 Mellanox Technologies, Ltd. Network element supporting flexible data reduction operations
US11533033B2 (en) * 2020-06-12 2022-12-20 Bose Corporation Audio signal amplifier gain control
US11876885B2 (en) 2020-07-02 2024-01-16 Mellanox Technologies, Ltd. Clock queue with arming and/or self-arming features
US11556378B2 (en) 2020-12-14 2023-01-17 Mellanox Technologies, Ltd. Offloading execution of a multi-task parameter-dependent operation to a network device
CN112737711B (zh) * 2020-12-24 2023-04-18 成都戎星科技有限公司 一种基于自适应噪声基底估计的宽带载波检测方法
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质
US11922237B1 (en) 2022-09-12 2024-03-05 Mellanox Technologies, Ltd. Single-step collective operations
CN116403599B (zh) * 2023-06-07 2023-08-15 中国海洋大学 一种高效的语音分离方法及其模型搭建方法

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3988214A (en) * 1968-06-17 1976-10-26 Nippon Electric Company, Ltd. Method of fabricating a semiconductor device
JPS5124341B2 (de) * 1971-12-24 1976-07-23
US3775262A (en) * 1972-02-09 1973-11-27 Ncr Method of making insulated gate field effect transistor
JPS4995591A (de) * 1973-01-12 1974-09-10
US4040073A (en) * 1975-08-29 1977-08-02 Westinghouse Electric Corporation Thin film transistor and display panel using the transistor
US4236167A (en) * 1978-02-06 1980-11-25 Rca Corporation Stepped oxide, high voltage MOS transistor with near intrinsic channel regions of different doping levels
US4232327A (en) * 1978-11-13 1980-11-04 Rca Corporation Extended drain self-aligned silicon gate MOSFET
US4336550A (en) * 1980-03-20 1982-06-22 Rca Corporation CMOS Device with silicided sources and drains and method
EP0058548B1 (de) * 1981-02-16 1986-08-06 Fujitsu Limited Verfahren zur Herstellung einer Halbleitervorrichtung des Typs MOSFET
JPS5823479A (ja) * 1981-08-05 1983-02-12 Fujitsu Ltd 半導体装置の製造方法
JPS59188974A (ja) * 1983-04-11 1984-10-26 Nec Corp 半導体装置の製造方法
US4503601A (en) * 1983-04-18 1985-03-12 Ncr Corporation Oxide trench structure for polysilicon gates and interconnects
JPH0693509B2 (ja) * 1983-08-26 1994-11-16 シャープ株式会社 薄膜トランジスタ
US4727044A (en) * 1984-05-18 1988-02-23 Semiconductor Energy Laboratory Co., Ltd. Method of making a thin film transistor with laser recrystallized source and drain
DE3530065C2 (de) * 1984-08-22 1999-11-18 Mitsubishi Electric Corp Verfahren zur Herstellung eines Halbleiters
DE3682021D1 (de) * 1985-10-23 1991-11-21 Hitachi Ltd Polysilizium-mos-transistor und verfahren zu seiner herstellung.
US4701423A (en) * 1985-12-20 1987-10-20 Ncr Corporation Totally self-aligned CMOS process
US4755865A (en) * 1986-01-21 1988-07-05 Motorola Inc. Means for stabilizing polycrystalline semiconductor layers
US4690730A (en) * 1986-03-07 1987-09-01 Texas Instruments Incorporated Oxide-capped titanium silicide formation
JPS62229873A (ja) * 1986-03-29 1987-10-08 Hitachi Ltd 薄膜半導体装置の製造方法
JPH0777264B2 (ja) * 1986-04-02 1995-08-16 三菱電機株式会社 薄膜トランジスタの製造方法
US4728617A (en) * 1986-11-04 1988-03-01 Intel Corporation Method of fabricating a MOSFET with graded source and drain regions
US4753896A (en) * 1986-11-21 1988-06-28 Texas Instruments Incorporated Sidewall channel stop process
JPH0687503B2 (ja) * 1987-03-11 1994-11-02 株式会社日立製作所 薄膜半導体装置
US5024960A (en) * 1987-06-16 1991-06-18 Texas Instruments Incorporated Dual LDD submicron CMOS process for making low and high voltage transistors with common gate
US5258319A (en) * 1988-02-19 1993-11-02 Mitsubishi Denki Kabushiki Kaisha Method of manufacturing a MOS type field effect transistor using an oblique ion implantation step
US5238859A (en) * 1988-04-26 1993-08-24 Kabushiki Kaisha Toshiba Method of manufacturing semiconductor device
JP2653099B2 (ja) * 1988-05-17 1997-09-10 セイコーエプソン株式会社 アクティブマトリクスパネル,投写型表示装置及びビューファインダー
JPH01291467A (ja) * 1988-05-19 1989-11-24 Toshiba Corp 薄膜トランジスタ
JP2752991B2 (ja) * 1988-07-14 1998-05-18 株式会社東芝 半導体装置
US5146291A (en) * 1988-08-31 1992-09-08 Mitsubishi Denki Kabushiki Kaisha MIS device having lightly doped drain structure
US4971837A (en) * 1989-04-03 1990-11-20 Ppg Industries, Inc. Chip resistant coatings and methods of application
JPH0787189B2 (ja) * 1990-01-19 1995-09-20 松下電器産業株式会社 半導体装置の製造方法
KR950000141B1 (ko) * 1990-04-03 1995-01-10 미쓰비시 뎅끼 가부시끼가이샤 반도체 장치 및 그 제조방법
EP0456199B1 (de) * 1990-05-11 1997-08-27 Asahi Glass Company Ltd. Verfahren zum Herstellen eines Dünnfilm-Transistors mit polykristallinem Halbleiter
US5126283A (en) * 1990-05-21 1992-06-30 Motorola, Inc. Process for the selective encapsulation of an electrically conductive structure in a semiconductor device
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5227321A (en) * 1990-07-05 1993-07-13 Micron Technology, Inc. Method for forming MOS transistors
JP3163092B2 (ja) * 1990-08-09 2001-05-08 株式会社東芝 半導体装置の製造方法
JP2940880B2 (ja) * 1990-10-09 1999-08-25 三菱電機株式会社 半導体装置およびその製造方法
US5514879A (en) * 1990-11-20 1996-05-07 Semiconductor Energy Laboratory Co., Ltd. Gate insulated field effect transistors and method of manufacturing the same
JP2999271B2 (ja) * 1990-12-10 2000-01-17 株式会社半導体エネルギー研究所 表示装置
US5097301A (en) * 1990-12-19 1992-03-17 Intel Corporation Composite inverse T-gate metal oxide semiconductor device and method of fabrication
DE69125260T2 (de) * 1990-12-28 1997-10-02 Sharp Kk Ein Verfahren zum Herstellen eines Dünnfilm-Transistors und eines Aktive-Matrix-Substrates für Flüssig-Kristall-Anzeige-Anordnungen
US5625714A (en) * 1991-01-10 1997-04-29 Olympus Optical Co., Ltd. Image signal decoding device capable of removing block distortion with simple structure
US5289030A (en) * 1991-03-06 1994-02-22 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device with oxide layer
US5521107A (en) * 1991-02-16 1996-05-28 Semiconductor Energy Laboratory Co., Ltd. Method for forming a field-effect transistor including anodic oxidation of the gate
EP0499979A3 (en) * 1991-02-16 1993-06-09 Semiconductor Energy Laboratory Co., Ltd. Electro-optical device
USRE36314E (en) * 1991-03-06 1999-09-28 Semiconductor Energy Laboratory Co., Ltd. Insulated gate field effect semiconductor devices having a LDD region and an anodic oxide film of a gate electrode
JP2794678B2 (ja) * 1991-08-26 1998-09-10 株式会社 半導体エネルギー研究所 絶縁ゲイト型半導体装置およびその作製方法
JP2794499B2 (ja) * 1991-03-26 1998-09-03 株式会社半導体エネルギー研究所 半導体装置の作製方法
JP3277548B2 (ja) * 1991-05-08 2002-04-22 セイコーエプソン株式会社 ディスプレイ基板
JP2717237B2 (ja) * 1991-05-16 1998-02-18 株式会社 半導体エネルギー研究所 絶縁ゲイト型半導体装置およびその作製方法
US5151374A (en) * 1991-07-24 1992-09-29 Industrial Technology Research Institute Method of forming a thin film field effect transistor having a drain channel junction that is spaced from the gate electrode
JP2845303B2 (ja) * 1991-08-23 1999-01-13 株式会社 半導体エネルギー研究所 半導体装置とその作製方法
US5650338A (en) * 1991-08-26 1997-07-22 Semiconductor Energy Laboratory Co., Ltd. Method for forming thin film transistor
US5545571A (en) * 1991-08-26 1996-08-13 Semiconductor Energy Laboratory Co., Ltd. Method of making TFT with anodic oxidation process using positive and negative voltages
US5495121A (en) * 1991-09-30 1996-02-27 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device
JP2650543B2 (ja) * 1991-11-25 1997-09-03 カシオ計算機株式会社 マトリクス回路駆動装置
JP2564725B2 (ja) * 1991-12-24 1996-12-18 株式会社半導体エネルギー研究所 Mos型トランジスタの作製方法
JP3313432B2 (ja) * 1991-12-27 2002-08-12 株式会社東芝 半導体装置及びその製造方法
US5485019A (en) * 1992-02-05 1996-01-16 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and method for forming the same
US5241139A (en) * 1992-03-25 1993-08-31 International Business Machines Corporation Method and apparatus for determining the position of a member contacting a touch screen
KR0166717B1 (ko) * 1992-06-18 1999-03-20 강진구 가변화면분할기법을 이용한 부호화/복호화방법 및 장치
US5412493A (en) * 1992-09-25 1995-05-02 Sony Corporation Liquid crystal display device having LDD structure type thin film transistors connected in series
TW232751B (en) * 1992-10-09 1994-10-21 Semiconductor Energy Res Co Ltd Semiconductor device and method for forming the same
US5403762A (en) * 1993-06-30 1995-04-04 Semiconductor Energy Laboratory Co., Ltd. Method of fabricating a TFT
JP3587537B2 (ja) * 1992-12-09 2004-11-10 株式会社半導体エネルギー研究所 半導体装置
JP3437863B2 (ja) * 1993-01-18 2003-08-18 株式会社半導体エネルギー研究所 Mis型半導体装置の作製方法
US5747355A (en) * 1993-03-30 1998-05-05 Semiconductor Energy Laboratory Co., Ltd. Method for producing a transistor using anodic oxidation
US5572040A (en) * 1993-07-12 1996-11-05 Peregrine Semiconductor Corporation High-frequency wireless communication system on a single ultrathin silicon on sapphire chip
US5492843A (en) * 1993-07-31 1996-02-20 Semiconductor Energy Laboratory Co., Ltd. Method of fabricating semiconductor device and method of processing substrate
TW297142B (de) * 1993-09-20 1997-02-01 Handotai Energy Kenkyusho Kk
US6777763B1 (en) * 1993-10-01 2004-08-17 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and method for fabricating the same
US5719065A (en) * 1993-10-01 1998-02-17 Semiconductor Energy Laboratory Co., Ltd. Method for manufacturing semiconductor device with removable spacers
JP3030368B2 (ja) * 1993-10-01 2000-04-10 株式会社半導体エネルギー研究所 半導体装置およびその作製方法
JPH07135323A (ja) * 1993-10-20 1995-05-23 Semiconductor Energy Lab Co Ltd 薄膜状半導体集積回路およびその作製方法
KR970010685B1 (ko) * 1993-10-30 1997-06-30 삼성전자 주식회사 누설전류가 감소된 박막 트랜지스터 및 그 제조방법
TW299897U (en) * 1993-11-05 1997-03-01 Semiconductor Energy Lab A semiconductor integrated circuit
US5576231A (en) * 1993-11-05 1996-11-19 Semiconductor Energy Laboratory Co., Ltd. Process for fabricating an insulated gate field effect transistor with an anodic oxidized gate electrode
JP2873660B2 (ja) * 1994-01-08 1999-03-24 株式会社半導体エネルギー研究所 半導体集積回路の作製方法
JP3330736B2 (ja) * 1994-07-14 2002-09-30 株式会社半導体エネルギー研究所 半導体装置の作製方法
US5789762A (en) * 1994-09-14 1998-08-04 Semiconductor Energy Laboratory Co., Ltd. Semiconductor active matrix circuit
JP3152109B2 (ja) 1995-05-30 2001-04-03 日本ビクター株式会社 オーディオ信号の圧縮伸張方法
JP3246715B2 (ja) 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
US6006179A (en) * 1997-10-28 1999-12-21 America Online, Inc. Audio codec using adaptive sparse vector quantization with subband vector classification
US6256422B1 (en) * 1998-11-04 2001-07-03 International Business Machines Corporation Transform-domain correction of real-domain errors
US6370502B1 (en) * 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec

Also Published As

Publication number Publication date
US20070083364A1 (en) 2007-04-12
US6370502B1 (en) 2002-04-09
US20050159940A1 (en) 2005-07-21
DE60014363D1 (de) 2004-11-04
CA2373520C (en) 2006-01-24
EP1181686A1 (de) 2002-02-27
US7418395B2 (en) 2008-08-26
US20130173271A1 (en) 2013-07-04
EP1480201A3 (de) 2005-01-19
EP1480201B1 (de) 2009-03-11
EP1480201A2 (de) 2004-11-24
US20110282677A1 (en) 2011-11-17
CA2373520A1 (en) 2000-12-07
DE60041790D1 (de) 2009-04-23
US8010371B2 (en) 2011-08-30
US6885993B2 (en) 2005-04-26
ATE278236T1 (de) 2004-10-15
WO2000074038A1 (en) 2000-12-07
US20020111801A1 (en) 2002-08-15
US20020116199A1 (en) 2002-08-22
US8712785B2 (en) 2014-04-29
US6704706B2 (en) 2004-03-09
US20090063164A1 (en) 2009-03-05
ATE425531T1 (de) 2009-03-15
EP1181686B1 (de) 2004-09-29
US7181403B2 (en) 2007-02-20
US8285558B2 (en) 2012-10-09
US20130173272A1 (en) 2013-07-04

Similar Documents

Publication Publication Date Title
DE60014363T2 (de) Verringerung der von der quantisierung verursachten datenblock-diskontinuitäten in einem audio-kodierer
EP1687810B1 (de) Vorrichtung und verfahren zum ermitteln einer quantisierer-schrittweite
EP2022043B1 (de) Informationssignalcodierung
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
EP1697930B1 (de) Vorrichtung und verfahren zum verarbeiten eines multikanalsignals
EP1495464B1 (de) Vorrichtung und verfahren zum codieren eines zeitdiskreten audiosignals und vorrichtung und verfahren zum decodieren von codierten audiodaten
EP3544003B1 (de) Vorrichtung und verfahren zum ermitteln eines schätzwerts
EP1502255B1 (de) Vorrichtung und verfahren zum skalierbaren codieren und vorrichtung und verfahren zum skalierbaren decodieren eines audiosignales
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE10345995B4 (de) Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
EP1609084B1 (de) Vorrichtung und verfahren zum umsetzen in eine transformierte darstellung oder zum inversen umsetzen der transformierten darstellung
EP1397799B1 (de) Verfahren und vorrichtung zum verarbeiten von zeitdiskreten audio-abtastwerten
DE60310449T2 (de) Audiosignalkodierung
DE602004007550T2 (de) Verbesserte frequenzbereichs-fehlerverbergung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE60112407T2 (de) Verfahren und vorrichtung zur konvertierung eines audiosignals zwischen unterschiedlichen datenkompressionsformaten
DE60011606T2 (de) Audiokodierung mit verstärkungsadaptiver quantisierung und symbolen verschiedener länge
EP1247275B1 (de) Vorrichtung und verfahren zum bestimmen eines codierungs-blockrasters eines decodierten signals
EP1277346B1 (de) Vorrichtung und Verfahren zum Analysieren der spektralen Darstellung eines decodierten Zeitsignales
DE102020210917B4 (de) Verbesserter M/S-Stereo-Codierer und -Decodierer

Legal Events

Date Code Title Description
8364 No opposition during term of opposition