Übertragungssysteme WS 2011/2012 Vorlesung 7 Prof. Dr.-Ing. Karlheinz Brandenburg Karlheinz.Brandenburg@tu-ilmenau.de Kontakt: Dipl.-Ing.(FH) Sara Kepplinger / Dipl.-Inf. Thomas Köllmer vorname.nachname@tu-ilmenau.de
Bisher: Gehör und gehörangepasste Codierung Sprachcodierung Spezielle Coder Heute: Beispiele Audiocodierung u. Entwicklung MPEG Audio Surroundverfahren Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 2
Hybride Coder Waveform Coder: Gute Sprachqualität, aber relativ hohe Datenraten Vocoder : Sehr niedrige Datenraten, aber unnatürlicher Klang. Grund: Beschreibung des LPC-Restsignals durch Rauschen und regelmäßige Impulsfolgen ist zu simplistisch. Das LPC-Restsignal enthält einen großen Teil der sprechertypischen Signaleigenschaften. (Anm.: Modellierung des Sprachtrakts durch Filter ist ausreichend gut) Kompromiss: Hybride Coder Weitgehende Parameterextraktion t durch LPC-Analyse (incl. Langzeitprädiktion) Sehr kompakte Darstellung des Restsignals (Erregung) durch Vektorquantisierung Minimierung des Fehlers durch "Analysis-by-Synthesis" y y Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 3
Hybride Coder Die "Analysis-by-Synthesis"-Technik (AbS): Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 4
Hybride Coder Codierung mit Hilfe von "Analysis-by-Synthesis": Generiere Erregungssignal x(n) für Parametersatz Synthetisiere Sprachsignal s(n) durch Filterung Errechne Fehlersignal e(n) Wichte Fehlersignal durch Bewertungsfilter e w (n) Errechne Fehlermaß Wiederhole Schritte mit neuem Parametersatz bis optimale Lösung gefunden Analysis-by-Synthesis i... ermöglicht das Finden der besten Lösung auch bei Problemen, die nicht analytisch lösbar sind erlaubt das Einbeziehen wahrnehmungsbedingter Effekte mittels des Bewertungsfilters Nutzung von Irrelevanz Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 5
Hybride Coder Arten der Generierung des Erregungssignals: Multi Pulse Excitation (MPE) Erregungssignal besteht aus Impulsen variabler Position und Amplitude Bestimmung i von Position i &A Amplitude für jeden Impuls Regular Pulse Excitation (RPE) Erregung besteht aus regelmäßig angeordneten Impulsen variabler Amplitude Bestimmung von Startposition, Impulsabstand und Amplituden Code Excited Linear Prediction (CELP) Erregungssequenzen werden als Vektoren in einem Codebuch abgespeichert ( Vektorquantisierung, VQ). Gesendet wird der am besten passendste Eintrag im Codebuch Suchalgorithmus Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 6
Funktionsdiagramm eines CELP Coders: Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 7
Charakteristika von CELP Codern: Außerordentlich erfolgreich im Bereich der Telekommunikation (G.723.1, G.728, G.729...) Niedrige Bitraten möglich (4.8... 16 kbit/s) Gute Sprachverständlichkeit und Natürlichkeit Aufwendige Codebuchsuche (erste Implementierungen: 125s Rechenzeit für 1s Sprache auf CRAY-1 Rechner!) etliche Variationen verfügbar Orthogonalisierung der Vektoren (z.b. VSELP) Nur teilweise i besetzte Codebucheinträge Strukturierte Codebücher Berechnung im Frequenzbereich Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 8
Übersicht Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 9
Gehörangepasste Codierung Beschreibung der Teilblöcke eines perceptual coders Analyse-Filterbank Aufgabe: Aufteilung in Spektralbereiche Kompromiß zw. Zeitauflösung und Frequenzauflösung ist notwendig Schätzung der aktuellen Hörschwelle: je besser das verwendete Modell, desto geringere g Datenrate kann erreicht werden Quantisierung und Codierung: abhängig von der Filterbank, notwendig sind flexible Anpassung an die Statistik ik der Eingangsdaten und gute Redundanzreduktion d d Zusammensetzung des Bitstroms: weitgehend abhängig von den anderen Blöcken, hier können Maßnahmen zur Verbesserung der Robustheit gegen Kanalstörungen ergriffen werden Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 10
Struktur eines typischen "Perceptual Coders" Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 11
Bisher: Gehör und gehörangepasste Codierung Sprachcodierung Spezielle Coder Heute: Beispiele Audiocodierung u. Entwicklung MPEG Audio Surroundverfahren Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 12
Subband-Codierung g( (auch Transform Coding) Zeitbereichsverfahren (nicht Subband-Codierung) Behandlung des Eingangssignals als einzelnes breitbandiges Signal. Verringerung der Redundanz durch Prädiktion und inverse Filterung im Empfänger. Frequenzbereichsverfahren Aufteilung des Signals in spektrale Komponenten, getrennte Codierung dieser Komponenten. Ziel: unkorrelierte Komponenten quantisieren und codieren. Vorteil: die Zahl der Bits, mit denen jede Komponente codiert wird, ist variabel. Vorteile von Subband-Codern: Einfache Kontrolle über Genauigkeit der Quantisierung Einfache Ausnutzung von Maskierungseffekten möglich Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 13
Block diagram of sub-band coding g( (SBC) X 1 () (t) X 1 () (t) u 1 (n) v 1 (n) y 1 (n) y 1 () (t) X(t) BPF 1 Encoder 1 D Decoder 1 BPF 1 M E f ST =2 W f U M L U T L I T P I L P E L X E f =2 W E X SM M R E BPF M Encoder M R Decoder M BPF M + y(t) Transmitter Channel Receiver Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 14
QMF-Filterbänke QMF: Quadrature Mirror Filter Beispiel für alias Cancellation (Auslöschung von Überfaltungsfehlern): Spiegeleigenschaften: Erwünscht (aber nicht exakt realisierbar): i Erweiterungen: Verallgemeinerte QFM-Filter (GQMF), QMF mit IIR- Filtern Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 15
Analyse/Synthese y mit Halbbandfiltern h1(n) Tiefpass 2:1 Unter- 1:2 Interabtastung polation h1(n) Tiefpass + h2(n) 2:1 Unterabtastung 1:2 Interpolation h2(n) Hochpass Hochpass Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 16
Filterbaum aus Halbbandfiltern mit Unterabtastung g( ( HB`) HB HB HB HB HB HB HB HB HB HB HB HB HB Berechnung von 8 Teilbändern HB Rekonstruktion des Signals aus 8 Teilbändern Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 17
SB-ADPCM, G722 Johnston (Bell Labs) 1979, CCITT 1986 Ziel: Übertragung hochwertiger Sprachsignale über das Telefonnetz Qualitätsbezeichnung: commentary grade Abtastrate: 16 khz Datenrate: 64 kbps Halbbandfilter (QMF) feste Bitzuteilung Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 18
Der Critical Band Coder M.A. Krasner, MIT Lincoln Laboratories, 1979 erste gehörangepasste Codierung von Musiksignalen Abtastfrequenz: 32kHz Analyse/Synthese: QMF-Filterbaum der Tiefe 2 bis 7 Bandbreite 117 Hz bis 3.75 khz (entsprechend den Frequenzgruppen) keine fortlaufende f Berechnung der Hörschwellen, aber worst-case- Betrachtung Quantisierung mit Block-Kompandierung, feste Bitordnung nach psychoakustischen Kriterien Datenrate 123.8 kbps Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 19
MSC Krahé und andere, Universität Duisburg, 1985 erste gehörangepasste Transformations-codierung Analyse/Synthese: FFT mit Umrechnung in Betrag/Phase Fensterlänge: 1024 ATW Fensterform: sine-taper, Überlappung 64 ATW threshold estimation: nur in-band-verdeckung berücksichtigt Quantisierung: Block-KompandierungGrobquantisierung: 2 bit je Betragswert Feinquantisierung: Betrag und Phase, nach psychoakustischen Kriterien preecho control: Zusätzliche Kompandierung im Zeitbereich Datenrate: 2.5 bis 3 bit/atw Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 20
PXFM J.D. Johnston, AT&T Bell Labs, 1988,1990 Faltung mit spreading function, Korrektur um DC-gain bit packing, Anpassung der Quantisierungsstufen in einer Iterationsschleife erste explizite Berücksichtung der Tonalität 13,5 khz Tiefpass, ADC Fensterlänge 2048, 1/16 overlap noise allocation lineare Quantisierung joint stereo coding (s.u.) Fensterung Transformation (2048 Pkt. FFT) Berechnung der Maskierungsschwelle Quantisierer Anpassung der Quantisierungsstufen bit packing Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 21
OCF Brandenburg, Universität Erlangen, 1987, 1988 Grundidee: ein weißes Störspektrum (Optimum im Sinn des kleinsten quadratischen Fehlers) kann auch durch Verwendung eines Quantisierers für das ganze Spektrum erreicht werden. Dann ist die Verwendung eines Entropie- Coders notwendig, um Datenreduktion zu erreichen. Zur Einhaltung der erlaubten Störung kann nach der Quantisierung die Störung je Frequenz-gruppe überprüft werden (analysis-by-synthesis) Ausführung (Version von 1988): MDCT-Filterbank mit Fensterlänge 1024 oder 512 explizite Berechnung der erlaubten Störung mit vereinfachtem Modell Berechnung je Frequenzgruppe keine Beachtung der Tonalität Maximums-Rechnung statt Faltung nichtlineare Quantisierung (Quantisierungsfehler abhängig von Amplitude) Huffman-Codierung von Paaren von Spektral-werten Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 22
Block diagram of the OCF-Coder: iteration loops Loop 1 W Quantizer Entropy Coder Output Loop 2 Psychoacustic Weighting side information W = Weighting factors Block diagram of the OCF-Decoder demultiplex huffman decode Transform synthesis window overlap and add Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 23
Block diagram of the OCF-Coder available bits Input overlap analysis window Calculation of masking threshold Iterationti until bit count < avail. Bits and quantization noise lower MPX transform than masking threshold MPX = Multiplex of side information and main data Quantizer (nonlinear) entropy coder Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 24
Low-Complexity-ATC Brandenburg, Universität Erlangen, 1987, ähnlich bei Dolby Labs, 1989 (AC-2) abgeleitet aus der klassischen ATC Blockkompandierung, dadurch keine Übersteuerung Bitzuteilung je Band und nicht je Linie/Teilband Einteilung der Bänder nach Psychoakustik Bitzuteilung: Minimalwerte zur Sicherstellung der Maskierung Beachtung der Tonalität durch Energie-proportionale Aufteilung der Rest-Bits vereinfachte Bitzuteilung t il für Teilbits Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 25
MUSICAM MASCAM: Theile, Stoll, Link, Institut für Rundfunktechnik, 1986 MUSICAM: IRT, CCETT, Philips, Matsushita 1990 Subband-Codierung, d.h. gute Zeitauflösung, schlechte requenzauflösung erste Versionen: QMF-Baum als Filterbank letzte Version (1990): Polyphasen-Filterbank, 32 Kanäle Parallel-FFT zur feineren Berechnung der Maskierung Tonalitätsberechnung durch lokalen Größenvergleich der Spektralwerte Blockkompandierung der Teilbänder Direkte Übertragung der Bitzuteilung Datenreduktion bei den Skalenfaktoren durch «skale factor select information» Anordnung der Daten im Bitstrom ermöglicht Decodierung von der vollständigen Übertragung eines Datenblockes Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 26
MUSICAM Encoder Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 27
MUSICAM Decoder Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 28
Joint stereo coding Statistische Beobachtungen: Korrelationen im Zeitbereich nicht vorhanden Korrelationen im Frequenzbereich nur für Betragswerte Psychakustik von Stereosignalen: der «Party-effekt» (stereo unmasking) hohe Frequenzen sind weniger wichtig für den Raumeindruck Vorgeschlagene Verfahren: MS-Stereophonie: Matrizierung, angepasste Psychoakustik intensity-stereo: stereo: nur ein Signal bei hohen Frequenzen, Richtung steuerbar über Skalenfaktoren Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 29
ASPEC Uni Erlangen, FhG, AT&T Bell Labs, Deutsche Thomson-Brandt, CNET, 1990 Analyse/Synthese: MDCT mit geschalteten Blocklängen Berechnung der erlaubten Störung: 2 Modelle einfache Psychoakustik: wie OCF verbesserte Psychoakustik: wie PXFM + 1/3-Frequenzgruppe Auflösung + lokale Tonalität (wie Hybrid) Quantisierung/Codierung: wie OCF, aber Ergänzungen zusätzliche Auswahl von Huffman-Code-Tab. weitere Unterteilung des Spektrums (bessere Anpassung der Tabellen) Steuerung der Fensterumschaltung: durch Zeitbereichskriterium i i Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 30
ASPEC Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 31
Time/Frequency Breakdown of Hybrid Analysis Structure 24 khz 64 64 64 64 64 64 64 64 frequency frequency frequency frequency frequency frequency frequency frequency lines lines lines lines lines lines lines lines 12 khz 64 frequency lines 64 frequency lines 64 frequency lines 64 frequency lines 6 khz 64 frequency lines 64 frequency lines frequency 3 khz Time 128 frequency lines 1024 time domain samples Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 32
Audiocodierung Organisatorisches Organisatorisches Nächste Vorlesung: Montag, 28.11. 2011, 17:00 Uhr, SrHU129 Nächstes Seminar: Montag, 12.12. 2011, 17:00 Uhr Curie HS Prof. Dr.-Ing. Karlheinz Brandenburg, karlheinz.brandenburg@tu-ilmenau.de b il d Seite 33