Fachbereich Medieninformatik Hochschule Harz MPEG Audio Layer 1 Referat Kolja Schoon 10952 Abgabe: 15.01.2007 Stand: (Januar 2007) Autor: Kolja Schoon Seite 1
Inhaltsverzeichnis 1. Einleitung / Vorwort...3 2. Funktionsweise der Bitratenreduzierung...3 3. Kodierungstechnik...3 3.1 Umwandlung eines analogen in ein digitales Signal...3 3.2 Kodierung...4 3.3 Bitstromerzeugung...4 4. Dekodierungstechnik...4 5. Technische Möglichkeiten...5 6. Quellen 6.1 Literaturverzeichnis... 6 6.2 Bildquellen...6 Stand: (Januar 2007) Autor: Kolja Schoon Seite 2
1. Einleitung Das digitale Fernsehen der Zukunft wird digital kodierten Klang haben. Dadurch kann eine deutlich höhere Klangqualität erzielt werden als es beim analogen Fernsehen möglich ist. Die bessere Qualität bringt eine Erhöhung der zu übertragenen Datenmenge mit sich. Genau an dieser Stelle setzt die Arbeit der MPEG audio group ein. Sie hat MPEG Standards für die Kodierung von Audiodaten entwickelt. Die Datenrate kann dadurch wesentlich reduziert werden. Das Ziel dieser Hausarbeit ist, die Verfahren zur Kodierung und zur Dekodierung beim MPEG Audio Layer 1 Dateiformat näher zu erläutern. Allgemein versteht man unter MPEG Audio Layer 1 ein Dateiformat zur verlustbehafteten Audiodatenkompression. Diese Kodierungstechnik nutzt das spektrale und zeitliche Urteilsvermögen des menschlichen Gehörs aus, um die Datenmenge zu reduzieren. 2. Funktionsweise der Bitratenreduzierung Das Ziel ist, die Bitratenreduzierung so vorzunehmen, dass das menschliche Gehör keine Verschlechterung der Klangqualität wahrnimmt oder eine mögliche Verschlechterung auf ein Minimum reduziert wird. Dies gelingt durch zwei verschiedene Herangehensweisen: 1. Datenreduktion durch Redundanz: Dafür werden statistische Eigenschaften über die Audioquelle benötigt. 2. Datenreduktion durch Irrelevanz: Dabei werden die Anteile des Audiosignals eliminiert, welche das menschliche Gehör aufgrund der Lautstärke, der Zeitdauer oder des Spektrums des Audiosignals nicht wahrnehmen kann. Im Folgenden werden die Begriffe Frequenzmaskierung und die zeitliche Maskierung genauer erläutert. Frequenz-Maskierung: Dabei kommt es zu einem Verdeckungseffekt, d.h. ein Audiosignal wird durch weitere Signale überdeckt. Dies kann einerseits durch Fremdsignale erreicht werden. Andererseits ist es auch möglich, dass Spektralanteile im Signal selbst zur Verdeckung führen. Zeitliche Maskierung: Darunter ist zu verstehen, dass ein lautes Geräusch nachfolgende leisere Geräusche verdecken kann. Darüber hinaus kann durch laute Geräusche vorhergehendes Rauschen unterdrückt werden. Die zeitliche Verdeckung funktioniert kurz vor und kurz nach dem lauten Geräusch. Man spricht in dem Zusammenhang vom pre-masking sowie vom post-masking. Spezielles Ziel bei der Entwicklung von MPEG Audio Layer 1 war es, die Anforderungen an den Encoder zu minimieren. Darüber hinaus wurde darauf geachtet, dass der Aufwand der Entschlüsselung im Vergleich zur Verschlüsselung des Audiosignals minimiert wurde. Die Effektivität der Datenreduktion von MPEG Audio Layer 1 ist im Vergleich zu seinen Nachfolgern (MPEG layer 2, MPEG layer 3 (MP3)) jedoch eher gering. Im Nachfolgenden wird der Prozess der Datenreduktion im Einzelnen beschrieben: 3. Kodierungstechnik/Kompressionstechnik 3.1 Umwandlung eines analogen in ein digitales Signal Am Anfang liegt ein analoges Ausgangssignal vor, welches mittels Sampling und Quantisierung in ein digitales Signal umgewandelt wird. Eine Abtastrate von 48 khz führt bei einer Quantisierung von 16 Bit zu einer Bitrate von 768 kbit/s für einen monophonen Kanal (Einkanaltechnik bei der Tonübertragung). Stand: (Januar 2007) Autor: Kolja Schoon Seite 3
3.2 Kodierung Das digitalisierte Signal wir dann auf eine Filterbank und eine Fast Fourier Transformation (FFT) verzweigt. In der Filterbank wird das Signal mittels steilfl ankiger digitaler Bandpassfi lter in 32 gleich große Filterbänder (Subbands) mit jeweils 750 Hz aufgeteilt. Jedes Band wird nun einer Unterabtastung mit 1,5 khz unterzogen. Dadurch werden die Bänder in die Basisbandlage hinuntermoduliert. Zur Weiterverarbeitung werden Gruppen von 12 Samples mit einer zeitlichen Länge von insgesamt 8 ms gebildet. Als nächstes wird für jeden Block der Skalenfaktor der Maximalwert - bestimmt. Parallel dazu wird das Signal mittels FFT in den Frequenzbereich bei einer Genauigkeit von 512 Punkten transformiert. Nun kommt das psychoakustische Modell ins Spiel. Es benutzt die Ergebnisse des FFT und es errechnet anhand von Algorithmen, welche Frequenzanteile von der Maskierung betroffen sind. Zunächst werden die Frequenzanteile eliminiert, wobei die Maximalamplitude die Maskierungsschwelle (untere Hörschwelle) gar nicht erst erreicht. Danach wird alles, was über den maximalen Signalpegel hinausragt, ebenfalls gelöscht. Es bleibt der Bereich von der 0 db Linie bis zum aktuell höchsten Pegel des entsprechenden Frequenzbereichs übrig. Dieser wird dann von Block zu Block mit 2 bis 15 Bit neu quantisiert. 3.3 Bitsromerzeugung: Abb. 1. Aufbau eines Audiodatenstroms für MPEG standard (mono) Als nächstes wird ein Bitstrom erzeugt. Dieser beginnt mit einem 32 Bit Header (siehe Abb. 1), welcher sich wie folgt zusammensetzt: - 2 Bit für die Copyright Informationen - 12 Bit für die notwendige Synchronisation - 2 Bit geben für den verwendeten Audio-Layer - 4 Bit stehen für die aktuelle Datenrate - 2 Bit für die Abtastfrequenz - Auskunft über den Kanal-Modus (Mono, Stereo, etc.) Danach folgt der bis zu 16 Bit große Fehlerschutz. Dieser sorgt für die Störresistenz auf dem Übertragungsweg. Es folgen die Bitzuweisung sowie die Größe der Skalenfaktoren. Danach folgen die mit je zwei bis 15 Bit neu quantisierten Nutzdaten. Diese stammen aus der Filterbank. Zusätzlich können noch weitere Informationen angehängt werden, welche nicht unbedingt vom Dekodierer interpretiert werden müssen. Beispiele: ID3 Tag, Daten für Surroundsysteme. 4. Dekodierungstechnik Die Dekodierung des Signals beginnt mit einer Überprüfung von Übertragungsfehlern. Danach werden die Zusatzdaten (engl. auxiliary data) ausgewertet. Als nächster Schritt werden die 32 Frequenzbänder in die umgekehrte Filterbank gesendet und zu einem Frequenzband zusammengesetzt. Der Dekodierer konvertiert das Signal zurück in ein PCM Signal, welches wiederum in ein analoges Signal umgewandelt wird. Dieses Signal wird verstärkt und an die Lautsprecher weitergeleitet. Stand: (Januar 2007) Autor: Kolja Schoon Seite 4
5. Technische Möglichkeiten Bei MPEG Audio Layer 1 sind folgende Abtastraten zugelassen: 32 khz, 44.1 khz, 48 khz. Die Datenraten liegen bei MPEG 1 zwischen 32 und 448 kbit/s. Das MPEG Audio Layer 1 kann Audio-Informationen auf vier verschiedene Arten kodieren: 1. Mono-Signal-Verarbeitung 2. 2-Kanal-Kodierung ( zwei Monokanäle) 3. Stereo 4. Joint Stereo Bei Joint Stereo werden die Ähnlichkeiten der beiden Audiokanäle für eine Datenmengenreduzierung genutzt. Dabei wird der linke Kanal vollständig kodiert und im rechten Kanal nur die Differenz zum linken Kanal übertragen. Stand: (Januar 2007) Autor: Kolja Schoon Seite 5
6. Quellen 6.1 Literaturverzeichnis - Reimers, Ulrich (2005). DVB The Family of International Standards for Digital Video Broadcasting. Springer-Verlag. Berlin Heidelberg. S. 37 S. 57 - Schmidt, Ulrich (2005). Professionelle Videotechnik. Springer-Verlag. Berlin Heidelberg. S. 170 S. 176 6.2 Bildquellen - Reimers, Ulrich (2005). DVB The Family of International Standards for Digital Video Broadcasting. Springer-Verlag. Berlin Heidelberg. S. 53 (hier: Abb. 1.) Stand: (Januar 2007) Autor: Kolja Schoon Seite 6