Audiokompression Codierung und Kryptographie Christian Urff
Inhalt 1. Was ist Kompression? Wozu Kompression? 2. Codierung von Audiosignalen 3. Psychoakustik 4. MP3 5. Andere Audiokompressionsformate 2
1. Was ist Kompression? Kompression bezeichnet man als die Reduktion des Datenumfangs mittels spezieller mathematischer Verfahren, die es ermöglichen, die Information so zu codieren, dass bei wesentlich geringerem Speicherbedarf immer noch alle [wesentlichen] Informationen vorliegen. Man unterscheidet verlustfreie und verlustbehaftete Komprimierung. 600 500 400 300 Audio-CD Heute geht es hauptsächlich um verlustbehaftete Kompression 200 100 0 Speicherplatz für eine Stunde Musik (in MB) MP3 (CD- Qualität) 3
Wozu Musik komprimieren? Schnelle Übertragung (DigitalTV, Internetradio, Tauschbörsen, ) Weniger Speicherkapazität erforderlich 600 500 400 300 200 100 Audio-CD MP3 (CD- Qualität) 0 Speicherplatz für eine Stunde Musik (in MB) 4
2. Digitale Speicherung von Audio Audiosignale werden durch Schallwellen (= Schwingung, die Geräuschwahrnehmung verursacht) dargestellt und lassen sich als Kurven darstellen: = Maß für die Lautstärke (in db) 5
Digitale Speicherung von Audio Der Computer kann nur mit diskreten Daten arbeiten! Deshalb muss die Schallwelle diskretisiert werden Applet 6
Codierung Jeder Sample wird mit einem Binärwort codiert PCM (Pulse Code Modulation) Codierung zeitdiskret wertediskret 7
Kenngrößen Bitrate: Wieviele Bits werden pro Sekunde Musik für die Codierung benötigt (z.b. 128 kbit/s) Kompressionsrate: Verhältnis der Datenmenge des ursprünglichen Signals zu der des codierten Signals. Kompressio nsrate = Datenmenge( Orginalsignal) Datenmenge( codiertessignal) Als Orginaldatenmenge wird üblicherweise von der Audio- CD ausgegangen. Samplingfrequenz: Muss mindestens doppelt so hoch sein wie die höchste zu erfassende Frequenz (Abtasttheorem von Shannon) Auflösung: Umso mehr Bit verwendet werden, desto geringer ist das Quantisierungsrauschen. 8
Audio-CD 44,1 khz Samplingfrequenz, d.h. der komplette Hörbereich des Menschen wird abgedeckt. 16 Bit Auflösung: Kein Quantisierungsrauschen hörbar. Stereo (2 Kanäle). Bitrate: ca. 1400 kbit/s. 9
Zeit- und Frequenzdarstellung von Audiosignalen Jede Schallwelle setzt sich aus überlagerten Sinusschwingungen unterschiedlicher Frequenzen zusammen. 10
Zeit- und Frequenzdarstellung Jede periodische Schwingung kann als eine Überlagerung von unterschiedlichen Frequenzen dargestellt werden. 11
Fouriertransformation Der französische Mathematiker Joseph Fourier (1768-1830) entwickelte ein mathematisches Verfahren, um Signale aus der Zeit- in die Frequenzdarstellung zu transformieren die Fouriertransformation. Ein Algorithmus, der diese Transformation sehr schnell im Computer ausführt, ist die Fast Fourier Transformation (FFT) durch Anwendung des Prinzips Teile und Herrsche. Sie ist ein wichtiges Hilfsmittel für die Audiokompression, da die wesentlichen Kompressionsstufen auf der Frequenzdarstellung basieren. Applet 12
3. Psychoakustik Die Psychoakustik erforscht die Wahrnehmung von Schall durch das menschliche Gehör und die Verarbeitung im Gehirn. Kompressionsverfahren nutzen dieses Wissen, um nicht hörbare Informationen aus der Musik herauszufiltern. Im Wesentlichen werden drei Phänomene ausgenutzt: - Die menschliche Hörschwelle - Verdeckung im Frequenzbereich - Verdeckung im Zeitbereich 13
Die menschliche Hörschwelle Wir nehmen nur Frequenzen zwischen 50 15 khz wahr. Unterhalb der Ruhehörschwelle und oberhalb der Schmerzgrenze nimmt das menschliche Gehör nichts wahr! sehr leise Signale können weggelassen werden ohne hörbaren Unterschied! 14
Frequenzmaskierung /Simultanmaskierung Beispiel Disko: Bei Schallpegeln von bis zu 110 db ist keine Unterhaltung möglich leise Sprache wird von der lauten Musik verdeckt/maskiert. Frequenzähnliche Töne lassen sich nur schwer unterscheiden 15
Zeitmaskierung Ähnliches Phänomen im Zeitbereich Bsp.: Bei Flugzeuglärm dauert es kurze Zeit, bis die Unterhaltung fortgesetzt werden kann Der Flugzeuglärm verdeckt die Unterhaltung zeitlich 16
Räumliche Redundanz Tiefe Töne kann man räumlich schwer orten aufgrund der längeren Periodenlänge. Tiefe Frequenzen werden Mono codiert. 17
Psychoakustisches Modell Das Wissen der Psychoakustik wird in einem psychoakustischen Modell (je nach Komplexität) mehr oder weniger genau beschrieben. Auf Basis des Modells werden unhörbare, überflüssige Informationen weggelassen. 18
4. Audiokompression MP3 MP3 ist das bekannteste und beliebteste Kompressionsverfahren für Musik. In den 90er Jahren vom Fraunhofer Institut (IIS) erster Encoder entwickelt ( Fraunhofer-Codec ). MP3 = MPEG I Layer 3 d.h. Teil des MPEG-Standard (ISO-Standard) für Video MP3 ist streng genommen nur die Vorschrift wie die komprimierten Audiodaten zu codieren sind und nicht ein spezieller Algorithmus. Der Standard lässt offen, wie die Daten in die geforderte Form kommen. 19
MP3: viele Optionen für die unterschiedlichsten Anwendungsbereiche Operating Modes : single channel (mono), dual channel (zwei unabhängige Kanäle), stereo, joint stereo Frequenzen: 8 khz*, 11 khz*, 12 khz*, 16 khz*, 22 khz*, 24 khz*, 32 khz, 44 khz, 48 khz (* = abhängig vom Encoder) Bitrate: 8 320 kbit/s. Bitrate-Modus: Constante Bitrate (CBR), Variable Bitrate (VBR), Average Bitrate (ABR). Qualität: je nach Qualitätseinstellung schnellerer bzw. langsamerer Encodiervorgang. 20
Gängige Bitraten Quelle: c t 2/2000 21
Soundqualität Quelle: Fraunhofer-Institut 22
Aufbau der Daten MP3 Datei ist in kleine Stücke (Frames) unterteilt. Jeder Frame steht für 1152 Samples im Ausgangsmaterial (ca. 26 ms) und kann mit einer eigenen Bitrate codiert werden (VBR). Vor jedem Frame steht ein Header. Variable Datenmenge: Mit einem Bit-Reservoir werden Daten gespart 23
Frame-Header Im Frame-Header (32 Bit) stehen Informationen über die darauf folgenden Daten. Headerstruktur: 24
ID3-Tag ID3-Tag ist Inhaltsangabe der Datei 128 Byte groß Steht am Ende der Datei und lässt sich deshalb leicht editieren. Länge (Byte) ASCII 3 30 30 30 4 30 1 Beschreibung Identifizierung (hier muss TAG stehen) Titel Interpret CD-Titel Erscheinungsjahr Kommentar Genre 25
Ablauf der Encodierung Aufteilung in kleine Stücke (1152 Samples/Frame) Zerlegung in 32 verschiedene Frequenzen (FFT und MDCT) Quantisierung entsprechend dem Psychoakustischen Modell Reduzierung überflüssiger Stereoinformationen Huffman-Codierung 26
Huffman-Codierung Stellen, an denen der Klang weitgehend gleich bleibt (d.h. die Frequenzen gleich sind) bleiben vom Psychoakustischen Modell unangetastet. Diese Stellen haben aber eine große Redundanz, die mit der Huffman-Codierung ausgenützt wird. Das Huffman-Verfahren ist deshalb die optimale Ergänzung zum psychoakustischen Modell. 27
MP3-Encoder Fraunhofer-Codec: bester und erster Codec. Lame: Patentfreie, OpenSource Implementierung, die an den Fraunhofer- Qualität herankommt, eigenen psychoakustisches Modell, deutlich schnellerer Encodiervorgang. Xing: schnell, aber schlechtere Qualiät als Fraunhofer 28
5. Weitere Audioformate mit Kompression Ogg Vorbis AAC Windows Media MP3pro und AACplus (SBR-Technologie) 29
Ogg Vorbis Patentfrei und OpenSource Steigende Beliebtheit und Hard- und Softwareunterstützung Sehr gute Kompression bei geringen Bitraten (Sieger des c t-hörtests) Sehr flexible und einfache Bedienung 30
Windows Media (WMA) Kompressionsformat von Microsoft Komprimiert ähnlich wie MP3 Für niedrige Bitraten optimiert Klanglich kann das Format nicht überzeugen, sogar in hohen Bitraten (>192 kbit/s) sind Unterschiede zum Original erkennbar Mit Kopierschutz (DRM) ausgestattet. Hat sich nicht durchgesetzt! 31
AAC AAC = Advanced Audio Compression MPEG 4 AAC: Teil des MPEG-Standard (wie MP3) Verbesserte Qualität und höhere Flexibilität als MP3 Für niedrige Bitraten optimiert Soll laut Fraunhofer in Zukunft MP3 ablösen. bisher wenig Hard- und Softwareunterstützung. 32
MP3pro und AACplus Erweiterungen zu MP3 und AAC zur Erreichung besserer Qualität in den unteren Bitraten. Abwärtskompatibel (mit Abstrichen in der Qualität). SBR-Technologie: hohe Frequenzen werden nicht mitgespeichert, sondern aus den niederen Frequenzen berechnet. 33
Weitere Formate Real Media: besonders beliebt für Live- Übertragungen (Streaming) im Internet. Flac: zur verlustfreie Kompression von Audio (OpenSource) 34
Folien im Internet www.ph-karlsruhe.de/~ziegenbalg Interaktive Demonstrationsmaterialen zu Codierung und Kryptographie 35