Audio-Kompression: MPEG

Audio-Kompression: MPEG Karlheinz Brandenburg Bernhard Grill Harald Popp

Audio-Kompression: MPEG Moving Pictures Experts Group Offizieller Name ISO/IEC JTC1/SC29/ WG11 Offizielle Homepage: http://www.chiariglione.org/mpeg/ H 261 (1990) Bildtelefonie, Videokonferenzen über ISDN MPEG-1 (1993) ISO/IEC 11172-1, -2, -3 Progressives Video-Format mit mehreren Layern. Wird unter anderem für Video-CDs verwendet. Non-interlaced SIF Video. Zum Audio-Teil von MPEG-1 gehört das MP3 MPEG-1 Layer 3), Stereo mit Bitraten 384,256, 192 kbit/s (Layer 1,2,3). MPEG-2 (1994) ISO/IEC 13818-2 Video- und Tonformate in Fernsehqualität. Wird auch für DVD Videos und DVB verwendet. (Bitrate: bis 15 Mbit/s), interlaced und non-interlaced. Audio ISO/IEC 13818-3: Mehrkanalton, kompatibel zu MPEG-1-Audio, niedrigere Bitraten

Komprimierung: MP3 Medien- Komressions- Rate für CD-Qualität 1:4 Layer 1 (384 kbps for a stereo signal) 1:6...1:8 Layer 2 (256..192 kbps for a stereo signal) 1:10...1:12 Layer 3 (128..112 kbps for a stereo signal) MPEG Layer-3 sound quality bandwidth mode bitrate reduction ratio telephone sound 2.5 khz mono 8 kbps * 96:1 better than shortwave 4.5 khz mono 16 kbps 48:1 better than AM radio 7.5 khz mono 32 kbps 24:1 similar to FM radio 11 khz stereo 56...64 kbps 26...24:1 near-cd 15 khz stereo 96 kbps 16:1 CD >15 khz stereo 112..128kbps 14..12:1

Komprimierung: Psycho-Akustik Medien- http://www.kfs.oeaw.ac.at/fsf/psa/index.html Original-Spektrogramm aus der Pastorale Beethoven 6. Sinfonie Takt 1-4 Takt 9-33 Audio- Software ST-X

Komprimierung: Psycho-Akustik Medien- Akustisch relevante Anteile Takt 1-4 Takt 9-33 Hörbarer Anteil

Komprimierung: Psycho-Akustik Medien- Differenz-Signal ohne relevante Komponenten: unhörbar erdeckte omponenten

Komprimierung: Psycho-Akustik Medien- Psychoakustik: Critical Band = Frequenzbereiche gleicher Laut(stärke)empfindung 24 Kritische Bänder im Bereich 0-15 khz Cochlea-schematisch

Komprimierung: Psycho-Akustik Simultane Maskierung Unhörbar bei 1000Hz-Ton mit 100dB Hörbarkeitsschwelle unhörbar http://www.tecchannel.de/multimedia/58/index.html

Komprimierung: Psycho-Akustik Verdeckung durch kurzes lautes Signal (tonal) (Rauschsignal) Rauschsignale werden durch lautere tonale Signale verdeckt. Konsequenz: Quantisierungsrauschen wird verdeckt. http://www.tecchannel.de/multimedia/57/index.html

Komprimierung: Psycho-Akustik Vor- und Nachmaskierung Rückwärtsmaskierung: Lauter Impuls überholt leises Rauschhen Vorwärtsmaskierung: Lauter Impuls hebt die Hörschwelle an 20 ms 200 ms http://www.tecchannel.de/multimedia/57/index.html

Hörbeispiel 1: Rauschen verdeckt einzelne Töne (.wav) Demo1.wav Testsignal 600 Hz Testsignal 1000 Hz Testsignal 1600 Hz Jeweils um 10 db ansteigendes Testsignal im Rauschsignal Rauschsignal 900-1100 Hz

Hörbeispiel 2: Vorwärtsmaskierung Demo2.wav Impuls Jeweils um 10 db ansteigendes Testsignal im Rauschsignal Rauschsignal

Hörbeispiel 3: Rückwärtsmaskierung Demo3.wav Impuls Rauschsignal

MPEG 1 Audio Layer 3 Audio-Coding Eine Filterbank zerlegt das Eingangssignal Frequenz- Bänder (subsamples) (Zeit/Frequenz-Raum). audio in Analysis Filterbank Perceptual Aus dem Eingangssignal und den Frequenzbändern der Filterbank wird die Maskierungsschwelle berechnet (zeit- und frequenzabhängig) bitstream out Model

MPEG 1 Audio-Coding audio in Analysis Filterbank Quantization & Coding Encoding of Bitstream bitstream out Perceptual Quantisierung Model der spektralen Komponenten mit den Ziel, die Störleistung unter der Maskierungsschwelle zu halten. Formatieren der Ausgabe

MPEG 1/2 Audio Layer 3 MDCT Modified Discrete Cosinus Transform Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen

MPEG 1/2 Audio Layer 3 Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen Störsignal minimieren Verdeckte Komponenten ermitteln, verwendet Barks Innere Schleife: Optimale Codierung finden (Bitrate) Mehrere Hufman-Tabellen, Verstärkungsfaktoren Starkes Signal = grobe Kodierung, schwaches Signal = feine Codierung

MPEG 1/2 Audio Layer 3 Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen Entropie- Kodierung Verdeckte Komponenten ermitteln Aufbau Frames

MPEG 1/2 Audio Layer 3 http://www.iis.fhg.de/amm/techinf/layer3/layer3_block.gif

Mp3 Bitstream Jeder Frame kann für sich dekodiert werden Jeder Frame kann andere Samplingrate und Modus besitzen (III) Header (wichtige Felder): Syncword: 12 (11) bits ID 1 bit, 0=MPEG-1, 1=MPEG-2 Layercode: 2bits (I,II,II) Bitrate: 4bits (s. Tabelle) Sampling-F.: 2bits (48,44.1,32 khz) Mode: 2bit (stereo, mono, 2-sprachig, joint stereo)

MP3-Header-Details Bedeutung Bit A Frame sync 11 B MPEG audio version (MPEG-1, 2, etc.) 2 C MPEG layer (Layer I, II, III, etc.) 2 D Protection (if on, then checksum follows header) 1 E Bitrate index (lookup table, different meaning for MPEG-1 / MPEG-2) 4 F Sampling rate frequency (44.1kHz, etc., determined by lookup table) 2 G Padding bit (on or off, compensates for unfilled frames) 1 H Private bit (on or off, allows for application-specific triggers) 1 I Channel mode (stereo, joint stereo, dual channel, single channel) 2 J Mode extension (used only with joint stereo, to conjoin channel data) 2 Copyright (on or off) 1 Original (off if copy of original, on if original 1 Emphasis (respects emphasis bit in the original recording; now largely obsolete) 2

MPEG 1 Layers / Bitraten Medien- 44,1 khz typewriter1.wav 3,8 MB Bitrate (khz) Index Layer I Layer II Layer III 0000 frei frei frei 0001 32 32 32 0010 64 48 40 0011 96 56 48 0100 128 64 56 0101 160 80 64 0110 192 96 80 0111 224 112 96 1000 256 128 112 1001 288 160 128 1010 320 192 160 1011 352 224 192 1100 384 256 224 1101 416 320 256 1110 448 384 320 Typewriter1-4.mp3 43 kb, joint stereo Typewriter1-3.mp3 171 kb, joint stereo Typewriter1-2.mp3 342 kb, joint stereo Typewriter1-1.mp3 834 kb, joint stereo

MPEG 2 Layers / Bitraten Medien 44,1 khz typewriter1.wav 3,8 MB Bitrate (khz) Index Layer I Layer II Layer III 0000 frei frei frei 0001 32 32 8 0010 64 48 16 0011 96 56 24 0100 128 64 32 0101 160 80 64 0110 192 96 80 0111 224 112 56 1000 256 128 64 1001 288 160 128 1010 320 192 160 1011 352 224 112 1100 384 256 128 1101 416 320 256 1110 448 384 320 Typewriter1-4.mp3 43 kb, joint stereo Typewriter1-3.mp3 171 kb, joint stereo Typewriter1-2.mp3 342 kb, joint stereo Typewriter1-1.mp3 834 kb, joint stereo

Encoder-Einstellungen Medien- ID3-Tag für Titel-Informationen Encoder-Einstellungen ID3 Version 1: wenige Felder ID3 Version 2: bis 128 MB Singtexte, Plattencover etc.

Psychoakustik in MPEG Modell I: FFT (512/1024) Werte und Bandfilter berechnen Schalldruck in jedem Band Stille Regionen berechnen Tonale und nichttonale verdeckende Komponenten aus FFT Verdeckte Komponenten entfernen Modell II: FFT in wie in Modell I, jedoch für kurze (192) und lange Blöcke (576) Spreading function auf benachbarte Critical Bands anwenden

MPEG Audio Übersicht Http://sound.media.mit.edu/mpeg4/audio/faq MPEG-1 Iso/IEC 11172-3 (1993) mono/stereo/2-channel/joint Abstastraten 48, 44.1, 32 KHz MPEG-2 Iso/IEC 13818-3 (1995) Iso/IEC 13818-7 (1997) mono/stereo/multichannel viele Abstastraten, Datenströme < 64 kbit/sec, AAC Ziel: Video & Audio-CD Kommunikation Layer I Layer II Layer III

MPEG-4 Audio Harmonic Vector excitation Coding Code Excited Linear Predictive Allgemeine Audio-Signale Bitraten ab 6 kbit/s, geringe Bandbreite bis CD- Qualität, skalierbar (Qualität anpassbar), etc. Sprachübertragung im Bereich 2-24 kbit/s, minimal 1.2 kbit/s bei variabler Bitrate. HVXC und CELP. Synthetische Klänge mit Score driven Synthesis SAOL Structured Audio Orchestra Language Programmiersprache für Klänge (Instrumente, Geräusche). Sprachsynthese (Text Tto Speech TTS) ab 200bit/s mit Parametern wie Stimmlage, Phonemdauer etc). Multiplexe Datenströme

HVXC Linear Predictive Coding: Vorhersage linear aus Vorgängerwerten 128kBit/s PCM 4kBit/s HVXC k7bit/s HVXC

HVXC Differenz zwischen LPC und Input zur weiteren Analyse berechnen

HVXC Parametric Audio Coding des stimmhaften Anteils: Fourier- Analyse, Melodieverläufe codieren (harmonic lines)

HVXC Getrennte Behandlung unstimmhafter Rausch-Laute

MPEG 4 Natural Audio Harmonic Vector excitation Coding Code Excited Linear Predictive MPEG-2 AAC

MPEG 4 Szenario Http://sound.media.mit.edu/mpeg4/audio/faq MPEG-7 Multimedia Content Description Interface

Vorlesung Medientechnik WS 2007/8 Dr. Manfred Jackel Studiengang Computervisualistik Universität Koblenz-Landau Campus Koblenz Postfach 201602 56016 Koblenz Manfred Jackel E-Mail: jkl@uni-koblenz.de WWW: www.uni-koblenz.de/~jkl mtech.uni-koblenz.de Literatur zu diesem Kapitel Brandenburg, Karlheinz: MP3 and AAC explained Hyperlinks zu diesem Kapitel Grafik-Quellen http://www.chiariglione.org/mpeg/ http://aeiou.iicm.tugraz.at/ http://www.id3.org/home https://jaudiotagger.dev.java.net/ http://www.mp3-converter.com/ http://daniels.techfak.uni-kiel.de/staff/ll/pages/mpeg4.html