Audio-Kompression: MPEG Karlheinz Brandenburg Bernhard Grill Harald Popp
Audio-Kompression: MPEG Moving Pictures Experts Group Offizieller Name ISO/IEC JTC1/SC29/ WG11 Offizielle Homepage: http://www.chiariglione.org/mpeg/ H 261 (1990) Bildtelefonie, Videokonferenzen über ISDN MPEG-1 (1993) ISO/IEC 11172-1, -2, -3 Progressives Video-Format mit mehreren Layern. Wird unter anderem für Video-CDs verwendet. Non-interlaced SIF Video. Zum Audio-Teil von MPEG-1 gehört das MP3 MPEG-1 Layer 3), Stereo mit Bitraten 384,256, 192 kbit/s (Layer 1,2,3). MPEG-2 (1994) ISO/IEC 13818-2 Video- und Tonformate in Fernsehqualität. Wird auch für DVD Videos und DVB verwendet. (Bitrate: bis 15 Mbit/s), interlaced und non-interlaced. Audio ISO/IEC 13818-3: Mehrkanalton, kompatibel zu MPEG-1-Audio, niedrigere Bitraten
Komprimierung: MP3 Medien- Komressions- Rate für CD-Qualität 1:4 Layer 1 (384 kbps for a stereo signal) 1:6...1:8 Layer 2 (256..192 kbps for a stereo signal) 1:10...1:12 Layer 3 (128..112 kbps for a stereo signal) MPEG Layer-3 sound quality bandwidth mode bitrate reduction ratio telephone sound 2.5 khz mono 8 kbps * 96:1 better than shortwave 4.5 khz mono 16 kbps 48:1 better than AM radio 7.5 khz mono 32 kbps 24:1 similar to FM radio 11 khz stereo 56...64 kbps 26...24:1 near-cd 15 khz stereo 96 kbps 16:1 CD >15 khz stereo 112..128kbps 14..12:1
Komprimierung: Psycho-Akustik Medien- http://www.kfs.oeaw.ac.at/fsf/psa/index.html Original-Spektrogramm aus der Pastorale Beethoven 6. Sinfonie Takt 1-4 Takt 9-33 Audio- Software ST-X
Komprimierung: Psycho-Akustik Medien- Akustisch relevante Anteile Takt 1-4 Takt 9-33 Hörbarer Anteil
Komprimierung: Psycho-Akustik Medien- Differenz-Signal ohne relevante Komponenten: unhörbar erdeckte omponenten
Komprimierung: Psycho-Akustik Medien- Psychoakustik: Critical Band = Frequenzbereiche gleicher Laut(stärke)empfindung 24 Kritische Bänder im Bereich 0-15 khz Cochlea-schematisch
Komprimierung: Psycho-Akustik Simultane Maskierung Unhörbar bei 1000Hz-Ton mit 100dB Hörbarkeitsschwelle unhörbar http://www.tecchannel.de/multimedia/58/index.html
Komprimierung: Psycho-Akustik Verdeckung durch kurzes lautes Signal (tonal) (Rauschsignal) Rauschsignale werden durch lautere tonale Signale verdeckt. Konsequenz: Quantisierungsrauschen wird verdeckt. http://www.tecchannel.de/multimedia/57/index.html
Komprimierung: Psycho-Akustik Vor- und Nachmaskierung Rückwärtsmaskierung: Lauter Impuls überholt leises Rauschhen Vorwärtsmaskierung: Lauter Impuls hebt die Hörschwelle an 20 ms 200 ms http://www.tecchannel.de/multimedia/57/index.html
Hörbeispiel 1: Rauschen verdeckt einzelne Töne (.wav) Demo1.wav Testsignal 600 Hz Testsignal 1000 Hz Testsignal 1600 Hz Jeweils um 10 db ansteigendes Testsignal im Rauschsignal Rauschsignal 900-1100 Hz
Hörbeispiel 2: Vorwärtsmaskierung Demo2.wav Impuls Jeweils um 10 db ansteigendes Testsignal im Rauschsignal Rauschsignal
Hörbeispiel 3: Rückwärtsmaskierung Demo3.wav Impuls Rauschsignal
MPEG 1 Audio Layer 3 Audio-Coding Eine Filterbank zerlegt das Eingangssignal Frequenz- Bänder (subsamples) (Zeit/Frequenz-Raum). audio in Analysis Filterbank Perceptual Aus dem Eingangssignal und den Frequenzbändern der Filterbank wird die Maskierungsschwelle berechnet (zeit- und frequenzabhängig) bitstream out Model
MPEG 1 Audio-Coding audio in Analysis Filterbank Quantization & Coding Encoding of Bitstream bitstream out Perceptual Quantisierung Model der spektralen Komponenten mit den Ziel, die Störleistung unter der Maskierungsschwelle zu halten. Formatieren der Ausgabe
MPEG 1/2 Audio Layer 3 MDCT Modified Discrete Cosinus Transform Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen
MPEG 1/2 Audio Layer 3 Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen Störsignal minimieren Verdeckte Komponenten ermitteln, verwendet Barks Innere Schleife: Optimale Codierung finden (Bitrate) Mehrere Hufman-Tabellen, Verstärkungsfaktoren Starkes Signal = grobe Kodierung, schwaches Signal = feine Codierung
MPEG 1/2 Audio Layer 3 Zerlegung in 32 Frequenzbänder Jedes Band 18 mal zerlegen Entropie- Kodierung Verdeckte Komponenten ermitteln Aufbau Frames
MPEG 1/2 Audio Layer 3 http://www.iis.fhg.de/amm/techinf/layer3/layer3_block.gif
Mp3 Bitstream Jeder Frame kann für sich dekodiert werden Jeder Frame kann andere Samplingrate und Modus besitzen (III) Header (wichtige Felder): Syncword: 12 (11) bits ID 1 bit, 0=MPEG-1, 1=MPEG-2 Layercode: 2bits (I,II,II) Bitrate: 4bits (s. Tabelle) Sampling-F.: 2bits (48,44.1,32 khz) Mode: 2bit (stereo, mono, 2-sprachig, joint stereo)
MP3-Header-Details Bedeutung Bit A Frame sync 11 B MPEG audio version (MPEG-1, 2, etc.) 2 C MPEG layer (Layer I, II, III, etc.) 2 D Protection (if on, then checksum follows header) 1 E Bitrate index (lookup table, different meaning for MPEG-1 / MPEG-2) 4 F Sampling rate frequency (44.1kHz, etc., determined by lookup table) 2 G Padding bit (on or off, compensates for unfilled frames) 1 H Private bit (on or off, allows for application-specific triggers) 1 I Channel mode (stereo, joint stereo, dual channel, single channel) 2 J Mode extension (used only with joint stereo, to conjoin channel data) 2 Copyright (on or off) 1 Original (off if copy of original, on if original 1 Emphasis (respects emphasis bit in the original recording; now largely obsolete) 2
MPEG 1 Layers / Bitraten Medien- 44,1 khz typewriter1.wav 3,8 MB Bitrate (khz) Index Layer I Layer II Layer III 0000 frei frei frei 0001 32 32 32 0010 64 48 40 0011 96 56 48 0100 128 64 56 0101 160 80 64 0110 192 96 80 0111 224 112 96 1000 256 128 112 1001 288 160 128 1010 320 192 160 1011 352 224 192 1100 384 256 224 1101 416 320 256 1110 448 384 320 Typewriter1-4.mp3 43 kb, joint stereo Typewriter1-3.mp3 171 kb, joint stereo Typewriter1-2.mp3 342 kb, joint stereo Typewriter1-1.mp3 834 kb, joint stereo
MPEG 2 Layers / Bitraten Medien 44,1 khz typewriter1.wav 3,8 MB Bitrate (khz) Index Layer I Layer II Layer III 0000 frei frei frei 0001 32 32 8 0010 64 48 16 0011 96 56 24 0100 128 64 32 0101 160 80 64 0110 192 96 80 0111 224 112 56 1000 256 128 64 1001 288 160 128 1010 320 192 160 1011 352 224 112 1100 384 256 128 1101 416 320 256 1110 448 384 320 Typewriter1-4.mp3 43 kb, joint stereo Typewriter1-3.mp3 171 kb, joint stereo Typewriter1-2.mp3 342 kb, joint stereo Typewriter1-1.mp3 834 kb, joint stereo
Encoder-Einstellungen Medien- ID3-Tag für Titel-Informationen Encoder-Einstellungen ID3 Version 1: wenige Felder ID3 Version 2: bis 128 MB Singtexte, Plattencover etc.
Psychoakustik in MPEG Modell I: FFT (512/1024) Werte und Bandfilter berechnen Schalldruck in jedem Band Stille Regionen berechnen Tonale und nichttonale verdeckende Komponenten aus FFT Verdeckte Komponenten entfernen Modell II: FFT in wie in Modell I, jedoch für kurze (192) und lange Blöcke (576) Spreading function auf benachbarte Critical Bands anwenden
MPEG Audio Übersicht Http://sound.media.mit.edu/mpeg4/audio/faq MPEG-1 Iso/IEC 11172-3 (1993) mono/stereo/2-channel/joint Abstastraten 48, 44.1, 32 KHz MPEG-2 Iso/IEC 13818-3 (1995) Iso/IEC 13818-7 (1997) mono/stereo/multichannel viele Abstastraten, Datenströme < 64 kbit/sec, AAC Ziel: Video & Audio-CD Kommunikation Layer I Layer II Layer III
MPEG-4 Audio Harmonic Vector excitation Coding Code Excited Linear Predictive Allgemeine Audio-Signale Bitraten ab 6 kbit/s, geringe Bandbreite bis CD- Qualität, skalierbar (Qualität anpassbar), etc. Sprachübertragung im Bereich 2-24 kbit/s, minimal 1.2 kbit/s bei variabler Bitrate. HVXC und CELP. Synthetische Klänge mit Score driven Synthesis SAOL Structured Audio Orchestra Language Programmiersprache für Klänge (Instrumente, Geräusche). Sprachsynthese (Text Tto Speech TTS) ab 200bit/s mit Parametern wie Stimmlage, Phonemdauer etc). Multiplexe Datenströme
HVXC Linear Predictive Coding: Vorhersage linear aus Vorgängerwerten 128kBit/s PCM 4kBit/s HVXC k7bit/s HVXC
HVXC Differenz zwischen LPC und Input zur weiteren Analyse berechnen
HVXC Differenz zwischen LPC und Input zur weiteren Analyse berechnen
HVXC Parametric Audio Coding des stimmhaften Anteils: Fourier- Analyse, Melodieverläufe codieren (harmonic lines)
HVXC Getrennte Behandlung unstimmhafter Rausch-Laute
MPEG 4 Natural Audio Harmonic Vector excitation Coding Code Excited Linear Predictive MPEG-2 AAC
MPEG 4 Szenario Http://sound.media.mit.edu/mpeg4/audio/faq MPEG-7 Multimedia Content Description Interface
Vorlesung Medientechnik WS 2007/8 Dr. Manfred Jackel Studiengang Computervisualistik Universität Koblenz-Landau Campus Koblenz Postfach 201602 56016 Koblenz Manfred Jackel E-Mail: jkl@uni-koblenz.de WWW: www.uni-koblenz.de/~jkl mtech.uni-koblenz.de Literatur zu diesem Kapitel Brandenburg, Karlheinz: MP3 and AAC explained Hyperlinks zu diesem Kapitel Grafik-Quellen http://www.chiariglione.org/mpeg/ http://aeiou.iicm.tugraz.at/ http://www.id3.org/home https://jaudiotagger.dev.java.net/ http://www.mp3-converter.com/ http://daniels.techfak.uni-kiel.de/staff/ll/pages/mpeg4.html