Arne Heyda, Marc Briede, Ulrich Schmidt: Datenformate im Medienbereich, Fachbuchverlag Leipzig 2003, Kapitel 5

Ähnliche Dokumente
Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-32

Arne Heyda, Marc Briede, Ulrich Schmidt: Datenformate im Medienbereich, Fachbuchverlag Leipzig 2003, Kapitel 5

Arne Heyda, Marc Briede, Ulrich Schmidt: Datenformate im Medienbereich, Fachbuchverlag Leipzig 2003, Kapitel 5

Arne Heyda, Marc Briede, Ulrich Schmidt: Datenformate im Medienbereich, Fachbuchverlag Leipzig 2003, Kapitel 5

Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 5-1. Schallwellen, d.h. schnelle Änderungen des Luftdrucks

5. Ton und Klang. Literatur: Medieninformatik-Buch Kapitel 4

5. Ton und Klang. Medieninformatik-Buch: Kapitel 4

MPEG Audio Layer 1. Fachbereich Medieninformatik. Hochschule Harz. Referat. Kolja Schoon. Thema: MPEG Audio Layer 1

5. Ton und Klang !!! Medieninformatik-Buch:! Kapitel 4!

5. Ton und Klang. Medieninformatik-Buch: Kapitel 4

Proseminar Datenkompression

Neue Technologien in Internet und WWW. 0. Einleitung. 1. Digitalisierung 1.1 Sampling und Quantisierung (1) 1. Digitalisierung

Audio Codecs. Vortrag im Seminar. Digital Audio. Sebastian Kraatz. 15. Dezember 2004

Beispielhafte Testfragen (auch aus Schülerreferaten, Fragen können redundant sein, keine Audio Kompression berücksichtigt):

Digitale Audiokodierung mit MP3, Varianten und Anwendungsgebiete

Ausnutzung von Wahrnehmungseigenschaften in der Audiocodierung

Multimediale Werkzeuge, Audio: Formate, Tools. -Sound/Audio Objekte. Formate, Beispiele:

2. Digitale Codierung und Übertragung

Multimediatechnik / Video

Sinneswahrnehmungen des Menschen

Audio- und Videodatenströme im Internet

1.3 Digitale Audiosignale

Multimediale Werkzeuge 1, Audio-Berabeitung. normierte Frequenz (normiert auf die halbe Abtastrate, maximale Frequenz ist pi oder 1

Die MPEG-Audiocodierverfahren

Audio-Bearbeitung. Diese Freq. Anteile «verschwinden» nach dem unterabtasten Filter muß schmal genug sein! Nach Unterabtastung

Proseminar Kompressionsalgorithmen am Beispiel Mp3

Audio-Kompression: MPEG

2. Digitale Codierung und Übertragung

Audio Codecs. Digital Audio WS 2004/05 Sebastian Kraatz Vortrag im Seminar. Dezember 2004

Kompressionsverfahren

Jaro Razmowa Tonseminar SS2010

Verlustbehaftete Kompression. JPEG: Joint Photographic Experts Group

Audiokompression. Codierung und Kryptographie. Christian Urff

Lossless Codecs. Fachbereich Medieninformatik. Hochschule Harz. Referat. Christian Menschel. Thema: Lossless Codecs

Geschichte und Technik Digitaler Medien

Übung zur Vorlesung. Digitale Medien. Vorlesung: Heinrich Hußmann Übung: Renate Häuslschmid, Hanna Schneider

Einführung in die Medieninformatik 1

Wiederholung: Abtastung im Frequenzraum

, Franz J. Hauck, Verteilte Systeme, Univ. Ulm, [2006w-MMK-C-VoIP.fm, ]

Vorkurs Informatik WiSe 16/17

MP3 Ein paar Grundlagen. Damit wir wissen von was wir reden. Das Werkzeug Audiograbber. Zum Erstellen von MP3 Dateien. Das Werkzeug Winamp

Audio. Jörg Cassens. Medieninformatik WS 2017/2018. Einleitung

Multimediale Werkzeuge, Audio: Formate, Tools

Audiotechnik AUDIOTECHNIK

Audio-Kompression. Felix von Leitner. 2. Dezember 1999

Quellencodierung NTM, 2006/05, 9.3 Quellencodierung, Rur, 1

und mit t in Sekunden wird mit einer Frequenz von 8000 Hz abgetastet. Die Abtastung beginnt bei t=0 mit dem Zeitindex n=0.

Digitale Audiotechnik Technología de audio digital. Friederike Maier IKX 2012

Digitales Video I. Wie wird Video am Computer codiert? Bilder. Bewegte Bilder. Ton. Videoformate. Auflösung Speicherung am Computer

Die Digitalisierung von Musik

Digitalisierung und Kodierung

Beate Meffert, Olaf Hochmuth: Werkzeuge der Signalverarbeitung, Pearson 2004

Beate Meffert, Olaf Hochmuth: Werkzeuge der Signalverarbeitung, Pearson Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 4-1

Multimediatechnik / Video

JPEG, MPEG & Co. Alex Titze Angewandte Informatik FHTW-Berlin

Kompressionsverfahren

Digital Signal Processing

Digitalisierung von Tönen. Von Paul

Adaptive Differenz-Puls-Code-Modulation (ADPCM) und Lineare, Prädiktive Codierung (LPC)

Ton. Physikalische Grundlagen Digital Audio. Grundlagen MPEG

Einführung Aufgabe 3 - MPEG. Tobias Reinsch 2011

Technik des digitalen Radios

3. Psychoakustische Wahrnehmung. Schallphysik wie entstehen Töne?

Datenformate. effiziente Speicherung und Übertragung von Audiodaten? unkomprimierte Darstellung, PCM WAV-Format ADPCM Sprachcodecs, Kompandierung

Bild-Erfassung Digitalisierung Abtastung/Quantisierung

Übertragungssysteme WS 2011/2012. Vorlesung 7. Prof. Dr.-Ing. Karlheinz Brandenburg.

2. Digitale Codierung und Übertragung

Digitale Signalverarbeitung sehen, hören und verstehen

AAC ADPCM. Kompressionsverfahren für Audio. Anzahl Zeichen MP3 Wahrscheinlichkeit. des Auftretens des Zeichens

Hannes Raffaseder: Audiodesign, Fachbuchverlag Leipzig 2002

Perceptual Coding: Agenda

Advanced Audio Coding - AAC

2. Digitale Codierung und Übertragung

Übungsblatt 6 Audio Grundlagen

Grundlagen der. Videokommunikation

Analyse und Vergleich aktueller Videokompressionsverfahren

Digitalisierung. analoges Signal PAM. Quantisierung

Digitales Video. Digitales Video

Elektrotechnik II: Kolloquium 4

Digitales Video I Wie wird Video am Computer codiert?

EDV-Anwendungen im Archivwesen II

Konzepte der Informatik

Proseminar : Audio Kompression Algorithmen Mp3

Multimediatechnik / Audio

Digitales Videoediting mit Premiere 6.5

Digitale Sprachübertragung wie funktioniert ein Vocoder

Digitales Rauschen. Fachbereich Medieninformatik. Hochschule Harz. Digitales Rauschen. Referat. Joachim Schenk. Abgabe:

Thema: DAB. Ein Überblick

4.1 Grundbegriffe 4.2 Frequenzspektren, Fourier-Transformation 4.3 Abtasttheorem: Eine zweite Sicht 4.4 Filter

Modulation. Kommunikationstechnik, SS 08, Prof. Dr. Stefan Brunthaler 104

2. Digitale Codierung und Übertragung

Informatik der digitalen Medien

Frequenzbewertung von Luftschallsignalen

Verlustbehaftete Kompression bei Multimedia

Proseminar Multimedia Datenbanken & Retrieval Audio Coding

Ogg Vorbis. Fachbereich Medieninformatik. Hochschule Harz. Ogg Vorbis. Referat. Kathleen Pabst. Stand: November 2006 Autor: Kathleen Pabst

MPEG-4 ALS Verlustlose Kompression von Audiosignalen

Multimediatechnik / Video

Transkript:

5. Ton und Klang 5.1 Ton: Physikalische und physiologische Aspekte 5.2 Kompression von Audio-Signalen: MPEG-Audio 5.3 Audio-Datenformate: Übersicht 5.4 Klangerzeugung und MIDI Weiterführende Literatur: Arne Heyda, Marc Briede, Ulrich Schmidt: Datenformate im Medienbereich, Fachbuchverlag Leipzig 2003, Kapitel 5 John Watkinson: MPEG Handbook, 2nd ed., Butterworth-Heinemann 2004 Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-33 Verlustbehaftete Audio-Kompressionsverfahren Verlustbehaftete Audiokompression Basiert auf psychoakustischem Modell der Tonwahrnehmung Wichtigster Effekt: Maskierte Bestandteile des Audio-Signals werden nicht codiert Bekanntester Standard: MPEG Layer III (MP3) MPEG = Moving Picture Expert Group Standardisierungsgremium von ISO (International Standards Organization) und IEC (International Electrotechnical Commission) Arbeitet seit 1988 an Video- und Audio-Kompression» Untergruppe MPEG/Audio MPEG-Audio-Standards werden z.b. verwendet bei» DAB (Digital Audio Broadcast)» DVB (Digital Video Broadcast) incl. terrestrischer Variante DVB-T»DVD-Video Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-34

Pulse Code Modulation (PCM) Klassische Digitalisierung: Aufzeichnung des analogen Signalwertes zu festgelegten Zweitpunkten mit festgelegter Auflösung G.711 (für Telefonie): 8 khz Abtastfrequenz für 4 khz breites Teilband (Sprache) Auflösung 8 bit 64 kbit/s Bandbreite = Breite eines ISDN B-Kanals Viele weitere Anwendungen z.b. digitale Tonaufzeichnung auf Videoband (PCM-1630) Kompression von Audiodaten Verlustfreie Kompression nur wenig wirksam Generell relativ niedrige Kompressionsraten erreichbar Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-35 Audio-Codierung in MPEG MPEG-1 Audio: PCM mit 32, 44.1 oder 48 khz max. Datenrate 448 kbit/s MPEG-2 Audio: PCM mit 16, 22.05, 24, 32, 44.1 oder 48 khz max. 5 Kanäle max. Datenrate 384 kbit/s Einteilung der Audio-Kompressionsverfahren in drei Layer (I, II, III) verschiedener Kompressionsstärke Unabhängig von Wahl des Standards MPEG-1 bzw. MPEG-2! MP3 = MPEG Layer III (Kompression ca. 11:1)» MP3 patentrechtlich geschützt, Fraunhofer IIS Erlangen Inzwischen wesentliche Weiterentwicklungen: z.b. AAC, MPEG-4 Audio (siehe später) Ogg-Vorbis Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-36

MPEG-Audio Encoder: Grundlegender Aufbau PCM Audio Filter- Bank Bänder Quantisierer Entropiecodierung & Bitstromerzeugung Komprimierte Daten Maskierung Hinweis: Der MPEG-Standard definiert nicht den Aufbau eines Encoders, sondern nur die Decodierung! Signal wird in Frequenzbänder aufgeteilt Maskierung auf der Basis der Bänder mit einem psychoakustischen Modell Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-37 Maskierung und Basilarmembran Der Maskierungseffekt erklärt sich physikalisch durch die Anregung der Basilarmembran Frequenz entspricht Ort der Anregung auf der Basilarmembran Genaue Wahrnehmung des Maximums der Anregung (Auflösung ca. 1/12 Halbton, bestimmt durch Abstand der Haarzellen) Anregungen in direkter Frequenz-Nähe sind bis zu einer bestimmten Amplitude nicht wahrnehmbar Andere Frequenz Hüllkurve der Vibration Anregungs-Maximum Hüllkurve der Vibration Anregungs-Maximum Basilarmembran Basilarmembran Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-38

Kritische Bänder Heinrich Barkhausen (1881 1956, Physiker, Dresden): Einteilung des Hörbereichs in 24 kritische Bänder» Breite (d.h. Bandbreite im Frequenzspektrum) der Vibrations-Hüllkurve auf der Basilarmembran Breite der Bänder vergrößert sich mit der mittleren Bandfrequenz Definition der bark-breite: Einheit für Bandbreite: bark Wenn f < 500: 1 bark = f / 100 Wenn f 500: 1 bark = 9 + 4 log(f / 1000) Der Grad der Maskierung einer bestimmten Frequenz ist lediglich abhängig von der Signalintensität im kritischen Band dieser Frequenz. Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-39 Subband-Kodierung Energie eines Tonsignals ist meist nicht gleichmäßig auf das Frequenzspektrum verteilt Idee: Aufteilen des Signals in Teil-Frequenzbänder Ermittlung des Signalpegels für jedes Teilband Einzel-Codierung der Teilbänder mit jeweils angemessener Bitanzahl» z.b. nicht belegtes Teilband: 0 Bit Funktioniert optimal, wenn Teilbänder an kritische Bänder des Gehörs angepasst Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-40

Filterung in Teilbänder Teilband 0 Frame (Layer I/II) Frame (Layer III) Teilband 1 Teilband 2 z.b. 48.000 Samples pro Sekunde Teilband 31 12 Samples 12 12 Samples Samples 12 Samples entsprechen bei 48 khz ca. 8 ms Ein Block von Samples in einem Teilband wird manchmal bin genannt Frame: Gesamtheit der Samples in allen Teilbändern 12 x 32 = 364 Samples in Layer I/II, 3 x 12 x 32 in Layer III Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-41 Aufbau eines MPEG-Layer I/II Encoders PCM Audio Filter- Bank 32 Bänder Quantisierer Bitstrom- Generator Komprimierte Daten FFT Maskierung Signal wird in 32 gleich breite Frequenzbänder aufgeteilt Effektive Bandfilter funktionieren nur für gleich breite Teilbänder Breite der teilbänder bei Layer I/II: 750 Hz Unterabtastung der Subbänder: Keine zusätzliche Bandbreite benötigt Wegen der Eigenschaften des menschlichen Gehörs sind die Teilbänder ungeeignet für Maskierung Zu breit bei niedrigen und zu schmal bei hohen Frequenzen Einsatz einer zusätzlichen Frequenzanalyse (FFT) Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-42

FFT zur Berechnung der Maskierungsschwelle FFT = Fast Fourier Transform Umsetzung des Amplitudensignals in Frequenzspektrum Angewandt auf die Länge eines Frames (12 Samples) Ergebnis: Aufteilung des aktuellen Signals auf viele (Layer I 512, Layer II 1024) Frequenzanteile Weiterverarbeitung: Berechnung der aktuellen Kurve für die (frequenzabhängige) Maskierungsschwelle lauter Ton Maskierungsschwelle für Teilband f Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-43 Psychoakustisches Modell Aus dem aktuellen Signalspektrum ergibt sich eine aktuelle Hörbarkeitskurve (wird berechnet) Insbesondere: Für jedes Frequenzband eine Maskierungsschwelle, unter der der Ton nicht mehr hörbar ist Details: z.b. tonale vs. geräuschartige Anteile verschieden behandelt Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-44

Maskierung Die Maskierungsschwellen aus dem psychoakustischen Modell werden mit dem tatsächlichen Signalpegel (pro Teilband) verglichen Verdeckte Signalanteile werden nicht codiert Es genügt bei teilweiser Maskierung eine geringere Bitauflösung Wir nehmen nur den Differenzanteil oberhalb der Maskierungsschwelle wahr! Ton über Maskierungsschwelle wird codiert lauter Ton Maskierungsschwelle für Teilband Ton unter Maskierungsschwelle wird nicht codiert f Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-45 Maskierung: Beispiel Ergebnis nach der Analyse der ersten 16 Bänder: Band 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Pegel 0 8 12 10 6 2 10 60 35 20 15 2 3 5 3 1 (db) Annahme: Psychoakustisches Modell liefert, dass der Pegel in Band 8 (60 db) zu folgender Maskierung der Nachbarbänder führt: > Maskierung um 12 db in Band 9 > Maskierung um 15 db in Band 7 Pegel in Band 7 ist 10 db --> Weglassen! Pegel in Band 9 ist 35 db --> Codieren! Wegen Maskierung 12 db Ungenauigkeit zulässig, d.h. mit zwei Bit weniger codierbar 1 Bit der Codierung = doppelter Amplitudenumfang = 6 db Genauigkeit! Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-46

Unterschiede der MPEG Layer Layer I: 32 gleichbreite Teilbänder FFT mit 512 Punkten Betrachtung nur eines Frames Psychoakustisches Modell benutzt nur Frequenzmaskierung Layer II: 32 gleichbreite Teilbänder FFT mit 1024 Punkten Betrachtung von drei Frames (jetzt, vorher, nachher) Einfache Zeitmaskierung, verfeinerte Bittiefenzuweisung Layer III: Teilbänder verschiedener Breite, ähnlich zu den kritischen Bändern Größere Frames (36 Samples) (Modified) DCT der Teilbänder (in überlappenden Fenstern variierender Breite) Zusätzliche Entropiecodierung (Huffman) Behandlung von Stereo-Redundanzen Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-47 Kritische Bänder und Filterbänder Situation in MPEG Layer I/II: Ziel: bessere Anpassung an die Bandbreite der kritischen Bänder Aber: Nicht durch Filterbank realisierbar Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-48

Aufbau eines MPEG-Layer III Encoders PCM Audio Filter- Bank 32 Bänder MDCT 576 Freq. Quantisierer Huffman- Codierung FFT 1024 Maskierung Bitstrom- Generator MDCT teilt jedes Teilband nochmals in 18 feinere Bänder auf Komprimierte Daten Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-49 DCT: Diskrete Cosinus-Transformation Ähnlich zur Fourier-Transformation: Gegebenes Signal wird durch Anteile bestimmter Grundfrequenzen beschrieben Diskrete Transformation: n Messwerte werden in n Anteilswerte (Koeffizienten) umgerechnet Lineare Transformation (Matrixmultiplikation)» D.h. sehr effizient zu berechnen Vorteile der Cosinus-Transformation Besser geeignet für Kompression (Filtern von Frequenzen) Bessere Kompaktheits -Eigenschaften (Energie auf wenige Grundfrequenzen konzentriert) Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-50

Modified Discrete Cosine Transform MDCT DCT entsprechen kleineren Teilbändern bei der Maskierungsanalyse bei Audio Probleme mit Artefakten an Blockgrenzen Modified DCT Überlappung der Cosinusfunktionen um 50% Damit Vermeidung von Artefakten durch Blockgrenzen Doppelt einbezogene Werte heben sich gegenseitig auf Häufig Adaption der Fenstergröße an Signalverlauf Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-51 Stereophonie in MPEG-Audio Single Channel Monosignale Dual Channel Verschiedene Monosignale (z.b. Sprachsynchronisation) Stereo Coding Separat codierte Stereosignale Joint Stereo Coding Redundanzen im Stereosignal ausgenutzt Linker Kanal und Differenz Links/Rechts Frequenzabhängigkeit der Raumwahrnehmung» Monosignal für tiefe Frequenzen Hinweis: Es gibt Experimente, nach denen räumliches Hören z.t. die MPEG- Kompressionsverluste wahrnehmbar machen kann Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-52

MPEG AAC AAC = Advanced Audio Coding Nachträglich zu MPEG-2 standardisiert Verbesserte Fassung in MPEG-4 Nicht rückwärtskompatibel MPEG-2 AAC: 48 volle Audio-Kanäle Reines MDCT-Filter, keine Filterbank mehr Stark adaptierende Fenstergrößen Prädiktive Kodierung im Frequenzraum (Temporal Noise Shaping TNS)» gute Kodierung für Transiente (zeitweilige Pegelspitzen) MPEG-4 AAC: Perceptual Noise Substitution: Rauschen-ähnliche Teile des Signals werden beim Dekodieren synthetisiert Long Term Prediction: Verbesserte Prädiktionskodierung Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-53 Weitere Audiokompressionsverfahren Dolby AC-3 (Audio Code No. 3) Prinzipiell sehr ähnlich zu den MPEG-Verfahren Time-Domain Aliasing Cancellation (TDAC)» Überlappende Fenster in einer MDCT» Transformation so ausgelegt, dass sich Redundanzen im Folgefenster auslöschen ATRAC (Adaptive Transform Acoustic Encoding) Sony-Verfahren, entwickelt für MiniDisc Ebenfalls Aufteilung auf Teilbänder, MDCT, Skalierung Hörbare Verzerrungen bei mehrfachem Kopieren Microsoft Windows Media Audio (WMA) Nicht offengelegtes Verfahren mit recht hoher Kompression (CD-Qualität bei 64 kbit/s) Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-54

Einfache verlustbehaftete Verfahren Stummunterdrückung (silence compression) Ausblenden von Zeitbereichen mit Nullsignal µ-gesetz-codierung bzw. a-gesetz-codierung (u.a. in G.711): Nichtlineare Quantisierung: leise Töne angehoben Ähnlich zu Dynamischer Rauschunterdrückung in Audiosystemen Adaptive Differential Pulse Code Modulation (ADPCM) Prädiktives Verfahren Vorhersage des Signalverlaufs durch Mittelung über bisherige Werte Laufende Anpassung der Quantisierungstiefe an Signal Kodierung der Differenzwerte zur Prädiktion Linear Predictive Coding (LPC) Vergleicht Sprachsignal mit analytischem Modell der menschlichen Spracherzeugung, codiert Modellparameter und Abweichungen von der Vorhersage (militärische Entwicklung) Nur für Sprache, klingt blechern, hohe Kompression Weiterentwicklungen, z.b. Code Excited Linear Predictor (CELP) Ludwig-Maximilians-Universität München Prof. Hußmann Digitale Medien 6-55