Basisinformationstechnologie II Sommersemester 2013 19. Juni 2013 Audio / Video: Kompressionsverfahren Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners // jan.wieners@uni-koeln.de
Themenüberblick Video Container Matroska MP4 Codecs DivX Xvid H.264 Verfahren der Videokompression Intra-coding Vektorquantisierung Konturbasierte Codierung Inter-coding Differenzcodierung Bewegungskompensation Audio Sampling Kompression
Video Container und Codecs
Bildnachweis: Kill Bill (2003)
Bitraten (37 sec.): 1 Mbps (~5 MB) 500 Kbps (~3 MB) 100 Kbps (~1,6 MB) Konstante Bitrate (CBR) vs. Variable Bitrate (VBR) Bildnachweis: Kill Bill (2003)
Speicherplatzbedarf von Videomaterial ~25 Bilder pro Sekunde 25 fps (frames per second) Auflösung Farbtiefe (Quantisierung) z.b. 24 Bit pro Pixel Rechenexempel unkomprimiertes Video: 720 * 576 * 24 = 9.953.280 Bit pro Frame = ~1,2 MB / Frame (9.953.280 / 8 / 1024) 1,2 MB * 25 Frames = 30 MB/ sec. 30 MB * 60 sec. = 1.800 MB / min. 1,8 GB * 60 min. = 108 GB / std.
DVD & Co. Quelle: http://www.bluray-disc.de/faq/was-ist-der-unterschied-zwischen-blu-ray-und-der-dvd
Container Codecs Von den Begriffen Compressor und Decompressor Codecs: Mathematische Algorithmen, mit deren Hilfe Video- und Audiodaten reduziert werden. Hardware-Codecs: Hardwarebausteine, die die Kompression in Echtzeit durchführen. Software-Codecs
MKV: Matroska Media Container http://matroska.org/technical/whatis/index.html
Matroska Media Container Matroska Unterstützt Videocodecs: MPEG-1, MPEG-2, MPEG-4 H.264 RealVideo, WMV, Theora, Dirac Unterstützt Audiocodecs: MP3 AAC, AC3, DTS, WAV, Vorbis, FLAC
Container: mp4 Mp4 Von der Moving Picture Expert Group (MPEG) (gegründet 1988) beschränkt auf folgende Formate: Video: MPEG-4 (Part 2, Part 10 (AVC/H.264)), MPEG-2 und MPEG-1 Audio: AAC, MP3, MP2, MP1, AC-3 Bilder: JPEG, PNG Grafik und Text: BIFS (z. B. können Untertitel in dieses Format umgewandelt werden) Dateiendungen:.m4v,.mp4v: Video (MPEG-4-Videoströme).m4a: nur für Audio.m4b: (Audiobook): Hörbücher, in die Lesezeichen gesetzt werden können.m4p: (Protected): DRM-geschützte AAC-Audiodateien.m4r: (Ringtone): Klingeltöne für iphone
MPEG: Standards
Codec: DivX DivX <= DivX ;-) 3.11 (1999): Veränderter MS MPEG 4 Codec: u.a.: Erhöhung der maximalen Bitrate MS MPEG 4: 256 kbps DivX: bis 6 mbps Erzeugt kein ISO-konformes MPEG 4 Video > DivX ;-) 3.11: Neuentwicklung, patentierter Codec Unterstützt u.a.: Multipass Encoding (variable Bitrate) Komplexe Szenen erhalten eine höhere Bitrate zugewiesen, langsame Szenen eine niedrigere Bitrate 2000: Gründung der Firma DivXNetworks Open Source Projekt OpenDivX, basierend auf der MPEG-4 Referenzimplementierung des EU- Projektes MoMuSys (Mobile Multimedia Systems) Nach Veröffentlichung von DivX 4.0 (August 2001): Fokus auf kommerzielle Interessen, die Entwicklungsarbeiten an OpenDivX werden eingestellt Kodiereffizienz schlechter als bei DivX ;-) DivX 5: Erstes kommerzielles Produkt DivX 9.1.2 (2013-05) Linktipp: http://www.heise.de/ct/artikel/divx-im-griff-288448.html
Coded: Xvid Xvid Freie MPEG-4 Implementierung (GNU General Public License), basierend auf OpenDivX Quelltext Techniken: B-Frames Quarter Pixel Compensation
Codec: H.264 H.264 2003 als Standard verabschiedet: MPEG-4 Part 10 oder auch AVC (Advanced Video Coding) Zehnter Teil des MPEG-4 Standards (MPEG- 4/Part 10, ISO/IEC 14496-10) Datei-/Containerformat: mp4 Verwendung: HDTV / Blu-Ray Freier, quelloffener Encoder: x264 (http://www.videolan.org/developers/x264.html)
H.264 Variable block-size motion compensation (VBSMC) with block sizes as large as 16 16 a as small as 4 4, enabling precise segmentation of moving regions.
Videokompression Videokompression: Möglichkeiten in der Beseitigung von Redundanzen???
Wie ließe sich diese Videosequenz komprimieren? http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg
Videokompression Videokompression: Möglichkeiten in der Beseitigung von Redundanzen Bild- bzw. Framedimensionen (Höhe und Breite) - Eigenschaften der Pixel (Helligkeit, Farbe) - Eigenschaften des jeweils betrachteten Frames Zeitliche Dimension
Welche der beiden Videosequenzen lässt sich besser / stärker komprimieren? Warum? http://skateboarding.ru/gallery/data/media/81/sequence_mini.jpg / http://mamboaustralia.com/isfucked/wp-content/uploads/2011/05/cheadle_culburra_sequence1.jpg
Videokompression Unterscheidung: Intra-coding (auch: spatial coding): Redundanz aus einem Frame entfernen (räumliche Redundanz), Kompression teilweise analog zu JPEG Vektorquantisierung Konturbasierte Codierung vs. Inter-coding (auch: temporal coding): Redundanz zwischen Frames entfernen (temporale Redundanz) Differenzkodierung (frame differencing) Bewegungskompensation
Intra-Coding: Vektorquantisierung Idee und Verfahrensweise: Aufteilung des Frames in Blöcke (4x4, 8x8, etc.) Suche nach ähnlichen Blöcken Ähnliche Blöcke im Bild ersetzen durch Durchschnittsblock Zwei Schritte: Training: Erstellung der Tabelle (Codebuch) mit häufig vorkommenden Blöcken Häufig verwendet: Linde Buzo Gray Algorithmus Berücksichtigung der Ähnlichkeit der notierten Blöcke Dekoder muss über das gleiche Codebuch verfügen Vorteile: Schnelle Decodierung Gute Kompression bei vielen ähnlichen Blöcken Nachteile: Codierung aufwändig, da ähnliche Blöcke gesucht werden müssen Praxis: Verwendung in Codecs: Indeo, Cinepak
Intra-Coding: Konturbasierte Codierung Idee und Verfahrensweise: Trennung in Textur und Kontur Konturen beschreiben (z.b.) durch Bézier-Kurven Texturen kodieren (z.b. mit DCT) Praxis: Verwendung ansatzweise in MPEG-4 Knackpunkt: Objekterkennung
Inter-coding
Kompression? t = 1 t = 2 t = 3 Bildnachweis: http://www.ipway.rs/h264/doc/wp_h264_31669_en_0803_lo.pdf
Kompression! t = 1 Frame vollständig gespeichert I-Frame t = 2 Aus dem vorhergehenden Frame berechnetes Frame P-Frame t = 3 Aus dem vorhergehenden Frame berechnetes Frame P-Frame Bildnachweis: http://www.ipway.rs/h264/doc/wp_h264_31669_en_0803_lo.pdf
Differenzcodierung Speichern der Differenzen zwischen Start- und Folgeframe, z.b. pixelweise Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
Unterscheidung I: Frame-Typen (in MPEG) Intra- vs. Predicted- vs. Bidirectional Frames: Das Intra-Frame (I-Frame, auch: Key Frame / Schlüsselbild) wird nur unter Berücksichtigung der eigenen Bildinformation kodiert Predicted Frames (P-Frames) werden aus den vorhergehenden I-Frames berechnet. Bidirectional Frames beziehen sich sowohl auf die vorhergehenden I- und P-Frames als auch auf die folgenden I- und P-Frames. Praxis MPEG-1 / -2: Ein I-Frame pro ½ Sek. MPEG-4: Ein I-Frame ~ alle 10 Sek.
Differenzcodierung Verfahrensweise Startframe und spätere I-Frames intracodiert übertragen Unterschiede zum Folgeframe bestimmen, als Bild interpretieren und dieses Bild komprimieren Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 180.
Bewegungskompensation (Motion Compensation) Verfahrensweise: Objektbewegungen zwischen Frames identifizieren Speicherung der Veränderungen als Bewegungsvektoren (motion vector) Zu übertragen: Differenzbild Bewegungsvektoren Bildnachweis: Malaka, Butz, Hußmann: Medieninformatik. München: Pearson Studium, 2009. S. 182.
Bewegungskompensation Blockbasierte Bewegungskompensation Verwendung u.a. im MPEG-2 Standard Grob: Jedes Frame des Videomaterials wird in n*m große Pixelblöcke unterteilt Um die Bewegungskompensation zu leisten, werden die Pixelblöcke von Frame zu Frame miteinander verglichen Ähneln sich die Pixelblöcke (z.b. Kreuzkorrelation), so wird nur der Verschiebungsvektor gespeichert, um den sich der Block verschiebt
Themenüberblick Video Container Matroska MP4 Codecs DivX Xvid H.264 Verfahren der Videokompression Intra-coding Vektorquantisierung Konturbasierte Codierung Interframe-coding Differenzcodierung Bewegungskompensation
Audiokompression
Hörbeispiel
Audio: Basics Akustische Signale = zumeist periodische Signale Amplitude Maximalwert eines Signals innerhalb einer Phase Schwingungsdauer Zeit, bis eine Schwingung wieder ihren Ausgangszustand erreicht Wellenlänge Frequenz, ausgedrückt in Hertz (Hz, 1Hz = 1 Schwingung pro Sekunde) Amplitude Schwingungsdauer
Eine Problemstellung: Sampling Von analog nach digital: Sampling Digitalisierung von Audiodaten Grundfragen Sampling: 1. Wahl der geeigneten Abtastrate (Sampling Rate) 2. Wahl der geeigneten Auflösung
Abtastrate (Sampling Rate) Je häufiger die Schallwelle auf ihren Druck abgetastet wird, desto besser wird der originale Ton digital repräsentiert. Zu wenige Abtastpunkte führen zu geraden Linien, zu langen Wellen oder zu gezackten Kurven.
Shannon-Nyquist Wahl der Abtastrate auf Basis des Nyquist-Shannon- Abtasttheorems. Wenn ein kontinuierliches Signal mit einer oberen Grenzfrequenz von fmax mit einer Abtastrate von mehr als 2*fmax abgetastet wird, kann man das Ursprungssignal ohne Informationsverlust aus dem abgetasteten Signal rekonstruieren. (Malaka, Butz, Hußmann: Medieninformatik. München: Pearson, 2009, S. 63.) Das Abtasttheorem und die Praxis: Da menschliche Ohren Schallwellen von maximal 22.000 Hz (= 22 khz) wahrnehmen können, liegt die erforderliche Nyquist- Rate bei 44.000 Hz. Qualitativ hochwertige Audio-Digitalisate haben darum eine Abtastrate von 44.100 Hz.
Pulse Code Modulation Bekanntestes (und einfachstes) Abtastverfahren: PCM (Pulse Code Modulation) Für jeden Abtastzeitpunkt: Messung eines Signalwertes Bekannte Audio-Formate, die PCM verwenden: WAV, AIFF
Quantisierung: Abtasttiefe
Speicherplatzbedarf Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit 60-minütiger Laufzeit?
Speicherplatzbedarf Wie groß ist der Speicherplatzbedarf (unkomprimiert) einer klassischen Aufnahme in CD Qualität (Stereo, 16 Bit) mit 60-minütiger Laufzeit? Lösung Das Audiosignal wird standardmäßig mit 44,1 KHz abgetastet. Die Abtasttiefe liegt bei 16 Bit. Daraus folgt: 44,1kHz * 2 * 16bit * 60 min * 60 s = 635 Megabyte
Kompression: Psychoakkustische Aspekte Hörschwellenmaskierung Signale werden aus Frequenzspektrum entfernt, die jenseits der (menschlichen) Hörschwelle liegen Frequenzmaskierung Entfernung von Signalen, die von Signalen mit einer anderen Frequenz übertönt werden Bildnachweis: http://de.wikipedia.org/w/index.php?title=datei:24h_wecker.jpg&filetimestamp=20090809180759
Kompression: Psychoakkustische Aspekte Temporale Maskierung Auch zeitliche Abstände zwischen Tönen haben einen Einfluss auf die Hörbarkeit: Geht einem starken Ton A ein schwächerer Ton B in ähnlicher oder gleicher Frequenz voraus oder folgt ihm, so gibt es zeitliche Abstände von bestimmter Dauer, in denen Ton B nicht zu hören ist. Bildnachweis: http://www.itwissen.info/definition/lexikon/maskierung-masking.html
und die Praxis: mp3
mp3 mp3: Charakteristik Populäre Bezeichnung für eine Realisierung der Spezifikation des MPEG-1, Audio Layer III Vom Fraunhofer Institut Anfang der 90er Jahre entwickelt. Intention: Datenreduktion unter Beibehaltung der subjektiven (!) Klangqualität zu erreichen. Bildnachweis mp3 Kodierer: http://www.itec.uka.de/seminare/redundanz/vortrag14/
mp3
MPEG-1 Seit Oktober 1992 als Standard ISO/IEC 11172 definiert Erarbeitung eines Standards für die effiziente Speicherung und Wiedergabe von audiovisuellen Daten auf CDs, der eine maximale Datenübertragungsrate von 1,5 Mbit/s unterstützt. Standard zur verlustbehafteten Kompression von Audio- und Videodaten Besteht aus zwei großen Teilen: Audio Video
MPEG Audio Audio-Teil beschreibt die Kodierung von Audiodaten (Mono/Stereo). In diesem Teil des Standards werden drei verschiedene Methoden (layer) der Datenkompression definiert: Layer I: Verwendet Frequenzmaskierung Layer II: Verfügt über Wissen, welche Informationen irrelevant sind Layer III: Verwendet die Huffman-Codierung
/
Hausaufgaben Aufgabe 1 (1 Punkt) Welche Arten von Redundanz werden bei der Videokompression beseitigt? Erläutern Sie in diesem Kontext die Begriffe Intra- und Inter-Coding und beschreiben Sie die grundlegende Funktionsweise des Verfahrens Motion Compensation. Aufgabe 2 (1 Punkt) Beschreiben Sie die Vorgehensweise bei der Digitalisierung von Audiosignalen. Beschreiben Sie in diesem Zusammenhang die folgenden Begriffe: Abtastrate (Sampling Rate) PCM Abtasttiefe (Quantisierung) Aufgabe 3 (1 Punkt) Welche Phänomene menschlicher Wahrnehmung (Stichwort: Maskierung ) macht man sich bei der Audiodaten-kompression zunutze? Aufgabe 4 (1 Punkt) Informieren Sie sich im WWW über das mp3-format. In welchem Zusammenhang steht mp3 mit der Moving Picture Experts Group?