2.3 H.261 (8) 2.4 H.263 Datenstrom von H.261 Nachfolger von H.261 ITU-T Standard von 1996 ähnliches Design nach Handley Start Code GOB Start MB Addr. Auflösungen CIF oder QCIF Time Ref GOB Number Intra/ Inter CIF/QCIF GOB GOB GOB Quantizer Quant Motion Vector Coded s D.33 Zahlreiche optionale Erweiterungen Auflösung der Bewegungsvektoren auf halbe Pixel genau detailreichere Bewegungsvorhersage basiert auf 8 x 8 Blöcken statt 16 x 16 bessere Endcodierung (Syntax-based arithmetic coding) zusätzliche Auflösungsoptionen SQCIF, QCIF, CIF, 4CIF, 16CIF -Prediction vorwärts und rückwärts Makroblock enthält Differenzen zu vorangegangenem und zu nachfolgendem ähnlich MPEG D.34 2.5 MPEG-Codierungen 2.6 MPEG-1 Moving Pictures Exptert Group (MPEG) Standardisierung über ISO/IEC International Standards Organization/International Electrotechnical Commission MPEG-1, -2 und -4 als Codierungsstandards Audio- und Videodaten MPEG-1 Qualität in etwa von H.261 CIF MPEG-2 hohe Qualität: DVD, digitales Fernsehen (DVB-T), HDTV Audio Layer 3 bekannt als MP3 MPEG-4 geringe Bitraten (mobile Systeme) Skalierbarkeit (auch für HDTV geeignet) D.35 Datenrate 1 bis 1,5 MBit/s höhere Auflösungen möglich aber wenig gebräuchlich progressiver Scan Drei arten I- alle Makroblöcke sind Intraframe-codiert wird regelmäßig alle n-s codiert P- einige Makroblöcke beziehen sich auf vorherigen I- oder P- B- einige Makroblöcke beziehen sich auf den vorherige und nachfolgenden D.36
2.6 MPEG-1 (2) Motivaton für B-s bewegliche Objekt vor Hintergrund Bewegung des Objekts effizient codiert durch Bewegungsvektoren Was passiert mit Hintergrund? 2.6 MPEG-1 (3) Codierung mit B-s Aufbewahrung mehrerer Bilder im Encoder Senden der P-s außer der Reihe Beispiel: ankommende s: 1 2 3 4 5 6 7 codiert als: I B B P B B I gesendet: I P B B I B B Bezug zum Folgebild erlaubt einfache Codierung Überblendeffekte Codierung als Mittel zwischen den Daten zweier Bilder Nachteil höherer Speicheraufwand (Puffer) höhere Komplexität (Rechenzeit) höhere Verzögerung Group of Pictures I- und alle folgenden s bis zum nächsten I- D.37 Vorteil: effiziente Codierung B- hat etwa halbe Größe eines P-s D.38 2.6 MPEG-1 (4) GOP-Anordnung obliegt dem Encoder z.b. IPPP, IBPBP, IBBPBP optimierte Algorithmen können ideale Anordnung berechnen hoher Aufwand, sinnvoll evtl. in On-Demand-Szenarien Einstreuen von I-s nach bestimmter zahl erlaubt Implementierung von schnellem Vor- oder Rücklauf durch Ausspielen der I-s und evtl. von P-s Skalierung in der rate leicht möglich 2.7 MPEG-2 Standardisiert als ISO/IEC 13818-1 bis -9 Verbessert MPEG-1 für höhere Qualität geeignet (z.b. DVD) Verbesserungen Unterstützung für Interlaced-Scan verschiedene Varianten für Größe der Farbinformation genauere Koeffizienten für DCT höhere Datenrate (4 100 MBit/s) verschiedene Seitenverhältnisse (4:3, 16:9) skalierbare Datenströme D.39 D.40
2.7 MPEG-2 (2) Skalierbarkeit Aufteilung der Daten auf mehrere Datenströme (Layers) Base-Layer enthält substanzielle Information, aber in geringer Qualität Enhancement-Layer enthält zusätzliche Information zur Qualitätssteigerung Modi der Skalierbarkeit Datenpartitionierung Base-Layer: DCT-Koeffizienten für niedere Frequenzen Enhancement-Layer: Koeffizienten für höhere Frequenzen Signal-Rauschabstand Base-Layer: grobe Quantisierung Enhancement-Layer: Delta für feine Quantisierung 2.7 MPEG-2 (3) Modi der Skalierbarkeit (fortges.) Spatiale Skalierbarkeit Base-Layer: normale Bildqualität Enhancement-Layer: Zusatzinfo für HDTV Temporale Skalierbarkeit Base-Layer: 30 s pro Sekunde Enhancement-Layer: Erweiterung für 60 s pro Sekunde Vorteil der Skalierbarkeit leichte Aufspaltung des Stroms für Clients mit niedrigeren Anforderungen oder Fähigkeiten z.b. Adaptierungsknoten im Netz filter Enhancement-Layer aus z.b. Filterung beim Ausspielen D.41 D.42 2.7 MPEG-2 (4) Profile und Levels Profil definiert Codierungsverfahren (5 Profile) z.b. Simple Profile: keine B-s, keine Skalierbarkeit z.b. High Profile: B-s, SNR oder spatiale Skalierbarkeit Level definiert Auflösung und rate (4 Levels) z.b. High Level: 1920 x 1152 x 60, Low Level: 352 x 288 x 30 2.7 MPEG-2 (5) MPEG-2 Video-Encoder liefert Elementardatenstrom Height ES (Elementary Stream) Width Aspect Ratio Bit Rate Picture Rate theoretische Auflösung des MPEG-2 Formats 16383 x 16383 GOP Slice Slice Slice Temporal Ref Type Structure Slice D.43 MB Addr. Type Quant Motion Vectors Coded s D.44
2.7 MPEG-2 (6) 2.7 MPEG-2 (7) MPEG-2 Audio Encoder liefert ebenfalls ES MPEG-2 Packetised Elementary Streams (PES) Packetierung in Einzelpakete pro ES unterschiedlich lange Pakete Paketheader Stromidentifikation MPEG-2 Program Stream PES-Pakete mehrerer ES werden gemischt zu mehreren Program-Stream-Packs pro Pack: und bis zu 16 Video- und 32 Audio-PES-Pakete gleiche Zeitbasis für Time-References notwendig typisch für Audio + Video entwickelt für fehlerfreie Umgebungen z.b. Format in einer MPEG-2-Datei D.45 MPEG-2 Transport Stream (TS) für fehlerhafte Übertragungen entwickelt z.b. Netzwerk, drahtlose Netzwerke fixe Paketgröße von 188 Byte motiviert von ATM-Zellen (47 Byte Nutzlast; 188 = 4 * 47) enthält Informationen über im Paket enthaltene PES-Pakete erleichtert Resynchronisation und Fehlererholung D.46 2.8 MPEG-4 Standardisiert als ISO/IEC 14496 (1999) MPEG-4 Version 2 (2000) Zielsetzung niedrige Bitraten (z.b. 10 kbit/s) mobile Nutzer Handy-TV, Videotelefonie auf dem Handy hohe Skalierbarkeit sehr hohe Bitraten erreichbar (z.b. 1 GBit/s) Integration von Videoobjekten in eine Szenerie Media-Objects 2.8 MPEG-4 (2) Media-Objects Standbilder z.b. Hintergrund Videoobjekte z.b. sprechende Person ohne Hintergrund Audioobjekte z.b. Sprachdaten der sprechenden Person Text und Grafik z.b. eingeblendete Texte bei Nachrichtensendungen synthetische Audiodaten synthetische Bilddaten z.b. animierte Filme, animierte Avatare, 3D-Objekte D.47 D.48
2.8 MPEG-4 (3) 2.8 MPEG-4 (4) Standardisiertes Konzept zum Aufbau einer Szene Platzierung von Media-Objects im Raum Anwendung von Transformationen zur Änderung der geometrischen und akustischen Erscheinungsform Komposition von Media-Objects aus einfacheren Objekten Zuordnung von Datenströmen an Media-Objects z.b. Audiostrom zu Person z.b. Videostrom wird in Bild oder Leinwand aus der Szene eingepasst z.b. Datenstrom koordiniert Animation eines Kunstkopfs/Avatars (Lippenund Mimikinformation) Definition von Benutzerinteraktionen mit den Media-Objects in der Szene Integration von VRML-Konzepten zur Darstellung, Transformation von und Interaktion mit 3D-Objekten D.49 Sprite-Technik beweglicher Bildbereich über Hintergrund (Sprite) Bilder von D. Farin Hintergrund wird weniger häufig übermittelt Ausschnitt aus Hintergrund bestimmt durch Szene und Blickwinkel Vordergrundobjekt wird hinzugefügt D.50 2.9 H.264 MPEG-4 Part 10 auch als H.264 bezeichnet verbesserter Videocodierungsstandard (2003) Verbesserungen gegenüber MPEG-2 bis zu 32 Bezugsframes für P- und B-s MPEG-2 nur 2 Bezugsframes skalierbare größe bei Bewegungskompensation genauere Anpassung an Geometrie des bewegten Objekts Viertelpixel-Auflösung bei Bewegungsvektoren gewichtete Übernahme von Blöcken z.b. für Fading-Effekte mehrere Codierungsformate für DCT-Koeffizienten Vorteil typisch: halbe Datenrate von MPEG-2 bei gleicher Qualität D.51 3 Referenzen Verwendete Ressourcen, weitere Informationen H. Schulzrinne, A. Rao, R. Lanphier: Real Time Streaming Protocol (RTSP). RFC 2326, April 1998. H. Schulzrinne, S. Casner: RTP profile for audio and video conferences with minimal control. RFC 3551. July 2003. Wikipedia. <www.wikipedia.org> M. Handley: Multimedia Systems (Z04/Z24). Vorlesungsfolien, 2006. <http://www.cs.ucl.ac.uk/teaching/z24/> D. Farin, P. de With, W. Effelsberg: Minimizing MPEG-4 Sprite Coding-Cost using Multi-Sprites. Proc. of the SPIE Visual Communications and Image Processing Conf. Vortragsfolien, 2004. <http://vca.ele.tue.nl/publications/data/farin2004a.html> D.52