Kapitel 2 Quellencodierung

Transkript

1 Kapitel 2 Quellencodierung Prof. Dr. Dirk W. Hoffmann Hochschule Karlsruhe w University of Applied Sciences w Fakultät für Informatik

2 Übersicht Quelle Senke Kompression Huffman-, Arithmetische-, Lempel-Ziv Codierung Dekompression Codierung Signalbildung Hamming Codes, CRC Codierung RZ, NRZ, NRZI, Manchester-Codierung Decodierung 00 Signalübersetzung Modulation Amplitude/Frequency/Phase shift keying, QAM Demodulation Satellitenkommunikation Übertragung 2

3 Kompressionsprinzipien Eigenschaften Lossless compression Originaldaten können : wiederhergestellt werden Anwendung Texte Beispiele Verlustfreie Kompression Anwendungsdateien Lauflängencodierung Huffman-Codes Arithmetische Codierung Lempel-Ziv-Codierung Verlustbehaftete Kompression Eigenschaften Lossy Compression Informationsverlust wird bewusst in Kauf genommen Anwendung Videokompression Audiokompression Beispiele jpg mpeg mp3 3

4 Datenkompression Codierung mit variabler Bitlänge I. A. kommen Zeichen nicht gleichhäufig vor. Idee: Codiere häufig vorkommende Zeichen mit wenigen Bits selten vorkommende Zeichen mit vielen Bits Wie können präfixfreie Codes mit dieser Eigenschaft konstruiert werden?

5 Shannon-Codierung Kompressionsalgorithmen () Arrange the messages of length N in order of decreasing probability and suppose their probabilities are p p 2 p 3... p n. Let P s = s p i ; that is P s is the cummulative probability up to, but not including, p s. We first encode into a binary system. The binary code for message s is obtained by expanding P s as a binary number. The expansion is carried out to m s places, where m s is the integer satisfying: log 2 p s m s < +log 2 p s. Claude Shannon, The Mathematical Theory of Communication, 99 Beispiel Beispiel 2 a b c d e a b c d e

6 Fano-Codierung Kompressionsalgorithmen (2) Wahrscheinlichkeitsbasierte Partitionierung der Symbolmenge Ordne alle Zeichen in absteigender Auftrittswahrscheinlichkeit Unterteile die Zeichenmenge in zwei Partitionen Die Summe der Wahrscheinlichkeiten müssen möglichst ausgeglichen sein Die erste Gruppe wird mit, die zweite Gruppe mit 0 codiert Wiederhole die Partitionierung rekursiv für alle Gruppen mit 2 Elementen Beispiel Beispiel 2 a b c d e a b c d e

7 Huffman-Codierung Kompressionsalgorithmen (3) Bottom-up-Erzeugung des Codierungsbaums Erzeuge ein Blatt B für jedes Zeichen a i mit der Markierung M(B) := p(a i ) Wähle diejenigen zwei Knoten P und Q mit den geringsten Markierungen aus Verbinde P und Q und markiere den Knoten mit M(P) + M(Q) Wiederhole die Konstruktion bis der Codebaum vollständig aufgebaut ist Beispiel Beispiel 2 a b c d e a b c d e

8 Zusammenfassung Wie gut sind die Codierungen? Shannon Fano Huffman a b c d e = a + b + c + d + e = a + b + c + d + e = = = = a 00 b 0 c 00 d 0 e 0 L = = = 2,6290 a 00 b 0 c 0 d 0 e L = = = 70 2,2506 a 0 b 00 c 0 d 0 e L = = = 69 2,225 Wie viel besser könnten die Codierungen sein?

9 Ein Teil des Quellencodierungstheorems Satz 5. f (x) ( ) x Es seien X eine Datenquelle und p,...,p n die Auftrittswahrscheinlichkeiten der emittierten Quellensymbole. Dann erfüllt jede prä- lnx fixfreie Binärcodierung c die Beziehung i p i log 2 p i L(c) x Wie viel besser könnten die Codierungen sein? = 9

10 Zusammenfassung ( )= a 2 b 6 c 5 d e Shannon a 00 b 0 c 00 d 0 e 0 L(c ( )=2,6290 H(X) ( )= =2,7552 R(X,c ( )=0,373 i Dieser Wert ist in der Informationstheorie so wichtig, dass er einen eigenen Namen trägt. Er wird als die Entropie der Datenquelle bezeichnet. p i log 2 p i = 2 log log log log 2 + log 2 2,7552 Fano Huffman a 00 b 0 c 0 d 0 e L(c ( 2 )= )=2,2506 H(X) ( )= =2,7552 R(X,c ( 2 )= )=0,025 a 0 b 00 c 0 d 0 e L(c 3 )=2,225 H(X) =2,7552 R(X,c 3 )=0,

11 Ist die Entropie eine scharfe Schranke? Existiert eine Codierung, deren mittlere Codewortlänge beliebig Nahe an die Entropie herankommt? Ja, z. B. die Arithmetische Codierung abac Nachricht Idee der Arithmetischen Codierung Die gesamte Nachricht wird durch eine Zahl z [0;) dargestellt Das Intervall wird rekursiv partitioniert Ein Teilintervall für jedes Zeichen des Alphabets Die Größen der Intervalle entsprechen den Auftrittswahrscheinlichkeiten Nach n Schritten: Jedes Intervall entspricht einer Nachricht der Länge n Als Codewort werden die Nachkommabits derjenigen Zahl verwenden, die innerhalb des zugehörigen Intervalls liegt und die kürzeste Binärdarstellung aufweist. [ 9 6 ; 20 6 ) 000 Intervallkonstruktion 0,000 [ 9 6 ; 20 6 ) Codewort

12 Codierung der Nachricht abac (die Details) a b c [ 9 6 ; 20 6 ) 2 0,00 0, a b c 0,000 0,00 0,00 0, a b c 0,0000 0,000 0,000 0,00 0,000 0,00 0,00 0, a 32 b 32 c , ,0000 0,0000 0,000 0,0000 0,000 0,000 0,00 0,0000 0,000 0,000 0,00 0,000 0,00 0,00 0, a 6 b 6 c , , , ,0000 0, ,0000 0,0000 0,000 0, ,0000 0,0000 0,000 0,0000 0,000 0,000 0,00 0, ,0000 0,0000 0,000 0,0000 0,000 0,000 0,00 0,0000 0,000 0,000 0,00 0,000 0,00 0,00 0,0 Jede Zahl aus dem Intervall [ 9 6, 20 6 ) repräsentiert die Nachricht abac. [ 9 6 ; 20 6 ) 2

13 Verzeichnisbasierte Kompression Prinzip Zur Codierung wird ein Verzeichnis (Dictionary) verwendet Textfragmente werden durch Referenz in das Verzeichnis codiert Verzeichnis wird vor der Codierung aufgestellt Während der Codierung bleibt das Verzeichnis unverändert Statische Verfahren Verfahren von Lempel und Ziv Gehört zu der Gruppe der dynamischen Verfahren Weit verbreitet in vielen Varianten Varianten: LZ77, LZ7, LZW (Lempel Ziv Welch) Anwendungsbeispiele: TIFF, compress, zip, unzip Dynamische Verfahren Wird während der Codierung dynamisch erstellt Verzeichnis muss in vielen Fällen nicht übertragen werden 3

14 Lempel-Ziv-Kompression LZ77 - Die Grundidee Bereits gesehener Text wird als Wörterbuch verwendet Der Folgetext wird durch Referenzen in das Wörterbuch codiert F R I S C H E T F I S C H E T F I S C H E N search buffer Codierung: (,,I) look ahead buffer Abstand nach Links erstes nicht codiertes Zeichen Sequenzlänge Sliding-Window-Methode Größe des search buffers wird limitiert Typisch: Einige kb des zuletzt codierten Textes Nächstes Zeichen

15 Lempel-Ziv-Kompression LZ77 - Die Grundidee Bereits gesehener Text wird als Wörterbuch verwendet F R I S C H E T F I S C H E T F I S C H E N Unkomprimierte Originalnachricht f f e 0a 22 Byte LZ77-komprimierte Nachricht: E B 5 2E E 0F E 7 5F 05 2 F Byte ( 5 Bit ) Hinweis: Die Kompressionsrate beeindruckt in diesem Beispiel wenig. Für lange Nachrichten werden jedoch ungleich höhere Raten erreicht. Frage: Wie entsteht die abgebildete Byte-Folge? 5

16 Lempel-Ziv-Kompression LZ77 - Die Details Jedes Tripel wird mit n + m + Symbolen des Grundalphabets Σ codiert Es können maximal n Zeichen zurückgeblickt werden Es können maximal m Zeichen kopiert werden Beispiel (aus der Originalarbeit von Jacob Ziv und Abraham Lempel) Σ = { 0,, 2 }, n = 2, m = 2 Nachricht: (2 Zeichen) Codierung erfolgt mit Hilfe eines Pufferspeichers Indexposition search buffer (3 2 = 9 Elemente) look ahead buffer (3 2 = 9 Elemente) Besonderheiten Search buffer wird mit 0 vorinitialisiert Rückverweis wird in Form der absoluten Indexposition gespeichert Erstes Tripel: z.b. <,2,> (in diesem Fall nicht eindeutig) 6

17 Lempel-Ziv-Welch-Kompression Lempel-Ziv-Welch Basiert auf der 97 von Lempel und Ziv weiterentwickelten LZ77-Variante Texte werden ausschließlich durch Referenzen in ein Wörterbuch codiert Das Wörterbuch wird beim Codieren und Decodieren automatisch erzeugt Beispiel: ababcbababaaaaaaa (aus der Originalarbeit von Welch) Angenommen, wir hätten die Tabelle... 0 a b 2 c 3 ab ba 5 abc 6 cb 7 bab baba 9 aa 0 aaa aaaa... dann ließe sich die Nachricht wie folgt codieren: a b a b c b a b a b a a a a a a a Wie kann die Tabelle algorithmisch erzeugt werden? 7

18 Lempel-Ziv-Welch-Kompression Übung Komprimieren Sie die Nachricht F R I mit den Lempel-Ziv-Welch-Verfahren Ergebnis A 5F 20 D0 A 3C 26 0A E Byte Im Vergleich: Das LZ77-Ergebnis E B 5 2E E 0F E 7 5F 05 2 F Byte S C H E T F I S C H E T F I S C H E N

19 Burrows-Wheeler-Transformation Was ist die Burrows-Wheeler-Transformation? Kein Kompressionsalgorithmus im eigentlichen Sinne Die Eingabe wird lediglich permutiert und ein Index erzeugt Der Index wird zur Rückgewinnung der Originaldaten benötigt Permutation ist meist geordneter als die Originalnachricht und kann von anderen Kompressionsverfahren besser verarbeitet werden Bemerkenswert Die Transformation wurde erst 93 entdeckt von David J. Wheeler Publiziert wurde sie erst 99 von Michael Burrows und David J. Wheeler Unter anderem eingesetzt in bzip2 ❾ Daten Burrows-Wheeler Permutation + Index Kompression Daten 9

20 Burrows-Wheeler-Transformation Durchführung der Transformation Schritt : Erzeuge alle Rotationen der Originalnachricht Schritt 2: Sortiere die Rotationsmatrix Schritt 3: Lese Ergebnis ab Die letzte Spalte der rotierten Nachricht enthält die gesuchte Permutation Der Index gibt die Zeile an, in der die Originalnachricht steht Originalnachricht Der Clou Rotieren Sortieren Ergebnis ablesen Permutation Die letzte Spalte, der Index und das Wissen über die Sortierung reichen aus, um die Rotationsmatrix vollständig zu rekonstruieren Index 20

21 Arithmetische Codierung Warum ist die Huffman-Codierung nicht optimal? Ein Codewort besteht immer aus einer ganzzahligen Anzahl Bits Dadurch ist die Codewortlänge i. d. R. nicht exakt proportional zur Auftrittswahrscheinlichkeit Genau dieses Problem löst die arithmetische Codierung Arithmetische Codierung Die gesamte Nachricht wird durch eine Zahl z [0;) dargestellt Das Intervall wird rekursiv in Teilintervalle unterteilt Ein Teilintervall für jedes Zeichen des Alphabets Intervallgrößen entsprechen den Auftrittswahrscheinlichkeiten Nach n Schritten: Jedes Intervall entspricht Nachricht der Länge n Als Codewort einer Nachricht wird diejenige Zahl verwendet, die innerhalb des zur Nachricht zugehörigen Intervalls liegt und mit der geringsten Anzahl Bits repräsentiert werden kann 2

22 Arithmetische Codierung Beispiel: AAB p(a) = 2/3, p(b) = /3 0 0 /3 B A 0 /9 3/9 5/9 BB BA AB AA 0 /27 3/27 5/27 9/27 /27 5/27 9/27 BBB BBA BAB BAA ABB ABA AAB AAA 22

23 Arithmetische Codierung Fazit Basiert auf den Auftrittswahrscheinlichkeiten der Symbole im Alphabet Je größer die Auftrittswahrscheinlichkeit, desto größer das Intervall Je größer das Intervall, desto kleiner die Anzahl repräsentierender Bits Nachteile Þ Gleitkommazahlen des Prozessors sind zu ungenau Þ Datentypen mit beliebiger Genauigkeit werden benötigt Þ Ein einzelnes fehlerhaftes Bit kann die gesamte Nachricht zerstören Þ Patentiertes und lizenzpflichtiges Verfahren Vorteile Ý Erzeugte Code-Länge erreicht das informationstheoretische Minimum Ý Keine ganzzahlige Anzahl Bits pro Zeichen (wie z.b. bei Huffman) Wo sind die Grenzen der Kompression? 23

24 Der Informationsgehalt eines Zeichens Gegeben Datenquelle A = {a,, a n } Auftrittswahrscheinlichkeit p(a i ) Gewünschte Eigenschaften I(a i ) 0 I(a i,a k ) = I(a i ) + I(a k ) p(a i ) p(a k ) I(a i ) I(a k ) p(a i ) < p(a k ) I(a i ) > I(a k ) Definition Der Informationsgehalt eines Zeichens a i beträgt I(a i ) = ld p(a i ) [bit] Die Logarithmus-Funktion Eigenschaften Stetig ld = 0 ld x < 0 für x < ld x > 0 für x > ld (x * y) = ld (x) + ld (y) 2

25 Wo sind die Grenzen der Kompression? Bedeutung Claude Elwood Shannon führt den Begriff der Entropie E(A) als ein Maß für den Informationsgehalt einer Quelle ein Definition Vorsicht E(A) = Σ p(a i ) I(a i ) a i A Entropie ist eine Eigenschaft der Quelle und nicht der Nachricht Entropie macht keine Aussage über Codes 25

26 Bedeutung der Entropie Zusammenhang zwischen Codes und Entropie Gegeben seien die Datenquelle A und Datensenke B A = {a,, an } B { 0, }* c : A B sei eine beliebige Codierung Die Quelle A sei eine gedächtnislose Quelle Die Auftrittswahrscheinlichkeit eines Zeichens ist kontextunabhängig Auch Shannon sche Quelle genannt Shannon konnte zeigen, dass die Codierung einer Nachricht der Länge n mindestens n E(A) Bits benötigt, unabhängig von der konkreten Wahl der Codierung c In anderen Worten: Die Entropie definiert eine untere Schranke für die erreichbare Kompressionsrate einer Nachricht 26

27 Mittlere Codewortlänge Mittlere Codewortlänge Die mittlere Codewortlänge eines Codes c : A B ist definiert als L = Σ a i A p(a i ) l i p(a i ) ist die Auftrittswahrscheinlichkeit von a i l i bezeichnet die Länge des Codeworts von a i Redundanz Die Redundanz eines Codes c ist definiert als R = L E 27