Eigenschaften von Kompressionsverfahren

Transkript

1 6 Textkompression Eigenschaften von Kompressionsverfahren Das Ziel der Datenkompression ist es, eine gegebene Information (Datenquelle) auf eine kompaktere Weise zu repräsentieren. Dies geschieht, indem Strukturen bzw. Regelmäßigkeiten in der Datenquelle erkannt und ausgenutzt werden. Beispiel: Morse-Alphabet Häufig vorkommende Buchstaben haben einen kürzeren Morse- Code als weniger häufige. e j 1 Informationsverluste bei der Kompression/Dekompression: Verfahren, bei denen die Datenquelle exakt aus der komprimierten Darstellung rekonstruiert werden kann, heißen verlustfrei. Treten dagegen möglicherweise Informationsverluste auf, spricht man von nicht verlustfreien Verfahren. Solche Verfahren sind z.b. für Bilder, Videos oder Audioübertragung geeignet. Vorteil der nicht verlustfreien Verfahren: höhere Kompressionsraten. Für die Textkompression kommen nur verlustfreie Verfahren in Frage. Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS Vorgehensweise bei der Kompression: Modell Modell Datenquelle Text Komprimierer Dekomprimierer Text Kommunikationskanal Komprimierer und Dekomprimierer verfügen über das gleiche Modell. Modellierungsansatz: Bei statistischen Verfahren wird versucht, eine Wahrscheinlichkeit für Zeichen oder Zeichenfolgen zu bestimmen. Die Kompression erfolgt, indem Zeichenfolgen mit einer höheren Wahrscheinlichkeit ein kürzerer Code zugewiesen wird. Bei wörterbuchbasierten Verfahren versucht man, Zeichenfolgen durch eine Referenz auf ein Wörterbuch zu ersetzen. Hierzu enthält das Wörterbuch häufig auftretende Zeichenfolgen. Der Komprimierer erzeugt eine Codierung der Datenquelle auf der Basis des Modells. Der Dekomprimierer nutzt das gleiche Modell, um aus der komprimierten Darstellung die Datenquelle zu rekonstruieren. Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS

2 Anpassung des Modells bzw. der Codierung an die Datenquelle: Bei statischen Verfahren wird stets die gleiche Codierung für die Kompression benutzt. Es findet keine Anpassung an die Datenquelle statt (Morse-Alphabet). Bei semi-adaptiven Verfahren wird die Datenquelle zunächst einer Häufigkeitsanalyse unterzogen, und die Codierung wird entsprechend angepaßt. Nachteil: Die Datenquelle muß zweimal gelesen werden, und der Dekomprimierer benötigt zusätzliche Informationen für die Dekomprimierung. Bei adaptiven Verfahren wird die Codierung für die Komprimierung und Dekomprimierung während der Komprimierung angepaßt. Die Datenquelle muß nur einmal gelesen werden. Die Funktion g gibt im Prinzip an, wie die Bits von s zu interpretieren sind. g 1 sukzessive angewendet auf s liefert einen String text A. Die Funktion h gibt die Codierung der a A an. c entsteht durch sukzessive Anwendung von h auf text. Beispiel: Wandlung eines (maschinenlesbaren) Textes in Morse- Zeichen. A ist die Menge der Buchstaben. g bildet Buchstaben in den ASCII- Code ab. h definiert den Morse-Code, d.h. wie Buchstaben in Morse- Zeichen codiert werden. Bei einer festen Funktion g kann der Algorithmus allein durch h beschrieben werden. Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS Allgemeines Modell der Textkompression Wörterbuchbasierte Verfahren Gegeben ist eine Datenquelle s als String über dem Alphabet {0, 1} (Bitstring). Die Ausgabe c eines Kompressionsverfahrens ist ebenfalls ein Bitstring. Weiterhin sei ein Alphabet A gegeben. Ein Kompressionsverfahren kann mit Hilfe von zwei injektiven Funktionen g und h beschrieben werden, die von A nach {0, 1} abbilden. Die Menge {(g(a), h(a)) a A} wird als Dictionary des Kompressionsverfahrens bezeichnet. Das Dictionary für die Kompression läßt sich bei wörterbuchbasierten Verfahren darstellen als D = {(f, c) f F, c {0, 1} } Hierbei ist F eine Teilmenge der Substrings von s. Die f F übernehmen hier die Rolle der a A. Die Datenquelle kann als eine Konkatenation von vielen f F angesehen werden. Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS

3 Für ein wörterbuchbasiertes Kompressionsverfahren müssen nun die folgenden Punkte festgelegt werden: Man finde eine geeignete Menge F von Substrings von s, man bestimme, wie s als Konkatenation von f F dargestellt wird (Faktorisierung), und man lege die Codierung für die f F fest. Repräsentation als kürzestes Wege Problem Für Text der Länge n werden n + 1 Knoten eingeführt. Es gibt eine Kante von Knoten i zu Knoten j, wenn text[i... j 1] im Dictionary auftritt. Die Länge des zugehörigen Codes bestimmt das Gewicht der Kante. Ein kürzester Weg von Knoten 1 nach Kanoten n + 1 repräsentiert eine optimale Faktorisierung Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS Optimale Faktorisierung Gegeben sei ein Wörterbuch. Man bestimme nun eine Faktorisierung eines Textes, so daß die Gesamtlänge der verwendeten Codes minimal ist. Beispiel 6.1. f c l(c) a 00 2 b ba bb abb 1 1 Wie kann damit der Text babb optimal faktorisiert werden? Lempel-Ziv-Codierung Die bekanntesten wörterbuchbasierten Kompressionsalgorithmen basieren auf den Verfahren von A. Lempel und J. Ziv (LZ). Dies sind adaptive Verfahren, die wie folgt vorgehen: Die Menge F wird dynamisch in Abhängigkeit von s während des Kompressionsvorgangs bestimmt. Für die Faktorisierung wird eine sogenannte Greedy-Strategie benutzt, d.h. man bestimmt aus dem aktuellen F jeweils das längste f, das einen Präfix von s darstellt. Als Codierung werden Verweise (Pointer) auf den jeweiligen Dictionary-Eintrag verwendet. Es gibt im Prinzip zwei Familien von Kompressionsalgorithmen, die auf den Verfahren LZ77 und LZ78 beruhen. Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS

4 LZ78 Faktorisierung und Erstellung des Dictionary bei LZ78: Zunächst besteht das Dictionary nur aus dem leeren String ɛ. In einem beliebigen Iterationsschritt sei s der noch zu komprimierende Rest der Datenquelle. Man sucht nun für die Faktorisierung im Dictionary das größte f, so daß gilt: s = faz. Hierbei ist a genau ein Zeichen und z ein beliebiger String. Das Dictionary D sei eine Li- Algorithmus 6.1. [LZ78-Kompression] ste (f 0, f 1,..., f n 1 ) von Strings. D := {ɛ} x := s# while x ɛ do f k := längstes f k F, so daß x = f k az gilt, mit a A a := Zeichen, daß auf f k in x folgt Ausgabe von k in l( D ) Bits Ausgabe von a in Orginalcodierung (z.b. ASCII) Aufnahme von f k a als f D in D x := z end Ausgegeben wird der Verweis auf den zu f gehörenden Dictionary- Eintrag und das Zeichen a. Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS Der String fa wird neu in das Dictionary aufgenommen. Anschließend verfährt man mit dem Rest z der Datenquelle genauso. Damit garantiert ist, daß eine Darstellung f az stets möglich ist, fügt man an s ein Zeichen # an, das in s nicht vorkommt. Darstellung der Verweise in LZ78: Es werden Verweise variabler Länge benutzt, wobei die Länge von der aktuellen Größe des Dictionary abhängt. Es sei n die Anzahl der Einträge im Dictionary. Dann gilt für die verwendete Länge l(n) der Verweise: l(1) = 1 und l(n) = log 2 (n) für n > 1 Beispiel 6.2. Es sei s = aababbabbabb. Dies führt zu der Faktorisierung: a ab abb abba b b# Nach Ablauf des Algorithmus liegt das folgende Dictionary vor: f k k 0 ɛ 1 a 2 ab 3 abb 4 abba 5 b 6 b# Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS

5 Anschaulich dargestellt ergibt sich die Ausgabe 0a 1b 10b 11a 000b 101# Zur Erweiterung des Dictionary fügt man ausgehend vom aktuellen Knoten eine mit a markierte Kante und einen neuen Knoten ein. Der neue Knoten repräsentiert den Dictionary-Eintrag f k a. Anschließend springt man wieder an die Wurzel des Tries. 0 a b Gesamtaufwand: O( s ) 1 5 Veranschaulichung: Dictionary aus Beispiel 6.1 als Trie b 2 b # 6 3 a 4 Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS Implementierungsaspekte Bemerkungen: Es gibt eine Vielzahl von Varianten des LZ78-Algorithmus. Entscheidend für die Effizienz von LZ78 ist die schnelle Bestimmung der f k. Hierzu legt man das Wörterbuch in einem Trie ab. Jeder Knoten des Tries entspricht einem Dictionary-Eintrag. Man liest nun Zeichen für Zeichen von x und steigt, ausgehend von der Wurzel, sukzessive den Trie hinab. Kommt man mit dem letzten gelesenen Zeichen im Trie nicht weiter, dann entspricht der aktuelle Knoten dem f k, und das letzte gelesene Zeichen ist das zusätzliche Zeichen a. Diese Varianten unterscheiden sich z.b. in bezug auf: Die Benutzung variabler oder fixer Verweislängen, die maximale Größe des Dictionary, das Vorgehen, wenn das Dictionary voll ist und die Behandlung des einen zusätzlichen Zeichens bei der Faktorisierung. Das UNIX-Programm compress, bekannt als LZC, basiert auf LZ78. Es ist eigentlich hervorgegangen aus LZW, wobei aber viele Aspekte von LZ78 wieder übernommen wurden, so z.b. die variablen Verweislängen (im Gegensatz zu LZW, das fixe Verweislängen verwendet). Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS

6 Laut Manual-Seite reduziert compress Textdateien auf 50 bis 60 % der Orginalgröße. LZ77 Das bekannte Kompressionsprogramm gzip basiert im Gegensatz zu compress auf dem LZ77-Verfahren. Bei LZ77 wird die Länge der Dictionary-Einträge durch einen Parameter F beschränkt, und das Dictionary bezieht sich stets nur auf die letzten N Zeichen. Dafür enthält das Dictionary jeden Substring der letzten N F Zeichen mit der maximalen Länge F. Typische Werte für N und F : 10 F 20, N 8192 Über den Text wird ein Fenster der Größe N geschoben. Die ersten N F Zeichen dieses Fensters wurden bereits codiert. Die verbleibenden F Zeichen sind der sogenannte lookahead buffer b c b a c b a b a b c In der Praxis hat sich LZ77 (gzip) als etwas besser erwiesen als LZ78 (compress). bereits kodiert lookahead buffer Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS LZ78 hat aber die besseren theoretischen Eigenschaften und die beste bekannte Variante von LZ78 ist besser als die beste bekannte LZ77-Variante. Es wird nun nach einer Position innerhalb der ersten N F Zeichen nach einem größtmöglichen Match maximal der Länge F für den Beginn des lookahead buffers gesucht. Beispiel: Position 10, String bab Ausgegeben wird nun: Die Startposition innerhalb des ersten Teils Die Länge des Match Das erste Zeichen, das nicht auf den Match passte Anschließend wird das Fenster um j +1 Zeichen nach rechts geschoben. Typische Werte für N und F : 10 F 20, N 8192 Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS

7 Für die Verweise in das Dictionary und die Längenangabe werden konstante Längen benutzt. Zu Beginn sind die ersten N F Zeichen Leerzeichen und der lookahead buffer enthält die ertsen F Zeichen des Textes. LZB ist die beste LZ77-Variante, LZFG die beste LZ78-Variante. Die Werte wurden auf der Basis einer umfangreichen heterogenen Dokumentkollektion ermittelt (u.a. troff-texte, ausführbare Programme, ASCII-Texte, Programmquellen, wissenschaftliche Daten, etc.). Decodierung: Der Decoder verwaltet ein Fenster der gleichen Größe wie der Kodierer. Durch die Verweise wird der lookahead buffer gefüllt und das Fenster nach rechts geschoben. Textalgorithmen FH Bonn-Rhein-Sieg, SS Textalgorithmen FH Bonn-Rhein-Sieg, SS Vergleich der Verfahren Siehe: T. C. BELL, J. G. CLEARY und I. H. WITTEN: Text Compression. Durchschnittliche Anzahl an Bits der komprimierten Datei pro Byte der Datenquelle: Verfahren Bits pro Byte der Quelle Huffman 4.99 LZ LZB 3.18 LZ LZC 4.26 LZFG 2.95 Textalgorithmen FH Bonn-Rhein-Sieg, SS