Proseminar. Thema: Shannon-Fano und Huffman Verfahren

Transkript

1 Proseminar Datenkompression Thema: Shannon-Fano und Huffman Verfahren Gehalten am von Lars Donat

2 1. Huffman Code Bei diesem bereits 1951 von David A. Huffman veröffentlichtem Algorithmus handelt es sich um eines der bekanntesten und am weitesten verbreiteten Verfahren zur Datenkompression. Es basiert nicht auf Wiederholungen einzelner Zeichen, sondern auf der Häufigkeitsverteilung der Werte: In einem deutschen oder englischen Text werden zum Beispiel sehr viele Exemplare des Buchstaben»e«enthalten sein, wohingegen bei beiden Sprachen das»q«kaum verwendet wird. Es wäre also nahliegend für den Buchstaben»e«einen kürzeren Code zu verwenden als für das»q«. Diese Idee gab es bereits bei der Erfindung des Morse-Codes. Es kennt allerdings neben den bekannten Strichen und Punkten auch noch einen dritten Zustand, nämlich die Pause, welche die Buchstaben voneinander trennt. In der binären Computerschreibweise lässt sich das allerdings nicht ohne weiteres darstellen, vielmehr muss allein aus der Abfolge von Strichen und Punkten bzw. Nullen und Einsen erkennbar sein, wann ein Buchstabe»zu Ende«ist, und eben dieses Problem wurde von Huffman gelöst. Als Beispiel für einen zu mit Huffman zu kodierenden Nachricht nehmen das Wort: BETRIEBSSYSTEM Die Konstruktion eines Huffman-Kodes zu einer Nachricht betrachtet man am besten an der entsprechenden Konstruktion des Baumes, welcher der Kodierung entspricht. Weil eine binäre Kodierung der Nachricht erfolgen soll, entsteht ein binärer Baum. Die Konstruktion ist ein sogenanntes bottom-up-verfahren, das heißt, dass der zur Kodierung gehörende Baum aus den Blättern, die am Anfang gegeben sind, konstruiert wird. Um die Buchstaben ordentlich klassifizieren zu können, muss man sie zunächst einmal die Häufigkeit der einzelnen Zeichen in der Nachricht erfassen (hier der Häufigkeit nach sortiert): Im weiteren Verlauf baut man nun einen Binärbaum auf, indem man immer die beiden Blätter mit der kleinsten Häufigkeit zu einem Knoten zusammenfasst, wobei die Häufigkeitsangabe im Knoten der Summe der beiden Ursprungssymbole entspricht. Das sieht wie folgt aus: Hier wurden zwei (I; M) der vier Symbole mit nur einem Vorkommnis (I; M; R; Y) zu einem Knoten zusammengefaßt. Dieser Knoten erhält also die Häufigkeit 1+1=2. Dies geht nun weiter, bis nur noch ein Knoten übrig ist: Hier wurden die beiden übrigen 1x-Symbole zusammengefaßt. Wenn man die Liste an der Basis des Baumes von links nach rechts durchsucht, trifft man auf die Symbole B und T, die je zweimal vorkommen.

3 Die Situation hat sich verändert: Die beiden schon verknoteten Symbole (mit der Zwei als Häufigkeitswert) waren plötzlich die niedrigsten Zahlen in der Liste. Also werden sie an einen weiteren Knoten angehängt, der die Zahl 4 = 2+2 = (1+1)+(1+1) erhält. Die Symbole E und S sind wieder die niedrigsten Werte an der Basis gewesen, also wurden sie zusammengefaßt. Die beiden 4er-Knoten hatten den niedrigsten Wert, also wurden sie verknotet. Hat man den Baum konstruiert, so kann man leicht eine Kodierung der Zeichen finden, indem man alle Kanten des Baumes mit Zeichen des Kodealphabets {0, 1} benennt, dabei ist die Zuordnung beliebig.

4 Geht man nun vom Start zu einem bestimmten Buchstaben, so ergeben die Zahlen auf dem Weg dahin den Code für den jeweiligen Buchstaben. Das»B«würde man also als»100«lesen. Man kann jetzt also jeden im Wort vorkommenden Buchstaben durch solch einen Codierungsbaum codieren. Die häufig vorkommenden Buchstaben E und S haben dabei die kürzesten Codes, die Codes für die seltenen Buchstaben I, M, R und Y sind hingegen doppelt so lang. Einen häufigen Buchstaben hat man also viel kürzer codiert als einen, der sehr selten ist. Codiert man das Beispielwort nun mit dem obigen Baum, erhält man folgende Codes: B 100 E 00 T 101 R 1110 I 1100 E 00 B 100 S 01 S 01 Y 1111 S 01 T 101 E 00 M 1101 Der gesamte Text wird also zu dem Bitstrom: Das sind nur 40 Bit; für den Originaltext benötigte man hingegen 14 x 8 = 112 Bit. Das würde also bedeuten, dass der Text auf 35,71% seines Umfangs komprimiert wurde. (Informationsgehalt = 39,8) Dies ist der beste oder minimale Code. Die Eigenschaft, dass ein Kode minimal ist, lässt sich nach Shannon umformulieren in die Eigenschaft, dass die Durchschnittliche Kodewortlänge (x Zeichen des Alphabetes, p(x) Wahrscheinlichkeit, l(x) Länge des Kodes) dem durchschnittlichen Informationsgehalt oder Entropie der Nachricht

5 möglichst nahe kommt. Der Idealfall D=H, der die betrachtete Redundanz völlig auslöscht, lässt sich mit Huffman-Kodes zwar nur selten erreichen, weil die Länge der Kodes in Bit ganzzahlig sein muss, der Informationsgehalt gebrochen sein kann. Es gilt aber zumindest (am Beispiel: H=2, und D=2, ) Es lässt sich induktiv beweisen, dass es keine Möglichkeit gibt, einen Kode zu konstruieren, der eine kürzere Kodierung der Nachricht ergibt. Hierzu kann man sich auch überlegen, dass man, um einen Binärbaum aus n vorgegebenen Blättern zu konstruieren, n-1 mal zwei Knoten ohne Vorgänger zusammenfassen muss, wie es Huffman vorschreibt. Dabei werden bei jedem Zusammenfassen die Kodes der Zeichen aus den beiden Teilbäumen um 1 Bit verlängert, die Auswahl der Teilbäume mit den geringsten Häufigkeiten macht also durchaus Sinn. Die Dekompression erfolgt so, dass der Bitstrom Bit für Bit aus gelesen wird und mit Hilfe des ebenfalls gespeicherten Kodierungsbaumes die einzelnen Zeichen rekonstruiert werden können. Man könnte nun meinen, dass Huffmann das ideale Packverfahren ist. Doch der Schein trügt - das Huffman- Verfahren besticht zwar durch seine Einfachheit, hat aber einige gravierende Nachteile: Der notwendige Zugriff auf die Bitebene, falls die Nachricht auf Rechnern verarbeitet wird. Viele gebräuchliche Rechnerarchitekturen sind nur für den Zugriff auf Byte, Worte oder noch größere Einheiten spezialisiert. Der direkte Zugriff auf Bits ist oft nicht vorgesehen und muss aufwendig durch boolesche Operationen realisiert werden, indem man zum Beispiel UND-Verknüpfungen und Bitverschiebungen zum Ausmaskieren einzelner Stellen von Binärzahlen verwendet Der Baum muss mit in der Ausgabedatei gespeichert werden! Der Decoder braucht nicht nur die»wegbeschreibungen«, sondern auch die»wege«selbst, damit es funktionieren kann. Dadurch wird die Packrate besonders bei kleinen Dateien arg in Mitleidenschaft gezogen. Statt des Baumes kann man auch die Zeichenhäufigkeiten speichern, wenn Encoder und Decoder daraus eindeutig den selben Baum konstruieren können. Das Verfahren ist auf eine günstige Häufigkeitsverteilung der Eingabewerte angewiesen. Mit einer Datei, in der alle Zeichen etwa gleich oft vorkommen, kann Huffman nicht viel anfangen. Die gute Nachricht ist aber, dass die Methode nicht sonderlich dazu neigt, die Daten zu vergrößern. Durch die clevere Baum-Methode, die immer ideale Codes erstellt, passt sich der Coder meist ideal den Verhältnissen an und bricht seltener aus - und zwar weder ins Negative noch (leider) ins Positive. Die Quelldatei muss zweimal eingelesen werden: Einmal, um d ie Häufigkeiten der Zeichen auszuzählen und einen Baum zu bilden und ein zweites Mal für die eigentliche Codierung. Das schließt Huffmann zur Echtzeitcodierung von Live-Datenströmen schon einmal aus. (Zumindest dieses Problem kann aber gelöst werden, indem man Baum und Codes erst während der Kompression erstellt: Man startet zuerst mit einem neutralen Baum und passt ihn mit jedem codierten Byte besser an die Gegebenheiten der Eingangsdaten an. So erhält man früher oder später auch einen fast idealen Baum. (Fast ideal, weil gar nicht vorkommende Zeichen nicht ausgeschlossen werden können.) Dieses Verfahren heißt»dynamisches Huffman-Coding«und bietet zum hier vorgestellten statischen Huffman-Coding den Vorteil der Echtzeit-Fähigkeit. Allerdings geht das zu Lasten der Kompressionsrate, da sich der Coder erst nach und nach an die Daten»gewöhnen«muss und am Anfang daher noch gar nicht packen kann.) Diese Nachteile haben dafür gesorgt, dass sich Huffman als Packverfahren nicht richtig durchsetzen konnte. Trotzdem wird es in so gut wie jeder bekannten Pack-Software verwendet - und zwar als Postprozessor. (»post«=»nach«. Es ist also ein»nach-prozessor«; etwas, das einem anderen Verfahren nachgeschaltet wird.) Hierfür eignet sich zumindest das dynamische Huffman-Coding hervorragend, um noch das letzte Bisschen an Packrate aus den anderen Methoden herauszuholen. Besonders in Verbindung mit der Burrows-Wheeler-Transformation zeigt Huffman, wie effizient er mit entsprechend vorbereiteten Daten arbeiten kann. Für die anderen Verfahren, die Huffman als Postprozessor»missbrauchen«, gilt: Huffman packt meist schlecht, aber es vergrößert auch selten. Das Risiko ist gering, man kann fast nur gewinnen; ein Versuch lohnt also. Zudem können manchmal mit einem solchen Postprocessing Redundanzen 2. Ordnung beseitigt werden, die der eigentliche Coder allein gar nicht bemerken würde.

6 Anwendung von Huffman-Kodes: Im JPEG-Format (Joint Graphic Experts Group) für Bilddaten kommt neben einer diskreten Kosinustransformation (DCT) auch die Huffman-Kodierung zum Einsatz, um Bilder mit möglichst wenig Speicherverbrauch zu speichern. Im PNG-Format (Portable Network Graphic -Format) wird die Huffman-Kodierung eingesetzt, um Bilder ohne Verlust zu komprimieren. Im MP3-Format für Audiodaten kommt neben einigen anderen Verfahren die Huffman-Kodierung zum Einsatz, um schon verlustbehaftete Daten weiter ohne Verlust zu komprimieren (circa 20% Kompression möglich). Bei diesem Format ergänzen sich die Huffman-Kodierung und andere Verfahren derart, dass oft immer ein Verfahren eine gute Kompression leistet. Im MPEG-Format für Bilddaten ist neben verlustbehafteten Methoden die Huffman-Kodierung zur nachträglichen Reduktion der Daten eigesetzt. Die verbreiteten Komprimierungsprogramme bzip und bzip2 verwenden neben einem Burrows-Wheeler- Algorithmus ebenfalls die Huffman-Kodierung, um Daten beliebigen Typs ohne Verlust zu komprimieren.

7 2. Shannon-Fano Code Die Shannon-Fano-Codierung wurde bereits in den späten 40ern entwickelt. Sie basiert, auf statistischen Annahmen über die zu komprimierenden Daten. Häufige Symbole sollen durch kurze, und seltene Symbole durch lange Bitfolgen kodiert werden. Dabei können seltene Symbole durch Bitfolgen kodiert werden, die länger sind als die ursprünglichen Symbole. Das Verfahren funktioniert wie folgt. Aus einem Datenstrom wird für jedes Symbol in einer Tabelle die Anzahl (Häufigkeit) seines Auftretens gespeichert. Die Summe über alle Tabelleneinträge ergibt dann logischerweise die Gesamtgröße des Datenstroms. Die Tabelle wird nun so sortiert, das die häufigsten Symbole am Anfang, und die seltensten Symbole am Ende stehen. Die Erstellung des Bitcodes für jedes Zeichen erfolgt folgendermaßen. Als erstes wird die Tabelle so geteilt, das die Su mme der Anzahl der Symbole in beiden Teilen, ungefähr gleich ist. Jetzt wird dem oberen Teil als erste Bitcodestelle eine 1, und dem unteren eine 0 zugewiesen. Dieser Vorgang wird jetzt rekursiv für beide Teile solange wiederholt, bis in jedem Teil nur jeweils ein Symbol liegt. Die n-te Bitcodestelle entsteht also beim n-ten Rekursionsaufruf. Bsp: Betriebssystem Symbol Häufigkeit Bitcode E 3 0 S 3 0 B 2 0 T 2 1 I 1 1 M 1 1 R 1 1 Y 1 1 Symbol Häufigkeit Bitcode E 3 00 S 3 01 B 2 01 T 2 10 I 1 10 M 1 11 R 1 11 Y 1 11 Symbol Häufigkeit Bitcode E 3 00 S B T I M R 1 111

8 Y Symbol Häufigkeit Bitcode E 3 00 S B T I M R Y Die Kompression erfolgt nun dadurch, dass in der komprimierten Datei die Häufigkeitstabelle abgespeichert wird, und dann die Daten entsprechend der ermittelten Bitcodes zusammengefasst werden. Dabei ist darauf zu achten, dass die Tabelle möglichst klein und kompakt gehalten wird, da sie als sogenannter Overhead nur Organisationsdaten zur Dekompression enthält. Das Wort Betriebssystem in kodierter Form als Bitstrom: Das sind nur 41 Bit; für den Originaltext benötigte man hingegen 14 x 8 = 112 Bit. Das würde also bedeuten, dass der Text auf 36,6% seines Umfangs komprimiert wurde. (Informationsgehalt = 39,8) Bei einer durchschnittlichen Kodewortlänge von D=2, , welche doch schon etwas größer ist als bei Huffman, kann man erkennen dass das Verfahren nicht ganz so gut ist. Die Dekompression erfolgt so, dass aus der gespeicherten Tabelle wieder die Bitcodes gebildet werden und aus den nachfolgend eingelesenen Bitcodes die entsprechenden Symbole ermittelt und gespeichert werden. Der Shannon-Fano Code hat die gleichen Nachteile wie der Huffman Code: Der notwendige Zugriff auf die Bitebene ist bei viele gebräuchlichen Rechnerarchitekturen oft nicht vorgesehen und mu ss aufwendig durch boolesche Operationen realisiert werden Kodierungstabelle muss mit gespeichert werden, was sich nachteilig auf die Packrate auswirkt besonders bei kleinen Dateien Das Verfahren ist auf eine günstige Verteilung der Eingabewerte angewiesen. Bei einer Gleichverteilung alles Zeichen ist die Packrate gleich 0. Quelldatei muss 2 mal ausgelesen werden, daher ist es auch nicht zur Echtzeitkodierung geeignet

9 Literaturverzeichnis: M. T. Goodrich, R. Tamassia: Data Structures and Algorithms in Java, John Wiley & Sons, Inc., 1998 D. Salomon: Data Compression, Springer, New York u. a., 1998 R. Sedgewick: Algorithmen, Addison-Wesley, Bonn 1991 Klug, Tobias, Huffmann-Codierung, frankfurt.de/schule/fdg/referate/info/huffmann.htm Kupfer, Matthias, Die Shannon-Fano Kodierung,