Wörterbuchmethoden und Lempel-Ziv-Codierung

Ähnliche Dokumente
SUCHPROBLEME UND ALPHABETISCHE CODES

Page-Rank: Markov-Ketten als Grundlage für Suchmaschinen im Internet

Kapitel 4: Stationäre Prozesse

3. Tilgungsrechnung Tilgungsarten

Zahlenfolgen, Grenzwerte und Zahlenreihen

Lernhilfe in Form eines ebooks

LV "Grundlagen der Informatik" Programmierung in C (Teil 2)

Übungsblatt 1 zur Vorlesung Angewandte Stochastik

AUFGABENSTELLUNG (ZUSAMMENFASSUNG) 2 SPEZIFIKATION 2. Datenfluß und Programmablauf 2. Vorbedingung 3. Nachbedingung 3. Schleifeninvariante 3

2. Gleichwertige Lösungen

Finanzmathematik für HAK

Lerneinheit 2: Grundlagen der Investition und Finanzierung

Allgemeine Lösungen der n-dimensionalen Laplace-Gleichung und ihre komplexe Variable

Informatik II Dynamische Programmierung

Kryptologie: Kryptographie und Kryptoanalyse Kryptologie ist die Wissenschaft, die sich mit dem Ver- und Entschlüsseln von Informationen befasst.

2 Vollständige Induktion

Satz Ein Boolescher Term t ist eine Tautologie genau dann, wenn t unerfüllbar ist.

Aufgaben und Lösungen der Probeklausur zur Analysis I

Musterlösung zu Übungsblatt 2

Statistik mit Excel Themen-Special. Peter Wies. 1. Ausgabe, Februar 2014 W-EX2013S

15.4 Diskrete Zufallsvariablen

Linsengesetze und optische Instrumente

Versuch 13/1 NEWTONSCHE INTERFERENZRINGE Blatt 1 NEWTONSCHE INTERFERENZRINGE

Höhere Finanzmathematik. Sehr ausführliches Themenheft (d. h. mit Theorie) Aber auch mit vielen Trainingsaufgaben

Zusammenfassung Wirtschaftsinformatik Stefan Käßmann

n 1,n 2,n 3,...,n k in der Stichprobe auftreten. Für die absolute Häufigkeit können wir auch die relative Häufigkeit einsetzen:

Nachklausur - Analysis 1 - Lösungen

x m c Φ( r, t) = n q n (t) φ n ( r) (5) ( + k 2 n ) φ n ( r) = 0 (6a)

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker I

Betriebswirtschaft Wirtschaftsmathematik Studienleistung BW-WMT-S

Institut für Stochastik Prof. Dr. N. Bäuerle Dipl.-Math. S. Urban

Kapitel 6: Statistische Qualitätskontrolle

IWW Studienprogramm. Vertiefungsstudium. Modul XI: Volkswirtschaftslehre. Lösungshinweise zur 1. Musterklausur

Innerbetriebliche Leistungsverrechnung

Byzantinische Einigung im Full-Information-Modell in O(log n) Runden

Kapitel 6: Quadratisches Wachstum

Versuch 1/1 POISSON STATISTIK Blatt 1 POISSON STATISTIK. 1. Vorbemerkung

Modellbasierte Testautomatisierung: Von der Anforderungsanalyse zu automatisierten Testabläufen

2. Diophantische Gleichungen

Qualitätskennzahlen für IT-Verfahren in der öffentlichen Verwaltung Lösungsansätze zur Beschreibung von Metriken nach V-Modell XT

Wahrscheinlichkeit & Statistik

Stochastik für WiWi - Klausurvorbereitung

Methodische Grundlagen der Kostenkalkulation

Bitte schicken Sie mir eine , wenn Sie einen Fehler gefunden haben 1. Moritz Kaßmann

Model CreditRisk + : The Economic Perspective of Portfolio Credit Risk Part I

Übungen zur Vorlesung Funktionentheorie Sommersemester Musterlösung zu Blatt 0

Wiederkehrende XML-Inhalte in Adobe InDesign importieren

Wissenschaftliches Arbeiten Studiengang Energiewirtschaft

Lektion II Grundlagen der Kryptologie

Versicherungstechnik

Das FSB Geldkonto. Einfache Abwicklung und attraktive Verzinsung. +++ Verzinsung aktuell bis zu 3,7% p.a. +++

= T Jährliche Ratentilgung Jährliche Ratentilgung. Ausgangspunkt: Beispiel:

Organisatorische Strukturen und Stammdaten in ERP-Systemen

IWW Studienprogramm. Aufbaustudium. Gründungscontrolling. Lösungshinweise zur 3. Musterklausur

Gliederung. Value-at-Risk

Kunde. Kontobewegung

Finanzmathematische Formeln und Tabellen

Lichtquellen Körper die selbst Licht erzeugen, nennt man Lichtquellen. Die meisten Lichtquellen sind glühende Körper mit hoher Temperatur.

3 Die Außenfinanzierung durch Fremdkapital (Kreditfinanzierung)

2. Digitale Codierung und Übertragung

LS Retail. Die Branchenlösung für den Einzelhandel auf Basis von Microsoft Dynamics NAV

Der natürliche Werkstoff Holz - Statistische Betrachtungen zum uniaxialen Zugversuch am Beispiel von Furnier

Gruppe 108: Janina Bär Christian Hörr Robert Rex

Beschreibende Statistik Kenngrößen in der Übersicht (Ac)

Versuch D3: Energiebilanz einer Verbrennung

AVANTI Neuerungen. Inhalt. I. Neuerungen Version Pin Funktion. 2. Status für Nachtragspositionen. 3. DBD Baupreise EFB

elektr. und magnet. Feld A 7 (1)

Arbeitsplätze in SAP R/3 Modul PP

1. Ein Kapital von 5000 ist zu 6,5% und ein Kapital von 4500 zu 7% auf 12 Jahre angelegt. Wie groß ist der Unterschied der Endkapitalien?

1 = 1. 6 Induktionsannahme: Die Formal gelte für n = k. Induktionsschritt: Gültigkeit der Formel für k+1: k 2 + (k + 1) 2 = 2 = 6 = 6

Mathematischer Vorkurs zum Studium der Physik

A/D UND D/A WANDLER. 1. Einleitung

Leitfaden zum Photovoltaik Global 30 Index *

Tao De / Pan JiaWei. Ihrig/Pflaumer Finanzmathematik Oldenburg Verlag 1999 =7.173,55 DM. ges: A m, A v

Leitfaden zum. Bondm-Index

Herzlich willkommen zur Demo der mathepower.de Aufgabensammlung

Merge-Sort und Binäres Suchen

KASSENBUCH ONLINE Online-Erfassung von Kassenbüchern

Variiert man zusätzlich noch die Saatstärke (z.b. 3 Stärkearten), würde man von einer zweifaktoriellen Varianzanalyse sprechen.

10. FOLGEN, REIHEN, GRENZWERTE

Auch im Risikofall ist das Entscheidungsproblem gelöst, wenn eine dominante Aktion in A existiert.

Korrekturrichtlinie zur Studienleistung Wirtschaftsmathematik am Betriebswirtschaft BB-WMT-S

cubus EV als Erweiterung für Oracle Business Intelligence

Wirtschaftsmathematik

Testumfang für die Ermittlung und Angabe von Fehlerraten in biometrischen Systemen

Physikalische Grundlagen: Strahlengang durch optische Systeme

PageRank: Wie Google funktioniert

FINANZMATHEMATIK. 1. Zinsen und Zinseszinsen. Finanzmathematik 81

Aufgaben zur vollständigen Induktion

Mathematik. Vorlesung im Bachelor-Studiengang Business Administration (Modul BWL 1A) an der FH Düsseldorf im Wintersemester 2008/09

2 Der pn-übergang. 2.1 Der pn-übergang ohne äußere Spannung. Der pn-übergang

BINOMIALKOEFFIZIENTEN. Stochastik und ihre Didaktik Referentin: Iris Winkler

Sichtbar im Web! Websites für Handwerksbetriebe. Damit Sie auch online gefunden werden.

DMS Dokumenten- Management-System

Übungen zur Analysis 1 für Informatiker und Statistiker. Lösung zu Blatt 12

Aufgabenblatt 4. A1. Definitionen. Lösungen. Zins = Rate Zinskurve = Zinsstruktur Rendite = Yield

1.1 Berechnung des Endwerts einer Einmalanlage bei linearer ganzjähriger Verzinsung nach n Verzinsungsjahren

Die Forschungsdatenbank zu Inschriften/Scans/Bildern im. Institut für Urchristentum und Antike

Wintersemester 2006/2007, Universität Rostock Abgabetermin: spätestens , 09:00 Uhr. Aufgabe 1.1: (5 P)

Transkript:

Kapitel 3 Wörterbuchmethode ud Lempel-Ziv-Codierug I diesem Abschitt lere wir allgemei Wörterbuchmethode zur Kompressio ud isbesodere die Lempel-Ziv (LZ))-Codierug kee. Wörterbuchmethode sid ei eifaches allgemeies Verfahre zur Coderug. Es wird häufig als Teilalgorithmus i Kompressiosverfahre eigesetzt. LZ- Codierug ist ei so geates dyamisches Wörterbuchverfahre. Im Gegesatz zu statische Wörterbuchverfahre, die ei festes, vor der Kompressio festgelegtes Wörterbuch beutze, wird bei der LZ-Codierug das Wörterbuch dyamisch aus de zu komprimierede Date erstellt. Wir werde zeige, dass die LZ-Codierug ei asymptotisch optimales Verfahre ist. Der große Vorteil der LZ-Codierug gegeüber de adere Verfahre, die wir bislag kee gelert habe, ist, dass bei der LZ-Codierug die Wahrscheilichkeitsverteilug der Quelle icht bekat sei muss. LZ- Codierug wird i viele Textkompressiosverfahre wie gzip ud compress eigesetzt. 3.1 Statische Wörterbuchverfahre I diesem Abschitt werde wir beispielhaft ei statisches Wörterbuchverfahre kee lere. Bei Wörterbuchverfahre werde häufig vorkommede Folge i eiem Wörterbuch gespeichert. Folge im Wörterbuch werde da durch de Idex des etsprechede Eitrags codiert. Folge, die icht im Wörterbuch stehe, werde durch sich selbst codiert. Um zwische ucodierte Folge ud Wörtebuchidizes uterscheide zu köe, ka da ei Flag beutzt werde. 55

Betrachte wir das Quellalphabet A = {0, 1} b mit eier Verteilug, die durch eie Verteilug p(0) = p 0, p(1) = p 1 auf {0, 1} iduziert wird. Wir ehme a, dass wir ei Wörterbuch W mit 2 c, c < b, Eiträge beutze dürfe. De i-te Eitrag im Wörterbuch bezeiche wir mit W i, i = 0,..., 2 c 1. Gemäß der Wahrscheilichkeitsverteilug auf A bestimmt wir u die 2 c wahrscheilichste Folge i A. Diese 2 c Folge speicher wir i userem Wörterbuch, d.h., jeder dieser Folge wird ei Idex i zugeordet ud im Eitrag W i des Wörterbuchs steht da die etsprechede Folge. Um u Folge a A zu codiere, gehe wir folgedermaße vor. Ist a = W i für ei i = 0,..., 2 c 1, liegt also a im Wörterbuch W, so wird a durch 0(i) 2 codiert. Dabei bezeichet (i) 2 die Biärdarstellug vo i. Um techische Schwierigkeite zu vermeide, stelle wir die Biärdarstellluge immer mit c Bits dar. Wir beutze also, falls otwedig, führede Nulle. Ist higege eie Folge a icht im Wörterbuch ethalte, so codiere wir a durch 1a. Das Bit, das wir i beide Codierugsmöglichkeite dem Wörterbuchidex bzw. der eigetliche Folge vorastelle, ist das obe erwähte Flag. Ma überlegt sich leicht, dass die so defiierte Codierug eie Präfix-Code liefert. Um die erwartete Codewortläge dieses Codes zu bereche, sei p w die Summe der Folge i A, die im Wörterbuch ethalte sid. Folge, die im Wörterbuch sid, werde durch Folge der Läge 1 + c codiert. Folge, die icht im Wörterbuch sid, werde durch Folge der Läge 1 + b codiert. Die erwartete Codewortläge ist damit gegebe durch p w (c + 1) + (1 p w )(b + 1) = b + 1 + p w (c b). Damit diese erwartetet Codewortläge kleier ist als die Läge der ucodierte Folge, muss gelte 1 + p w (c b) < 0 p w > 1 b c. Nur we die letzte Ugleichug erfüllt ist, wird also durch die beschriebee Codierug eie Kompressio der Date erreicht. Betrachte wir de Fall b = 5 ud c = 2. Die Verteilug auf {0, 1} sei gegebe durch p(0) = 3 4, p(1) = 1 4. Die größte Wahrscheilichkeit i {0, 1}5 hat da die Folge 0 5, die Wahrscheilichkeit 243 1024 besitzt. Die Folge 05 wird auf jede Fall is Wörterbuch aufgeomme. Wir setze W 0 = 0 5. Die Folge mit der ächst größere Wahrscheilichkeit sid die Folge bestehed aus eier 1 ud vier 0. Hiervo gibt es füf. Wir köe i das Wörterbuch ur och drei dieser Worte aufehme. Wir setze W 1 = 10 4, W 2 = 01000, W 3 = 00100. 56

Mit diesem Code wird die Folge codiert durch 00000000011001000100 000100001110010011. I diesem Fall ist p w = 243 512. Dieses ist größer als 1 b c = 1 3. Wir erhalte also eie Kompressio vo Date. Das obe beschriebee Verfahre beutze eie bekate Wahrscheilichkeitsverteilug ud ei statisches Wörterbuch. Das Wörterbuch wird eimal agelegt ud bleibt da uverädert. Bei der LZ-Codierug. die wir als ächste kee lere werde, wird icht vorausgesetzt, dass eie Wahrscheilichkeitsverteilug bekat ist. Deshalb wird auch kei statisches Wörterbuch beutzt, soder das Wörterbuch wird bei der Codierug der Date dyamisch agelegt. Die Huffma-Codierug ud die Shao-Fao-Elias-Codierug arbeite ur bei fester Eigabeverteilug. Etspricht die bei der Codierug ageommee Verteilug icht der Wahrscheilichkeitsverteilug auf de Quellsymbole, so erreiche die Codierug keie optimale Kompressio der Quelle. Vo der LZ-Codierug werde wir zeige, dass bei Quellalphabet {0, 1} ud eier beliebige ud ubekate Verteilug p = (p(0), p(1)) auf {0, 1} die LZ-Codierug asymptotisch optimal ist. 3.2 Die Lempel-Ziv-Codierug LZ78 Es gibt viele verschiede Variate der LZ-Codierug. Alle gehe auf zwei Arbeite vo Lempel ud Ziv aus de Jahre 1977 bzw. 1978 zurück. Ma teilt die verschiedee Variate vo LZ-Codierug deshalb i zwei Familie auf, geat LZ77 ud LZ78. Wir werde zuächst eie Form der LZ78 Variate kee lere. Vo dieser werde wir zeige, dass sie bei beliebiger Verteilug asymptotisch optimal ist. Später werde wir da auch die praktisch bessere LZ77-Variate kee lere. Die LZ-Codierug wird i der Regel zur Textkompressio eigesetzt. D.h., als Quellalphabet köe wir etwa {0, 1} ehme, aber die LZ-Codierug beötigt keie feste Blockläge. Deshalb werde wir häufig vo der Codierug eier Folge i {0, 1} rede. Um die Lempel-Ziv-Codierug eier Folge x {0, 1} zu defiiere, beötige wir zuächst de Begriff eies Parsig. Defiitio 3.2.1 Ei Parsig eier Folge x {0, 1} ist eie Aufteilug vo x i (zusammehägede)teilfolge y 1,..., y c. Ei Parsig y 1,..., y c heisst disjuktes Parsig, we die Folge y i paarweise verschiede sid. 57

Das Lempel-Ziv-Parsig eier Folge x = x 1 x ist u ei spezielles disjuktes Parsig eier Folge, das folgedermasse defiiert ist. y 1 = x 1 Sid y 1,..., y l bereits defiiert ud gilt y 1 y l = x 1 x k, so ist y l+1 die kürzeste Teilfolge vo x, die mit x k+1 begit ud vo alle y i, i = 1,..., l, verschiede ist. Um uiteressate techische Details zu vermeide, gehe wir immer davo aus, dass es am Ede vo x keie Probleme gibt, die letzte Teilfolge y c zu kostruiere. Betrachte wir als Beispiel die Folge x = 1011010100010. Das Lempel-Ziv- Parsig dieser Folge ist 1, 0, 11, 01, 010, 00, 10. Die folgede Eigeschafte des Lempel-Ziv-Parsigs folge umittelbar aus seier Defiitio. Lemma 3.2.2 Sei y 1,..., y c das Lempel-Ziv-Parsig eier Folge x. Weiter setze y 0 = ɛ. Es gilt 1. y 1,..., y c ist ei disjuktes Parsig der Folge x. 2. Zu jeder Folge y i, 1 i c, gibt es ei Bit b ud eie eideutige Idex 0 j i 1, so dass y i = y j b. Die Ziv-Lempel-Codierug eier Folge x = x 1 x wird u durch de folgede Algorithmus berechet. LZ-Codierug 1. Bereche das Lempel-Ziv-Parsig y 1,, y c vo x. Setze y 0 = ɛ. 2. Codiere jede Teilfolge y i durch das Paar (j, b), wobei 1 j i 1, b {0, 1}, ud y i = y j b. Hierbei werde der Idex j durch log(c) Bits codiert. 3. Gebe die Folge der Codieruge der y i aus. 58

Die Lempel-Ziv-Codieruge beutzt ebe Bits auch Klammer ud Kommata. Dieses ka vermiede werde, idem zuächst c selber geeiget codiert wird, etwa durch 0 c 1, ud da jedes y i durch de Idex seier Präfixfolge ud sei letztes Bit codiert wird, ohe dass Klammer oder Kommata beutzt werde. Um die Teilfolge y i ud ihre Codieruge zu bereche, werde wir die Folge x = x 1 x bitweise abarbeite. Wir halte dabei als Datestruktur eie sukzessive wachsede biäre Baum mit Wurzel aufrecht. Zu jedem Zeitpukt sid die Kate dieses Baums mit 0, 1 gelabelt. Die Kote des Baums erhalte Labels aus {0,..., c 1}. Zu Begi besteht der Baum ur aus der Wurzel, die mit 0 gelabelt ist. Außerdem verwalte wir eie Zeiger. Dieser zeigt zu Begi auf die Wurzel. Schließlich habe wir och eie Zähler z, der das jeweils größte bereits vergebee Kotelabel speichert. Iitialisiert ist der Zähler mit 0. Lese wir u das ächste Bit x i vo x, so werde folgede Schritte ausgeführt. Führt aus dem Kote, auf de der Zeiger gerade zeigt, eie Kate gelabelt mit x i, so setze de Zeiger auf de Kote, zu dem diese Kate führt. Existiert aus dem Kote, auf de der Zeiger gerade zeigt, keie Kate mit Label x i, füge i dem Baum eie eue Kote ei. Dieser erhält das Label z + 1. Der eue Kote wird u mit dem Kote, auf de der Zeiger gerade zeigt, durch eie Kate gelabelt mit x i verbude. Ist j der Idex des Kotes, auf dem der Zeiger aktuell zeigt, so wird die Codierug um das Paar (j, x i ) erweitert. Da wird der Zeiger auf die Wurzel gesetzt ud der Zähler wird um 1 erhöht. Für user eiführedes Beispiel ist i Abbildug 3.1 der Baum dargestellt, der etstade ist, achdem die gesamte Folge x = 1011010100010 eigelese wurde. Da wir de Baum i liearer Zeit aufbaue köe ud daher auch die relevate Iformatioe für die LZ-Codierug i liearer aus dem Baum auslese köe, erhalte wir Lemma 3.2.3 Für eie Folge x {0, 1} ka die LZ-Codierug i Zeit O() berechet werde. Jetzt wolle wir us überlege, dass wir auch aus der Codierug C(x) eies Wortes x, das Wort x i liearer Zeit bereche köe. Liear bedeutet hierbei sowohl liear i der Läge vo C(x) als auch liear i der Läge vo x (warum?) Hier zuächst eie Beschreibug des Algorithmus. Eigabe des 59

Abbildug 3.1: Ei LZ-Baum Algorithmus ist eie Folge vo c Paare (i 1, b 1 ),..., (i c, b c ), wobei 0 i j c 1, b i {0, 1}. Schritt 1: Setze m := ɛ. LZ-Decodierug Schritt 2: Für z = 1,..., c wiederhole folgede Schritte. Schritt 3: Setze a := ɛ, l := z. Schritt 4: Solage l 0 wiederhole folgede Schritt. Schritt 5: Setze a := ab l, l := i l. Schritt 6: Setze m := ma. Schritt 7: Ausgabe m. Ma überlegt sich leicht, dass der Algorithmus korrekt ist. Wird ählich wie bei der Codierug ei LZ-Baum beutzt, ka auch gezeigt werde, dass der Algorithmus lieare Laufzeit hat. Lemma 3.2.4 Für eie Folge x {0, 1} ka x aus der LZ-Codierug vo x i Zeit O() berechet werde. 60

3.2.1 LZ-Codierug ist asymptotisch optimal Wir wolle u zeige, dass die LZ-Codierug bei beliebiger Wahrscheilichkeitsverteilug auf {0, 1} asymptotisch optimal ist. Sei x {0, 1}. Ist da c(x) die Azahl der Teilfolge y i im LZ-Parsig vo x, so wird x durch ei Wort f(x) mit Läge f(x) c(x)(log c(x) + e), (3.1) codiert. Hierbei ist e eie feste Kostate uabhägig vo ud x. Als erstes leite wir eie obere Schrake für c(x) her. Lemma 3.2.5 Sei x {0, 1}, 2, ud c(x) die Azahl der Teilfolge i eiem beliebige disjukte Parsig vo x. Da gibt es eie Kostate b, so dass c(x) b log log log(). (3.2) Beweis: Für k 1, sei k die Summe der Läge aller Folge über {0, 1} der Läge höchstes k. Es gilt k = k j2 j = (k 1)2 k+1 + 2. (3.3) j=1 Sei u zuächst = k. Eie Folge x {0, 1} mit möglichst grossem c(x) besteht da aus alle Folge der Läge höchstes k. Es gilt also c(x) k j=1 2 j = 2 k+1 2 < 2 k+1 < k k 1. (3.4) Ist u k < k+1, so schreibe wir = k +, wobei 0 < k+1 k = (k + 1)2 k+1. Eie Folge x der Läge mit möglichst großem c(x) besteht u aus alle Folge der Läge höchstes k ud /(k + 1) Folge der Läge k + 1 (wir ehme a k + 1 teilt ). Da gilt c(x) k k 1 + k + 1 k + k 1 = k 1. (3.5) Für k < k+1 wolle wir u k i Abhägigkeit vo abschätze. Aus k = (k 1)2 k+1 + 2 2 k folger wir k log. (3.6) 61

Hieraus ud mit < k+1 = k2 k+2 + 2 folger wir 2 < (log()2 k+2. Dieses liefert k + 2 log ( 2). (3.7) log Damit gilt k b (log log log(), für eie Kostate b 0. Da wir bereits wisse, dass c(x) (siehe 3.5), folgt das Lemma. k 1 gilt Sei u y 1,..., y c(x) ei disjuktes Parsig der Folge x {0, 1}. Mit, 1 l bezeiche wir u die Azahl der Teilfolge y i mit y i {0, 1} l. Da gilt = c(x) ud l =. (3.8) Wir erhalte da das so geate Lemma vo Ziv. Lemma 3.2.6 (Lemma vo Ziv) Für jede Wahrscheilichkeitsverteilug p = (p 0, p 1 ) ud für jedes disjukte Parsig y 1,... y c(x) eier Folge x gilt log p(x) log. (3.9) j=1 Beweis: Da p(x) = c(x) i=1 p(y i) gilt log p(x) = = = c(x) log p(y i ) i=1 y i {0,1} l log p(y i ) 1 log p(y i). y i {0,1} l 62

Da 1 y i {0,1} l = 1 ud der Logarithmus eie kovexe Fuktio ist, gilt log p(x) = 1 log p(y i) y i {0,1} l log p(y i) wobei wir 1 log = y i {0,1} l 1 log, y i {0,1} l p(y i ) 1 beutzt habe. Aus diesem Lemma erhalte wir Lemma 3.2.7 Es sei für jede Folge x {0, 1} die Läge eies beliebige disjukte Parsigs vo x mit c(x) bezeichet. Für jede Wahrscheilichkeitsverteilug p = (p 0, p 1 ) gilt 1 E(c(x) log c(x)) H(p) + γ, (3.10) wobei γ 0 für. Beweis: Mit dem Lemma vo Ziv gilt für alle x {0, 1} Die Summe log p(x) = log log c(x)c l(x) c(x) = c(x) log c(x) c(x) c(x) log c l(x) c(x) ka als die Etropie der Wahrscheilichkeitsverteilug q(x) = c l(x) c(x) c(x) log c l(x) c(x). aufgefasst werde. Vo dieser ka mit de Glei- 63

chuge i (3.8) ud eiigem Aufwad gezeigt werde, dass sie lagsamer wächst als /c(x). Mit adere Worte Damit erhalte wir log p(x) H(q)c(x) 0 für. c(x) log c(x) c(x) c(x) log c l(x) c(x) = c(x) log c(x) wobei γ 0 für. Also gilt c(x) log c(x) + γ, log p(x) Woraus folgt 1 E(c(x) log c(x)) ( p(x) x {0,1} + γ. log p(x) + γ ) = 1 p(x) log p(x) + γ x {0,1} = H(p) + γ. Nu köe wir beweise, dass die Lempel-Ziv-Codierug asymptotisch optimal ist. Satz 3.2.8 Bei beliebiger Wahrscheilichkeitsverteilug p kovergiert die erwartete Codewortläge pro Quellsymbol der Lempel-Ziv-Codierug gege die Etropie H(p). Beweis: Nach (3.1) ist die erwartete Codewortläge pro Quellsymbol der Lempel-Ziv-Codierug gegebe durch 1 p(x)c(x)(log c(x) + e) = 1 E(c(x) log c(x)) + x {0,1} p(x) ec(x) x {0,1} = H(p) + γ + p(x) ec(x). x {0,1} 64

Nach Lemma 3.2.5 gilt u aber ec(x) = eb (log log log(), für eie Kostate b. Da auch e eie Kostate ist, kovergiert dieser Ausdruck für gege 0. Damit kovergiert die erwartet Codewortläge pro Quellsymbol der Lempel-Ziv-Codierug gege die Etropie. 65