Codierungstheorie I: Information, Entropie, Kanäle

Transkript

1 1 Codierungstheorie I: Information, Entropie, Kanäle Frieder Knüppel Hauptthema der Vorlesung sind fehlerkorrigierende Codes. Zunächst wollen wir aber in Teil I einige allgemeine Überlegungen zur Datenübertragung vorstellen. Sie wurden im wesentlichen von C. E. Shannon ab 1948 entwickelt. 1.1 Praktisches Problem Ein Text aus Buchstaben a,b,c,... (oder zum Beispiel den Graustufen eines Photos oder den abgetasteten Amplituden eines Musikstücks) soll übertragen werden. Die Buchstaben kommen mit unterschiedlichen Wahrscheinlichkeiten (relativen Häufigkeiten) p(a), p(b),... in einem Text vor. Durch den (Übertragungs-) Kanal können nur die Zeichen 0 und 1 übermittelt werden (binärer Kanal). Im Kanal können Verfälschungen passieren (Beispiel: obwohl am Kanaleingang eine 0 anliegt erscheint am Ausgang eine 1 oder kein Ausgangssignal). 1.2 Lösungsansatz (QC) Ordne den Buchstaben a, b, c,... Worte (Tupel) mit Einträgen {0, 1} injektiv zu: Quellencodierung. Die Wortlänge (Anzahl der Stellen des Tupels) soll für Buchstaben, die häufig auftauchen (Beispiel e; große Wahrscheinlichkeit p(e); im Morsecode ), geringer sein als für seltene Buchstaben (Beispiel q; im Morsecode ). Denn die zu transportierende oder zu speichernde Folge der Zeichen 0, 1 soll möglichst kurz sein. Raffinierteres Vorgehen: Man betrachtet nicht einzelne Buchstaben und deren Häufigkeit sondern Silben (m-tupel von Buchstaben). Beispiele: Quellenkodierung durch Morsealphabet. Quellenkodierung durch zip. Wenn im Text für jeden der Buchstaben a,b,... (bzw. jede Silbe) das entsprechende Tupel der Quellencodierung eingesetzt wird, erhält man den quellkodierten Text: ein (langes) Tupel mit Einträgen {0, 1}. Aus diesem soll der ursprüngliche Text rekonstruiert werden können, was nicht

2 2 immer möglich ist (da kein Trennzeichen zwischen den quellcodierten Buchstaben vorgesehen ist; beim Morsealphabet wird deshalb ein Komma zwischen je zwei Buchstaben eingefügt). (FKC) Der quellkodierte Text soll nun den (eventuell gestörten) Kanal passieren. Dazu verwendet man einen fehlerkorrigierenden Code. Zunächst wird der quellkodierte Text aufgeteilt in Blöcke gleicher Länge m (m-tupel). Die Elemente des fehlerkorrigierenden Codes sind gewisse n-tupel (n fest) mit Einträgen {0, 1} ( Codewörter ), wobei n > m ist: aus jedem m-block macht man ein Codewort durch Anfügen von n m Kontrollstellen an die m vorhandenen Informationsstellen. Die Folge der Codewörter wird nun durch den Kanal geschickt. Es werden also mehr Zeichen 0, 1 durch den Kanal geschickt, als wenn man den quellkodierten Text direkt senden würde. Dabei kommt es eventuell zu Verfälschungen: statt einer 0 erscheint durch Störungen eine 1 am Kanalausgang. Falls nicht allzuviele Fehler auftreten, soll es möglich sein, aus dem (eventuel verfälschten) n-tupel am Kanalausgang das gesendete Codewort zu berechnen. Deshalb nimmt man die zusätzlich zu sendenden Einträge der Kontrollstellen in Kauf. (FEC) Manchmal genügt es, einen Übertragungsfehler zu erkennen, zum Beispiel im mündlichen Gespräch oder einem Computernetzwerk. Denn in den genannten Situationen kann Rücksprache mit dem Sender erfolgen und Wiederholung der Sendung verlangt werden. In diesen Fällen genügt die Verwendung eines fehlererkennenden Codes. Shannon hat für anschauliche Begriffe im Bereich der Information mathematische Definitionen gefunden. Zur Formulierung brauchen wir Begriffe aus der Wahrscheinlichkeitstheorie. 1.3 Definitionen Ein (endlicher) Wahrscheinlichkeitsraum (A, p) ist eine Menge A = {a 1,..., a n } (es sei A = n) und eine Abbildung p : A R mit 0 p i 1 und p p n = 1 für alle i; dabei sei p i := p(a i ). Man nennt p eine Wahrscheinlichkeitsverteilung (auch

3 3 Wahrscheinlichkeitsmaß ) auf der Menge A. Wir brauchen nur endliche Wahrscheinlichkeitsräume. Interpretation: p(a i ) =Wahrscheinlichkeit, mit der das Elementarereignis a i auftritt. Jede Teilmenge C von A nennt man ein Ereignis. Die Zahl p(c) := c C p(c) nennt man die Wahrscheinlichkeit des Ereignis C. Eine Quelle (zeitunabhängig, endlich) ist ein Wahrscheinlichkeitsraum (A, p). Interpretation: Die a i sind Buchstaben (oder Nachrichten); p(a i ) gibt die Wahrscheinlichkeit an, mit welcher der Buchstabe a i in einem Text vorkommt. Gegeben sei ein Wahrscheinlichkeitsraum (A, p). Eine Zufallsfunktion auf (A, p) (auch Zufallsvariable, Zufallsgröße, stochastische Variable genannt) ist eine Abbildung X : A B (B irgendeine Menge). Die Zielmenge B wie auch die Menge Bild(X) wird durch folgende Definition auf kanonische Weise ein Wahrscheinlichkeitsraum: Für D B bezeichne mit (X D) := {a A X(a) D} die Urbildmenge von D und setze p(d) := p(x D). D.h. die Wahrscheinlichkeit von D wird definiert als die Wahrscheinlichkeit der X-Urbildmenge von D. Man sagt: p(x D) ist die Wahrscheinlichkeit, dass X einen Wert in D annimmt. Falls D = {d} schreibt man p(x = d) := p(x D). Falls X reellwertig ist und λ R setze p(x λ) := p(x D) wobei D := {α R α λ} sei. Im Fall B = R (reelle Zufallsfunktion) nennt man E(X) := p 1 X(a 1 ) p n X(a n ) den Erwartungswert der Zufallsfunktion; man sagt dazu auch Mittelwert oder Durchschnittswert von X. Wenn X eine reelle Zufallsfunktion ist, dann auch X E(X) (d.h. die konstante Funktion E(X), der Erwartungswert, wird von der Funktion X subtrahiert). Auch Y := (X E(X)) 2 ist eine Zufallsvariable: die quadratische Abweichung der Zufallsfunktion X von ihrem Erwartungswert. Man nennt den Erwartungswert von Y die Varianz von X. Also:

4 4 V (X) := E(Y ) = p 1 (X(a 1 ) E(X)) p n (X(a n ) E(X)) 2. V (X) ist die mittlere quadratische Abweichung der Zufallsfunktion X von ihrem Erwartungswert. Oft wird V (X) mit σ 2 oder σ 2 (X) bezeichnet. Man nennt σ(x) := V (X) die Standardabweichung. Wenn C A ist und ι : A R, ι(a) = 1 falls a C, ι(a) = 0 falls a C (Indikatorfunktion von C), so ist p(c) = E(ι); d.h. der Erwartungswert der Indikatorfunktion von C ist die Wahrscheinlichkeit von C. 1.4 Tchebycheff-Ungleichung Sei X eine reelle Zufallsfunktion und ϵ R >0. Dann gilt p( X E(X) ϵ) 1 ϵ V (X) 2 Links in der Ungleichung steht die Wahrscheinlichkeit, dass X einen Wert annimmt, der mindestens den Abstand ϵ vom Erwartungswert hat. 1.5 Begriff Bedingte Wahrscheinlichkeit. Sei (A, p) ein Wahrscheinlichkeitsraum und C A ein Ereignis mit p(c) 0. Dann ist (C, q) ein Wahrscheinlichkeitsraum, wenn man q(d) := p(d) für jedes Ereignis D C setzt. p(c) Für ein Ereignis D von A nennt man p(d C) := q(d C) = p(d C) p(c) die bedingte Wahrscheinlichkeit des Ereignis D unter Voraussetzung von C. 1.6 Wahrscheinlichkeiten bei mehreren Zufallsvariablen Seien X und Y Zufallsvariablen auf einem Wahrscheinlichkeitsraum (A, p). Sei x Bild(X) und y Bild(Y ). Dann wird Bild(X) Bild(Y ) zu einem Wahrscheinlichkeitsraum durch die Festsetzung: Für C Bild(X) und D Bild(Y ) setze (X C, Y D) := {a A X(a) C und Y (a) D } und p(c D) := p(x C, Y D). Entsprechend definieren wir im Spezialfall C = {x} und D = {y}: Die Wahrscheinlichkeit, dass X den Wert x und Y den Wert y annimmt, ist p(x = x, Y = y) = p( {a A X(a) = x und Y (a) = y} ).

5 5 Man nennt p(x = x Y = y) := p(x = x, Y = y) p(y = y) die bedingte Wahrscheinlichkeit, dass X den Wert x annimmt unter der Voraussetzung dass Y = y gilt. Begriff Randverteilung Zur Modellierung von Kanälen brauchen wir Wahrscheinlichkeitsräume (C, r), wobei C = A B direktes Produkt der beiden endlichen Mengen A, B ist und r eine Wahrscheinlichkeitsverteilung auf C. Seien X und Y die Projektionen auf A, B, d.h. X : A B A, (a, b) a und Y : A B B, (a, b) b. Dann bewirken X und Y Verteilungen auf A bzw. B; nämlich q(a) = r(x = a) = r(a B) (mit a B = {(a, b) b B}). Diese Wahrscheinlichkeitsverteilung nennt man die Randverteilung auf A. 2 Informationswert, Entropie 2.1 Hilfssatz (Kennzeichnung der Funktion log c ). Sei c R >1. Sei f : ]0, 1] R stetig mit den Eigenschaften f(x y) = f(x) + f(y) für alle x, y ]0, 1], und f( 1) = 1. Dann gilt f = log c c. Die Funktion log c hat die genannten Eigenschaften. Beweis. Aus der Anfangsbedingung und der vorausgesetzten Funktionalgleichung folgt für alle m, n N m f( 1 c ) = f(1 1 ) = 1, also f( 1/m c c ) = 1 1/m m und deshalb 1 1 f( ) = n f( cn/m c ) = n 1/m m = log c(c n/m 1 ) = log c ( c ) n/m 1 (+) Die Funktion f stimmt also für alle Argumente (*) (wobei m, n N ist) c n/m mit der Funktion log c überein. Nun sei r ]0, 1]. Schreibe r = lim r r j wobei (r j ) eine Folge ist, deren Glieder r j die Form (*) haben (den Beweis für die Existenz einer solchen Folge lassen wir weg). Wegen der Stetigkeit der Funktionen f und log c und Aussage (+) folgt f(r) =

6 6 f(lim j r j ) = lim j f(r j ) = lim j [ log c r j ] = log c (lim r r j ) = log c r. 2.1 Hilfssatz ln x < x 1 für alle x R >0 mit x 1. Beweis. Die Funktion g(x) := ln x x + 1 ist (auf R >0 ) beliebig oft differenzierbar. Es gilt g (x) = 1 1. Also x g (x) > 0 für x ]0, 1[ (folglich dort g echt monoton steigend) und g (x) < 0 für x > 1 (folglich dort g echt monoton fallend). Deshalb hat g an der Stelle 1 und sonst nirgendwo ein Maximum. Es gilt g(1) = 0. Folglich g(x) < 0 für alle x R >0 mit x 1. Regel log c x = ln x ln c für alle c, x R >0, c 1. Beweis. Setze z := log c x. Dann gilt e z ln c = c z = x = e ln x, also z ln c = ln x. 2.2 Lemma (Fundamentale Ungleichung) Seien x 1,..., x n, y 1,..., y n R 0 mit x x n = y y n. Sei c R >1. Dann gilt x 1 log c ( y 1 ) x n log x c ( y n ) 0 1 x n Gleichheit gilt genau dann, wenn x 1 = y 1,..., x n = y n gilt. Dabei sei 0 log c y 0 := 0 für y R 0 festgesetzt und x log c 0 x := für x R >0. Umformulierung der Ungleichung: x 1 log c y x n log c y n x 1 log c x x n log c x n Beweis. Für i = 1,..., r sei x i y i 0; für i = r + 1,..., n sei x i y i = 0. Dann gilt (siehe Regel und 2.1 ) x 1 log c ( y 1 x 1 ) x n log c ( y n x n ) x 1 log c ( y 1 x 1 ) x r log c ( y r x r ) = Gleichheit gilt genau dann, wenn y 1 x 1 zutrifft. 1 ln c [x 1 ln( y 1 x 1 ) x r ln( y r x r )] 1 ln c [x 1 ( y 1 1) x r ( y r 1)] = 0 x 1 x r =... = y r x r = 1 und x i = y i = 0 für i = r+1,..., n

7 7 2.3 Modellierung Sei (A, p) ein Wahrscheinlichkeitsraum, A <. Wir wollen jedem Elementarereignis eine Ungewißheit (auch Informationswert oder Informationsgehalt genannt) zuordnen. Es sei p(a) 0 für alle a A. Wir interpretieren die Elementarereignisse (Elemente von A) als Nachrichten; (A, p) ist eine Nachrichtenquelle. Beispiel: Tennisspieler 1,...,5 tragen ein Turnier aus. Nachricht a i bedeute: Spieler i hat das Turnier gewonnen. Die Wahrscheinlichkeit, dass Spieler i gewinnt, sei p i = p(a i ). Sei p 1 = p 2 = 1/6, p 3 = 1/2, p 4 = 1/12, p 5 = 1/12. Dann ist die Nachricht a 5 ungewisser (da seltener) als a 1 ; wenn die Nachricht a 5 eintrifft, ist deshalb ihr Informationswert I(a 5 ) größer als der Informationswert I(a 1 ) (bei einer Wette auch der finanzielle Wert). Als Informationswert können wir also das Maß der Unsicherheit einer Nachricht ansehen: je größer die Unsicherheit (d.h. je geringer die Wahrscheinlichkeit ihres Eintreffens), desto höher der Informationswert. Der Informationswert I(a i ) soll eine reelle Zahl 0 sein, die nur von p i abhängt: I(a i ) = f(p i ) wobei f : ]0, 1] R stetig ist. Je kleiner p i, desto größer soll der Informationswert f(p i ) sein (außer bei p i = 0, d.h. wenn das Ereignis fast sicher nicht vorkommt). Nun werden zwei Turniere nacheinander veranstaltet. Die Wahrscheinlichkeit, dass bei Turnier A Spieler 2 und bei Turnier B Spieler 4 gewinnt, ist p 2 p 4 (wenn beide Ereignisse voneinander unabhängig) sind. Der Informationswert der Nachricht bei Turnier A gewinnt Spieler 2 und bei Turnier B gewinnt Spieler 4 soll die Summe des Informationswerts der beiden einzelnen Nachrichten sein: f(p 1 p 2 ) = f(p 1 ) + f(p 2 ). Außerdem müssen wir noch eine Einheit des Informationswerts festlegen, zum Beispiel f(p 1 ) = 1, d.h. Nachricht a 1 hat Informationswert = 1. Wir suchen deshalb zu gegebenem c R >0 (im Beispiel oben: p 1 = 1/c) eine Funktion f mit den Eigenschaften: (0) f : ]0, 1] R 0 ist stetig,

8 8 (1) Es soll f(p 1 p 2 ) = f(p 1 ) + f(p 2 ) für alle p i ]0, 1] gelten. (2) f( 1) = 1 c Nach dem Hilfssatz folgt aus diesen Forderungen: f = log c ; und die Funktion log c hat die gewünschten Eigenschaften. Wir setzen deshalb fest: 2.4 Definition (Informationswert = Ungewißheit). Sei (A, p) ein endlicher Wahrscheinlichkeitsraum. Sei c R >1. Definiere I c (a) := log c p(a) für a A mit p(a) 0. Man nennt I c (a) = log c (p(a)) = log c ( 1 ) den Informationswert, auch die Unsicherheit, (zur Grundzahl p(a) c) von a. Dies ist reelle Zahl 0. Meistens wählt man c = 2. Der Erwartungswert E(I c ) = p 1 I c (a 1 ) p n I c (a n ) der Zufallsfunktion I c heißt die Entropie H von (A, p). Dabei sei A = {a 1,..., a n }, A = n, p i := p(a i ). Es ist also H = E(I c ) = p 1 ( log c p 1 ) p n ( log c p n ) = p 1 log c ( 1 ) p n log p c ( 1 ) 1 p n In der obigen Interpretation: Der mittlere Informationswert (= die mittlere Ungewißheit, durchschnittliche Ungewißheit) einer Nachricht aus A ist die Entropie H. Reales Beispiel: A = {a 1, a 2, a 3, a 4 }. a 1 : Die Bank Lug&Trug wird im nächsten Bericht einen Verlust > 1 Milliarde Euro ausweisen; a 2 : Die Bank wird einen Verlust 1 Milliarde Euro ausweisen; a 3 : Die Bank wird einen Gewinn zwischen 0 und 1 Milliarde Euro melden; a 4 : Die Bank wird einen Gewinn > 1 Milliarde Euro melden. Aufgrund von Expertenvorhersagen werden Wahrscheinlichkeiten p 1,..., p 4 festgesetzt (z.b. wie in 2.5). Welchen Informationswert erwarte ich? Was ist die Mitteilung eines Insiders wert, der verrät, welche der Nachrichten a 1,..., a 4 im Geschäftsbericht stehen wird? Der mittlere Informationswert ist die Entropie des Wahrscheinlichkeitsraums (A, p). Ergänzung: Um auch Elementarereignisse a mit p(a) = 0 (die also fast sicher nicht

9 9 auftreten) einzubeziehen, setzt man fest: 0 log c ( 1 ) := lim 0 p log 1 c p>0, p 0 p = 0 D.h. wir setzen fest: Elementarereignisse mit Wahrscheinlichkeit 0, tragen nicht zur Entropie bei. Einen Informationswert ordnen wir solchen Nachrichten aber nicht zu. Bemerkung Nicht-Mathematiker mag der Umgang mit dem Begriff Information befremden: die eigentliche Nachricht interessiert uns nicht. Es kommt bei unseren Begriffsbildungen nur darauf an, mit welcher Wahrscheinlichkeit eine Nachricht auftritt. 2.4 Beispiel c = 2; A = {a 1,..., a 4 }; p 1 = 1; p 2 2 = 1; p 4 3 = 1 = p 8 4. Dann ist I 2 (a 1 ) = 1, I 2 (a 2 ) = 2; I 2 (a 3 ) = I 2 (a 4 ) = 3. Man sagt auch I 2 (a 1 ) = 1 bit (bit klein geschrieben; bedeutet eine Informationseinheit bei Grundzahl 2). Die Entropie (mittlerer Informationsgehalt einer Nachricht) ist H = = Da bei der Definition der Entropie nur die Wahrscheinlichkeiten p 1,..., p n und die Grundzahl c eine Rolle spielt, schreibt man auch H c (p 1,..., p n ). 2.5 Satz (über die maximale Entropie) Voraussetzungen wie oben. Es gilt H = H c (A, p) log c (n). Man hat H = log c (n) (Maximalwert wenn p 1,..., p n variieren dürfen) genau dann, wenn p 1 = 1 =... = p n n (d.h. Gleichverteilung) gilt. Beweis. Setze y i := 1 n und x i := p i und wende die Fundamentale Ungleichung 2.2 an: H log c n = n 1 p i log c 1 p i n p i log c n = Gleichheit gilt genau dann, wenn p 1 =... = p n = 1 n zutrifft. 1 n 1 p i log c 1 p i n 0 Ergänzung. Falls p 1 = 1 ist, gilt H = Plausibilitätsbetrachtung Das Turnier-Beispiel oben können wir als Wurf mit einem gezinkten Würfel ansehen: p 1 = p 2 = 1/6, p 3 = 1/2, p 4 = 1/12, p 5 = 1/12,

10 10 p 6 = 0 sind die Wahrscheinlichkeiten, dass 1,...,6 geworfen wird. Vergleichen wir diesen Wahrscheinlichkeitsraum mit dem eines fairen Würfels. Der faire Würfel hat (nach dem Satz) größere Entropie als der gezinkte Würfel. Das entspicht unserem Empfinden, dass die mittlere Unsicherheit bei einem fairen Würfel am größten ist. 2.7 Entropie von Zufallsvariablen Sei (A, p) ein Wahrscheinlichkeitsraum und sei X : A B eine Zufallsfunktion ( A, B N). Dann wird wie gesagt B zu einem Wahrscheinlichkeitsraum durch die Festsetzung p(d) := p(x D) := p( {a A X(a) D} ), für jedes D B. Insbesondere wenn D = {d} ist: p(x = d) := p(x {d}) = p({a A X(a) = d}). Die Entropie auf B ist H = [ b B p(x = b) log(p(x = b)]. Bezeichnung: H(X). Interpretation: log p(x = b) ist der Informationswert (die Ungewißheit) dafür, dass X den Wert b B annimmt. H(X) der mittlerer Informationswert von X. Nun seien X und Y Zufallsfunktionen auf dem Wahrscheinlichkeitsraum (A, p). Dann hat man eine Zufallsfunktion X Y : A Bild(X) Bild(Y ), a (X(a), Y (a)). Sei y Bild(Y ). Dann ist (Y = y) := {a A Y (a) = y} mit der Festsetzung: q(c) := p(c Y = y) := (vorausgesetzt p(y = y) 0). p(c) p(y =y) (für c (Y = y)) ein Wahrscheinlichkeitsraum Die Entropie der Restriktion von X auf diesen Wahrscheinlichkeitsraum bezeichnet man mit H(X Y = y). Es gilt also H(X Y = y) = x Bild(X) p(x = x Y = y) log c p(x = x Y = y). Interpretation: H(X Y = y) ist die bedingte Entropie von X unter der Voraussetzung Y = y. Anders gesagt: H(X Y = y) ist der mittlere Informationswert von X, wenn man schon weiß, dass Y den Wert y annimmt (also ohne Berücksichtigung eines Informationsbeitrags durch Y ). Mit H(X Y = y) bilden wir die Zufallsfunktion BildY R, y H(X Y = y). Der Erwartungswert dieser Zufallsfunktion ist H(X Y ) := y Bild(Y ) p(y = y) H(X Y = y).

11 11 Bezeichnung: H(X Y ) heißt mittlere bedingte Entropie von X unter Y. Interpretation: H(X Y ) ist der mittlere Informationswert von X, wenn der Wert von Y schon bekannt ist. Anders formuliert: H(X Y ) ist der Anteil des mittleren Informationswertes von X, zu welchem Y nichts beiträgt (da der Y -Wert als bekannt vorausgesetzt ist). Bemerkung. Nenne X unabhängig von Y wenn für alle x BildX und y BildY gilt p(x = x, Y = y) = p(x = x) p(y = y). Wenn X unabhängig von Y ist, so gilt H(X Y ) = H(X). 2.8 Satz Voraussetzungen wie oben. Dann gilt H(X Y ) = H(X) + H(Y X) = H(Y ) + H(X Y ) Beweis. Setze U := Bild(X), V := Bild(Y ). Für x U und y V setze p(x) := p(x = x), p(y) := p(y = y), p(x, y) := p(x = x, Y = y) und p(y x) := p(y = y X = x). Es gilt: und deshalb H(X Y ) = p(x = x, Y = y) p(x) p(y x) = p(x = x) p(x = x) (x,y) U V (x,y) U V p(x, y) log p(x, y) = p(x)p(y x) log p(x) (x,y) U V (x,y) U V = p(x, y) p(x)p(y x) log(p(x)p(y x)) = p(x)p(y x) log p(y x) = [ x U y V p(y x)p(x) log p(x)] x U p(x)[ y V p(y x) log p(y x)] = [p(x) log p(x)( x U y V p(y x))] x U p(x)[ y V p(y x) log p(y x)] = H(X) + p(x)h(y x) = H(X) + H(Y X) x U Literarische Formulierung des Satzes: Der Informationswert H(X Y ) von X Y besteht aus dem Informationswert H(X) von X, zuzüglich demjenigen Informationsanteil H(Y X) von Y, zu welchem nur Y aber nicht X beiträgt.

12 12 Falls X unabhängig von Y ist, liefert der Satz; H(X Y ) = H(X) + H(Y ). 2.9 Definition Der Informationswert (die Information) von X über Y (das, was X an Information über Y liefert) ist I(X, Y ) := H(Y ) H(Y X). Warum diese Definition? Lesen wir H(Y ) = [H(Y ) H(Y X)] + H(Y X) = I(X, Y ) + H(Y X) wie folgt: Der Informationswert von (die Unsicherheit über) von Y besteht aus dem Anteil I(X, Y ), den wir durch Beobachten von X entnehmen können (d.h. zu welchem X beiträgt), und demjenigen Anteil H(Y X), zu welchem X nichts beiträgt Satz I(X, Y ) = H(X) + H(Y ) H(X Y ) = I(Y, X). Beweis. Nach 2.8: I(X, Y ) = H(Y ) H(Y X) = H(Y ) + H(X) H(X Y ) Interpretation: Die Information, welchen X über Y liefert, ist gleich der Information, die Y über X liefert Verbundräume Beim Modellieren von Kanälen braucht man Verbundräume (zusammengesetzte Wahrscheinlichkeitsräume (C, r), C = A B (Menge der Paare (a, b)). Man hat also für jedes Paar (a, b) A B eine Wahrscheinlichkeit r(a, b). Für a A setzt man p(a) := r(a, B) := r( {(a, b) b B}. Dann ist p ein Wahrscheinlichkeitsmaß auf A, genannt die Randverteilung auf A. Entsprechend die Randverteilung auf B. In dieser Situation hat man auf natürliche Weise zwei Zufallsfunktionen X und Y auf C, nämlich die Projektionen auf die Randfelder : X : C A, (a, b) a; und Y : C B, (a, b) b. In diesem Fall schreibt man H(A B), I(A, B),... statt H(X Y ), I(X, Y )... usw. Anstelle von (A, p) wie in 2.7 bis 2.10 wird im folgenden (C, r) = (A B, r) studiert; dabei werden die Ergebnisse aus 2.7 bis 2.10 verwendet. 3. Informationstransport durch einen Kanal

13 Modellbildung in einen Kanal werden Zeichen (Buchstaben, oder Zeichen 0, 1) eingegeben; bei jeder Eingabe wird genau ein Zeichen ausgegeben. Sei A = {a 1,..., a m } die Menge der möglichen Eingabezeichen; B = {b 1,..., b n } die Menge der möglichen Ausgabezeichen. Da die Übertragung durch den Kanal Störungen unterliegt, weiß man nicht genau, welches Zeichen b nach der Eingabe von a am Ausgang erscheint. Sei r a (b) die Wahrscheinlichkeit, dass unter Voraussetzung der Sendung von a A am Ausgang das Zeichen b B erscheint. Dann ist r a (b 1 ) r a (b n ) = 1, d.h. (B, r a ) ist für jedes a A ein Wahrscheinlichkeitsraum. Es ist (r a (b)) a A,b B eine m n Matrix. Sie ist stochastisch: Jeder Eintrag ist R 0 und jede Zeilensumme ist 1. Man könnte auch r i,j := r(a i, b j ) schreiben. 3.2 Definition Ein Kanal (endlich, ohne Gedächtnis) ist ein Tripel (A, B, (r a ) a A ) wobei A, B endliche Mengen sind; für jedes a A ist r a eine Wahrscheinlichkeitsverteilung auf B. 3.4 Beispiel Binärer symmetrischer Kanal mit Irrtumswahrscheinlichkeit α (Bezeichnung: BSC(α)). A := B := {0, 1} und ( ) 1 α α (r a (b)) a A,b B = α 1 α 3.5 Speisen eines Kanals aus einer Quelle Motivation. Sei (A, p) eine Quelle (endlicher Wahrscheinlichkeitsraum) und (A, B, (r a ) a A ) ein Kanal (die Menge A kommt in beiden Dingen vor). Die Buchstaben a A werden mit Wahrscheinlichkeit p(a) aus der Quelle in den Kanal eingespeist; am Ausgang des Kanals erscheint Buchstabe b mit Wahrscheinlichkeit r(a, b) := p(a) r a (b). D.h. r(a, b) ist die Wahrscheinlichkeit für das Ereignis: am Kanaleingang steht a und am Ausgang b. 3.6 Definition Der aus einer Quelle (A, p) und einem Kanal (A, B, (r a ) a A ) zusammengesetzte Wahrscheinlichkeitsraum ist (A B, r), wobei r(a, b) := p(a) r a (b) ist.

14 Wir berechnen die Randverteilung auf A: Für a A ist r(a B) = b B r(a, b) = b B p(a)r a(b) = p(a); d.h. Randverteilung von r(, ) auf A ist p. Man hat r(b a) = r(a,b) = r r(a B) a(b). D.h. r a (b) ist die bedingte Wahrscheinlichkeit für: b am Ausgang unter der Voraussetzung: die Quelle liefert a. 3.8 Entropie des zusammengesetzen W.raums Wir betrachten den Wahrscheinlichkeitsraum (A B, r), der gemäß 3.6 durch Zusammensetzen einer Quelle und eines Kanals entsteht. Dann ist H(A B) definiert. Deutung: (mittlere) Ungewißheit über das gesendete Zeichen vorausgesetzt, das empfangene Zeichen ist bekannt. Auch I(A, B) = I(B, A) = H(B) H(B A) = H(A) H(A B) ist wohldefiniert. Deutung: Information, welche das Ausgangssignal über das Eingangssignal enthält; dies ist gleich der Information, welche das Eingangssignal über das Ausgangssignal enthält. Der Informationswert, welchen das Ausgangssignal über das Eingangssignal enthält, ist gleich dem Informationswert H(B) des Ausgangssignals, vermindert um den Informationswert H(B A) des Ausgangssignals, zu welchem A nichts beiträgt. Der technisch unerwünschte Anteil H(B A) wird alleine vom Kanal verursacht ( Kanalrauschen ). 3.9 Beispiel Betrachte den BSC(α) (binärer symmetrischer Kanal mit Fehlerwahrscheinlichkeit α) und die Quelle (A, p) mit A = {0, 1}, p(0) = β, p(1) = 1 β. Setze α := 1 α und β := 1 β. Wir schreiben r(a, b) = p(a) r a (b) in Matrixform (r(a, b)) = ( α β αβ αβ α β Für die Randverteilung auf A haben wir r(0 B) = β = p(0) und r(1 B) = β = p(1). Nun berechnen wir r(b a), d.h. r(y = b X = a): bedingte Wahrscheinlichkeit, dass Y (Projektion auf B) den Wert b hat unter Voraussetzung, dass X (Projektion auf A) den Wert a hat. Zum Beispiel r(b a = 0) = r(0,b) r(0 B) = α falls b = 0 und = α falls b = 1. )

15 15 Allgemein: r(b a) = α falls a b, und r(b a) = α falls a = b. Deshalb ist H(B a = 0) = H(α, α ) = H(B a = 1) (dabei bezeichnet H(α, α ) die zur Wahrscheinlichkeitsverteilung α, α gehörende Entropie. H(B A) ist nach Definition der Erwartungswert der Zufallsfunktion (A, p) R, a H(B a). Also (mit obigem Resultat): H(B A) = βh(b a = 0) + β H(B a = 1) = (β + β ) H(α, α ) = H(α, α ). H(B) ist die Entropie, welche zur Randverteilung von r auf B gehört: H(B) = H(r(A 0), r(a 1)) = H(α β + αβ, 1 (α β + αβ )). Daraus erhalten wir für die Information von A über B: I(A, B) = I(B, A) = H(B) H(B A) = H(α β + αβ, 1 (α β + αβ )) H(α, α ). Nun sei α fest. Für welchen Wert von β wird die Information I(A, B) (d.h. das, was der Ausgang über den Eingang an Information liefert) maximal? Maximalität liegt genau dann vor, wenn H(α β + αβ, 1 (α β + αβ )) maximal ist; und dies trifft nach 2.5 genau dann zu, wenn Gleichverteilung vorliegt, also α β + αβ = 1. Dies ist gleichbedeutend mit β = 1 (außer bei α = 1 ; dann ist β beliebig wählbar). Ergebnis: Unabhängig von der Beschaffenheit des Kanals (d.h. α) paßt am meisten Information durch, wenn die Quelle genauso häufig eine 0 wie eine 1 abgibt. Beim fehlerfreien BSC-Kanal (α = 0) ist H(B A) = 0 (unter Voraussetzung, das gesendete Zeichen ist bekannt, hat B keinen Informationswert) und es gilt I c (A, B) = H(B) = H(A) = H(β, β ); für β = 1/2 ist I 2 (A, B) = 1 die maximal den Kanal durchlaufende Information Kapazität eines Kanals Gegeben sei ein Kanal (A, B, (r a ) a A ). Wir können ihn mit irgendeiner Quelle (A, p) gemäß 3.6 zusammenschalten und erhalten den zusammengesetzten Wahrscheinlichkeitsraum (A B, r). Für diesen ist I(A, B), die übertragene Information, erklärt. Sie hängt von der gewählten Quelle ab. Da A = {a 1,..., a m } festliegt, kommt es nur auf die Wahrscheinlichkeiten p i := p(a i ) an. Wir erhalten also eine stetige Funktion {(p 1,..., p n ) R n 0 p p n = 1} I(A; B) Da ihr Definitionsbereich kompakt ist, hat sie ein Maximum.

16 16 Wir definieren: Die Kanalkapazität κ(a, B, (r a ) a A ) des Kanals ist das Maximum der genannten Funktion. Anders gesagt: Wir schließen beliebige Quellen (A, p) an den Eingang des Kanals an und messen, wieviel Information I(A, B) übertragen wird. Das Maximum der übertragenen Information nennen wir die Kanalkapazität κ = max (A,p) I(A; B). Im Beispiel 3.9 wurde für den Kanal BSC(α) berechnet κ = 1 + α log α + (1 α) log(1 α). Wenn 0 < α < 1 ist also κ < Parallelschaltung von Quellen Für zwei Quellen Q = (A, p) und Q = (A, p ) definieren wir als direktes Produkt Q Q := (A A, p ) mit p (a, a ) := p(a) p (a ). Interpretation: Die beiden Quellen liefern pro Sekunde unabhängig voneinander jeder ein Zeichen. Man berechnet für die Entropie 3.12 Satz H(Q Q ) = H(Q) + H(Q ) Definition (Parallelschaltung von Kanälen ) Für Kanäle K = (A, B, (r a ) a A ) und K = (A, B, (r a) a A ) definieren wir als direktes Produkt K K := (A A, B B, (r )), mit r (a,a )(b, b ) := r a (b) r a (b ) Satz Für die Kanalkapazitäten gilt κ(k K ) = κ(k) + κ(k ). 4. Codes mit variabler Wortlänge, Quellcodierung Quellencodierung bedeutet: wir betrachten einen störungsfreien Kanal. Die Codierung soll effizient sein; das bedeutet physikalisch: die Nachricht soll in möglichst kurzer Zeit oder mit möglichst wenig Energie übertragen werden; oder (bei Speicherung) es soll möglichst wenig Speicher gebraucht werden.

17 Bezeichnung, Definition Für eine Menge M setze M := n N (d.h. alle Tupel beliebiger endlicher Länge 1 mit Einträgen M). Seien A, B endliche nicht-leere Mengen (Deutung: Alphabete, d.h. Mengen von Buchstaben (Zeichen)). Eine (Quellen-) Codierung (Quellen-Code) von A durch B ist eine injektive Abbildung φ : A B. Die Elemente von φ(a) heißen Codewörter. Falls B = {0, 1} nenne die Codierung binär. M n Zu φ definieren wir φ : A B, φ (a 1,..., a k ) := φ(a 1 )φ(a 2 )...φ(a k ) (dies sei das durch Aneinanderhängen von φ(a 1 ), φ(a 2 )... entstehende Tupel). φ ordnet also einem Tupel von Buchstaben A das Tupel zu, welches durch Aneinanderhängen der entsprechenden Codewörter entsteht. Nenne die Codierung eindeutig dekodierbar, wenn φ injektiv ist. 4.2 Beispiel Sei A = {a 1,..., a 4 } und B = {0, 1}. Wir betrachten drei Beispiel (a), (b), (c), (d) von Codierungen: Buchstabe a 1 a 2 a 3 a 4 (a) (b) (c) (d) Dabei haben wir Komma und Klammern in Tupeln weggelassen.

18 18 In Codierung (a) haben alle Codewörter gleiche Länge 2. Deshalb ist (a) eindeutig dekodierbar. Die Codierung (b) ist eindeutig dekodierbar; Grund: kein Codewort ist Anfangsstück ( Präfix ) eines anderen Codeworts. Ist (d) eindeutig dekodierbar? Das kann man nicht ohne weiteres sehen. Hierzu. Beim Empfänger treffe ein. Das könnte kommen von: oder (Codewörter durch getrennt). Man kann also nicht von links beginnend dekodieren. Trotzdem ist auch (d) eindeutig dekodierbar: kein Codeword ist Endstück ( Suffix ) eines anderen Codeworts. Deshalb kann man zu jedem φ (x) das Urbild x von rechts beginnend rekonstruieren. Codierung (c) ist nicht eindeutig dekodierbar (und deshalb nicht gut brauchbar). Wir haben schon bemerkt: 4.3 Definition, Beobachtung Nenne den Code Präfix-Code, wenn kein Codewort Anfangsstück eines anderen Codeworts ist. Jeder Präfix-Code ist eindeutig dekodierbar. 4.5 Satz von Kraft und McMillan Gegeben sei ein eindeutig dekodierbarer Code φ : A B wie in 4.1. Sei α := A, also α auch die Anzahl der Codewörter: φ(a) = {c 1,..., c α } B. Sei n i die Länge des Codeworts c i ( i = 1,..., α). Sei β := B. Dann gilt ( 1 β )n ( 1 β )nα 1 Beweis. Wir dürfen n 1... n α annehmen und φ(a i ) = c i. Sei m N beliebig. Betrachte die m-te Potenz der linken Seite S der zu beweisenden Ungleichung: S m = ( 1 β n β n α )m = ( 1 β )n i n i m

19 19 Zu summieren ist über alle Tupel (*) (i 1,..., i m ) {1,..., α} m. Wir ordnen die Summe nach Potenzen von 1 β : S m = m n α k=m n 1 f k ( 1 β )k Dabei bezeichnet f k die Anzahl der Tupel (*) mit n i n im = k. Wir betrachten nun ein festes k N. Sei T = {(i 1,..., i m ) {1,..., α} m n i n im = k} die Menge der genannten Tupel; also f k = T. Sei ψ : T B k, (i 1,..., i m ) c i1... c im = φ ((a i1,..., a im ) (Multiplikation =Aneinanderhängen von Tupeln). Behauptung: ψ ist injektiv. Denn wenn c i1... c im = c j1... c jm gilt, so ist (wegen der Injektivität von φ ) (a i1,..., a im ) = (a j1,..., a jm ). Es folgt a is für i = 1,..., m. Damit ist die Behauptung gezeigt. Also ist f k = T β k. Wir haben gezeigt: = a js, also i s = j s Es gilt S m m n α k=m n 1 β k ( 1 β )k = lim m Damit folgt die Behauptung. m n α k=m n 1 1 = m (n α n 1 ) + 1 m (n α n 1 + 1) m m = 1 und lim m m nα n 1 + 1) = 1 Beispiel 4.2 (d) ist ein eindeutig dekodierbarer Code, aber kein Präfix-Code. Nach 4.6 muß er die Ungleichung von Kraft und McMillan erfüllen. Problem: Gibt es dann schon einen Präfix-Code mit gleichen Parametern (d.h. α =Anzahl der Codewörter, β=anzahl der im Code verwendeten Buchstaben, n 1,..., n α = Wortlängen der Codewörter)? Die Antwort ist ja: 4.6 Satz über Existenz von Präfix-Codes Seien α, β, n 1,..., n α N Zahlen, welche die Ungleichung von Kraft und McMillan (in 4.5) erfüllen. Dann existiert ein Präfix-Code mit diesen Parametern (d.h. α=anzahl der Codewörter; n i =Längen der Codewörter; β= Anzahl der in den Codewörtern verwendeten Buchstaben).

20 20 Beweis. Induktion über α (Anzahl der Codewörter). Wir dürfen für die vorgegebenen Längen der Codewörter annehmen n 1... n α. B sei das für die Codewörter vorgesehene Alphabet, B = β. Falls α = 1 : Trivialfall. Sei α 2. Wegen α 1 ( 1 β )n j < 1 j=1 existieren nach Induktionsvoraussetzung α 1 Codewörtern c 1,..., c α 1 B mit Wortlängen n 1,..., n α 1 derart, dass kein Codewort Präfix eines anderen Codeworts ist. Für jedes dieser c j sei S(c j ) := {(b 1,..., b nα ) b i B und c j Anfangsstück von (b 1,..., b nα )}. Offenbar gilt S(c j ) = β n α n j. Also α 1 α 1 S(c j ) = β nα j=1 j=1 β n j < β nα (siehe Voraussetzung). Also existiert ein Element c α B nα \ (S(c 1 )... S(c α 1 ). Keines der Wörter c 1,..., c α 1 ist dann Präfix von c α. Folgerung aus 4.5 und 4.6: 4.7 Korollar Wenn ein eindeutig decodierbarer Code zu den Parametern α, β, n 1,..., n α existiert, dann gibt es sogar einen Präfix-Code mit diesen Eigenschaften.

21 21 5. Codierung von Quellen Aufgabe: Zu gegebener Quelle finde Präfix-Codes mit möglichst kurzer Wortlänge. Wir setzen für jede Quelle (A, p) voraus: p(a) 0 für alle a A. 5.1 Bezeichnung Für ein m-tupel w setze λ(w) := m, die Länge des m-tupels (Worts). Sei (A, p) eine Quelle (endlicher Wahrscheinlichkeitsraum) und φ : A B eine Codierung. Dann ist λ : A R, a λ(φ(a)) eine Zufallsfunktion mit Erwartungswert λ := λ(φ, (A, p)) = p(a) λ(φ(a)) a A 5.2 Satz über mittlere Wortlänge bei eindeutiger Dekodierbarkeit. Voraussetzungen wie oben. Sei H = H(A, p) die Entropie von (A, p). Sei φ : A B eindeutig dekodierbar, β := B. Dann gilt Gleichheit gilt genau dann, wenn für jedes a A ist. H log β λ p(a) = ( 1 β )λ(φ(a)) Beweis. Setze q(a) := ( 1 β )λ(φ(a)) 1 S mit S := a A ( 1 β )λ(φ(a)) Dann ist q Wahrscheinlichkeitsmaß auf A. Die Ungleichung vonkraft und McMillan sagt (+) S 1. Die Entropie der Quelle (A, p) ist H(A, p) = a A p(a) log p(a). Eine Umformulierung der Fundamentalen Ungleichung 2.2 ist die Aussage: Wenn x i, y i R 0 sind mit x x n = y y n, so gilt x 1 log y x n log y n

22 22 x 1 log x x n log x n. Dies angewendet liefert: H(A, p) = a A p(a) log p(a) a A p(a) log q(a). Aus (+) folgt log c S 0, also p(a) log q(a) = p(a) log(s β λ(φ(a)) ) = p(a) log S+ p(a) log(β λ(φ(a)) ) a A a A a A a A p(a) log(β λ(φ(a)) ) = p(a) λ(φ(a)) log β = λ log β a A a A Daraus folgt die erste Behauptung. Gleichheit gilt genau dann, wenn S = 1 und p(a) = q(a) ist (siehe 2.2). Nachdem 5.2 eine notwendige Untergrenze für die mittlere Wortlänge bei eindeutiger Codierbarkeit vorschreibt, wollen wir jetzt eine konstruktive Aussage treffen: es gibt eine Präfix-Codierung, deren mittlere Wortlänge die Unterschranke von 5.2 höchstens um 1 überschreitet. 5.3 Satz über die Existenz eines Präfix-Codes mit vorgegebener mittlerer Wortlänge. Sei (A, p) eine Quelle mit Entropie H und B eine endliche Menge (Codealphabet), β := B. Dann existiert eine Präfix-Codierung φ : A B, deren mittlere Wortlänge λ folgende Eigenschaft hat H log β λ < H log β + 1 Beweis. Seien p 1,...,p α die Wahrscheinlichkeiten der Quellenzeichen a 1,..., a α A. Man wähle n 1,..., n α N mit ( ) log p i log β n i < log p i log β + 1 Wegen der Ungleichungen links folgt die Ungleichung von McMillan. 4.6 liefert also eine Präfix Codierung φ mit Wortlängen n i. Es folgt für die mittlere Wortlänge λ dieser Codierung wegen der rechten Ungleichung λ = p 1 n p α n α < 1 log β (p 1 log p p α log p α ) + (p p α ) = H log β Beispiel Im vorigen Beweis wird explizit angegeben, wie die Wortlängen n i zu wählen sind.

23 23 Sei α = A = 6 und B = {0, 1}. Die Wahrscheinlichkeiten p i der Zeichen von A seien wie in der Tabelle vorgegeben. Als Grundzahl für die Logarithmen nehmen wir c = 2, also log β = 1 für β := B = 2. Dahinter schreiben wir n i gemäß (*) vom vorigen Beweis und geben ein passendes φ(a i ) an derart, dass eine Präfix-Codierung entsteht. i p(a i ) n i φ(a i ) 1 0, , , , , , Für i = 3 kann man 000 sogar durch 00 ersetzen, für i = 6 das Wort durch 1100 (ohne die Präfix-Code-Eigenschaft zu verlieren). 5.5 Zum Quellen-Codierungssatz von Shannon Der Einfachheit halber betrachten wir Logarithmen zur Grundzahl c = 2 und nehmen an B = {0, 1}, also β := B = 2. Nach 5.3 existiert eine Präfix-Codierung von A mit mittlerer Wortlänge λ, welche H λ < H + 1 erfüllt (dabei ist H die Entropie der Quelle (A, p)). Diese Ungleichung läßt für die mittlere Wortlänge λ Schlupf 1: wenn die Obergrenze 5,1 ist, könnte man vielleicht auch eine Präfix-Codierung mit mittlerer Wortlänge 4,2 konstruieren. Hier hilft die folgende Idee: statt einzelne Buchstaben von A zu codieren, betrachte man Silben aus 2 Buchstaben und codiere diese; allgemeiner: Silben von n Buchstaben. 5.5 Definition Sei (A, p) eine Quelle und n N. Die n-te Erweiterung (A n, p) ist die Quelle A n (Menge der n-tupel mit Einträgen aus A) mit p(a 1,..., a n ) := p(a 1 )... p(a n ) für alle a i A, n N. (Wir verwenden den gleichen Buchstaben p für das Wahrscheinlichkeitsmaß auf A wie auch für dasjenige auf A n ).

24 Beobachtung Für die Entropien gilt H(A n, p) = n H(A, p). 5.6 Konstruktion Sei (A, p) eine Quelle, n N und (A n, p) die n-te Erweiterung. Sei H n := H(A n, p) die Entropie von (A n, p), H := H 1 also die Entropie von (A, p). Sei wieder β = B. Nach 5.3 existiert eine Präfix-Codierung φ n : A n B mit H n log β λ n < H n log β + 1 wobei λ n die mittlere Wortlänge der Codierung φ n bezeichnet. Teilen durch n liefert wegen 5.5 H log β λ n n < H log β + 1 n In der Mitte der Abschätzung steht λ nn, d.h. die mittlere Wortlänge der φ n -codierten Silbe A n (Silbe aus n Buchstaben ), geteilt durch n: das ist die im Mittel zur Codierung eines Buchstabens A benötigte Anzahl von Zeichen B. Wir haben bewiesen: 5.6 Quellen-Codierungssatz von Shannon, Spezialfall Sei (A, p) eine Quelle mit Entropie H, β := B. Dann existiert eine Folge von Präfix-Codierungen φ n : A n B derart, dass für deren mittlere Wortlängen λ n gilt λ n lim n n = H log β Interpretation Die Anzahl der benötigten Zeichen zur Codierung eines Buchstabens A kommt beliebig dicht an die Untergrenze man n hinreichend groß wählt. H log β (in 5.2, 5.3) heran, wenn Nach 5.6, 5.2 und 4.7 gilt also (bei log = log 2 ) H(A, p) = inf{ 1 λ(φ n n, (A n, p)) n N, φ n ist eindeutig dekodierbare binäre Codierung von (A n, p)}. Diese Aussage kann man als Rechtfertigung für die Definition der Entropie einer Quelle ansehen.

25 Beispiel A = {a 1, a 2 } mit p 1 = 0, 75, p 2 = 0, 25 und B = {0, 1}. Wir rechnen mit log 2. Die Limes-Aussage in 5.6 sagt Es gilt H = 0, λ n lim n n = H In den Tabellen geben wir Präfix-Codierungen für (A, p), (A 2, p), (A 3, p) an mit Wortlängen gemäß Konstruktion in 5.6. s p(s) φ(s) a 1 3/4 0 a 2 1/4 1 s p(s) φ(s) a 1 a 1 9/16 0 a 1 a 2 3/16 10 a 2 a 1 3/ a 2 a 2 1/ s p(s) φ(s) a 1 a 1 a 1 27/64 0 a 1 a 1 a 2 9/ a 1 a 2 a 1 9/ a 2 a 1 a 1 9/ a 1 a 2 a 2 3/ a 2 a 1 a 2 3/ a 2 a 2 a 1 3/ a 2 a 2 a 2 1/ Die mittleren Codewortlängen sind λ 1 = 1; λ 2 = 1, 6875; λ 3 = 2, Also λ 2 2 = 0, und λ 3 = 0, Begriff Sei (A, p) eine Quelle (endlicher Wahrscheinlichkeitsraum, p(a) 0 für jedes a A). Nenne eine binäre Präfix-Codierung φ : A {0, 1} optimale Präfix-Codierung,

26 26 wenn für die mittlere Wortlänge gilt λ(φ) λ(ψ) für jede binäre Präfix-Codierung ψ von (A, p). Es gibt (mindestens) eine optimale binäre Präfix-Codierung zu gegebenem (A, p). Denn zunächst existiert eine injektive Abbildung η : A {0, 1} m, wenn 2 m A gilt; da alle Codewörter gleiche Wortlängen haben, ist es eine Präfix-Codierung. Sie hat mittlere Wortlänge m. Offenbar gibt es nur endlich viele Codierungen von (A, p) mit mittlerer Wortlänge m. Unter diesen endlich vielen kann man eine Präfix-Codierung mit minimaler mittlerer Wortlänge (d.h. eine optimale Codierung) finden. Das obige Verfahren zum Heraussuchen einer optimalen binären Präfix-Codierung ist praktisch unbrauchbar, weil die Durchsicht endlich vieler Codierungen zu lange dauern kann. Eine praktische Konstruktion ist der 5.9 Huffmann-Algorithmus Gegeben: eine Quelle (A, p) wie in 5.8. Ziel: eine optimale binäre Präfix-Codierung von (A, p). Falls A = 2, A = {a 1, a 2 }, p(a 1 ) p(a 2 ), setze a 1 φ := 0, a 2 φ := 1. Sei nun A = {a 1,..., a α+1 }, A = α a) Numeriere a 1,..., a α+1 so, dass p(a 1 )... p(a α+1 ). b) Setze A := {a 1 := a 1,..., a α 1 := a α 1, a α} (a α ein Element A). Definiere p (a i) := p(a i ) für i = 1,..., α 1 und p (a α) := p(a α ) + p(a α+1 ). c) Da (A, p ) eine Quelle ist mit A = A 1, können wir per Rekursion annehmen: es gibt eine optimale binäre Präfix-Codierung φ : A {0, 1}. Setze φ(a i ) := φ (a i ) für i = 1,..., α 1, und φ(a α ) := φ (a α)0 (d.h. das Codewort = φ (a α) (ein Tupel) wird um eine Stelle mit Eintrag 0 verlängert) und φ(a α+1 ) :== φ (a α)1 (d.h. das Codewort φ (a α) wird um eine Stelle mit Eintrag 1 verlängert).

27 27 Bevor wir beweisen, dass der Huffmann-Algorithmus tatsächlich einen optimalen binären Präfix-Code liefert, ein Beispiel Beispiel zum Huffman-Code Sei A = {a 1,..., a 6 } mit p(a 1 ) = 0, 42; p(a 2 ) = 0, 3; p(a 3 ) = 0, 1; p(a 4 ) = 0, 08; p(a 5 ) = 0, 06; p(a 6 ) = 0, 04. Wir haben die Numerierung schon gemäß a) mit p(a 1 )... p(a 6 ) eingerichtet. Nach b) ist A = {a 1,..., a 4, b} (wir schreiben b = a α) zu betrachten mit p (b) = p(a α ) + p(a α+1 ) = 0, 1 (die Wahrscheinlichkeiten von a 1,..., a 4 bleiben ungeändert). Nun nehmen wir eine optimale Präfix-Codierung φ von A. Aus ihr entsteht eine Codierung von A: a 5 wird als φ (b)0 und a 6 als φ(b)1 codiert. Nun ist die Codierung von A zu konstruieren. Zuerst Vorschrift a): Anordnen nach absteigenden Wahrscheinlichkeiten. Und so fort. Wir machen die Rechnung in einer Tabelle. In der ersten Zeile stehen die Wahrscheinlichkeiten p(a 1 ),..., p(a 6 ) von A. In der nächsten die von A (absteigend geordnet). Und so fort. Die Indizes 0, 1 sagen, dass 0 bzw. 1 an die vorhandenen Codewörter angehängt wird. Die im Rekursionsschritt entstehenden Zahlen p (a α) gebildeten Zahlen sind fett hervorgehoben. a 1 a 2 a 3 a 4 a 5 a 6 0, 42 0, 3 0, 1 0, 08 0, , , 42 0, 3 0, 1 0, 1 0 0, , 42 0, 3 0, , 1 1 0, 42 0, 3 0 0, , , 42 1

28 28 Die dabei entstehenden Codewörter (man muß nur die Indizes zusammenfügen): a 1 a 2 a 3 a 4 a 5 a Satz zum Huffmann-Algorithmus Der Huffmann-Algorithmus liefert eine optimale Präfix-Codierung. Wir beweisen das im Folgenden. Dazu dient ein Hilfssatz Gegeben sei eine Quelle (A, p); A = {a 1,..., a α+1 }, A = α + 1 2; p(a 1 ) p(a 2 )... p(a α+1 ). Sei ψ : A {0, 1} eine binäre Präfix-Codierung. Dann existiert eine binäre Präfix-Codierung η : A {0, 1} mit a) λ(η) λ(ψ) für die mittleren Wortlängen, b) λ(η(a 1 ))... λ(η(a α+1 )) für die Wortlängen der Codewörter, c) die Codewörter η(a α ) und η(a α+1 ) haben gleiche Längen und unterscheiden sich nur im letzten Zeichen. Beweis. Wir starten mit ψ und ändern ψ in mehreren Schritten, bis wir beim gewünschten η sind. Angenommen, (+) λ(ψ(a 1 )) > λ(ψ(a 2 )). Dann machen wir aus ψ eine Codierung ψ durch die Festsetzung ψ (a i ) := ψ(a i ) für alle i 1, 2, und ψ (a 1 ) := ψ(a 2 ) und ψ (a 2 ) := ψ(a 1 ) (d.h. a 1 bekommt das Codewort von a 2 ; a 1 das Codewort von a 2 ; sonst wird nichts geändert. Dann gilt p(a 1 ) λ(ψ (a 1 )) + p(a 2 ) λ(ψ (a 2 )) p(a 1 ) λ(ψ(a 1 )) + p(a 2 ) λ(ψ(a 1 2)) (wegen (+) und p(a 1 ) p(a 2 )). Folglich λ(ψ ) λ(ψ) für die mittleren Wortlängen. Indem man diese Änderung für alle i < j mit (+) λ(ψ(a i)) > λ(ψ(a j )) durchführt, erhält man eine Präfix-Codierung η mit b) und a). Das so erhaltene η ändern wir nun wie folgt, um c) zu bekommen. Wenn λ(η(a α )) < λ(η(a α+1 )) ist, kann man das Endstück von η(a α+1 ) abschneiden

29 29 derart, dass η(a α ) und η(a α+1 ) gleiche Länge haben (denn η ist Präfix-Code; beim Abschneiden behält man einen Präfix-Code, und durch das Abschneiden wird die mittlere Wortlänge von η höchstens kleiner). Wir können also annehmen: η(a α ) und η(a α+1 ) haben gleiche Länge. Nehmen wir an, η(a α ) = d0 (analog, wenn η(a α ) = d1) mit einem passenden Tupel d. Falls d1 unter den Codewörtern η(a 1 ),..., η(a α 1 ) vorkommt, etwa η(a α 1 ) = d1, ändere η durch: η (a α 1 ) := η(a α+1 ) und η (a α+1 ) := d1 (d.h. die a α 1 und a α+1 zugeordneten Codewörter werden vertauscht). Andernfalls setze η (a α+1 ) := d1 (sonst keine Änderung). In beiden Fällen bleibt λ unverändert, Eigenschaft b) erhalten, und wir haben c) erreicht. Beweis von 5.11 Wir verfolgen den Algorithmus. Seien A, A, φ, φ wie in 5.9. Nach Voraussetzung ist φ eine optimale Präfix-Codierung von A. Angenommen, die für A durch den Algorithmus konstruierte Codierung φ ist nicht optimal. Dann existiert eine Präfix-Codierung ψ : A {0, 1} mit λ(ψ) < λ(φ). Nach dem Hilfssatz dürfen wir annehmen: ψ hat die Eigenschaften a),b),c) des Hilfssatz; insbesondere ψ(a α ) = d0 und ψ(a α+1 ) = d1 für ein Tupel d. Aus ψ gewinnen wir eine Präfix-Codierung ψ : A {0, 1} durch die Vorschrift ψ (a i) := ψ(a i ) für i = 1,..., α 1; ψ (a α) := d (d.h. ψ(a α ) um letztes Symbol verkürzt; (warum ist ψ eine Präfix-Codierung?). Es gilt (erstes = wegen Def. λ; zweites = wegen Konstruktionsvorschrift von φ aus φ ) α λ(φ ) = p (a i) λ(φ (a i)) = i=1 α 1 p (a i) λ(φ(a i)) + p (a α) λ(φ (a α)) = i=1 α 1 p(a i ) λ(φ(a i )) + [p(a α ) + p(a α+1 )][λ(φ(a α )) 1] = i=1

30 30 α 1 p(a i ) λ(φ(a i )) + p(a α ) [λ(φ(a α )) 1] + p(a α+1 ) [λ(φ(a α+1 )) 1] = i=1 α+1 p(a i ) λ(φ(a i )) (p(a α ) + p(a α+1 )) = i=1 λ(φ) (p(a α ) + p(a α+1 )) > λ(ψ) (p(a α ) + p(a α+1 )) = λ(ψ) p (a α) = λ(ψ ) Widerspruch zur Optimalität von φ.