Kolmogoroffkompleität Teil 3 Informationstheorie und Kodierung Torsten Steinbrecher
Informationstheorie Information ist Δ Wahlfreiheit beim Sender Δ Unbestimmtheit beim Empfänger Information ist nicht Länge der Nachricht an sich Aussage (Semantik) der Nachricht an sich 2
Kodierung Wie kompakt können wir Nachrichten theoretisch fassen? Idee: messen Wahlfreiheit / Unbestimmtheit Wie kommen wir diesem Grenzwert möglichst nahe? optimale Codes Wie können wir Nachrichten noch kürzer fassen? verlustbehaftete Kompression (siehe Buch) 3
Beispiel heute gabs kartoffeln und l heute gabs kartoffeln und q lachs, lamm, leber, labskaus, letscho quark I(p(q)) > I(p(l)) 4
Formalisierung I sei X Zufallsvariable über alle Buchstaben in A und =X(ω) der nächste Buchstabe in der Leitung je geringer seine Wahrscheinlichkeit p(), desto stärker sinkt die Unbestimmtheit / Wahlfreiheit, desto höher ist der Informationsgehalt I p := log 1 p P.S.:log = log 2 Einheit: Bit 5
I p := log 1 p Beispiel heute gabs kartoffeln und l heute gabs kartoffeln und q lachs, lamm, leber, labskaus, letscho quark I(1) = 0 I(0,5) = 1 I(0,25) = 2 I(0,125) = 3 6
Formalisierung II Entropie (Unordnung) ist der erwartete Informationsgehalt des nächsten Zeichens H X = A p I p Einheit: Bit pro Zeichen 7
Versuch 1 a 00000 b 00001 c 00010 d 00011 e 00100 f 00101 g 00110 h 00111 Beispiel optimal bei p(a)=p(b)= =1/32 spiegelt nicht die Häufigkeitsverteilung in deutschen Teten wider schlecht 8
Versuch 2 e 0 n 10 i 110 s 1110 r 11110 a 111110 t 1111110 d 11111110 Beispiel optimal bei p(e)=1/2, p(n)=1/4, p(i)=1/8, d.h. bei Wortlänge 6 und Satzlänge 11 nur alle vier Sätze ein d und jeder zweite Buchstabe ein e noch schlechter 9
Zwischending Ziel: Abschätzung nach unten für die Länge der kodierten Nachricht. (als Referenz für mögliche Zwischendinger) Annahme: kennen Länge der Nachricht k und genaue Häufigkeit der einzelnen Buchstaben Ergebnis: müssen mind. k*h(x) Bit übertragen (Beweis siehe nächste Folie) 10
n: Anzahl verschiedener Buchstaben, k: Länge der Nachricht, k i : abs. Häufigkeit von Buchstabe i k! müssen mindestens h = log! k 1! k 2! k n h = logk! logk 1! logk n! log 2 k k e k log 2 k 1 k 1 e log 2 k log 2 k 1 log 2 k n k logk k 1 logk 1 k n logk n k loge k 1 loge k n loge log 2 k log 2 k 1 log 2 k n Beweis Bit übertragen k1 log 2 k n k n e kn stirlingsche Approimation: k! 2 k k e k k logk k 1 logk 1 k n logk n k logk k 1 logk 1 k n logk n logk k logk 1 k 1 logkn k n aus Konkavität von und log folgt: log a b log a log b logk k 1 k n logk1 k 1 logkn k n log k k 1 k k 2 k k n logk1 k 1 logkn k n logk k 1 logk k n logk1 k 1 logkn k n logk k i logki k i k i logk logk i k k i k logk logk i k k i k log k k i k p i log 1 p i k H X 11
Shannon-Fano-Code sortiere Buchstaben absteigend nach Wahrscheinlichkeit p e =0,3; p n =0,25; p i =0,2; p s =0,15; p r =0,1 berechne kumulative Wahrscheinlichkeiten in binär P e =0; P n =0,3; P i =0,55; P s =0,75; P r =0,9 P e =0; P n =0,0100 ; P i =0,1000 ; P s =0,11; P r =0,1110 berechne aufgerundete Informationsgehalte I'(p e )=2; I'(p n )=2; I'(p i )=3; I'(p s )=3; I'(p r )=4 dezimal schneide kumul. Wahrschlk. entspr. Informationsgehalt ab E(e)=00; E(n)=01; E(i)=100X; E(s)=110; E(r)=1110X binär I p := log 1 p 12
p E Shannon-Fano-Code = p I' p 1 1 H X p I p 1 p I p erwartete Länge des nächsten Codewortes weicht um ma. 1 von Entropie der Nachrichtenquelle ab asymptotisch gut per Konstruktion präfifrei 13
Quellenkodierungssatz noiseless coding theorem Wahrscheinlichkeitsmassenfunktion p auf Quellwörtern präfifreier Code, so dass durchschnittliche Codewortlänge können keinen Code konstruieren mit p E H X (Folie 11) p E ungefähr gleich der Entropie der Nachrichtenquelle H X = Beweis: können Shannon-Fano-Code konstruieren mit p E 1 H X (Folie 13) p log 1 p 14
kraftsche Ungleichung präfifreier Code mit Codewortlängen l 1, l 2, gdw. i 2 l i 1 0 1 0 1 Beweis PFC als Baum mit Codewörtern in Blättern Baum mit Tiefe 0: 2-0 = 1 0 0 1 hänge an Blatt mit Tiefe n ma. 2 Blätter mit Tiefe n+1 an: 0 Blatt wird zu innerem Knoten: ziehe 2 -n ab ma. 2 Blätter dazu: addiere ma. 2*2 -(n+1) = 2 -n Beweis gibt maimal 2 n Knoten mit Tiefe n ein Blatt mit Tiefe l i verbraucht deshalb 2 -l i der Breite des Baumes lt. Vorausstzg. verbrauchen alle Blätter ma. 1 der Breite des Baumes also ist ein Baum mit Blättern der Tiefe l 15 i konstruierbar 0 1
kraftsche Ungleichung daraus folgt: wenn 2 l i 1, werden Codewörter verschwendet i (der Baum ist nicht voll, unvollständiger Code) aber daraus folgt nicht: wenn für gegebenen Code i 2 l i 1gilt, ist es ein PFC (stimmt ja auch nicht) kraftsche Ungleichung gilt nicht nur für PFC, sondern für alle eindeutig dekodierbaren Codes (Beweis nächste Folie) daraus folgt: jeder EDC kann durch einen PFC mit gleichen Codewortlängen ersetzt werden 16
Beweis Voraussetzung: l 1 l n sind die Längen der n Codewörter eines EDC n zu zeigen: es gilt die kraftsche Ungleichung 2 l i 1 i = 1 setzen die linke Seite ins Quadrat und erhalten: n i = 1 2 l i 2 = 2 l 1 2 l n 2 = 2 l 1 2 l 1 2 l 1 2 l 2 2 l n 2 l n = 2 l 1 l 1 2 l 1 l 2 2 l n l n = m 1 2 1 m 2 2 2 m 2l 2 2l mit l = ma {l i i = 1 n} und m i = Anzahl Paare l a,l b mit l a l b = i 2l = m i 2 i i = 1 analoge Überlegungen führen zu: n i = 1 2 l i r setzen r n i = 1 r l = m i 2 i i = 1 r l 2 i 2 i (nach Voraussetzung: m i {0,1} i =2 i (für jede Bitkette höchstens ein Codewortpaar)) i = 1 r l i = 1 r l 2 l i r r l 1 1 17
optimale Codes Quellenkodierungssatz und kraftsche Ungleichung liefern Konstruktion eines relativ guten PFC gut = Erwartungswert der Codewortlänge ist klein Further Reading: Huffman-Code liefert Konstruktion eines besten (optimalen) PFC A ist optimaler Code (PFC, EDC) Code (PFC, EDC) B, sodass p B p A Achtung: vollständig optimal 18
universelle Codes kodieren die Nachrichtenquelle in Unkenntnis der Wahrscheinlichkeitsverteilung p, sodass die erwartete Codewortlänge linear von der Entropie abhängt sind zusätzlich asymptotisch optimal, wenn p E c ma {H X,1} p E f H X ma {H X,1} mit lim H X f H X = 1 19
Beispiel A :n n ist universell (da die Codewortlänge nur linear mit der Entropie zunimmt B:n l n n ist universell und asymptotisch optimal (da die Codewortlänge nur logarithmisch mit der Entropie zunimmt) 20
Fragen? Ming Li, Paul Vitány. An Introduction to Kolmogorov Compleity and Its Applications. Springer. 2008 Claude Shannon. A Mathematical Theory of Communication. 1948 http://plan9.bell-labs.com/cm/ms/what/shannonday/shannon1948.pdf Aleander May. Diskrete Mathematik 2. Vorlesungsskript Ruhr-Universität Bochum. 2009 http://www.cits.rub.de/lehre/dismath2ss09.html 21
Glossar complete code vollständiger Code abhängig dependent conditional bedingt abzählbar countable countable abzählbar bedingt conditional dependent abhängig Blockcode fied-length code distribution Verteilung Definitionsbereich domain domain Definitionsbereich effizient efficient efficient effizient eindeutig unique event Ereignis Ereignis event fied-length code Blockcode Ergebnis sample independent unabhängig gemeinsam joint, mutual joint gemeinsam gleich- uniform marginal rand- präfifreier Code prefi-code mutual gemeinsam rand- marginal noiseless rauschfrei rauschfrei noiseless prefi-code präfifreier Code überabzählbar uncountable random variable Zufallsvariable unabhängig independent range Wertebereich unbestimmt uncertain sample Ergebnis Verteilung distribution uncertain unbestimmt vollständiger Code complete code uncountable überabzählbar Wertebereich range gleich- eindeutig uniform unique Zufallsvariable random variable 22