Mathematische Grundlagen III

Ähnliche Dokumente
Mathematische Grundlagen III

Stochastische Lernalgorithmen

CODIERUNGSTHEORIE KURS ZELL AN DER PRAM, FEBRUAR 2005

Begriffe aus der Informatik Nachrichten

Entropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b.

Definition der Entropie unter Verwendung von supp(p XY )

Lösungsvorschläge zu Blatt Nr. 13

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

(Prüfungs-)Aufgaben zur Codierungstheorie

Kapitel 3: Etwas Informationstheorie

Theoretische Grundlagen der Informatik WS 09/10

1 Grundlagen. 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen

Einführung in die medizinische Bildverarbeitung WS 12/13

Wir erinnern uns: Um eine Zufallsvariable mit N verschiedenen, gleichwahrscheinlichen Zuständen binär zu codieren, benötigen wir

Stochastische Unabhängigkeit. 01. Dezember 2014

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Information und Codierung

Mathematische Grundlagen III

Bayes sches Lernen: Übersicht

Grundlagen der Technischen Informatik. Informationsgehalt. Kapitel 4.1

Wahrscheinlichkeiten

Discrete Probability - Übungen (SS5) Wahrscheinlichkeitstheorie. 1. KR, Abschnitt 6.1, Aufgabe 5: 2. KR, Abschnitt 6.1, Aufgabe 7:

3. Bayes Theorem und Kanalkapazität

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Dynamisches Huffman-Verfahren

Einführung in die Wahrscheinlichkeitsrechnung

4 Diskrete Wahrscheinlichkeitsverteilungen

Population und Stichprobe: Wahrscheinlichkeitstheorie

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Mathematik für Biologen

Doz. Dr. H.P. Scheffler Sommer 2000 Klausur zur Vorlesung Stochastik I

Signalverarbeitung 2. Volker Stahl - 1 -

Informationstheorie als quantitative Methode in der Dialektometrie

CODIERUNGSTHEORIE KURS ZELL AN DER PRAM, FEBRUAR 2005

2 Informationstheorie

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

A: Beispiele Beispiel 1: Zwei Zufallsvariablen X und Y besitzen die beiden folgenden Wahrscheinlichkeitsfunktionen:

2. Übung zur Vorlesung Statistik 2

Diskrete Verteilungen

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Beurteilende Statistik

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Arithmetisches Codieren

STOCHASTISCHE UNABHÄNGIGKEIT. Annika Pohlmann Philipp Oel Wilhelm Dück

Datenkompression. 1 Allgemeines. 2 Verlustlose Kompression. Holger Rauhut

1. Woche Einführung in die Codierungstheorie, Definition Codes, Präfixcode, kompakte Codes

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s

Kryptologie. Bernd Borchert. Univ. Tübingen WS 15/16. Vorlesung. Teil 1a. Historische Verschlüsselungsverfahren

Übungsaufgaben, Statistik 1

Statistische Verfahren in der Computerlinguistik

Modelle der Kommunikation. 1. Technisches Kommunikationsmodell Shannon&Weaver 2. Eisbergmodell Sigmund Freud 3. 4 Seiten Modell Schulz von Thun

Technische Universität München

Problem: Finde für Alphabet mit n Zeichen einen Binärcode, der die Gesamtlänge eines Textes (über diesem Alphabet) minimiert.

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Die Hamming-Distanz definiert eine Metrik.

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen

Es wird aus einer Urne mit N Kugeln gezogen, die mit den Zahlen 1,..., N durchnummiert sind. (N n)! n! = N! (N n)!n! =

Datenkompression: Verlustbehaftete Komprimierungsverfahren Einführung. H. Fernau

Unabhängigkeit KAPITEL 4

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Stochastik für die Naturwissenschaften

Musterlösung: 11. Dezember 2014, 10:43. Informationstheorie und Entropiekodierung

MafI I: Logik & Diskrete Mathematik (Autor: Gerrit (-Arthur) Gruben)

Stochastische Prozesse

Einführung in die Kodierungstheorie

Redundanz. Technische Informationsquelle Entropie und Redundanz Huffman Codierung. Martin Werner WS 09/10. Martin Werner, Dezember 09 1

Stochastik Klasse 10 Zufallszahlen

Überblick. Linguistische Anwendungen: æ Spracherkennung æ Textretrival æ probabilistische Grammatiken: z.b. Disambiguierung. Problem: woher Daten?

Informationssicherheit - Lösung Blatt 2

1. Ziehg.: N M. falls nicht-rote K. in 1. Ziehg. gezogen

Theoretische Grundlagen der Informatik

Elementare statistische Methoden

Erwartungswert, Varianz und Standardabweichung einer Zufallsgröße. Was ist eine Zufallsgröße und was genau deren Verteilung?

11 Unabhängige Ereignisse

Informationstheorie und Codierung

6 Informationsflußkontrolle

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Einführung in die Computerlinguistik Statistische Grundlagen

Zusammenfassung Stochastik

Aufgabe 3 Was ist der Erwartungswert der größten gezogenen Zahl M beim Zahlenlotto 6 aus 49 (ohne Zusatzzahl)?

Institut für Stochastik, SoSe K L A U S U R , 13:

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

2. Digitale Codierung und Übertragung

Die Kopplung von Markovketten und die Irrfahrt auf dem Torus

Übungsscheinklausur,

Übung 13: Quellencodierung


Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

Erzeugendensystem und Basis

Boole sches Retrieval als frühes, aber immer noch verbreitetes IR-Modell mit zahlreichen Erweiterungen

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Kommunikationstechnik II Wintersemester 08/09

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Schriftlicher Test Teilklausur 2

Grundlagen der Mathemagie

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Transkript:

Mathematische Grundlagen III Informationstheorie Vera Demberg Universität des Saarlandes 26. Juni 202 Vera Demberg (UdS) Mathe III 26. Juni 202 / 43

Informationstheorie Entropie (H) Wie viel Information kann man über eine Leitung mit Störungen (z.b. Telefonleitung) übertragen? Wie stark kann eine Nachricht maximal verdichtet werden? (Wie viele bits braucht man mindestesn um eine Nachricht zu übertragen?) Wie schnell kann eine Nachricht durch eine bestimmte Leitung übertragen werden, ohne zu viel Information zu verlieren? Beispiel: Münzen Information die wir übertragen wollen: Zustand einer Münze mögliche Zustände: Kopf oder Zahl Claude Shannon Wie viele ja-nein Fragen (bits) braucht man um den Zustand einer bestimmten Münze zu beschreiben? Vera Demberg (UdS) Mathe III 26. Juni 202 2 / 43

Informationstheorie Entropie (H) Wie viel Information kann man über eine Leitung mit Störungen (z.b. Telefonleitung) übertragen? Wie stark kann eine Nachricht maximal verdichtet werden? (Wie viele bits braucht man mindestesn um eine Nachricht zu übertragen?) Wie schnell kann eine Nachricht durch eine bestimmte Leitung übertragen werden, ohne zu viel Information zu verlieren? Beispiel: Münzen Information die wir übertragen wollen: Zustand einer Münze mögliche Zustände: Kopf oder Zahl Claude Shannon Wie viele ja-nein Fragen (bits) braucht man um den Zustand einer bestimmten Münze zu beschreiben? Vera Demberg (UdS) Mathe III 26. Juni 202 2 / 43

Inhaltsverzeichnis Entropie eines einzelnen Ereignisses 2 Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) 3 Gegenseitige Information (Mutual Information) 4 Noisy Channel Model 5 Relative Entropie (Kullback-Leibler Divergenz) 6 Kreuz-Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 3 / 43

Inhaltsverzeichnis Entropie eines einzelnen Ereignisses Entropie eines einzelnen Ereignisses 2 Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) 3 Gegenseitige Information (Mutual Information) 4 Noisy Channel Model 5 Relative Entropie (Kullback-Leibler Divergenz) 6 Kreuz-Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 4 / 43

Entropie Entropie eines einzelnen Ereignisses Wie viele bits braucht man, um eine Zahl zwischen und 8 zu kodieren? 2 3 4 5 6 7 8 000 00 00 0 00 0 0 Mögliche Zustände = 2 Anzahl Fragen log 2 Zustände = Anzahl Fragen 2 Zustände Fragen 4 Zustände 2 Fragen 8 Zustände 3 Fragen 6 Zustände 4 Fragen Vera Demberg (UdS) Mathe III 26. Juni 202 5 / 43

Entropie Entropie eines einzelnen Ereignisses Wie viele bits braucht man, um eine Zahl zwischen und 8 zu kodieren? 2 3 4 5 6 7 8 000 00 00 0 00 0 0 Mögliche Zustände = 2 Anzahl Fragen log 2 Zustände = Anzahl Fragen 2 Zustände Fragen 4 Zustände 2 Fragen 8 Zustände 3 Fragen 6 Zustände 4 Fragen Vera Demberg (UdS) Mathe III 26. Juni 202 5 / 43

Entropie Entropie eines einzelnen Ereignisses Wie viele bits braucht man, um eine Zahl zwischen und 8 zu kodieren? 2 3 4 5 6 7 8 000 00 00 0 00 0 0 Mögliche Zustände = 2 Anzahl Fragen log 2 Zustände = Anzahl Fragen 2 Zustände Fragen 4 Zustände 2 Fragen 8 Zustände 3 Fragen 6 Zustände 4 Fragen Vera Demberg (UdS) Mathe III 26. Juni 202 5 / 43

Entropie eines einzelnen Ereignisses Entropie Verschiedene Würfel log 2 4 = 2 log 2 6 = 2.585 log 2 8 = 3 log 2 2 = 3.585 log 2 20 = 4.322 Gesamtentropie unabhängiger Elemente z.b. Entropie dreier Würfel mit 4, 6, und 2 Seiten: H = log 2 (4 6 2) = log 2 (4) + log 2 (6) + log 2 (2) = 8.70 bits Vera Demberg (UdS) Mathe III 26. Juni 202 6 / 43

Entropie eines einzelnen Ereignisses Entropie Entropie bei Gleichverteilung In einem System mit n gleich wahrscheinlichen Zuständen gilt: H = log 2 (n) = log 2 (/n) = log 2 (P(n)) Vera Demberg (UdS) Mathe III 26. Juni 202 7 / 43

Entropie Entropie eines einzelnen Ereignisses Andere Perspektive Durchschnittliche Unsicherheit darüber, welches Ereignis als nächstes stattfindet Ein Maß dafür, wieviel Unordnung oder Zufälligkeit in einem System oder einer Zufallsvariable enthalten ist Wie leicht ist es, den nächsten Zustand eines Systems zu erraten? Entropie einer gezinkten Münze Entropy 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 p(x) Vera Demberg (UdS) Mathe III 26. Juni 202 8 / 43

Entropie eines einzelnen Ereignisses Entropie Nicht gleichverteilte Wahrscheinlichkeitsfunktionen: Summanden nach ihrer Wahrscheinlichkeit gewichtet; man erhält also: H(x) = x p(x) log 2 p(x) Durch die allgemeinen Logarithmusrechenregeln kann die Formel auch umgeformt werden: H(x) = x p(x) log 2 p(x) 0 log 2 0 wird gleich 0 gesetzt Vera Demberg (UdS) Mathe III 26. Juni 202 9 / 43

Entropie Entropie eines einzelnen Ereignisses Bsp.: Wurf dreier Münzen Wie oft kommt Kopf vor, wenn ich eine Münze dreimal werfe? H(X ) = x x = 3 /8 x = 2 3/8 P(X ) = x = 3/8 x = 0 /8 p(x) log 2 p(x) = 2 8 log 2 8 + 2 3 8 log 2 3 8 = 4 log 2 8 + 3 4 log 2 8 3 = 4 3 + 3 4 (log 2 8 log 2 3) = 3 4 + 3 4 (3 log 2 3) =.8 bits Vera Demberg (UdS) Mathe III 26. Juni 202 0 / 43

Entropie eines einzelnen Ereignisses Informationstheorie in der CL Ermöglicht uns, den Informationsgehalt von (linguistischen) Ereignissen zu quantifizieren. Einige Beispiele für Anwendungen: Einen sparsamen Code finden mit dem Information übertragen werden können. Sprachmodelle evaluieren und vergleichen Die Assoziationsstärke zwischen Wörtern beurteilen, um Kollokationen zu entdecken Spracherkennung, Rechtschreibkorrektur, Schrifterkennung, maschinelle Übersetzung,... Vera Demberg (UdS) Mathe III 26. Juni 202 / 43

Entropie eines einzelnen Ereignisses Entropie Weiter... Untere Schranke für Anzahl von Bits, die benötigt werden, um eine Nachricht zu senden Eine Angabe darüber, wieviel Information eine Nachricht enthält Vera Demberg (UdS) Mathe III 26. Juni 202 2 / 43

Entropie eines einzelnen Ereignisses Entropie Der Zustand als Nachricht Wie kann man das Ergebnis des Wurfs eines 8-seitigen Würfels in Bits ausdrücken? Eine Möglichkeit: 2 3 4 5 6 7 8 000 00 00 0 00 0 0 Es werden drei Bits gebraucht, um das Ergebnis als Nachricht mitzuteilen In diesem Fall entspricht dies der Entropie: log 2 (8) = 3 Vera Demberg (UdS) Mathe III 26. Juni 202 3 / 43

Entropie eines einzelnen Ereignisses Entropie Linguistisches Beispiel: Entropie einer Sprache Polynesische Sprachen wie Hawaiisch sind für ihre geringe Anzahl an Lauten bekannt. Beispiel: Vereinfachtes Polynesisch p t k a i u /6 3/8 /6 /4 /8 /8 Vera Demberg (UdS) Mathe III 26. Juni 202 4 / 43

Entropie eines einzelnen Ereignisses Vereinfachtes Polynesisch Beispiel: Vereinfachtes Polynesisch p t k a i u /6 3/8 /6 /4 /8 /8 Entropie für vereinfachtes Polynesisch H(X ) = x p(x) log 2 p(x) = 2 6 log 2 6 + 2 8 log 2 8 + 4 log 2 4 + 3 8 log 8 2 3 = 2.28 bits Entropy wie Fragespiel: Man kann ja/nein-fragen stellen (z.b. Ist es ein a oder ein t? Ist es ein Vokal? im Durchschnitt 2.28 Fragen um einen Buchstaben für vereinfachtes Polynesisch zu erraten. Vera Demberg (UdS) Mathe III 26. Juni 202 5 / 43

Entropie eines einzelnen Ereignisses Vereinfachtes Polynesisch Beispiel: Vereinfachtes Polynesisch p t k a i u /6 3/8 /6 /4 /8 /8 Möglicher Code p t k a i o 00 00 0 0 0 Kodierung von pato = 00000 (Wahrscheinlichere Ereignisse mit kürzerem Code kodiert (damit die Gesamtlänge der Nachricht kürzer ist); kann immernoch eindeutig dekodiert werden, da 2-bit Codes mit 0 anfangen und 3-bit Codes mit.) Automatische Kodefindung: Huffman Kodierung (Beispiel an Tafel) Vera Demberg (UdS) Mathe III 26. Juni 202 5 / 43

Entropie eines einzelnen Ereignisses Entropie Einige Eigenschaften Bestenfalls hat ein Ereignis die Wahrscheinlichkeit Dann ist H = 0 Der ungünstigste Fall tritt bei Gleichverteilung ein (Wenn die Variable binär ist, ist dann H = ) Flache, breite Verteilungen haben eine hohe Entropie Spitze, schmale, kompakte Verteilungen haben eine niedrige Entropie Da die Entropie unabhängiger Elemente addiert wird, wächst die Entropie mit der Anzahl der Dimensionen einer Verteilung Vera Demberg (UdS) Mathe III 26. Juni 202 6 / 43

Entropie eines einzelnen Ereignisses Quiz: Welche Verteilung hat die höchste Entropie? ) 2) 0.8 0.8 Probability 0.6 0.4 0.2 Probability 0.6 0.4 0.2 0 Black Red Green 0 Black Red Green 3) 4) 0.8 0.8 Probability 0.6 0.4 0.2 Probability 0.6 0.4 0.2 0 Black Red Green 0 Black Red Green Vera Demberg (UdS) Mathe III 26. Juni 202 7 / 43

Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) Inhaltsverzeichnis Entropie eines einzelnen Ereignisses 2 Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) 3 Gegenseitige Information (Mutual Information) 4 Noisy Channel Model 5 Relative Entropie (Kullback-Leibler Divergenz) 6 Kreuz-Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 8 / 43

Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) Gemeinsame Entropie (Joint Entropy) Gemeinsame Entropie (Joint Entropy) Wieviel Information benötigt wird, um den Wert zweier Zufallsvariablen anzugeben H(X, Y ) = H(p(x, y)) = p(x, y) log 2 p(x, y) x y Wir wollen den kürzesten Code für zwei Ereignisse angeben wenn diese Ereignisse nicht unabhängig voneinander sind, enthält das eine Ereignis Information über das andere. Dann können wir kompakter kodieren! Vera Demberg (UdS) Mathe III 26. Juni 202 9 / 43

Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) Gemeinsame und Bedingte Entropie Gemeinsame Entropie (Joint Entropy) H(X, Y ) = H(p(x, y)) = x p(x, y) log 2 p(x, y) y Bedingte Entropie (Conditional Entropy) Wieviel Information benötigt wird, um Y mitzuteilen, wenn X bekannt ist H(Y X ) = p(x)h(y X = x) x = [ p(x) ] p(y x) log 2 p(y x) x y = p(x, y) log 2 p(y x) x y Vera Demberg (UdS) Mathe III 26. Juni 202 20 / 43

Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) Gemeinsame Entropie Vereinfachtes Polynesisch, Teil 2 Wir finden heraus, dass alle Wörter der oben betrachteten Sprache aus CV-Folgen bestehen, mit folgenden Wahrscheinlichkeiten: p t k a /6 3/8 /6 /2 i /6 3/6 0 /4 u 0 3/6 /6 /4 /8 3/4 /8 H(C, V ) = 4 6 log 2 6 + 2 3 6 log 2 = 2.436 pro Silbe 6 3 + 3 8 log 8 2 3 Vera Demberg (UdS) Mathe III 26. Juni 202 2 / 43

Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) Entropie Entropie Rate Da die Entropie von der Länge der Nachricht abhängt, ist es häufig sinnvoll zu normalisieren Im Polynesischen... H(x) = p(x...n ) log n 2 p(x...n ) 2.436/2 =.28 bits pro Buchstabe (zu vergleichen mit 2.28 ohne Wissen über Silben) x Vera Demberg (UdS) Mathe III 26. Juni 202 22 / 43

Gegenseitige Information (Mutual Information) Inhaltsverzeichnis Entropie eines einzelnen Ereignisses 2 Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) 3 Gegenseitige Information (Mutual Information) 4 Noisy Channel Model 5 Relative Entropie (Kullback-Leibler Divergenz) 6 Kreuz-Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 23 / 43

Gegenseitige Information (Mutual Information) Mutual Information Wenn zwei Variablen nicht unabhängig voneinander sind, lässt sich von der einen Variable mit gewisser Wahrscheinlichkeit auf die andere schliessen. Die eine Variable enthält Information über die andere Variable. Vera Demberg (UdS) Mathe III 26. Juni 202 24 / 43

Gegenseitige Information (Mutual Information) Mutual Information Die Kettenregel H(X, Y ) = H(X ) + H(Y X ) = H(Y ) + H(X Y ) H(X,..., X n ) = H(X ) + H(X 2 X ) +... + H(X n X,..., X n ) Mutual Information I(X;Y) Die Reduzierung der Unsicherheit in einer Variable, dadurch dass man über einer anderen Variable Information hat I (X ; Y ) = H(X ) H(X Y ) = H(Y ) H(Y X ) Vera Demberg (UdS) Mathe III 26. Juni 202 25 / 43

Gegenseitige Information (Mutual Information) Mutual Information MI berechnen I (X ; Y ) = H(X ) H(X Y ) = H(X ) + H(Y ) H(X, Y ) = x p(x) log 2 p(x) + y p(y) log 2 p(y) + xy p(x, y) log 2 p(x, y) = xy p(x, y) log 2 p(x, y) p(x)p(y) Eigenschaften Symmetrisch, immer positiv Maß für die Abhängigkeit zweier Verteilungen: I (X ; Y ) = 0 wenn X, Y unabhängig Wächst sowohl mit Abhängigkeit als auch mit Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 26 / 43

Gegenseitige Information (Mutual Information) Mutual Information Pointwise Mutual Information Maß für die Assoziationsstärke zweier Elemente Information, die in einem Ereignis x über ein Ereignis y enthalten ist Pointwise Mutual Information Mutual Information I (x, y) = log 2 p(x, y) p(x)p(y) = log 2 p(x y) p(x) = log 2 p(y x) p(y) I (X ; Y ) = xy p(x, y) log 2 p(x, y) p(x)p(y) Verwendung in NLP z.b. für Bedeutungsdisambiguierung von Wörtern, Kollokationsfindung, Clustering. Vera Demberg (UdS) Mathe III 26. Juni 202 27 / 43

Gegenseitige Information (Mutual Information) Zwischenbilanz Bislang haben wir behandelt: Entropie H(X) einer Variablen X Joint Entropy H(X;Y) Conditional Entropy H(X Y ) Mutual Information I(X;Y) Zweiter Teil der Vorlesung: The noisy channel model Relative Entropie (Kullback-Leibler Divergence) Cross Entropy Vera Demberg (UdS) Mathe III 26. Juni 202 28 / 43

Inhaltsverzeichnis Noisy Channel Model Entropie eines einzelnen Ereignisses 2 Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) 3 Gegenseitige Information (Mutual Information) 4 Noisy Channel Model 5 Relative Entropie (Kullback-Leibler Divergenz) 6 Kreuz-Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 29 / 43

Noisy Channel Model Noisy channel model Entropy beschreibt, wie man eine Nachricht effizient kodieren kann. Aber wie können wir die Nachricht effizient und korrekt übertragen? Kompression vs. Redundanz Kompression für effiziente Übertragung Redundanz um für Verrauschung des Signals bei der Übertragung zu kompensieren. Vera Demberg (UdS) Mathe III 26. Juni 202 30 / 43

Noisy Channel Model Noisy channel model W message Encoder X input to channel Channel: p(y x) Y output from channel Decoder W reconstructed message Die Übertragung kann durch einen verrauschten Kanal modelliert werden: Eine Nachricht W wird (z.b. als binäre Folge von 0en und en) X verschlüsselt. X wird durch einen verrauschten Kanal übertragen, Resultat ist das verrauschte Signal Y. Verrauschtes Signal Y wird entschlüsselt, wir erhalten bestmögliche Schätzung des Ausgangassignals W Vera Demberg (UdS) Mathe III 26. Juni 202 3 / 43

Noisy channel model W message Encoder Noisy Channel Model X input to channel Channel: p(y x) Y output from channel Decoder W reconstructed message Die Kapazität eines Kanals (channel capacity) ist die Anzahl von Bits die im Durchschnitt übertragen werden können, in Abhängigkeit davon, wie verrauscht der Kanal ist. Eingabealphabet X, Ausgabealphabet Y, Wahrscheinlichkeitsverteilung P(y x) die ausdrückt mit welcher Wahrscheinlichkeit Y ausgegeben wird, wenn X gesendet wurde. Kapazität eines Kanals: C = max p(x ) I (X ; Y ) Die Kapazität eines Kanals ist also die maximale gegenseitige Information (mutual information) von X und Y über alle Eingabeverteilungen p(x) Vera Demberg (UdS) Mathe III 26. Juni 202 32 / 43

Noisy channel model Noisy Channel Model Optimale vs. verrauschte Übertragung 0 p= 0 0 p p 0 p p= p perfect channel Kapazität eines Kanals C = max p(x ) I (X ; Y ) C = max p(x ) H(Y ) H(p) = H(p) noisy channel which flips 0 to with probability p Remember: MI I (X ; Y ) = H(Y ) H(Y X ) = H(Y ) H(p) (denn max p(x ) H(X ) wenn X uniform verteilt, und wenn X uniform, dann auch Y uniform) Vera Demberg (UdS) Mathe III 26. Juni 202 33 / 43

Noisy channel model Noisy Channel Model Optimale vs. verrauschte Übertragung 0 p= 0 0 p p 0 p p= p perfect channel Kapazität eines Kanals C = max p(x ) I (X ; Y ) C = max p(x ) H(Y ) H(p) = H(p) noisy channel which flips 0 to with probability p Remember: MI I (X ; Y ) = H(Y ) H(Y X ) = H(Y ) H(p) (denn max p(x ) H(X ) wenn X uniform verteilt, und wenn X uniform, dann auch Y uniform) Vera Demberg (UdS) Mathe III 26. Juni 202 33 / 43

Noisy channel model Noisy Channel Model Optimale vs. verrauschte Übertragung 0 p= 0 0 p p 0 p p= p perfect channel noisy channel which flips 0 to with probability p Kapazität C = H(p) perfekte Übertragung (p=0): C = bit immer garantiert falsch (p=): C = bit schlimmste Störung: 50% Chance dass 0 als oder als 0 übertragen wird: C = 0 bits Kanal mit C = 0 bits kann keine Information übertragen. Eingabe und Ausgabe unabhängig voneinander. Vera Demberg (UdS) Mathe III 26. Juni 202 34 / 43

Noisy channel model Noisy Channel Model Optimale vs. verrauschte Übertragung 0 p= 0 0 p p 0 p p= p perfect channel noisy channel which flips 0 to with probability p Kapazität C = H(p) perfekte Übertragung (p=0): C = bit immer garantiert falsch (p=): C = bit schlimmste Störung: 50% Chance dass 0 als oder als 0 übertragen wird: C = 0 bits Kanal mit C = 0 bits kann keine Information übertragen. Eingabe und Ausgabe unabhängig voneinander. Vera Demberg (UdS) Mathe III 26. Juni 202 34 / 43

Noisy Channel Model Das noisy channel model für NLP X Channel: p(y x) Y X Decoder Anwendungen Viele natürlichsprachliche Anwendungen können an Hand des Kanalmodells modelliert werden: Allerdings modellieren wir nicht die Verschlüsselung, sondern nur das Rauschen. Anwendung Eingabe Ausgabe Maschinelle Übersetzung L Wortfolge L2 Wortfolge Rechtschreibkorrektur Originaler Text Text mit Fehlern PoS Tagging PoS Tags Wörter Spracherkennung Wortfolge Audiosignal Vera Demberg (UdS) Mathe III 26. Juni 202 35 / 43

Noisy Channel Model Das noisy channel model X Channel: p(y x) Y X Decoder Anwendungen, Teil 2 Es wird ein Modell gebaut, an Hand dessen man von der (bekannten) Ausgabe auf die (unbekannte) Eingabe schließen kann X p(x)p(y x) = argmax p(x y) = argmax x x p(y) = argmax p(x)p(y x) x Zwei Wahrscheinlichkeitsverteilungen müssen geschätzt werden: Das Sprachmodell: Verteilung der Zeichen in der Eingabesprache p(x) Das Kanalmodell p(y x) Vera Demberg (UdS) Mathe III 26. Juni 202 36 / 43

Relative Entropie (Kullback-Leibler Divergenz) Inhaltsverzeichnis Entropie eines einzelnen Ereignisses 2 Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) 3 Gegenseitige Information (Mutual Information) 4 Noisy Channel Model 5 Relative Entropie (Kullback-Leibler Divergenz) 6 Kreuz-Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 37 / 43

Relative Entropie (Kullback-Leibler Divergenz) Relative Entropie Entropie kann auch verwendet werden, um die Qualität eines Modells zu beurteilen Relative Entropy Die Relative Entropie, auch Kullback-Leibler (KL) Divergenz gennant, vergleicht die Entropie zweier Verteilungen Intuitiv: Durchschnittliche Anzahl Bits, die verschwendet werden, wenn eine Verteilung p mit einem für q entwickelten Code enkodiert wird Nicht symmetrisch! D(p q) = x p(x) log 2 p(x) q(x) Vera Demberg (UdS) Mathe III 26. Juni 202 38 / 43

Relative Entropie (Kullback-Leibler Divergenz) Relative Entropie Relation von Relativer Entropie (Kullback-Leibler Divergenz) und Mutual Information Mutual information misst in wie fern sich eine gemeinsame Verteilung von einer unabhängigen Verteilung unterscheiden. I (X ; Y ) = D(p(x, y) p(x)p(y)) Vera Demberg (UdS) Mathe III 26. Juni 202 39 / 43

Inhaltsverzeichnis Kreuz-Entropie Entropie eines einzelnen Ereignisses 2 Entropie des Auftretens mehrerer Ereignisse (Joint Entropy) 3 Gegenseitige Information (Mutual Information) 4 Noisy Channel Model 5 Relative Entropie (Kullback-Leibler Divergenz) 6 Kreuz-Entropie Vera Demberg (UdS) Mathe III 26. Juni 202 40 / 43

Kreuz-Entropie Kreuz-Entropie Kreuz-Entropie Wenn wir ein Modell m eines Phänomens p (z.b. englische Sprache ) bauen, wollen wir D(p m) niedrig halten Kreuzentropie: H(X, m) = H(X ) + D(p m) = x p(x) log 2 m(x) Problem: Um die Kreuzentropie berechnen zu können, brauchen wir die Verteilung von p(x) Es wird angenommen, dass Sprache ergodisch ist, d.h. dass jede Stichprobe repräsentativ des Ganzen ist Vera Demberg (UdS) Mathe III 26. Juni 202 4 / 43

Entropie Kreuz-Entropie Die Entropie von Englisch ASCII 8 log 2 256 Uniform 4.76 log 2 27 Unigram 4.03 Bigram 2.8 Gzip 2.5 Trigram.76 Brown et al., 992 Human.3 Shannon (Shannon guessing game).34 Cover & Thomas (using gambling) Bessere Modelle haben weniger Entropie, da sie mehr über die Sprache wissen, sind sie weniger überrascht über den Input. Perplexität ist das gleiche wie Kreuzentropie, nur anders notiert: perplexity(x n, m) = 2 H(x n,m) Vera Demberg (UdS) Mathe III 26. Juni 202 42 / 43

Zusammenfassung Kreuz-Entropie Entropie Misst die durchschnittliche Unsicherheit einer Zufallsvariable Mehr Information = weniger Unsicherheit / Entropie Repräsentiert als Anzahl von Bits, die durchschnittlich benötigt werden um eine Nachricht zu übertragen. Mutual Information used in NLP to calculate similarity between e.g. words Noisy channel model Definiert die maximale Kapazität eines Kanals Kann auch in NLP verwendet werden: finde die Eingabe für eine beobachtete Ausgabe Entropie and Sprachmodellierung Modelle mit kleinerer Entropie sind besser Relative Entropy: D(p q), die Distanz zwischen zwei Wahrscheinlichkeitsverteilungen Cross entropy H(X, m) = H(X ) + D(p m) Aufgabe: Model m mit kleinster Kreuzentropie finden Vera Demberg (UdS) Mathe III 26. Juni 202 43 / 43