Begriffe aus der Informatik Nachrichten

Ähnliche Dokumente
3. Bayes Theorem und Kanalkapazität

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

2 Zufallsvariable und Verteilungsfunktionen

Wichtige Definitionen und Aussagen

Statistik I für Betriebswirte Vorlesung 4

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Wirtschaftsmathematik

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Unabhängige Zufallsvariablen

Wahrscheinlichkeitstheorie und Statistik

Varianz und Kovarianz

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Stetige Standardverteilungen

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

5 Binomial- und Poissonverteilung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Klausur zu,,einführung in die Wahrscheinlichkeitstheorie

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Wahrscheinlichkeitsrechnung und Statistik für Studierende der Informatik. PD Dr. U. Ludwig. Vorlesung 7 1 / 19

Biostatistik, Sommer 2017

Wahrscheinlichkeit und Statistik: Zusammenfassung

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.

DWT 3.3 Warteprobleme mit der Exponentialverteilung 275/467 Ernst W. Mayr

70 Wichtige kontinuierliche Verteilungen

TU DORTMUND Sommersemester 2018

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Biostatistik, Sommer 2017

Entropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b.

Biostatistik, Winter 2011/12

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Zufallsvariablen [random variable]

Vertiefung NWI: 8. Vorlesung zur Wahrscheinlichkeitstheorie

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Stochastik Wiederholung von Teil 1

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

7.5 Erwartungswert, Varianz

Statistik I für Betriebswirte Vorlesung 3

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

Stochastik. 1. Wahrscheinlichkeitsräume

Unabhängigkeit von Zufallsvariablen

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Vorlesung 7b. Der Zentrale Grenzwertsatz

Vorlesung 7a. Der Zentrale Grenzwertsatz

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

1. Grundbegri e der Stochastik

Eine Auswahl wichtiger Definitionen und Aussagen zur Vorlesung»Stochastik für Informatiker und Regelschullehrer«

67 Zufallsvariable, Erwartungswert, Varianz

Mathematik für Biologen

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Grundlagen der Wahrscheinlichkeitstheorie

Probeklausur Statistik II

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 240/476 c Ernst W. Mayr

Vorlesung 11b. Bedingte Verteilung, bedingte Wahrscheinlichkeiten

1.5 Mehrdimensionale Verteilungen

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten

Mustererkennung: Wahrscheinlichkeitstheorie. D. Schlesinger () ME: Wahrscheinlichkeitstheorie 1 / 10

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen

Wahrscheinlichkeitsrechnung und Statistik

TGI-Übung Dirk Achenbach

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 12. Übung SS 18: Woche vom

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Vorlesung 7b. Unabhängigkeit bei Dichten. und die mehrdimensionale Standardnormalverteilung

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Statistik I für Betriebswirte Vorlesung 3

Referenten: Gina Spieler, Beatrice Bressau, Laura Uhlmann Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn

Der Erwartungswert E[g(X)] von g(x) ist definiert. g(x k )w(x = x k ),

Wahrscheinlichkeitsräume (Teschl/Teschl 2, Kap. 26)

5. Spezielle stetige Verteilungen

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

Statistik für Ingenieure Vorlesung 5

13 Grenzwertsätze Das Gesetz der großen Zahlen

Prüfungsvorbereitungskurs Höhere Mathematik 3

Signale und Codes Vorlesung 4

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 11. Übung SS 18: Woche vom

Wahrscheinlichkeitstheorie und Statistik vom

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Stochastik Aufgaben zum Üben: Teil 2

Finanzmathematische Modelle und Simulation

Stochastik Serie 11. ETH Zürich HS 2018

Informationsgehalt einer Nachricht

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Vorlesung 9b. Bedingte Wahrscheinlichkeiten und bedingte Erwartungswerte

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

K. Eppler, Inst. f. Num. Mathematik Übungsaufgaben. 11. Übung SS 13: Woche vom

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Diskrete Strukturen II

Lösung Semesterendprüfung

1 Grundlagen. 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen

Mehrdimensionale Zufallsvariablen

Wahrscheinlichkeitstheorie. Alea iacta est!

Transkript:

Begriffe aus der Informatik Nachrichten Gerhard Goos definiert in Vorlesungen über Informatik, Band 1, 1995 Springer-Verlag Berlin Heidelberg: Die Darstellung einer Mitteilung durch die zeitliche Veränderung einer physikalischen Größe heißt ein Signal. Die dauerhafte Darstellung einer Mitteilung auf einem physikalischen Medium heißt Inschrift. Wenn wir bei der Darstellung und Weitergabe einer Mitteilung vom verwandten Medium und den Einzelheiten der Signale und Signalparameter abstrahieren, heißt die Mitteilung eine Nachricht. Die Kenntnisse, die man benötigt, um einer Nachricht Bedeutung zuzuordnen, nennen wir einen Kontext oder ein Bezugssystem. Die zugeordnete Bedeutung heißt eine Information. Man gewinnt sie durch Interpretation von Nachrichten auf der Grundlage eines Bezugssystems. Eine Interpretationsvorschrift, angewendet auf eine Nachricht, liefert die zugeordnete Information. Das Paar (Nachricht, zugeordnete Information) heißt Datum. short version 1/35

short version 2/35 Setting von Shannon-Weaver Modell der Kommunikation nach Shannon und Weaver:

short version 3/35 Diskrete, endliche Wahrscheinlichkeitstheorie Wir betrachten eine endliche Menge Ω (die nicht näher spezifiziert ist) und eine Wahrscheinlichkeitsverteilung p : Ω [0, 1], die jedem Element aus Ω eine Wahrscheinlichkeit zuordnet, derart dass die Summe über alle Wahrscheinlichkeiten 1 ergibt.

short version 3/35 Diskrete, endliche Wahrscheinlichkeitstheorie Wir betrachten eine endliche Menge Ω (die nicht näher spezifiziert ist) und eine Wahrscheinlichkeitsverteilung p : Ω [0, 1], die jedem Element aus Ω eine Wahrscheinlichkeit zuordnet, derart dass die Summe über alle Wahrscheinlichkeiten 1 ergibt. Wir betrachten eine endliche Menge Σ = {z 1,..., z n } (die wir uns als Alphabet bzw. Zeichenvorrat vorstellen) und eine Abbildung (genannt Zufallsvariable) X : Ω Σ, die ein zufällig ausgewähltes Zeichen modelliert.

short version 3/35 Diskrete, endliche Wahrscheinlichkeitstheorie Wir betrachten eine endliche Menge Ω (die nicht näher spezifiziert ist) und eine Wahrscheinlichkeitsverteilung p : Ω [0, 1], die jedem Element aus Ω eine Wahrscheinlichkeit zuordnet, derart dass die Summe über alle Wahrscheinlichkeiten 1 ergibt. Wir betrachten eine endliche Menge Σ = {z 1,..., z n } (die wir uns als Alphabet bzw. Zeichenvorrat vorstellen) und eine Abbildung (genannt Zufallsvariable) X : Ω Σ, die ein zufällig ausgewähltes Zeichen modelliert. Der Zufall steckt bei diesem Modell in (Ω, p). Dadurch erhalten wir mit X auch eine Wahrscheinlichkeitsverteilung auf Σ, nämlich p X : Σ [0, 1], p X (z i ) := P(X = z i ) := ω X 1 ({z i }) p(ω).

short version 4/35 Markov-Ketten Graphische Darstellung Um eine Markov-Kette anzugeben, gibt man nicht Wahrscheinlichkeiten für die Zeichen an, sondern Übergangswahrscheinlichkeiten, für die Wahrscheinlichkeit, dass auf z i ein z j folgt. Man kann eine Markov-Kette graphisch darstellen: start a 1 2 1 4 b 2 3 1 2 3 1 4 1 c d Typische Ausgabe: acababbdbdbacabd...

short version 5/35 Normalverteilung Definition Eine Zufallsvariable X : Ω R heißt normalverteilt (X N (µ, σ)), wenn P(X k) = k 0 φ(x)dx, wobei φ eine Funktion ist, die von den Parametern der Normalverteilung abhängt. Diese Parameter sind Erwartungswert µ und Standardabweichung σ. φ(x) = φ µ,σ 2(x) = 1 ( σ 2π exp 1 (x µ) 2 ) 2 σ 2.

short version 5/35 Normalverteilung Definition Eine Zufallsvariable X : Ω R heißt normalverteilt (X N (µ, σ)), wenn P(X k) = k 0 φ(x)dx, wobei φ eine Funktion ist, die von den Parametern der Normalverteilung abhängt. Diese Parameter sind Erwartungswert µ und Standardabweichung σ. φ(x) = φ µ,σ 2(x) = 1 ( σ 2π exp 1 (x µ) 2 ) 2 σ 2. Im Falle der Standard-Normalverteilung N (0, 1) ist µ = 0 und σ = 1, dann ist φ(x) = φ 0,1 (x) = 1 2π e x 2

short version 6/35 Normalverteilung Gausssche Glockenkurve Der Graph der Dichte der Normalverteilung φ ist die bekannte Gausssche Glockenkurve. Man spricht im Kontext der Rauschanalyse nicht von der Normalverteilung sondern von weissem Gaussschen Rauschen.

short version 7/35 Wiederholung: Entropie Definition Entropie ist ein Maß für die Unsicherheit, die mit einer Zufallsvariable verbunden wird.

short version 7/35 Wiederholung: Entropie Definition Entropie ist ein Maß für die Unsicherheit, die mit einer Zufallsvariable verbunden wird. Ihre Maßeinheit in der Shannonschen Theorie ist das bit, abgekürzt für binary digit.

short version 7/35 Wiederholung: Entropie Definition Entropie ist ein Maß für die Unsicherheit, die mit einer Zufallsvariable verbunden wird. Ihre Maßeinheit in der Shannonschen Theorie ist das bit, abgekürzt für binary digit. Sei X eine diskrete Zufallsvariable mit Werten in einem endlichen Zeichenvorrat Σ = {z 1,.., z n } und Verteilungsfunktion p : Σ [0, 1]. Dann ist die Entropie von X definiert als n H(X) := E(I X ) = p(z i ) log 2 p(z i ). i=1

short version 8/35 Tukey vs. Shannon Definition Shannon erwähnt als erster schriftlich den Begriff bit, gibt aber an, dass er von Tukey stammt.

short version 8/35 Tukey vs. Shannon Definition Shannon erwähnt als erster schriftlich den Begriff bit, gibt aber an, dass er von Tukey stammt. Tukey nutze aber den Begriff Bit ausschließlich im Sinne des Speicherns von Daten. Die Zeichenkette 000000 bestand für Tukey aus 6 Bits, selbst wenn von vornherein klar wäre, dass sie nur aus Nullen bestünde.

short version 8/35 Tukey vs. Shannon Definition Shannon erwähnt als erster schriftlich den Begriff bit, gibt aber an, dass er von Tukey stammt. Tukey nutze aber den Begriff Bit ausschließlich im Sinne des Speicherns von Daten. Die Zeichenkette 000000 bestand für Tukey aus 6 Bits, selbst wenn von vornherein klar wäre, dass sie nur aus Nullen bestünde. In Shannons Sinne kommt es auf die Verteilung an. Sind die Zeichenketten, die von einer Quelle stammen etwa so verteilt, dass nur entweder Nullen oder ausschliesslich Einsen erwartet werden können, so enthält die Zeichenkette 000000 genau ein bit an Information (denn sie teilt uns mit, dass eben nicht 111111 gesendet wurde).

short version 9/35 Verbundwahrscheinlichkeiten Definition Gegeben zwei diskrete Zufallsvariable X und Y, bezeichnet man die Wahrscheinlichkeit P(X = x und Y = y) als Verbundwahrscheinlichkeit und notiert auch P(X = x, Y = y). Mengentheoretisch entspricht dem Wort und der Schnitt der Ereignisse {X = x} {Y = y} innerhalb einer Menge Ω auf der X und Y definiert sind.

short version 10/35 Verbundentropie Entropie eines zusammengesetzten Systems Gegeben zwei diskrete Zufallsvariable X und Y mit Werten in einem endlichen Zeichenvorrat {z 1,..., z n }, bezeichnet man die Größe H(X, Y ) := E(I X,Y ) = n i=1 j=1 n P(X = z i, Y = z j ) log 2 (P(X = z i, Y = z j )) als Verbundentropie von X und Y. Verbundentropie im Verhältnis zur Entropie der Teilsysteme: H(X) + H(Y ) H(X, Y ) max(h(x), H(Y ))

short version 11/35 Bedingte Wahrscheinlichkeiten Definition Mathematisch definiert man für zwei Zufallsvariable X und Y die bedingte Wahrscheinlichkeit P(X = x Y = y) := P(X = x, Y = y). P(Y = y) Es folgt direkt aus der Definition: P(X = x, Y = y) = P(X = x Y = y)p(y = y).

short version 12/35 Unabhängige Ereignisse Definition {X = x} und {Y = y} heißen unabhängig, wenn P(X = x, Y = y) = P(X = x)p(y = y). In diesem Fall ist P(X = x Y = y) = P(X = x, Y = y) P(Y = y) = P(X = x)p(y = y) P(Y = y) = P(X = x), also hängt die Wahrscheinlichkeit für {X = x} nicht davon ab, ob das Ereignis {Y = y} eintritt.

short version 13/35 Gemeinsame Information Die Größe I(X; Y ) := n n i=1 j=1 ( ) P(X = zi, Y = z j ) P(X = z i, Y = z j ) log 2 P(X = z i )P(Y = z j ) heißt gemeinsame Information von X und Y, sie misst die Menge an Information, die X und Y gemeinsam haben.

short version 13/35 Gemeinsame Information Die Größe I(X; Y ) := n n i=1 j=1 ( ) P(X = zi, Y = z j ) P(X = z i, Y = z j ) log 2 P(X = z i )P(Y = z j ) heißt gemeinsame Information von X und Y, sie misst die Menge an Information, die X und Y gemeinsam haben. Entsprechend lässt sich leicht beweisen: I(X; Y ) = H(X) + H(Y ) H(X, Y ).

short version 13/35 Gemeinsame Information Die Größe I(X; Y ) := n n i=1 j=1 ( ) P(X = zi, Y = z j ) P(X = z i, Y = z j ) log 2 P(X = z i )P(Y = z j ) heißt gemeinsame Information von X und Y, sie misst die Menge an Information, die X und Y gemeinsam haben. Entsprechend lässt sich leicht beweisen: I(X; Y ) = H(X) + H(Y ) H(X, Y ). Unabhängige Zufallsvariablen haben daher keine gemeinsame Information, I(X; Y ) = 0.

short version 13/35 Gemeinsame Information Die Größe I(X; Y ) := n n i=1 j=1 ( ) P(X = zi, Y = z j ) P(X = z i, Y = z j ) log 2 P(X = z i )P(Y = z j ) heißt gemeinsame Information von X und Y, sie misst die Menge an Information, die X und Y gemeinsam haben. Entsprechend lässt sich leicht beweisen: I(X; Y ) = H(X) + H(Y ) H(X, Y ). Unabhängige Zufallsvariablen haben daher keine gemeinsame Information, I(X; Y ) = 0. I(X; X) ist die Selbstinformation von X. Es ist I(X; X) = H(X).

short version 14/35 Bedingte Entropie Auch genannt: Equivokation Gegeben zwei diskrete Zufallsvariable X und Y mit Werten in einem endlichen Zeichenvorrat {z 1,..., z n }, bezeichnet man die Größe H(X Y ) := H(X, Y ) H(Y ) als bedingte Entropie von X unter der Bekanntheit von Y.

short version 14/35 Bedingte Entropie Auch genannt: Equivokation Gegeben zwei diskrete Zufallsvariable X und Y mit Werten in einem endlichen Zeichenvorrat {z 1,..., z n }, bezeichnet man die Größe H(X Y ) := H(X, Y ) H(Y ) als bedingte Entropie von X unter der Bekanntheit von Y. Man kann auch direkter definieren (und die vorherige Definition daraus herleiten): H(X Y ) := n i=1 j=1 n ( ) P(Y = z j ) P(X = z i, Y = z j ) log 2 P(X = z i, Y = z j )

short version 14/35 Bedingte Entropie Auch genannt: Equivokation Gegeben zwei diskrete Zufallsvariable X und Y mit Werten in einem endlichen Zeichenvorrat {z 1,..., z n }, bezeichnet man die Größe H(X Y ) := H(X, Y ) H(Y ) als bedingte Entropie von X unter der Bekanntheit von Y. Man kann auch direkter definieren (und die vorherige Definition daraus herleiten): H(X Y ) := n i=1 j=1 n ( ) P(Y = z j ) P(X = z i, Y = z j ) log 2 P(X = z i, Y = z j ) Im Falle unabhängiger Zufallsvariablen gilt H(X Y ) = H(X).

short version 15/35 Beispiel Bedingte Wahrscheinlichkeiten von Zeichenfolgen In erster Näherung wollen wir eine Nachricht in englischer Sprache modellieren durch eine Folge unabhängiger Zufallsvariablen X i mit Werten im Alphabet Σ := {A, B, C,..., Y, Z, _} und Gleichverteilung, also P(X i = z) = 1 27 für alle z Σ. Dabei ist _ das Leerzeichen.

short version 15/35 Beispiel Bedingte Wahrscheinlichkeiten von Zeichenfolgen In erster Näherung wollen wir eine Nachricht in englischer Sprache modellieren durch eine Folge unabhängiger Zufallsvariablen X i mit Werten im Alphabet Σ := {A, B, C,..., Y, Z, _} und Gleichverteilung, also P(X i = z) = 1 27 für alle z Σ. Dabei ist _ das Leerzeichen. Die Selbstinformation eines Zeichens z Σ ist somit I i (z) = log 2 P(X i = z) = log 2 1 27 = log 2 27 4, 75bit.

short version 15/35 Beispiel Bedingte Wahrscheinlichkeiten von Zeichenfolgen In erster Näherung wollen wir eine Nachricht in englischer Sprache modellieren durch eine Folge unabhängiger Zufallsvariablen X i mit Werten im Alphabet Σ := {A, B, C,..., Y, Z, _} und Gleichverteilung, also P(X i = z) = 1 27 für alle z Σ. Dabei ist _ das Leerzeichen. Die Selbstinformation eines Zeichens z Σ ist somit I i (z) = log 2 P(X i = z) = log 2 1 27 = log 2 27 4, 75bit. Die Entropie der Zufallsvariablen X i ist damit auch etwa 4, 75bit (wegen Gleichverteilung).

short version 16/35 Beispiel Eine realistischere Verteilung der Zeichen Die Häufigkeit der Buchstaben in der englischen Sprache ist nicht gleichverteilt:

short version 16/35 Beispiel Eine realistischere Verteilung der Zeichen Die Häufigkeit der Buchstaben in der englischen Sprache ist nicht gleichverteilt: Die Selbstinformation eines Zeichens z Σ ist somit z.b. I i (e) = log 2 P(X i = e) = 3bit oder aber I i (v) = 6, 64bit.

short version 16/35 Beispiel Eine realistischere Verteilung der Zeichen Die Häufigkeit der Buchstaben in der englischen Sprache ist nicht gleichverteilt: Die Selbstinformation eines Zeichens z Σ ist somit z.b. I i (e) = log 2 P(X i = e) = 3bit oder aber I i (v) = 6, 64bit. Die Entropie der Zufallsvariablen X i und damit H(X) lässt sich anhand dieser Tabelle berechnen: 4bit.

Besser: Markov-Ketten short version 17/35

short version 18/35 Kullback-Leibler-Divergenz Ein geringfügig allgemeinerer Begriff als bedingte Entropie Für zwei Wahrscheinlichkeitsmaße (z.b. Verteilungen von diskreten Zufallsvariablen oder aber irgendwelche stetigen Maße) P und Q auf einem Raum (genau genommen einer σ-algebra) Ω sodass Q absolutstetig bezüglich P ist (im Falle diskreter Verteilungen genügt P(i) > 0 = Q(i) > 0), definiert man die Kullback-Leibler-Divergenz (auch: Informationsgewinn) von P bezüglich Q als wobei dq dp D KL (P Q) := log dq Ω dp dp, die Radon-Nikodym-Ableitung von Q nach P ist.

short version 19/35 Satz von Bayes Der Satz von Bayes besagt, dass für zwei Zufallsvariable X und Y gilt: P(X = x Y = y) = P(Y = y X = x)p(x = x) P(Y = y)

Bayessche Inferenz und Abduktion short version 20/35

short version 21/35 Bayes für bedingte Entropie Korollar Der Satz von Bayes P(X = x Y = y) = P(Y = y X = x) P(X=x) P(Y =y) impliziert H(X Y ) = H(Y X) + H(X) H(Y )

short version 21/35 Bayes für bedingte Entropie Korollar Der Satz von Bayes P(X = x Y = y) = P(Y = y X = x) P(X=x) P(Y =y) impliziert H(X Y ) = H(Y X) + H(X) H(Y ) Es folgt durch weitere Anwendung dieses Satzes auf H(Z X) und Addition: H(X Y ) H(Z X) = H(Y X) H(X Z) + H(Z) H(Y ), eine Formel, in der H(X) nicht mehr auftaucht!

short version 22/35 Korrelation Definition Für zwei Zufallsvariable X und Y heißt Cov(X, Y ) := E((X E(X))(Y E(Y ))) die Kovarianz von X und Y.

short version 22/35 Korrelation Definition Für zwei Zufallsvariable X und Y heißt Cov(X, Y ) := E((X E(X))(Y E(Y ))) die Kovarianz von X und Y. Es ist Cov(X, Y ) = E(XY ) E(X)E(Y ).

short version 22/35 Korrelation Definition Für zwei Zufallsvariable X und Y heißt Cov(X, Y ) := E((X E(X))(Y E(Y ))) die Kovarianz von X und Y. Es ist Cov(X, Y ) = E(XY ) E(X)E(Y ). X und Y heißen unkorreliert, wenn Cov(X, Y ) = 0 ist.

short version 22/35 Korrelation Definition Für zwei Zufallsvariable X und Y heißt Cov(X, Y ) := E((X E(X))(Y E(Y ))) die Kovarianz von X und Y. Es ist Cov(X, Y ) = E(XY ) E(X)E(Y ). X und Y heißen unkorreliert, wenn Cov(X, Y ) = 0 ist. Für unabhängige Zufallsvariable ist E(XY ) = E(X)E(Y ), also sind unabhängige Zufallsvariable stets unkorreliert.

short version 23/35 Zusammenfassung der wichtigsten Größen Mathematisch Eine Zufallsvariable X : Ω Σ = {z 1,..., z n } ist bestimmt durch ihre Verteilungsfunktion z P(X = z). Die Selbstinformation von X ist die Funktion I X : z log 2 P(X = z). Die Entropie von X ist der Erwartungswert der Selbstinformation: H(X) := E(I X ). Die Verbundentropie von X und Y ist die Entropie der komponierten Zufallsvariablen: H(X, Y ) := H((X, Y )). Die gemeinsame Information von X und Y ist I(X; Y ) = H(X) + H(Y ) H(X, Y ). Die bedingte Entropie von X bezüglich Y ist H(X Y ) = H(X, Y ) H(Y ). Alle Definitionen lassen sich auf den Begriff der bedingten Entropie zurückführen (und dies ist ein Spezialfall der Kullback-Leibler-Divergenz, und lässt sich somit auf stetige Zufallsvariablen übertragen).

short version 24/35 Zusammenfassung der wichtigsten Größen Diagrammatisch, allgemeiner Fall Für zwei Zufallsvariablen X und Y lassen sich die grundlegenden informationstheoretischen Größen in einem Diagramm darstellen:

short version 25/35 Zusammenfassung der wichtigsten Größen Diagrammatisch, Grenzfall: Unabhängigkeit Für zwei unabhängige Zufallsvariablen X und Y sieht das Diagramm so aus:

short version 26/35 Zusammenfassung der wichtigsten Größen Diagrammatisch, Grenzfall: Unabhängigkeit Für zwei vollständig abhängige Zufallsvariablen X und Y sieht das Diagramm (bis auf evtl. Umbenennung) so aus:

short version 27/35 Redundanz und Kodierung Die optimale Kodierung im rauschfreien Kanal enthält keine Redundanz (minimale Kodierungslänge). Bei Rauschen ist Redundanz unbedingt notwendig, um fehlerfrei eine Nachricht zu rekonstruieren (zu dekodieren).

Redundanz in der natürlichen Sprache short version 28/35

Beispiele für Codes Morse-Code, ISBN, MP3 short version 29/35

short version 30/35 Die Bedeutung des Satzes von Bayes In der Kodierungstheorie Gegeben (unbekannte) gesendete Daten x, modelliert durch eine Zufallsvariable X mit bekannter Verteilung (gegeben durch Bekanntheit des verwendeten Codes) und gestörte (bekannte) Daten y, modelliert durch eine Zufallsvariable Y mit bekannter Verteilung (im Zweifelsfall nimmt man hier Y = X + N an, ein weisses Rauschen), so ist das gesuchte, aber unbekannte x dasjenige, welches die Größe P(X = x) P(X = x Y = y) = P(Y = y X = x) P(Y = y) maximiert (denn sonst wäre der Code ungeeignet gewählt für das gegebene Rauschniveau).

short version 31/35 Kanalkapazität Die Kanalkapazität ist definiert als die stärkste obere Schranke für die Menge an Information, die über einen Kommunikationskanal übertragen werden kann. Formal definiert man C := sup(i(x; Y )), X X modelliert die gesendete Nachricht, Y die empfangene (verrauschte).

short version 32/35 Shannons Quellenkodierungstheorem Ein Code, der im Mittel mehr bits pro Zeichen verwendet als die Entropie der Zeichenverteilung, ist redundant. Das Quellenkodierungstheorem sagt nun, dass man bei Abwesenheit von Rauschen nicht auf Redundanz verzichten kann, diese jedoch beliebig klein halten kann.

short version 33/35 Shannons Theorem für verrauschte Kanäle Im Gegensatz zum unverrauschten Kanal lässt sich bei Anwesenheit von Rauschen keine Kodierung finden, die beliebig nah an das Limit der Entropie eines Zeichens herankommt. Es ist notwendig, zur Fehlerkorrektur einen Code mit längerer Kodierungslänge zu wählen. Man fügt also Redundanz hinzu. In der gesprochenen Sprache als Kanal für geschriebene Sätze wird die Redundanz der natürlichen Sprache zur Fehlerkorrektur eingesetzt.

short version 34/35 Satz von Wolfowitz Klippen-Effekt Der Satz von Wolfowitz (1957) besagt, dass es eine endliche positive Konstante A gibt, sodass P error 1 4A n(r C) 2 e n(r C). Daraus folgt, dass für Kommunikation bei Raten oberhalb der Kanalkapazität die Fehlerrate exponentiell gegen 1 geht. Darum brechen Handy-Gespräche bei schlechtem Empfang oft auch abrupt vollständig ab, anstatt zunächst mit schlechterer Übertragungsqualität weiter zu arbeiten.

short version 35/35 Weisses Rauschen als Modell Weisses Rauschen ist nicht nur dann ein gutes Modell, wenn die Kommunikation nur durch Thermalstrahlung gestört wird.

short version 35/35 Weisses Rauschen als Modell Weisses Rauschen ist nicht nur dann ein gutes Modell, wenn die Kommunikation nur durch Thermalstrahlung gestört wird. Die Summe (und damit das arithmetische Mittel) unabhängiger, normalverteilter Zufallsvariablen ist wieder Normalverteilt.

short version 35/35 Weisses Rauschen als Modell Weisses Rauschen ist nicht nur dann ein gutes Modell, wenn die Kommunikation nur durch Thermalstrahlung gestört wird. Die Summe (und damit das arithmetische Mittel) unabhängiger, normalverteilter Zufallsvariablen ist wieder Normalverteilt. Nach dem zentralen Grenzwertsatz konvergiert die Verteilung von n unabhängigen identisch (nicht notwendig normal) verteilten Zufallsvariablen für großes n gegen eine Normalverteilung.