Entropie. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b.

Ähnliche Dokumente
3. Woche Information, Entropie. 3. Woche: Information, Entropie 45/ 238

Kapitel 9: Informationstheorie. 2. Entropie

Wir erinnern uns: Um eine Zufallsvariable mit N verschiedenen, gleichwahrscheinlichen Zuständen binär zu codieren, benötigen wir

Informationsgehalt einer Nachricht

Definition Information I(p)

Beispiel: Zeigen Sie, dass H(x) = H 0 = I gilt, wenn alle Zeichen gleichwahrscheinlich sind.

3 Codierung diskreter Quellen. Quelle Quellcodierer Kanalcodierer reduziert die benötigte Datenmenge. fügt Daten zur Fehlerkorrektur ein.

Mathe III. Garance PARIS. Mathematische Grundlagen III. Informationstheorie. 20. Juni /1

i Der Informatinonsgehalt ist also intuitiv umgekehrt proportional der Auftritswahrscheimlichkeit.

Einführung in die Wahrscheinlichkeitsrechnung

ChaosSeminar - Informationstheorie

Stochastik Wiederholung von Teil 1

Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression

Vorlesung 13b. Relative Entropie

Kapitel 7: Optimalcodierung und Huffman Coding

Wir erinnern uns: Um eine Zufallsvariable mit N verschiedenen, gleichwahrscheinlichen Zuständen binär zu codieren, benötigen wir

1 Grundlagen. 1.1 Erste Grundbegriffe 1.2 Kryptographische Systeme 1.3 Informationstheoretische Grundlagen

STOCHASTISCHE UNABHÄNGIGKEIT. Annika Pohlmann Philipp Oel Wilhelm Dück

KAPITEL 5. Erwartungswert

Seminar Kompressionsalgorithmen Huffman-Codierung, arithmetische Codierung

Definition Information I(p)

Vorlesung 15a. Quellencodieren und Entropie

Übungsaufgaben zur Vorlesung Quellencodierung

Klausur zur Vorlesung Informationstheorie

Begriffe aus der Informatik Nachrichten

Mustererkennung: Wahrscheinlichkeitstheorie. D. Schlesinger () ME: Wahrscheinlichkeitstheorie 1 / 10

Technische Informatik - Eine Einführung

2 Zufallsvariable und Verteilungsfunktionen

Redundanz. Technische Informationsquelle Entropie und Redundanz Huffman Codierung. Martin Werner WS 09/10. Martin Werner, Dezember 09 1

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Stochastische Lernalgorithmen

Kryptographie und Datensicherheit. Universität Potsdam Institut für Informatik Almahameed Ayman

Kolmogoroffkomplexität Teil 3 Informationstheorie und Kodierung. Torsten Steinbrecher

8 Verteilungsfunktionen und Dichten

Diskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier

Proseminar Datenkompression Suchstrategien und Präfixcodes

Kapitel XI - Die n-fache unabhängige Wiederholung eines Experiments

Woche 2: Zufallsvariablen

TGI-Übung Dirk Achenbach

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Kapitel 5 Stochastische Unabhängigkeit

Theoretische Grundlagen der Informatik. Vorlesung am 31. Januar INSTITUT FÜR THEORETISCHE INFORMATIK

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

(Prüfungs-)Aufgaben zur Codierungstheorie

Einführung in die Informatik II Aus der Informationstheorie: Datenkompression

Grundlagen der Wahrscheinlichkeitstheorie

Beispiel 37. Wir werfen eine Münze so lange, bis zum ersten Mal

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

Vorlesung 12. Quellencodieren und Entropie

(X Y )(a) = X (a) Y (a).

Kodierung und Sicherheit

Unabhängigkeit von Zufallsvariablen

Woche 2: Zufallsvariablen

Optimalcodierung. Thema: Optimalcodierung. Ziele

Unabhängigkeit KAPITEL 4

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Vorlesung 11b. Bedingte Verteilung, bedingte Wahrscheinlichkeiten

Sprechstunde zur Klausurvorbereitung

12. Übung TGI. (mit Teil 2 der 11. Übung) Lorenz Hübschle-Schneider, Tobias Maier INSTITUT FÜR THEORETISCHE INFORMATIK, PROF.

Wahrscheinlichkeitstheorie und Statistik

Grundlagen der Informationstheorie. Hanna Rademaker und Fynn Feldpausch

Definition: Ein endlicher Ergebnisraum ist eine nichtleere Menge, deren. wird als Ereignis, jede einelementige Teilmenge als Elementarereignis

Technische Universität München

Die Varianz (Streuung) Definition

Stochastik. 1. Wahrscheinlichkeitsräume

Informatik I WS 07/08 Tutorium 24

Lemma 23 Die (paarweise verschiedenen) Ereignisse A 1,..., A n sind genau dann unabhängig,

Vorlesung 8b. Bedingte Erwartung, bedingte Varianz, bedingte Verteilung, bedingte Wahrscheinlichkeiten

Seminar Kolmogorovkomplexität

4. Die Laplacesche Gleichverteilung

Seminararbeit: Information einer Verteilung

Vorlesung 3a. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen

4 Diskrete Wahrscheinlichkeitsverteilungen

Klausur zur Vorlesung Informationstheorie

Informationstheorie und Codierung

Kapitel 6. Kapitel 6 Mehrstufige Zufallsexperimente

Kapitel II - Wahrscheinlichkeitsraum

Mathematik 2 für Bauingenieure

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Kapitel II - Wahrscheinlichkeitsraum

Einführungsvortrag zum Proseminar Datenkompression im Wintersemester 2003/2004

Seite 2 Information = Unsicherheit e Info (e) := - log p(e) Info ( A und B) = Info (A) + Info (B) Definition: = Info (nie eintretendes Ereignis) eines

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen

6 Informationsflußkontrolle

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Statistik I für Betriebswirte Vorlesung 3

K3 (Diskrete) Zufallsvariablen 3.1 Basis

Erwartungswert und Varianz von Zufallsvariablen

Dr. H. Grunert Einführung in die Wahrscheinlichkeitsrechnung Vorlesungscharts. Vorlesung 1. Grundbegriffe der Wahrscheinlichkeitsrechnung

Grundlagen der Technischen Informatik. 3. Übung

Wahrscheinlichkeit und Statistik: Zusammenfassung

Informations- und Codierungstheorie (Informationstheorie) Vorlesungsunterlagen

Wahrscheinlichkeit (Teschl/Teschl 2, Kap. 26)

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W.

Statistische Methoden in der Sprachverarbeitung

Transkript:

Entropie Grundlegend für das Verständnis des Begriffes der Komprimierung ist der Begriff der Entropie. In der Physik ist die Entropie ein Maß für die Unordnung eines Systems. In der Informationstheorie ist die Entropie ein Maß für den Informationsgehalt einer Nachricht. Um der Begriff der Entropie zu erläutern brauchen wir erst mal einige Definitionen, z.b. Endlicher Wahrscheinlichkeitsraum (X, P(X), p), wobei X = {x1,..,xn} die Menge der Elementarereignisse, P(X) die Potenzmenge von X und p ein Wahrscheinlichkeitsmaß ist, welches jedem Ereignis aus der Potenzmenge einen Wert zuordnet mit den Eigenschaften 1. Q P(X) : p(q) 0 2. p(x) = 1 3. Q, R P(X) mit Q R = gilt p(q R) = p(q) + p(r) Hat Q P(X) die Wahrscheinlichkeit p(q), so wird dem Ereignis Q der Informationsgehalt I (Q) = - log p(q) bzw. I (xi) = - log pi für Elementarereignisse zugeordnet. Rechnet man mit dem Logarithmus zur Basis 2, so wird der Informationsgehalt in Bit gemessen. Die Umrechnung in eine andere Basis b erfolgt durch Multiplikation mit dem Faktor log 2 b. Jetzt definieren wir den Begriff der Entropie: Für eine Quelle X (die Menge der Elementarereignisse) mit Elementen x1,.., xn und zugehörigen Wahrscheinlichkeiten p1,..pn > 0 ist die Entropie definiert wie folgt: H(X) = - p i. log p i

Die Entropie einer Nachricht ist ganz einfach die Summe der Entropien aller Einzelsymbole. Die Entropie hat die folgenden Eigenschaften: 1. 0 H(X) log (n) so gen. Minimale und maximale Entropie H(X) = 0 ist genau der Fall, wenn keinerlei Ungewissheit über die von X erzeugte Nachricht besteht. Das bedeutet X darf nur ein Element x mit Wahrscheinlichkeit 1 haben H(X) = - p(x). log ( p(x)) = -1. log (1) = 0 H(X) = log (n) tritt genau dann ein, wenn völlige Ungewissheit über die von X erzeugte Nachricht herrscht, d.h. wenn alle Elemente x X die gleiche Wahrscheinlichkeit 1 / n haben H(X) = - p i. log p i = -n. log (1 / n) = - log (1 / n) = log (n) Gemeinsame Entropie: Seien nun X und Y zwei Quellen mit Elementen xi bzw. yj und Wahrscheinlichkeiten p(x i) und p(y j) dann ist die gemeinsame Entropie beider Quellen definiert als: H(X, Y) = - p(x i, y j). log ( p(xi, y j)) Sind X und Y diskrete Quellen, so gilt : H(X, Y) H(X) + H(Y) Die Gleichheit tritt dann ein, wenn X und Y unabhängige Quellen sind. Eine reellwertige Funktion f (a i) der Elementarereignisse ai A eines Wahrscheinlichkeitsraumes (A, P(A), p) wird durch eine Zufallsvariable bezeichnet. Die Schreibweise p(x = f(a i )) = pi besagt, dass die Zufallsvariable X mit Wahrscheinlichkeit pi den Wert f (ai) annimmt.

Der Erwartungswert oder Mittelwert E(X) einer Zufallsvariablen X ist durch E(X) = p (ai). f(ai) bestimmt. X und Y seien Zufallvariablen im Wahrscheinlichkeitsraum Q1 = (A, P(A), pa) und Q2 = (B, P(B), pb). Die Zufallsvariablen heißen unabhängig wenn gilt: " a, b R : p(x = a und Y = b) = p (X = a). p(y = b) = p(a).p(b) Eine Folge von unabhängigen Zufallsvariablen bildet einen gedächtnislosen Prozess. Die Bezeichnungsweise p(a B) steht für die bedingte Wahrscheinlichkeit eines Ereignisses a unter einer Bedingung B. In diesem Zusammenhang sprechen wir von einem bedingten Informationsgehalt und einer bedingten Entropie. Mit anderen Worten, die bedingte Entropie misst, wie groß die Ungewissheit über die von Quelle X erzeugte Nachricht ist, nachdem feststeht, dass Quelle Y die Nachricht b erzeugt hat. Für die Zufallsvariablen X und Y gilt: p(x = a Y = b) = p (X = a und Y = b) / p(y = b) Sind X und Y unabhängig, so folgt allerdings p(x = a Y = b) = p(x = a) Eine gedächnislose diskrete Informationsquelle sendet eine Folge von unabhängigen Quellensymbolen, die durch Zufallvariable {Xt ; t N} in einem endlichen Wahrscheinlichkeitsraum Q = (S, P(S), p) dargestellt werden. Dabei heißt S = {s1,...,sq} das Quellenalphabet und H(p1,..,pq) die Entropie der Quelle mit Signalwahrscheinlichkeiten p1 = p(s1),..,pq = p(sq) Für die n-te Erweiterung einer Informationsquelle, die n- stellige Wörter über dem Alphabet S aussendet, wird der Wahrscheinlichkeitsraum

Q n = {S n, P n (S), p n } in entsprechender Erweiterung von Q = { S, P(S), p} zugrunde gelegt. Für die Entropie der n-ten Erweiterung Q n eines Wahrscheinlichkeitsraums Q gilt bei Unabhängigkeit der Symbole in einem Wort: H(S n ) = n. H(S) Es sei eine gedächtnislose Informationsquelle Q = (S, P(S), p) mit q Quellensymbolen gegeben. Für die Codierung der Quellsymbole s1,...,sq sei l i die Länge des zu si zugeordneten Codeworts und die mittlere Codewortlänge. L = p i. l i Ein eindeutig decodierbarer Code heißt kompakt, wenn seine Codewortlänge für Codes mit r Symbolen minimal ist. Für die Entropie als eine untere Schranke für die mittlere Codewortlänge eines eindeutig decodierbaren Codes für die Quellsymbole haben wir folgenden Satz: Hr(S) L = p i. l i Die Realität zeigt, dass die minimale mittlere Codewortlänge bei der Codierung der Quellsymbole einer Informationsquelle nicht immer die Entropie als untere Schranke erreicht. Eine bessere Annäherung an diese Schranke kann allerdings erzielt werden, wenn statt der Symbole der gedächtnislosen Quelle die Wörter ihrer n- ten Erweiterung codiert werden. Dabei kann die Differenz zwischen der Entropie und der mittleren Codewortlänge mit wachsendem n beliebig klein gemacht werden. Die mittlere Wortlänge eines kompakten Codes mit r Symbolen für die n- te Erweiterung einer Informationsquelle erfüllt die Ungleichung von dem ersten Satz von Shannon n H r (S) L n < n H r (S) + 1

Wie die Entropie der Sprchwissenschaft dient? Die relative Entropie gibt an, wie viel Speicherplatz verschwendet wird, wenn eine Zeichenfolge mit einer Methode komprimiert wird, die für eine andere Folge optimiert wurde. Als Beispiel kann das Morsealphabet dienen, das für die englische Sprache optimiert wurde. Dem häufigsten Buchstaben in der englischen Sprache wurde die kürzeste Zeichenfolge zugeordnet. (z.b. für e ein Punkt). Aber für andere Sprachen ist das Morsealphabet nicht optimal, denn die Länge der Codes entspricht nicht mehr der Häufigkeit der Buchstaben. Die relative Entropie gibt dann an, wie viele zusätzlichen Striche oder Punkte benötigt werden, um zum Bsp einen englischen Text zu übermitteln. Mit einem Experiment versuchten die Wissenschaftler Benedetto, Caglioti und Loreto den Verwandtschaftsgrad verschiedener Sprachen herauszufinden. Zwei Sprachen, die aus der gleichen Familie stammen, haben nämlich eine geringere relative Entropie und sollten daher effizienter komprimiert werden können als ein Sprachenpaar, das nicht miteinander verwandt ist. Insgesamt untersuchten die Forscher 52 europäische Sprachen. Mit Hilfe des Zip Programms konnten sie die Zugehörigkeit der Sprachen zu den jeweils richtigen linguistischen Gruppen feststellen. Z.B besitzen Rätoromanisch und Italienisch wenig relative Entropie und sind somit verwandt. Dagegen haben Schwedisch und Kroatisch eine hohe relative Entropie und müssen somit verschiedenen Familien angehören. Winzip konnte sogar Maltesisch, Baskisch und Ungarisch als Sprachen identifizieren, die in keine der bekannten Familien passen. Der Erfolg ihrer Methode ließ bei die den Forschern die Hoffnung aufkommen, dass die Entropiemessung durch Zipping Software auch für anderen Datenfolgen wie z.b Aktienkurse anwendbar sein könnte. Aus: Neue Zürcher Zeitung