Modellierung WS 2014/15. Wahrscheinlichkeits-Modelle und stochastische Prozesse. (mit Folien von Prof. H. Schütze)

Ähnliche Dokumente
Einführung in die Stochastik

Übungen zur Mathematik für Pharmazeuten

Aufgabe 2.1. Ergebnis, Ergebnismenge, Ereignis

6.1 Grundlagen der Wahrscheinlichkeitsrechnung Definitionen und Beispiele Beispiel 1 Zufallsexperiment 1,2,3,4,5,6 Elementarereignis

PageRank-Algorithmus

1.5 Folgerungen aus dem Kolmogoroff- Axiomensystem P( ) = 0.

Elementare statistische Methoden

Data Mining: Einige Grundlagen aus der Stochastik

Q4. Markov-Prozesse in diskreter Zeit

$ % + 0 sonst. " p für X =1 $

Wahrscheinlichkeitstheorie. Zapper und

Lehrstuhl IV Stochastik & Analysis. Stochastik I. Wahrscheinlichkeitsrechnung. Skriptum nach einer Vorlesung von Hans-Peter Scheffler

Statistik 1: Einführung

Satz 2.8.3: Sei Q eine Intensitätsmatrix. Dann hat die

Beispiel Zusammengesetzte Zufallsvariablen

Modul: Stochastik. Zufallsexperimente oder Wahrscheinlichkeit relative Häufigkeit Variation Permutation Kombinationen Binomialverteilung

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Einführung in die Computerlinguistik Statistische Grundlagen

Google s PageRank. Eine Anwendung von Matrizen und Markovketten. Vortrag im Rahmen der Lehrerfortbildung an der TU Clausthal 23.

Vorlesung 3 MINIMALE SPANNBÄUME

Einführung in die Stochastik. Dr. Lothar Schüler

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Analog definiert man das Nichteintreten eines Ereignisses (Misserfolg) als:

Künstliche Intelligenz Maschinelles Lernen

Skript zur Statistik II (Wahrscheinlickeitsrechnung und induktive Statistik)

Risiko und Versicherung - Übung

BONUS MALUS SYSTEME UND MARKOV KETTEN

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Markovketten. Bsp. Page Ranking für Suchmaschinen. Wahlfach Entscheidung unter Risiko und stat. Datenanalyse

Grundlagen. Wozu Wahrscheinlichkeitsrechnung? Definition und Begriff der Wahrscheinlichkeit. Berechnung von Laplace-Wahrscheinlichkeiten

Einführung in die Statistik

Monte-Carlo Simulation

Statistik I für Betriebswirte Vorlesung 5

Einführung in die. Wahrscheinlichkeitstheorie und Statistik

Suchmaschinen und Markov-Ketten 1 / 42

Bei dieser Vorlesungsmitschrift handelt es sich um kein offizielles Skript!

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

Wie Google Webseiten bewertet. François Bry

Statistik und Wahrscheinlichkeitsrechnung

Übungsaufgaben Wahrscheinlichkeit

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Web Algorithmen. Ranking. Dr. Michael Brinkmeier. Technische Universität Ilmenau Institut für Theoretische Informatik. Wintersemester 2008/09

Künstliche Intelligenz Unsicherheit. Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln

6 Mehrstufige zufällige Vorgänge Lösungshinweise

Aufgabe 3: Übersetzen Sie die folgenden natürlich-sprachlichen Aussagen in die Sprache der

Theoretische Informatik

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

Untersuchungen zur Kellystrategie für Wetten und Investitionen

Bedingte Wahrscheinlichkeit

Hans Irtel. Entscheidungs- und testtheoretische Grundlagen der Psychologischen Diagnostik

y P (Y = y) 1/6 1/6 1/6 1/6 1/6 1/6

3.3 Eigenwerte und Eigenräume, Diagonalisierung

w a is die Anzahl der Vorkommen von a in w Beispiel: abba a = 2

klar. Um die zweite Bedingung zu zeigen, betrachte u i U i mit u i = 0. Das mittlere -Zeichen liefert s

1 Stochastische Prozesse in stetiger Zeit

Bachelorarbeit: Ein diskretes Modell für Finanzmärkte

Brückenkurs Mathematik, THM Friedberg,

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

WAHRSCHEINLICHKEITSTHEORIE I und II. Vorlesungsskript

Lösungshinweise zu Kapitel 13

Statistik II - Elementare Wahrscheinlichkeitsrechnung. Prof. Dr. Christine Müller Technische Universität Dortmund

Entscheidungsbäume. Definition Entscheidungsbaum. Frage: Gibt es einen Sortieralgorithmus mit o(n log n) Vergleichen?

Abitur 2012 Mathematik GK Stochastik Aufgabe C1

Trainingsaufgaben zur Klausurvorbereitung in Statistik I und II Thema: Satz von Bayes

Algorithmen und Datenstrukturen (ESE) Entwurf, Analyse und Umsetzung von Algorithmen (IEMS) WS 2014 / Vorlesung 5, Donnerstag, 20.

Mengensysteme, Wahrscheinlichkeitsmaße

Übungsaufgaben. Aufgabe 1 Internetsuchmaschinen. Einführung in das Information Retrieval, 8. Mai 2008 Veranstaltung für die Berufsakademie Karlsruhe

Absolute Stetigkeit von Maßen

Sozialwissenschaftliche Methoden und Statistik I

Algorithmen II Vorlesung am

R ist freie Software und kann von der Website.

Einführung in die Statistik für Biologen. Jörg Witte

Vorlesung Theoretische Informatik

Lineare Gleichungssysteme


Elemente der Analysis II

Modellierungskonzepte 2

16. All Pairs Shortest Path (ASPS)

Knut Bartels / Hans Gerhard Strohe. Arbeitsblätter. zur Vorlesung im Wintersemester 2005/06. Statistik II Induktive Statistik

Variationen Permutationen Kombinationen

x 2 x 1 x Lernen mit Entscheidungsbäumen

Leitfaden Lineare Algebra: Determinanten

Mathematik für Studierende der Biologie und des Lehramtes Chemie Wintersemester 2013/14. Auswahl vorausgesetzter Vorkenntnisse

Markov-Ketten-Monte-Carlo-Verfahren

6.4 Bedeutungsaspekte ausgewählter Begriffe Zahlbegriffe und Rechenoperationen

Versuch: Zufälliges Ziehen aus der Population

Ernst-Moritz-Arndt-Universität Greifswald Fachbereich Physik Elektronikpraktikum

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

Die Binomialverteilung

Der Viterbi-Algorithmus.

Einführung in die Stochastik für Informatiker Sommersemester 2000 Prof. Mathar

PG520 - Webpageranking

Bestimmen der Wahrscheinlichkeiten mithilfe von Zählstrategien

13.5 Der zentrale Grenzwertsatz

Bei vielen Zufallsexperimenten interessiert man sich lediglich für das Eintreten bzw. das Nichteintreten eines bestimmten Ereignisses.

Stochastische Modelle

Kürzeste Wege in Graphen. Maurice Duvigneau Otto-von-Guericke Universität Fakultät für Informatik

5. Suchmaschinen Herausforderungen beim Web Information Retrieval. Herausforderungen beim Web Information Retrieval. Architektur von Suchmaschinen

Das Briefträgerproblem

Transkript:

Modellierung WS 2014/15 Wahrscheinlichkeits-Modelle und stochastische Prozesse (mit Folien von Prof. H. Schütze) Prof. Norbert Fuhr 1 / 63

Wahrscheinlichkeits-Modelle Wahrscheinlichkeits-Modelle Zufalls-Experiment Ein Zufalls-Experiment ist ein Vorgang, der ein genau abzugrenzendes Ergebnis besitzt, das vom Zufall beeinflusst ist. Beispiele: Würfel Regnet es morgen in Duisburg? Klickt der Benutzer auf das erste Antwortdokument von Google? Wie lange schaut der Benutzer auf das angezeigte Dokument? 2 / 63

Wahrscheinlichkeits-Modelle Aspekte von Zufallsexperimenten Uns interessierende Aspekte von Zufallsexperimenten: 1 Die möglichen Ergebnisse (Beobachtungen) {1,...,6}, {ja/nein} 2 Die möglichen Fragestellungen Gerade Zahl? Weniger als 10s? 3 die zugehörigen Wahrscheinlichkeiten P(gerade) = 0, 5 3 / 63

Wahrscheinlichkeits-Modelle Der Merkmalsraum Ω Merkmalsraum Ω Ein Merkmalsraum Ω (Stichprobenraum, Grundmenge, Grundgesamtheit) ist eine nicht-leere Menge mit Elementen ω Ω. Ω gibt die möglichen Ausgänge (Ergebnisse) des Zufalls-Experiments an Wir betrachten hier nur den Fall, dass der Merkmalsraum endlich oder zumindest abzählbar ist. Beispiele für Merkmalsräume Würfel: Ω = {1, 2, 3, 4, 5, 6} Regen: Ω = {ja,nein} Zeit: Ω = {1, 2,..., 300} (Betrachte angefangene Sekunden, bei mehr als 300s macht der Benutzer Pause) 4 / 63

Wahrscheinlichkeits-Modelle Ereignisse und ihre Verknüpfung Ereignisse, Ereignis-System Ein Ereignis A ist eine Teilmenge von Ω. Das Ereignis A tritt ein, falls ein Merkmal ω mit ω A beobachtet wird. Die Menge aller betrachteten Ereignisse nennen wir das Ereignis-System A Beispiele für Ereignisse: Würfel: Gerade Augenzahl: A = {2, 4, 6} Zeit: Benutzer schaut max. 5s auf das Dokument A = {1, 2, 3, 4, 5} 5 / 63

Wahrscheinlichkeits-Modelle Spezielle Ereignisse A = : A ist ein unmögliches Ereignis, weil ω nie eintritt A = Ω : Das Ereignis Ω tritt immer ein A = {ω} für ω Ω: {ω} nennt man ein Elementarereignis Beachte den Unterschied zwischen dem Merkmal ω (Element von Ω) und dem Ereignis {ω} (Teilmenge von Ω) 6 / 63

Wahrscheinlichkeits-Modelle Zusammengesetzte Ereignisse Zusammengesetzte Ereignisse Häufig betrachtet man zusammengesetzte Ereignisse, die als Mengenoperationen von anderen Ereignissen ausgedrückt werden können Beispiele für zusammengesetzte Ereignisse: Würfelzahl > 3 oder gerade Augenzahl A = {4, 5, 6}, B = {2, 4, 6} A B = {2, 4, 5, 6} Benutzer schaut mindestens 2s und höchstens 5s auf das Dokument A = {2, 3..., 300}, B = {1, 2, 3, 4, 5} A B = {2, 3, 4, 5} 7 / 63

Wahrscheinlichkeits-Modelle Verknüpfung von Ereignissen Verknüpfung von Ereignissen A oder B oder beide treten ein ˆ= ω A B A und B treten (beide) ein ˆ= ω A B A und B treten nie gleichzeitig ein ˆ= A B = A tritt nicht ein ˆ= ω A c ω / A A tritt ein, aber B tritt nicht ein ˆ= ω A\B = A B c = AB c mindestens ein A i tritt ein ˆ= ω i A i = A 1 A 2 alle A i treten ein ˆ= ω i A i = A 1 A 2 Anmerkungen: Statt A B = sagt man auch A und B sind disjunkt A c bezeichnet die Komplementärmenge zu A, also A c = Ω\A AB ist eine in der Stochastik übliche Kurznotation für A B 8 / 63

Wahrscheinlichkeits-Modelle σ-algebra Abgeschlossenes Mengensystem Als σ-algebra bezeichnet man ein Mengensystem A mit A P(Ω), das die folgenden Bedingungen erfüllt: 1 Ω A 2 A A = A c A 3 A 1, A 2,... A = n N A n A Wir nehmen an, dass jedes Ereignis-System A abgeschlossen ist. Beispiel: Ω = {1, 2, 3, 4} A = {{1, 2}, {3, 4}, {1, 2, 3, 4}, } 9 / 63

Wahrscheinlichkeits-Modelle Beschreibbarkeit Beispiel: X Zufallsvariable für Würfelergebnis gerade/ungerade G = gerade Augenzahl beim Würfeln G = {ω Ω : X (ω) = gerade} Ω = {1, 2, 3, 4, 5, 6} Ω = {gerade, ungerade} A = {gerade} G = {X A } {X A } durch X beschreibbar Ist X eine Abbildung Ω Ω und A Ω, dann definiert man {X A } := {ω Ω : X (ω) A } Eine Teilmenge von Ω der Form {X A } heißt durch X beschreibbar. 10 / 63

Wahrscheinlichkeits-Modelle Zufallsvariable Zufallsvariable (ZV) Eine Zufallsvariable (ZV) ist eine Abbildung vom Merkmalsraum Ω mit Ereignissystem A in eine Bildmenge Ω mit Ereignissystem A. Gilt A P(Ω) und ist A das Ereignissystem in Ω, dann wird für eine ZV X : Ω Ω gefordert {X A } A für alle A A Anmerkungen Für Zufallsvariable verwendet man meist Großbuchstaben X, Y, Z, U, V, W Für Ereignisse verwenden wir A, B, C,... Beispiele: A = {X > 3}, B = {X = 2} {X = 4} {X = 6} 11 / 63

Wahrscheinlichkeits-Modelle Gesetz der großen Zahlen Empirisches Gesetz h n (A) P(A) Wird ein Zufalls-Experiment n-mal unter gleichen Bedingungen wiederholt mit Beobachtungswerten x 1, x 2,..., x n, dann konvergieren die relativen Häufigkeiten h n (A) := 1 n (Anzahl der x i mit x i A) für n gegen einen Grenzwert. 12 / 63

Wahrscheinlichkeits-Modelle Gesetz der großen Zahlen Beispiel: Würfeln einer bestimmten Augenzahl Law-of-large-number von Jörg Groß - Eigenes Werk. Lizenziert unter Creative Commons Attribution-Share Alike 3.0-2.5-2.0-1.0 über Wikimedia Commons 13 / 63

Wahrscheinlichkeits-Modelle Eigenschaften der Wahrscheinlichkeit 1 P(A) 0 2 P(A) 1 3 P(Ω) = 1 4 P( ) = 0 5 P(A 1 + A 2 ) = P(A 1 ) + P(A 2 ) 6 P(A 1 + + A n ) = P(A 1 ) + + P(A n ) 7 P(A 1 + A 2 + ) = P(A 1 ) + P(A 2 ) + 14 / 63

Wahrscheinlichkeits-Modelle Wahrscheinlichkeits-Maß Wahrscheinlichkeits-Maß P : A R Eine Abbildung P : A R, wobei A eine σ-algebra über Ω ist, heißt Wahrscheinlichkeits-Maß (W-Maß) auf A, wenn die folgenden drei Bedingungen erfüllt sind: (1) P(A) 0 für alle A A (Nichtnegativität) (2) P(Ω) = 1 (Normiertheit) (3) P( i=1 A i) = i=1 P(A i) (σ-additivität) Anmerkung: Die Schreibweise i=1 A i soll immer die Voraussetzung Alle A i sind paarweise disjunkt implizit voraussetzen. 15 / 63

Wahrscheinlichkeits-Modelle Schreibweise für Ereignisse Vereinfachte Schreibweise für Ereignisse P(X A ) := P({X A }) Beispiele: Münze: P(X =Kopf)=P(X =Zahl) = 0, 5 Würfel: P(W = 6) = 1 6 16 / 63

Wahrscheinlichkeits-Modelle Wahrscheinlichkeitsraum Wahrscheinlichkeitsraum (Ω, A, P) Das Tripel aus Merkmalsraum Ω, Ereignissystem A und Ereignis-Maß P nennt man Wahrscheinlichkeitsraum (W-Raum) oder Wahrscheinlichkeitsmodell (W-Modell) 17 / 63

Wahrscheinlichkeits-Modelle Bernoulli-Experiment Bernoulli-Experiment Ein Zufallsexperiment mit zwei möglichen Ausgängen heißt Bernoulli-Experiment. Merkmalsraum: Ω = {0, 1} Man bezeichnet ω = 1 als Erfolg und ω = 0 als Misserfolg Ω = {0, 1}, A = P(Ω) P({1}) = p P({0}) = 1 p, 0 p 1 p bezeichnet man als Parameter der Bernoulli-Verteilung Beispiel: Münzwurf 18 / 63

Wahrscheinlichkeits-Modelle Laplace-Experimen Laplace-Experiment Ein Zufallsexperiment mit endlich vielen und gleichwertigen Ausgängen heißt Laplace-Experiment. Ω = {1, 2,..., N}. Aus P({1}) = P({2}) = = P({N}) folgt P({1}) = 1/N. Für beliebige Ereignisse A gilt wegen A = ω A {ω}: P(A) = A Anzahl der (für A) günstigen Fälle = Ω Anzahl der möglichen Fälle 19 / 63

Wahrscheinlichkeits-Modelle Beispiele für Laplace-Experimente Würfel: Roulette: P(W = 6) = 1/6 P(X = 13) = 1/37 P(W = gerade) = 3/6 P(X = gerade) = 18/37 20 / 63

Wahrscheinlichkeits-Modelle Bedingte Wahrscheinlichkeiten Elementare bedingte Wahrscheinlichkeit Seien A, B Ereignisse in Ω und sei P(B) > 0. Dann heißt P(A B) = P(AB) P(B) die bedingte Wahrscheinlichkeit von A unter der Bedingung B Ferner gilt P(AB) = P(B) P(A B) Beispiel: Würfel A = {2, 4, 6}, B = {4, 5, 6} P(A B) = P(AB) P(B) = {4, 6} /6 {4, 5, 6} /6 21 / 63

Wahrscheinlichkeits-Modelle Verkettungsregel Verkettungsregel Für drei Ereignisse A, B, C gilt analog die Formel P(ABC) = P(A) P(B A) P(C AB) Beispiel: Roulette A = {Z gerade}, B ={Z > 24}, C = {Z schwarz} P(ABC) = P(Z gerade) P(Z> 24 Z gerade) P(Z schwarz Z > 24, Z gerade) 22 / 63

Wahrscheinlichkeits-Modelle Totale Wahrscheinlichkeit Totale Wahrscheinlichkeit Ist (B i, i I ) eine abzählbare Zerlegung von Ω d.h. es gilt Ω = i I B i, dann gilt P(A) = i I P(AB i ) = i I P(B i ) P(A B i ) Beispiel: (Roulette) P(X gerade) = = 36 i=0 36 i=0 P(X = i X gerade) P(X = i)p(x gerade X = i) = 1 37 18 23 / 63

Wahrscheinlichkeits-Modelle Totale Wahrscheinlichkeit Beispiel 2 Beispiel (Roulette) P(X gerade) = = 3 P(X i.dutzend X gerade) i=1 3 P(X i.dutzend)p(x gerade X i.dutzend) i=1 = 3 12 37 1 2 24 / 63

Wahrscheinlichkeits-Modelle Stochastische Unabhängigkei Stochastische Unabhängigkeit Zwei Ereignisse heißen stochastisch unabhängig wenn gilt P(AB) = P(A) P(B) Beispiel: Zwei Würfel P(6er Pasch) = P(W 1 = 6) P(W 2 = 6) Stochastische Unabhängigkeit von n Ereignissen Die Ereignisse A 1, A 2,..., A n heißen stochastisch unabhängig, wenn für alle endlichen Teilmengen{A i1, A i2,... A ik } von diesen Ereignissen die Produktformel gilt: P(A i1, A i2,... A ik ) = P(A i1 ) P(A i2 ) P(A ik ) 25 / 63

Wahrscheinlichkeits-Modelle Beispiel: Statistische Sprachmodelle Deutsche Wortschatz-Datenbank 26 / 63

Wahrscheinlichkeits-Modelle Beispiel: Statistisches Sprachmodell w i log 2 (P(W = w i )) w j log 2 (P(W = w j )) Dieser 5 Manche 9 Text 9 Informatiker 13 ist 2 sind 3 einfach 6 Nerds 16 P(Dieser Text ist einfach) = =P(dieser) P(Text) P(ist) P(einfach) = 2 5 2 9 2 2 2 6 = 2 22 P(Manche Informatiker sind Nerds) = = 2 9 2 13 2 3 2 16 = 2 41 27 / 63

Stochastischer Prozess Für einen stochastischen Prozess benötigt man: W-Modell (Ω, A, P) Bildbereich Ω Zeitbereich T Zufallsvariable X t : Ω Ω gibt den Zustand zum Zeitpunkt t Dann heißt {X t } := (X t, t T ) ein stochastischer Prozess. Ω = {auf,zu} 28 / 63

Modellierung stochastischer Prozesse 29 / 63

Markov-Kopplung Markov-Kopplung Hängen bei einem mehrstufigen Versuch die Übergangswahrscheinlichkeiten nicht von der vollen Vorgeschichte ab, sondern nur vom letzten beobachteten Wert, so spricht man von Markov-Kopplung. Die Folge der Beobachtungen bildet dann einen Markov-Prozess, im diskreten Fall auch Markov-Kette genannt. 30 / 63

Beispiel: Sprachmodell als Markov-Kopplung Hans programmiert. Paul begrüßt Lisa. Uwe trinkt ein kühles Pils. Das schnelle Auto überholt den schweren LKW. Anmerkungen Annahme einer Markov-Kopplung ist starke Vereinfachung Weitere Aspekte von Syntax (+Semantik) unberücksichtigt Der grüne Auto isst Spinat Solche Modelle eignen sich primär zur Analyse von Texten (und weniger zur Generierung) 31 / 63

Markov-Kette Markov-Kette Eine Markov-Kette ist ein stochastischer Prozess, speziell die Folge der Beobachtungen X 0, X 1, X 2,... in einem unendlichstufigen Versuch mit Markov-Kopplung und abzählbarer Zustandsmenge I. Die Zustandsvariablen X n : Ω I beschreiben also den Zustand des Systems zu den Zeitpunkten n = 0, 1, 2,.... 32 / 63

Homogene Markov-Kette (HMK) Homogene Markov-Kette Eine Markov-Kette {X n } heißt homogen, falls die Übergangswahrscheinlichkeiten fn n 1 (i, j) = P(X n = j X n 1 = i) für alle Zeitpunkte gleich sind. In diesem Fall schreibt man p ij := fn n 1 (i, j). 33 / 63

Beispiel zu homogener Markov-Kette 34 / 63

Übergangsmatrix Übergangsmatrix Die Matrix P := (p ij, i, j I ) heißt Übergangsmatrix (Ü-Matrix). Die Zeilensumme ist stets =1. (p ij ) = 0, 7 0, 3 0 0, 2 0, 5 0, 3 0, 1 0, 4 0, 5 35 / 63

Übergangsgraph Übergangsgraph Ein Übergangsgraph einer HMK besteht aus Knoten: alle möglichen Zuständen des Graphen gerichtete Kanten: mit positiver Wahrscheinlichkeit mögliche Übergänge an der Kante von i nach j wird jeweils der Wert p ij notiert. 36 / 63

Beispiel zu Übergangsgraph 37 / 63

Startpunkt Zur Beschreibung des Ablaufs einer Markov-Kette benötigt man neben der Ü-Matrix noch entweder einen festen Startpunkt i 0 I oder eine Startverteilung, nämlich eine Z-Dichte P(X 0 = i), i I Dann ist die Wahrscheinlichkeit für jede endliche Zustandsfolge festgelegt durch P(X 0 = i 0,..., X n = i n ) = P(X 0 = i 0 ) p i0 i 1 p in 1 i n P(X 0 = 0, X 1 = 1, X 2 = 2, X 3 = 1, X 4 = 0) = 1 p 01 p 12 p 21 p 10 38 / 63

Pfad Pfad der Markov-Kette Ein einzelner Verlauf einer Markov-Kette für eine festen Wert ω, also (X 0 (ω), X 1 (ω),...) heißt ein Pfad der Markov-Kette. Beispiel Hans trinkt ein kühles Pils Pfad: Start SNomen Verb OArtikel OAdjektiv ONomen Ende P(Pfad) = 1 0, 5 1 0, 5 0, 3 1 1 = 0, 075 39 / 63

Rechenregeln für eine MK Rechenregeln für eine MK Für ein homogene Markov-Kette mit Ü-Matrix (p ij ) i,j I und Startverteilung P(X 0 = i), i I ) gilt P(X 0 = i 0,..., X n = i n ) = P(X 0 = i 0 ) p i0 i 1 p in 1 i n P(X n = j) = i I P(X n 1 = i) p ij bzw. p n = p n 1 P n-schritt-übergangsmatrix Für eine HMK (X n ) ist die Matrix P (n) = (p (n) ij ) mit ) := P(X m+n = j X m = i) unabhängig von m und heißt (p (n) ij n-schritt-übergangsmatrix 40 / 63

Beispiel zur Berechnung der W-Verteilung im Folgezustand P = Sei p n 1 = (0,5, 0,3, 0,2) 0, 7 0, 3 0 0, 2 0, 5 0, 3 0, 1 0, 4 0, 5 p n = p n 1 P = (0,5, 0,3, 0,2) P = (0,5 0,7 + 0,3 0,2 + 0,2 0,1, 0,5 0,3 + 0,3 0,5 + 0,2 0,4, 0,5 0 + 0,3 0,3 + 0,2 0,5) = (0,35 + 0,06 + 0,02, 0,15 + 0,15 + 0,08, 0 + 0,09 + 0,1) = (0,43, 0,38, 0,19) 41 / 63

irreduzibel Zerlegung in Klassen, irreduzibel Zustandsmenge I einer HMK wird in disjunkte Klassen zerlegt: zwei Zustände i und j gehören zur selben Klasse, wenn i = j oder Zustand j ausgehend von i in endlich vielen Schritten mit positiver Wahrscheinlichkeit erreicht werden kann (i j) und umgekehrt i von j aus erreichbar ist (j i). Jeder Zustand i I gehört zu genau einer Klasse k. Eine HMK heißt irreduzibel, falls alle Zustände zur selben Klasse gehören Einfaches Beispiel einer reduziblen HMK: ( 1 α α 0 1 ) 42 / 63

aperiodisch Periode, aperiodisch Klasse K heißt periodisch mit Periode d, wenn es d ( 2) disjunkte Teilmengen in K gibt, die der Reihe nach in d Schritten durchlaufen werden. Eine HMK heißt aperiodisch, wenn es keine periodische Klasse gibt. Einfaches Beispiel einer periodischen HMK: ( 0 1 1 0 ) 43 / 63

Gleichgewicht Markov-Kette im Gleichgewicht Eine homogene Markov-Kette (X n ) ist im Gleichgewicht, wenn für alle Zustände i I die Wahrscheinlichkeiten P(X n =i) unabhängig vom Zeitpunkt n sind. Man setzt dann π i := P(X n =i) bzw. π := p n und bezeichnet die Z-Dichte π = (π i, i I ) als Gleichgewichtsverteilung (GGV) der HMK (X n ) 44 / 63

Berechnung der Gleichgewichtsverteilung (GGV) Berechnung der Gleichgewichtsverteilung Die HMK (X 0, X 1,...) mit Ü-Matrix (p ij, i, j I ) sei im Gleichgewicht, d.h. es gelte P(X n = i) = π i bzw. p n = π für alle n = 0, 1, 2... und i I. Wegen P(X n = j) = i I P(X n 1 = i) p ij gelten dann für alle Werte π i, i I die folgenden beiden Gleichgewichtsbedingungen: π j = i I π i p ij für alle j I bzw. π = πp π j 0 für alle j I und j I π j = 1 45 / 63

Berechnung der Gleichgewichtsverteilung Beispiel (p ij ) = Gleichgewichtsbedingungen 0, 7 0, 3 0 0, 2 0, 5 0, 3 0, 1 0, 4 0, 5 π 0 = 0, 7π 0 + 0, 2π 1 +0, 1π 2 π 1 = 0, 3π 0 + 0, 5π 1 +0, 4π 2 π 2 = 0, 3π 1 +0, 5π 2 und π 0 + π 1 + π 2 = 1 π 0 = 13 37 0, 35 π 1 = 15 37 0, 41 π 2 = 9 0, 24 37 46 / 63

Eigenvektor der Übergangsmatrix Definition Eigenvektor einer Matrix Betrachtet man die durch die Matrix A definierte Abbildung, so ist ein Eigenvektor ein Vektor dessen Richtung durch diese Abbildung nicht verändert wird, d.h. es gilt λ π T = A π T mit λ R (Rechtseigenvektor) und analog λ π = πa mit λ R (Linkseigenvektor). Für den Vektor der GGV gilt: π = πp mit j I π j = 1 π ist daher ein Linkseigenvektor der Ü-Matrix P 47 / 63

Grenzwertsatz für homogene Markov-Ketten Grenzwertsatz für homogene Markov-Ketten Ist die HMK(X n ) mit Ü-Matrix (p ij, i, j I ) irreduzibel und aperiodisch, dann konvergiert (für alle i I ) P(X n = i) unabhängig von der Startverteilung gegen einen Wert π i mit 0 π i 1. Dabei sind a) entweder alle π i = 0, und es gibt keine GGV zu (p ij ), b) oder es sind alle π i > 0, und (π i, i I ) ist die einzige GGV zu (p ij ), Fall a) kommt nur bei unendlicher Zustandmenge vor. 48 / 63

Unendlicher Zustandsmenge ohne GGV Beispiel: überlastete Warteschlange 49 / 63

Alternative Methode zu Berechnung der GGV Basierend auf dem Grenzwertsatz Ist die HMK(X n ) mit Ü-Matrix (p ij, i, j I ) irreduzibel und aperiodisch, dann konvergiert (für alle i I ) P(X n = i) unabhängig von der Startverteilung gegen einen Wert π i mit 0 π i 1. Sei x der Vektor mit x i = P(X n = i) für alle i I Beginne mit beliebiger Startverteilung x Berechne Verteilung im nächsten Zustand als xp. Nach zwei Schritten sind wir bei xp 2. Nach k Schritten sind wir bei xp k. Algorithmus: multipliziere x mit steigenden Potenzen von P, bis Konvergenz erreicht ist Ergebnis ist unabhängig vom Startvektor 50 / 63

Potenzmethode zur Berechnung der GGV Verfahren mit steigenden Potenzen von P wird Potenzmethode genannt (engl. power method) Berechne die GGV der folgenden Markov-Kette: 51 / 63

Beispiel zur Berechnung der GGV Startvektor x = (0.25, 0.75) x 1 x 2 P t (d 1 ) P t (d 2 ) p 11 = 0.25 p 12 = 0.75 p 21 = 0.25 p 22 = 0.75 t 0 0.25 0.75 0.25 0.75 t 1 0.25 0.75 (Konvergenz) P t (d 1 ) = P t 1 (d 1 ) p 11 + P t 1 (d 2 ) p 21 P t (d 2 ) = P t 1 (d 1 ) p 12 + P t 1 (d 2 ) p 22 GGV: π = (π 1, π 2 ) = (0.25, 0.75) 52 / 63

Beispiel zur Berechnung der GGV Fester Startzustand x 1 x 2 P t (d 1 ) P t (d 2 ) p 11 = 0.25 p 12 = 0.75 p 21 = 0.25 p 22 = 0.75 t 0 1.00 0.00 0.25 0.75 t 1 0.25 0.75 0.25 0.75 t 2 0.25 0.75 (Konvergenz) P t (d 1 ) = P t 1 (d 1 ) p 11 + P t 1 (d 2 ) p 21 P t (d 2 ) = P t 1 (d 1 ) p 12 + P t 1 (d 2 ) p 22 GGV: π = (π 1, π 2 ) = (0.25, 0.75) 53 / 63

Potenzmethode: Beispiel 2 Bestimme die GGV für folgende Markov-Kette: 54 / 63

Berechnung der GGV: Potenzmethode x 1 x 2 P t (d 1 ) P t (d 2 ) p 11 = 0.1 p 12 = 0.9 p 21 = 0.3 p 22 = 0.7 t 0 0 1 0.3 0.7 = xp t 1 0.3 0.7 0.24 0.76 = xp 2 t 2 0.24 0.76 0.252 0.748 = xp 3 t 3 0.252 0.748 0.2496 0.7504 = xp 4...... t 0.25 0.75 0.25 0.75 = xp GGV: π = (π 1, π 2 ) = (0.25, 0.75) P t (d 1 ) = P t 1 (d 1 ) p 11 + P t 1 (d 2 ) p 21 P t (d 2 ) = P t 1 (d 1 ) p 12 + P t 1 (d 2 ) p 22 55 / 63

Potenzmethode für das Telefon-Beispiel 0, 7 0, 3 0 0, 2 0, 5 0, 3 0, 1 0, 4 0, 5 x 0 x 1 x 2 xp 1,00 0,00 0,00 xp 2 0,70 0,30 0,00 xp 3 0,55 0,36 0,09 xp 4 0,47 0,38 0,15 xp 5 0,42 0,39 0,19 xp 6 0,39 0,40 0,21 xp 7 0,37 0,40 0,23 xp 8 0,36 0,40 0,23 xp 9 0,36 0,40 0,24 xp 10 0,36 0,40 0,24 xp 11 0,35 0,40 0,24 xp 12 0,35 0,41 0,24 xp 13 0,35 0,41 0,24 56 / 63

Anwendung der GGV beim Web-Retrieval PageRank versucht, Web-Seiten gemäß ihrer Popularität zu gewichten Popularität hängt ab von der Zitationshäufigkeit (eingehende Web-Links) und von der Popularität der referenzierenden Seiten 57 / 63

PageRank PageRank d 0 0.05 d 1 0.04 d 2 0.11 d 3 0.25 d 4 0.21 d 5 0.04 d 6 0.31 58 / 63

Begründung der PageRank-Methode Random Surfer Grundlage von PageRank klickt sich durch das Web, wobei er zufällig auf einen der ausgehenden Links einer Seite klickt (Gleichverteilung über die ausgehenden Links) Teleportation: gibt es keine ausgehenden Links, geht er auf eine zufällige andere Web-Seite Auch auf einer Seite mit ausgehende Links geht er mit 10% Wahrscheinlichkeit auf eine zufällige andere Seite 59 / 63

PageRank PageRank d 0 0.05 d 1 0.04 d 2 0.11 d 3 0.25 d 4 0.21 d 5 0.04 d 6 0.31 60 / 63

Übergangsmatrix ohne Teleportation d 0 d 1 d 2 d 3 d 4 d 5 d 6 d 0 0.00 0.00 1.00 0.00 0.00 0.00 0.00 d 1 0.00 0.50 0.50 0.00 0.00 0.00 0.00 d 2 0.33 0.00 0.33 0.33 0.00 0.00 0.00 d 3 0.00 0.00 0.00 0.50 0.50 0.00 0.00 d 4 0.00 0.00 0.00 0.00 0.00 0.00 1.00 d 5 0.00 0.00 0.00 0.00 0.00 0.50 0.50 d 6 0.00 0.00 0.00 0.33 0.33 0.00 0.33 61 / 63

Übergangsmatrix mit Teleportation d 0 d 1 d 2 d 3 d 4 d 5 d 6 d 0 0.02 0.02 0.88 0.02 0.02 0.02 0.02 d 1 0.02 0.45 0.45 0.02 0.02 0.02 0.02 d 2 0.31 0.02 0.31 0.31 0.02 0.02 0.02 d 3 0.02 0.02 0.02 0.45 0.45 0.02 0.02 d 4 0.02 0.02 0.02 0.02 0.02 0.02 0.88 d 5 0.02 0.02 0.02 0.02 0.02 0.45 0.45 d 6 0.02 0.02 0.02 0.31 0.31 0.02 0.31 62 / 63

Anwendung der Potenzmethode xp k x xp 1 xp 2 xp 3 xp 4 xp 5 xp 6 xp 7 xp 8 xp 9 xp 10 xp 11 xp 12 xp 13 d 0 0.14 0.06 0.09 0.07 0.07 0.06 0.06 0.06 0.06 0.05 0.05 0.05 0.05 0.05 d 1 0.14 0.08 0.06 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 d 2 0.14 0.25 0.18 0.17 0.15 0.14 0.13 0.12 0.12 0.12 0.12 0.11 0.11 0.11 d 3 0.14 0.16 0.23 0.24 0.24 0.24 0.24 0.25 0.25 0.25 0.25 0.25 0.25 0.25 d 4 0.14 0.12 0.16 0.19 0.19 0.20 0.21 0.21 0.21 0.21 0.21 0.21 0.21 0.21 d 5 0.14 0.08 0.06 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 0.04 d 6 0.14 0.25 0.23 0.25 0.27 0.28 0.29 0.29 0.30 0.30 0.30 0.30 0.31 0.31 63 / 63