Mathematische Grundlagen

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen Tobias Scheffer Peter Haider Paul Prasse

2 Bayes sches Lernen: Anwendungsbeispiel Neuer Impfstoff wurde entwickelt Frage: Wie wirksam ist er? In wie viel % der Fälle verhindert er eine Infektion? Studie: Testpersonen werden geimpft; nach 1 Jahr wird untersucht, ob sie sich angesteckt haben Scheffer/Vanck: Sprachtechnologie 2

3 Was untersucht man? Deskriptive Statistik: Beschreibung, Untersuchung von Eigenschaften von Daten (langweilig). Welcher Anteil der Testpersonen ist gesund geblieben? (= abzählen) Induktive Statistik: Welche Schlussfolgerungen über die Realität lassen sich aus Daten ziehen? (spannend, maschinelles Lernen.) Wie viele Personen werden in Zukunft gesund bleiben? Wie sicher sind wir uns dessen? 3

4 Wahrscheinlichkeiten Thomas Bayes Frequentistische Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens intrinsisch stochastischer Ereignisse (z.b. Teilchenzerfall). Bayes sche, subjektive Wahrscheinlichkeiten Beschreiben die Möglichkeit des Eintretens von Ereignissen bezogen auf einen Grad von Informiertheit. Unsicherheit bedeutet hier Mangel an Information. Wie wahrscheinlich ist es, dass der Impfstoff wirkt? Neue Informationen (z.b. Studienergebnisse) können diese subjektive Wahrscheinlichkeiten verändern. 4

5 Begriffe Entität Wirksamkeit: Rate der Nicht-Infektionen Untersuchungen der n Patienten mögliche Untersuchungsergebnisse pro Patient Wahrscheinlichkeit, dass ein Patient gesund bleibt Bezeichung Modellparameter Zufallsvariablen Wertebereich der Zufallsv. Likelihood Scheffer/Vanck: Sprachtechnologie 5

6 Zufallsvariablen Ein Zufallsexperiment ist ein definierter Prozess, in dem eine Beobachtung erzeugt wird Zufallsvariablen (mit Großbuchstaben bezeichnet) sind Variablen, deren Wert vom Ausgang eines Zufallsexperiments abhängt Formell: Zufallsvariablen bilden Elemente eines Ereignisraums auf numerische Werte ab Maschinelles Lernen: Wertebereich einer Zufallsvariable gleichgesetzt mit Ereignisraum; nichtnumerische Werte erlaubt (Vektoren, Bäume, Wörter, ) 6

7 Wahrscheinlichkeitsfunktion Wahrscheinlichkeitsfunktion P weist jedem jedem möglichen Wert (mit Kleinbuchstaben bezeichnet) einer Zufallsvariable eine Wahrscheinlichkeit zu = Wahrscheinlichkeit, dass die Zufallsvariable X den Wert x annimmt Bedingte Wahrscheinlichkeit: Wahrscheinlichkeit eines der möglichen Werte von X mit Zusatzinformation 7

8 Likelihood Ereignis Wahrscheinlichkeit, dass der i-te Patient gesund bleibt, gegeben, dass die Wirksamkeitsrate gleich θ ist Modellparameter 8

9 Feinheiten der Notation P(X) Wahrscheinlichkeitsverteilung über alle möglichen Werte von X P(X = x) konkreter Wahrscheinlichkeitswert P(x) verkürzte Schreibweise von P(X = x), wenn eindeutig ist, welche Zufallsvariable gemeint ist 9

10 Diskrete Wahrscheinlichkeitsverteilung nennt man eine diskrete Wahrscheinlichkeitsverteilung, wenn X nur diskrete (im Gegensatz zu kontinuierlichen) Werte annehmen kann Wahrscheinlichkeiten liegen immer im Intervall Summe der Verteilungsfunktion über alle Werte = 1 10

11 Bernoulli-Verteilung Eine diskrete Verteilung mit den 2 möglichen Ereignissen 0 und 1 ist eine Bernoulli-Verteilung bestimmt durch genau einen Parameter: Verteilungsfunktion: 11

12 Binomialverteilung Zusammenfassung mehrerer Bernoulli-verteilter Zufallsvariablen X 1,,X n mit gleichem Parameter θ neue Zufallsvariable Z, die angibt, wie viele der X i positiv sind: Z ist Binomial-verteilt mit Parametern θ und n Verteilungsfunktion: Binomialkoeffizient: Anzahl der Möglichkeiten, daus n Elementen z auszuwählen Wahrscheinlichkeit, dass n-z der X i negativ sind Wahrscheinlichkeit, dass z der X i positiv sind 12

13 Gemeinsame Wahrscheinlichkeit ist die gemeinsame Wahrscheinlichkeitsverteilung der Zufallsvariablen X 1 und X 2 gemeinsamer Wertebereich: kartesisches Produkt z.b.: {beidepatienteninfiziert, Patient1infiziert&Patient2gesund, Patient1gesund&Patient2infiziert, beidepatientengesund} 13

14 Abhängige Zufallsvariablen Zufallsvariablen X 1 und X 2 können abhängig oder unabhängig sein Unabhängig: P(X 1, X 2 ) = P(X 1 ) P(X 2 ) Beispiel: 2 aufeinanderfolgende Münzwürfe Ergebnis des zweiten hängt nicht vom ersten ab Impliziert: P(X 2 X 1 ) = P(X 2 ) Abhängig: P(X 1, X 2 ) P(X 1 ) P(X 2 ) Beispiel: Grippeinfektionen von 2 Sitznachbarn 14

15 Bedingte Unabhängigkeit Zwei oder mehrere Zufallsvariablen können für sich genommen abhängig sein, aber unabhängig gegeben eine weitere Zufallsvariable wenn gilt: P(X 1,X 2 Y) = P(X 1 Y) P(X 2 Y) dann heißen X 1 und X 2 bedingt unabhängig gegeben Y Beispiel: Wirkrate des Impfstoffs bekannt Infektionswahrscheinlichkeiten der Testpersonen unabhängig Wirkrate des Impfstoffs unbekannt Beobachtung eines Teils der Testpersonen gibt Information über restliche Testpersonen 15

16 Rechenregeln Summenregel: Sind a und b disjunkte Ereignisse, dann gilt Beispiel: Sei X eine Zufallsvariable, die das Ergebnis eines Würfelwurfes beschreibt ungleich, da man P(X=2) doppelt zählen würde 16

17 Rechenregeln Randverteilung: Produktregel: egal, ob abhängig oder unabhängig verallgemeinert: 17

18 Satz von Bayes Umformungen der Produktregel ergibt zusammen: Satz von Bayes 18

19 Satz von Bayes Erklärung, Ursache für eine Beobachtung: P ( Ursache Beobachtung) = P( Beobachtung) P( Beobachtung P(Ursache): A-Priori-Wahrscheinlichkeit, Prior. P(Beobachtung Ursache): Likelihood. P(Ursache Beobachtung): A-Posteriori- Wahrscheinlichkeit, Posterior. P( Ursache) Ursache) P( Beobachtung) = P( Beobachtung Ursache = u) P( Ursache = u) u 19

20 Satz von Bayes: Beispiel Diagnostik: P(Test positiv Patient hat Krankheit) = 0,98 P(Test positiv Patient hat die Krankheit nicht) = 0,05 P(Patient hat Krankheit) = 0,02 Gesamtrate des Vorkommens dieser Krankheit Gesucht: Wahrscheinlichkeit, dass der Patient krank ist: P(krank=1 Test=1) Plausibelste (Maximum-Likelihood-) Ursache argmax k P(Test=1 krank=k) Wahrscheinlichste (Maximum-A-Posteriori-) Ursache argmax k P(krank=k Test=1) 20

21 Prior und Posterior Subjektive Einschätzung, bevor man die Daten gesehen hat (a priori): Prior-Verteilung über die Modelle P(Patient ist krank) P(Wirksamkeit des Impfstoffs) Wie gut passen die Daten zum Modell: Likelihood P(Test Krankheit) P(Testperson gesund Wirksamkeit), P(X θ) Subjektive Einschätzung, nachdem man die Daten gesehen hat (a posteriori): Posterior-Verteilung P(Krankheit Test) P(Wirksamkeit Studie), P(θ X 1,,X n ) 21

22 Prior Woher bekommt man die Prior-Verteilung? Im Diagnostik-Beispiel relativ naheliegend Impfstudie: schwieriger; z.b. aus allen bisherigen Studien anderer Impfstoffe schätzen Es gibt keine richtige Prior-Verteilung! aber: unterschiedliche Prior-Verteilungen ermöglichen unterschiedlich gute Vorhersagen für die Zukunft Posterior-Verteilung ergibt sich deterministisch aus Prior und Likelihood der Beobachtungen durch Satz von Bayes 22

23 Prior der Impfstudie Verteilung über alle Wirkraten keine diskrete, sondern kontinuierliche Verteilung P(θ) beschreibt eine Dichtefunktion Häufige Wahl (bei Parameterraum ): Beta-Verteilung definiert durch 2 Parameter α und β Beta-Funktion; dient der Normalisierung 23

24 Beta-Verteilung Spezialfall: α = β = 1 Gleichverteilung 24

25 Schema für Ermittlung der Posterior- Verteilung Gegeben: Prior-Verteilung P(θ) Beobachtungen x 1,,x n, Likelihood P(x 1,,x n θ) Gesucht: Posterior-Verteilung P(θ x 1,,x n ) 1. Satz von Bayes anwenden 2. Randverteilung für kontinuierliche Parameter einsetzen 25

26 Ermittlung der Posterior-Verteilung: Beispiel Gegeben: Modellparameterraum Beta-Prior mit Parametern α und β : P(θ)=Beta(θ α,β) Bernoulli-Likelihood binäre Beobachtungen x 1,,x n, bedingt unabhängig gegeben Modellparameter θ Gesucht: a positive Beobachtungen, b negative Posterior P(θ x 1,,x n ) 26

27 1. Satz von Bayes 2. bedingte Unabhängigkeit 3. a positive, b negative Beob. 4. Bernoulli- und Beta-Verteilung einsetzen 5. Terme zus.-fassen, Randverteilungsformel 6. Definition der Beta-Funktion 7. Kürzen, Definition der Beta-Verteilung 27

28 Konjugierter Prior Im vorherigen Beispiel: Übergang vom Prior Beta(θ α,β) durch a positive und b negative Beobachtungen zum Posterior Beta(θ α+a,β+b) algebraische Form von Posterior und Prior identisch Die Beta-Verteilung ist der konjugierte Prior zur Bernoulli-Likelihood Immer vorteilhaft, den konjugierten Prior zu verwenden, um zu garantieren, dass der Posterior effizient berechenbar ist 28

29 Rechenbeispiel: Impfstudie Prior: Beta mit α=1, β=5 8 gesunde Testpersonen, 2 infizierte ergibt Posterior: Beta mit α=9, β=7 29

30 Ermittlung des Posteriors: mechanisch Füllhöhe zu Beginn: Prior Likelihood-Funktion (nach hinten gewölbt) als Filter ergibt Posterior als resultierende Sandmenge Scheffer/Vanck: Sprachtechnologie Scheffer/Haider/Prasse: Sprachtechnologie Francis Galton,

31 Parameterschätzung Bayes sche Inferenz liefert keinen Modellparameter, sondern Verteilung über Modellparameter Ermittlung des Modells mit der höchsten Wahrscheinlichkeit: MAP-Schätzung maximum-a-posteriori = maximiert den Posterior θ MAP = argmax θ P(θ Beobachtungen) Im Gegensatz dazu: plausibelstes Modell = ML- Schätzung maximum-likelihood = maximiert die Likelihood ohne Berücksichtigung des Priors θ ML = argmax θ P(Beobachtungen θ) 31

32 Parameterschätzung: Beispiel Impfstudie: Prior: Beta mit α=1, β=5 8 gesunde Testpersonen, 2 infizierte ergibt Posterior: Beta mit α=9, β=7 ML-Schätzung: θ ML = argmax θ P(Beobachtungen θ) Lösungstipp: max(theta^8*(1-theta)^2) MAP-Schätzung: θ MAP = argmax θ P(θ Beobachtungen) Likelihood-Funktion (keine Wahrscheinlichkeitsverteilung) 32

33 Vorhersage Fragestellung: Welche Beobachtungen kann man in Zukunft erwarten, gegeben die Beobachtungen der Vergangenheit? = Vorhersage für Testdaten, gegeben eine Menge von Trainingsdaten P(X neu x 1,,x n ) Vorhersage mit MAP-Schätzung: erst θ MAP bestimmen durch θ MAP = argmax θ P(θ x 1,,x n ) dann P(X neu θ MAP ) bestimmen (Likelihood-Verteilung) ist manchmal einfach zu berechnen, ist aber mit Informationsverlust verbunden θ MAP nicht der wahre Modellparameter, sondern nur der wahrscheinlichste es wird ignoriert, dass auch andere Modelle in Frage kommen 33

34 Bayes-optimale Vorhersage Kein Zwischenschritt über das MAP-Modell, sondern direkte Herleitung der Vorhersage: 2. bedingte Unabhängigkeit mitteln über alle Modelle (Bayesian Model-Averaging) 1. Randverteilung gewichtet durch: wie gut passt das Modell zu den früheren Beobachtungen? (Posterior) Vorhersage gegeben Modell 34

35 Vorhersage: Beispiel Impfstudie: Mit welcher Wahrscheinlichkeit bleibt eine neue Person gesund, gegeben die Beobachtungen aus der Studie? Vorhersage mit MAP-Modell: θ MAP = argmax θ P(θ Beobachtungen) = 4/7 P(X neu = gesund θ MAP ) = θ MAP = 4/7 Bayes-optimale Vorhersage: Erwartungswert einer Beta-Verteilung mit Parametern α und β: 35

36 Erwartungswert Zufallsvariable X mit Verteilung P(X): Der Erwartungswert E(X) ist der gewichtete Mittelwert der möglichen Werte von X Werte werden mit ihrer Wahrscheinlichkeit gewichet diskrete Zufallsvariable: kontinuierliche Zufallsvariable: 36

37 Erwartungswert: Beispiel St. Petersburger Spiel: Man wirft eine Münze so lange, bis sie zum ersten Mal Kopf zeigt passiert dies gleich beim ersten Wurf, gewinnt man 1 Euro falls nicht, verdoppelt sich der Gewinn so oft man Zahl geworfen hat der Gewinn den man am Ende erhält ist eine Zufallsvariable X Erwarteter (durchschnittlicher) Gewinn: 37

38 Rekapitulation Bayes sches Lernen: einfacher besser subjektiver Prior: Ausgangsverteilung über die Modelle Beobachtungen aus der Vergangenheit: Likelihood gegeben Modellparameter ergibt durch Satz von Bayes Posterior: Verteilung über Modelle gegeben die Beobachtungen Vorhersagen für die Zukunft: entweder MAP-Modell berechnen (Maximierung des Posteriors), dann Vorhersage damit oder Bayes-optimale Vorhersage: über alle Modelle mitteln, gewichtet mit ihrer Posterior- Wahrscheinlichkeit 38

39 Fragen? 39