Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II: Zusammenfassung

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II: Zusammenfassung

2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning

3 Problemstellungen des maschinellen Lernens Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zb. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. Temporal Credit Assignment Problem. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

4 Lernen aus Interaktionen Reward Beobachtung Umgebung Agent Controller Aktionen Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

5 Markov Decision Processes Markov-Entscheidungsprozess (S,A,R,P) S : endliche Zustandsmenge A : endliche Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Discount factor. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

6 MDP Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

7 Markov-Eigenschaft Markov-Eigenschaft: Aus Sequenz von Beobachtungen und Aktionen wird Zustand. Markov-Eigenschaft in Realität selten genau erfüllt. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

8 Value Functions Bewertungsfunktionen Value function V ¼ (s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Bewertungsfunktion für Zustand-Aktions-Paar: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

9 Bellman-Gleichungen Für Bewertungsfunktionen gelten die Bellman- Gleichungen (durch Markov-Eigenschaft): Zustand-Aktions-Bewertungsfunktion: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

10 Bellman-Optimalitätsgleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

11 Problemstellungen P,R bekannt. P(s s,a) können abgefragt werden. Planen. P,R nicht explizit bekannt. Aber aus den Verteilungen P(s s,a) kann gesamplet werden. Annahme: Generatives Modell von P und R. P,R nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. Reinforcement Learning. Batch Reinforcement Learning: Es muss von einer fixen Menge von Beispielepisoden gelernt werden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

12 Arten von Reinforcement Learning Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

13 MDP vollständig bekannt Dynamische Programmierung 2 Schritte zum Berechnen der optimalen Policy: Policy Evaluation: V ¼ berechnen für festes ¼ k Policy Improvement: Neues ¼ k+1 bestimmen Policy Iteration. Bellman-Gleichungen bilden ein lineares Gleichungssystem. Zustandsmengen sind allerdings in der Realität in der Regel zu groß um Standardlösungsverfahren für LGS zu verwenden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

14 Policy Iteration Allgemeines Verfahren zum Bestimmen der optimalen Policy. Iteriere: Policy Evaluation: Gegeben Policy ¼ k, bestimme Policy Improvement: Inferiere verbesserte Policy ¼ k+1 aus z.b. greedy Policy: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

15 Value Iteration Iteratives Verfahren zur Berechnung von V ¼ bzw. Q ¼ Konvergiert gegen V ¼ bzw. Q ¼ für k 1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

16 Value Iteration Value Iteration für das Kontrollproblem. Für V * : für Q * : Konvergiert gegen V * bzw. Q * für k 1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

17 TD( ) Updateregel: TD( ) Update: 0 1 interpoliert zwischen 1-step und MC. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

18 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

19 Exploration / Exploitation Problem Tradeoff zwischen Verfolgen der derzeit besten Policy, um den (greedy) Gewinn zu maximieren. (Exploitation) und Erkunden derzeit suboptimaler Aktionen, über deren Wert noch Unsicherheit besteht, um eine potentiell bessere Policy zu finden. (Exploration) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

20 Stochastische Policy: Softmax ¼stochastische Policy. Schätzungen sollen Einfluss auf Auswahlwahrscheinlichkeit haben. Softmax Beispiel: Gibbs-Verteilung: t ist Temperaturparameter. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

21 Große und unendliche Zustandsräume In realistischen Anwendungen sind Zustandsräume i.a. sehr groß bzw. kontinuierlich. Bisherige Annahme: tabellarische Repräsentation der Value Function. Mögliche Lösungen: Planen: Monte-Carlo Sampling Diskretisierung und anschließend z.b. Value Iteration Approximation der Value Function durch Funktionsapproximationsmethoden. Direktes Lernen der Policy. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

22 Monte-Carlo Sampling Angenommen, S sehr groß Ziel: Finde Q, so dass Q-Q * 1 <². Sparse Lookahead Trees: [Kearns et al. 02] Monte-Carlo: Samplen eines sparsen Aktions-Zustands-Baums. Tiefe des Baums: Effektiver Horizont H(²) = O( 1/(1- ) log(1/²(1- )) ) MC unabhängig von S Aber exponentiell in H(²): min. Größe des Baums Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

23 Sparse Lookahead Trees Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

24 Upper Confidence Bounds for Trees Besser: Nur solche Teilbäume genauer untersuchen, die vielversprechend sind. Optimismus bei Unsicherheit! Nutze das gleiche Prinzip wie bei Bandit Problem. UCT: UCB for Trees. [Kocsis & Szepesvári 06] Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

25 Diskretisierung Kontinuierlicher Zustandsraum S. Random Discretization Method: [Rust 97] Sampling von Zuständen S nach uniformer Verteilung über den Zustandsraum. Value Iteration. Kontinuierliche Value Iteration: Diskretisierung: Weighted Importance Sampling Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

26 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V ¼, bzw. Q ¼ am besten approximiert wird. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

27 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <s t, a t, R t, s t+1 > aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹ (s). Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

28 FA für Reinforcement Learning Online Updates: Anpassen von µ t nach jeder Interaktion <s t, a t, R t, s t+1 >. Qˆ(; θ ) Gradientenabstieg: t Qˆ(; θ ) t Q π Q * t t Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

29 FA für Reinforcement Learning Spezialfall: lineare Methoden. ˆ(; ) T Q θ = φθ t Gradientenabstieg: 1 2 π θ ˆ t+ 1 = θt αt θ Q ( st, at) Q( st, at; θ ) 2 t π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π = θ (, ) ˆ t + α t Q st at Q( st, at; θ) φ( st, at) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

30 FA für Reinforcement Learning Value Function V ¼ unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V ¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen für t ) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

31 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t+ 1 = t t θ Q st at Q st at t θ θ α (, ) (, ; θ ) 2 = θ (, ) max ˆ( ˆ ˆ t + α t Rst at + γ Qst+ 1, a; θt) Qs ( t, at; θt) θqs ( t, at; θt) a T T = θt + α t R( st, at) + γ max φ( st+ 1, a) θt φ( st, at) θ t φ( st, at) a 2 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

32 FA für Reinforcement Learning TD( ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

33 SARSA( ) Kontrollproblem: SARSA( ) (On-Policy) Off-policy kann divergieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

34 Fitted Value Iteration mit Samples [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹ (s). Für jedes s und a2a, Ziehe M Nachfolgezustände s aus P( s,a) und Rewards R(s,a). Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Dann least-squares Fitting: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

35 Fitted Policy Evaluation mit Samples Q = 0. Ziehe N Samples s,a aus ¹ (s),p(a). Ziehe R und Nachfolgezustand s entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Q ( sa, ) Rsa (, ) + γq( s', π( s')) k+ 1 i= 1 Dann least-squares Fitting: M M Qˆ ( s, a) argmin Q ( s, a ) f( s, a ) k+ 1 k+ 1 i i i i f I i = 1 k Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

36 Approximate Policy Iteration Falls Samples von Q ¼ (s,a) bekannt, lerne Q ¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a)) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

37 Least-Squares Temporal Difference Q ist aus Funktionsraum F. T ¼ Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T ¼ Q auf F. Unbiased. LSTD oft bessere Ergebnisse. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

38 Bellman-Operatoren In (linearer) Operatorschreibweise: Mit linearem Operator T ¼ : Q ¼ ist ein Fixpunkt des Bellman-Operators T ¼. Iteration: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

39 Recommendation Empfehlung von Produkten, Informationen, Personen, Musik, Ziel: Rausfilterung von unwichtigen / unerwünschten / unsympathischen Optionen; Finden von wichtigen / gefallenden / beliebten Optionen Basierend auf Transaktionen aus der Vergangenheit: Käufe, Bewertungen, Klicks, Nutzerspezifisch: Keine globale Sortierung der Optionen, sondern persönliche Empfehlung Landwehr/Sawade/Scheffer, Maschinelles Lernen II 1

40 Inhaltsbasierte Recommendation Featureabbildung φ: X R d notwendig Unabhängige Lernprobleme: Normale Regressions- oder Klassifikationsformalisierung Gemeinsames Lernproblem: Verteilung der Gewichtsvektoren um gemeinsamen, gleichzeitig gelernten, Mittelpunkt Landwehr/Sawade/Scheffer, Maschinelles Lernen II 2

41 Kollaborative Recommendation Keine Featureabbildung nötig. K-Nearest-Neighbor: Vorhersage berechnet sich als gewichtetes Mittel der Bewertungen der ähnlichsten Nutzer Latente Features: Gleichzeitiges Lernen von versteckten Geschmacks -Featurevektoren von Benutzern und Objekten Landwehr/Sawade/Scheffer, Maschinelles Lernen II 3

42 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias Scheffer

43 Graphische Modelle Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten 2

44 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 3

45 Graphische Modelle: Einführung am Beispiel Beispiel: Alarm Szenario Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm hört. Wenn eingebrochen wurde, wollen wir zurück kommen. Leider ist der Nachbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B E A N R Burglary Einbruch hat stattgefunden Earthquake Erdbeben hat stattgefunden Alarm Alarmanlage geht los NeighborCalls Nachbar ruft an RadioReport Bericht über Erdbeben im Radio 4

46 Graphische Modelle: Einführung am Beispiel Ziel: Repräsentation der gemeinsamen Verteilung p(b,e,a,n,r) Wähle Variablenordnung: z.b. B<E<A<N<R Produktregel: p( B, E, A, N, R) p( B, E, A, N) p( R B, E, A, N) p( B, E, A) p( N B, E, A) p( R B, E, A, N) p( B, E) p( A B, E) p( N B, E, A) p( R B, E, A, N) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. 5

47 Graphische Modelle: Einführung am Beispiel p( B, E, A, N, R) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Idee: vereinfache Faktoren durch Unabhängigkeitsannahmen p( E B) p( E) p( A B, E) p( A B, E) p( N B, E, A) p( N A) p( R B, E, A, N) p( R E) Vereinfachte Darstellung der gemeinsamen Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) Vereinfachte Faktoren Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab Anruf von Nachbar hängt nur von Alarm ab Nachricht im Radio hängt nur von Erdbeben ab 6

48 Graphische Modelle: Einführung am Beispiel Graphisches Modell für Alarm Szenario P(B=1) P(E=1) B E P(A=1 B,E) B E A N A P(N=1 A) Modellierte Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) E P(R=1 E) R Graphisches Modell: - Jede ZV ist ein Knoten - Für jeden Faktor der Form p( X X,..., X ) fügen wir gerichtete Kanten von den X zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen px ( X1,..., X k ) 1 i k 7

49 Graphische Modelle: Unabhängigkeit Die Graphstruktur impliziert Unabhängigkeiten zwischen Mengen von ZV D-separation Kriterium, um Unabhängigkeiten aus Graphstruktur abzulesen A,B unabhängig gegeben C gdw jeder Pfad von Knoten in A zu Knoten in B blockiert ist gegeben C Menge einfacher Regeln, wann Pfade blockiert sind 8

50 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R? B A N E R Nein, p( A R) p( A) Divergierende Verbindung B= Einbruch E= Erdbeben A= Alarm N= Nachbar ruft an R= Radio Bericht RadioReport wahrscheinlich Erdbeben wahrscheinlich Alarm ZV R beeinflusst ZV A über die divergierende Verbindung R E A 9

51 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R E? B A N E R Ja, p( A R) p( A) Divergierende Verbindung B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport Der divergierende Pfad R E A wird durch Beobachtung von E blockiert 10

52 Serielle Verbindungen Betrachte Pfad N A B. Gilt? B Serielle Verbindung A N E R Nein, p( B N) p( B) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: NeighborCalls wahrscheinlich Alarm wahrscheinlich Burglary p( B 1 N 1) p( B 1 N 0) B= Einbruch E= Erdbeben A= Alarm ZV N beeinflusst ZV B über den seriellen Pfad N AB N= Nachbar ruft an R= Radio Bericht 11

53 Serielle Verbindungen Betrachte Pfad N A B. Gilt A? B Serielle Verbindung A N E R Ja, p( B N, A) p( B A) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft Der serielle Pfad N A B wird durch Beobachtung von A blockiert. 12

54 Konvergierende Verbindung Betrachte Pfad B A E. Gilt? B Konvergierende Verbindung A N E R Ja, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben N= Nachbar ruft an R= Radio Bericht Der konvergierende Pfad B A E ist blockiert wenn A nicht beobachtet ist 13

55 Konvergierende Verbindung Betrachte Pfad B A E. Gilt A? B Konvergierende Verbindung A N E R Nein, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B AE wird freigegeben durch Beobachtung von A 14

56 D-Separation: Korrektheit, Vollständigkeit Gegeben ein graphisches Modell über {X 1,,X N } mit Graphstruktur G. Das GM modelliert eine Verteilung durch p( X,..., X ) p( X pa( X )) 1 N i1 abhängig von den bedingten Verteilungen p( X n pa( X n)). Theorem (Korrektheit, Vollständigkeit d-separation) Falls A,B d-separiert gegeben C in G, dann N Es gibt keine anderen Unabhängigkeiten, die für jede Wahl der bedingten Verteilungen p( X pa( X )) gelten. i i i i p( A B, C) p( A C) 15

58 Münzwürfe als graphisches Modell Münzwurf: N Bernoulli-verteilte Zufallsvariablen Parameter, Beta-Prior p ( X,..., X, ) p ( p( X ) 1 N k z k z Darstellung als graphisches Modell: X X 1 2 X 3 Prior X N N i1 i Likelihood pa( ) pa( X ) { } i X,..., 1 XN 17

59 Parameterschätzung als Inferenzproblem MAP-Parameterschätzung Münzwurf Inferenzproblem: arg max p ( x,..., x ) k z 1 N p, ( ) X1 2 k z px ( ) px ( ) X X X 3 Evidenz auf den Knoten X 1,, X N Wahrscheinlichster Zustand des Knotens μ gegeben X 1,, X N N 18

60 Plate-Modelle Plate Notation X X 1 2 X 3 X N Plate Notation Ein Plate ist eine abkürzende Notation für N Variablen der gleichen Form Bezeichnet mit Anzahl der Variablen, N Variablen haben Index (z.b. X i ). X i N Plate 19

61 Erinnerung: Bayessche Lineare Regression Diskriminatives Setting: x i fest, Verteilung über Label y i Lineares Modell plus Gaußsches Rauschen p y N y T 2 ( x, w) w x ( 0, ) Bayessches Setting: Prior auf Parametervektor p N I 2 2 ( w ) ( w 0, ) Zufallsvariablen: (nicht: x x N ), y1,..., yn y T wx w 1,...,,, x 20

62 Bayessche Lineare Regression als Graphisches Modell 1 Graphisches Modell, N=3 y 1 N , yn, w x1,..., xn w ( i xi, w, ) i1 Prior Likelihood p( y,,, ) p( ) p y w y2 y3 x1 x2 x3 Graphisches Modell, Plate-Notation x i w y i N 21

63 MAP Parameterschätzung als Inferenzproblem w y1 y2 y3 x1 x2 x3 MAP Parameterschätzung: wahrscheinlichstes Modell gegeben Daten w w x x 2 2 * arg max w p( y1,..., y N, 1,..., N,, ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten w, gegeben beobachtete Knoten y 1,, y N? x n w y n N 22

64 Bayes-optimale Vorhersage Klassifikation mit MAP Modell: w*,, 2 2 arg max w p( w L X, ) y p y 2 * arg max y ( xw, *, ) w x T * Statt MAP Modell kann man auch direkt die Bayes sche Vorhersageverteilung ausrechnen: p( y, L, X,, ) p( y,, ) p( L, X,, ) d X x1... x N Merkmalsvektoren x x w w w Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu legen 23

65 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage: Erweiterung des Modells durch neue Testinstanz (neue Zufallsvariable y) p( y,,, ) p( ) p( y, p y N ,..., yn, y, w x1,..., xn x w i w xi, ) ( w, x, ) i1 Graphisches Modell, N=3 w y1 y2 y3 x1 x2 x3 x y Plate Notation x n w y n N x y 24

66 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage y p y L X * 2 2 arg max y ( x,,,, ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten y, gegeben beobachtete Knoten y 1,, y N? 25

68 Problemstellung Inferenz Gegeben Bayessches Netz über Menge von ZV {X 1,,X N }. Problemstellung Inferenz: Variablen mit Evidenz Anfrage-Variable Berechne Randverteilung über Anfrage-Variable gegeben Evidenz Bedingte Verteilung über ZV X a Berechne p( x x,..., x ) a i1 i m X,..., X { i,..., i } {1,..., N} i i m 1 m 1 X a {1,..., N { i,..., i } a Evidenz: beobachtete Werte für ZV X,..., X } 1 m i1 i m 27

69 Exakte Inferenz: Naiv Naive Inferenz: Notation :{ X,..., } { X, X,..., X, X,..., X } 1 X N a i i j p( x x,..., x ) a i i 1 Anfrage- Variable m p( x, x,..., x ) a 1 m 1 Evidenz-Variablen 1 i j1 j2 1 m p( x,..., x ) i x x x i 1 p ( xa, xi 1,..., xi m ) Z 1 p( x1,..., xn ) Z Zentrales Problem: Aussummieren aller restlichen Variablen (exponentiell, wenn naiv gelöst) m jk i restliche Variablen j k 28

70 Graphische Modelle: Inferenz Inferenz schwieriges Problem Allgemeine Graphische Modelle: exakte Inferenz NP-hart Es gibt Algorithmen für exakte Inferenz in Graphischen Modellen, deren Laufzeit von den Eigenschaften der Graphstruktur abhängt ( Message-Passing ) Es gibt verschiedene Techniken für approximative Inferenz (Sampling, Variational Inference, Expectation Propagation) Wir betrachten Message-Passing Algorithmus: in Spezialfällen Sampling-basierte approximative Inferenz 29

71 Effiziente exakte Inferenzmethoden? Idee Message Passing : Lokale Berechnungen, die entlang der Graphstruktur propagiert werden Knoten schicken sich gegenseitig Nachrichten, die Ergebnisse von Teilberechnungen enthalten 30

72 Graphische Modelle: Inferenz auf linearer Kette Wir betrachten zunächst Spezialfall mit besonders einfacher Struktur: lineare Kette von Zufallsvariablen x1 x2 x3 x 4 p( x ) p( x x ) p( x x ) p( x x ) N N1 p( x1,..., xn) 1,2 ( x1, x2) 2,3( x2, x3)... N 1, N( xn, xn 1) Darstellung der gemeinsamen Verteilung als Produkt von Potenzialen ( x, x ) über je zwei ZV ii, 1 i i1 31

73 Message Passing Algorithmus Austausch von Alpha Nachrichten von links nach rechts ( x ) 1 1 Für k 2,..., a: ( x ) ( x, x ) ( x ) ( x ) 2 ( ) ( ) x a 1 k k1, k k1 k k1 x x a Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x x k 32

74 Message Passing Algorithmus Austausch von Beta Nachrichten von rechts nach links ( ) 1 x N Für k N -1,..., a: ( x ) ( x, x ) ( x ) k kk, 1 k k1 k1 x ( x a ) ( ) x a 1 Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x ( ) x N 1 x k 33

75 Message Passing Algorithmus Nachrichten treffen sich im Anfrageknoten ( x2) x a 1 ( ) ( ) Randverteilung ohne Evidenz ergibt sich als Produkt der Nachrichten p( x ) ( x ) ( x ) a a a x a x a ( x a ) ( x a 1) x N 1 x a ( ) 34

76 Message Passing mit Evidenz Evidenz: Leichte Modifikation des Message-Passing Algorithmus Falls x k+1 unbeobachtet ist, summieren wir diesen Knoten aus k 1 { i,. } ( x ) ( x, x ) x ) 1.., im k k, k1 k k1 ( k1 x k1 Falls x k+1 beobachtet ist, verwenden wir nur den entsprechenden Summanden x k1 beobachteter Wert (Evidenz) k 1 { i,..., i } ( x ) ( x, x ) ( x ) 1 m k k, k1 k k1 k1 35

77 Inferenz: Message-Passing Laufzeit: Berechnung einer Nachricht: x : ( x ) ( x, x ) ( x ) k k k, k1 k k1 k1 x N Nachrichten insgesamt Viel besser als naive Inferenz mit k1 2 OK ( ) für Berechnung einer Nachricht (K diskrete Zustände) 2 O( NK ) Gesamtlaufzeit N OK ( ) 36

78 Inferenz in Allgemeinen Graphen Grundidee Message-Passing auf Polytrees: Umwandlung in Faktor-Graph (ungerichteter Baum) Ursprünglicher Graph x 4 x 1 Gemeinsame Verteilung p( x, x, x, x, x ) x 5 x 3 p( x ) p( x ) p( x x, x ) p( x ) p( x x, x ) x 2 Faktor Faktor-Graph Faktor-Knoten - Für jeden Faktor in der gemeinsamen Verteilung gibt es einen Faktor-Knoten - Ungerichtete Kanten von den Faktor-Knoten zu den im Faktor auftauchenden Variablen 37

79 Inferenz in Allgemeinen Graphen (Skizze) Falls der ursprüngliche Graph ein Polytree war, ist der Faktor- Graph ein ungerichteter Baum (dh zykelfrei). Blätter x a Betrachten Anfragevariable als Wurzel des Baumes Nachrichten von den Blättern zur Wurzel schicken (immer eindeutiger Pfad, weil Baum) x a Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und Variablen-Nachrichten x a Spezialfall lineare Kette 38

80 Inferenz in Allgemeinen Graphen Inferenz in Graphen, die keine Polytrees sind? Approximativer Ansatz: Iteratives Message-Passing Schema, wegen Zyklen im Graph nicht exakt Alternative für exakte Inferenz in allgemeinen Graphen: x 1 x2 x3 x 4 p( x) p( x ) p( x x ) p( x x ) p( x x, x ) Graph in einen äquivalenten azyklischen Graphen umwandeln Junction Tree Algorithmus, (i.a. exponentielle Laufzeit) Loopy Belief Propagation 39

81 Approximative Inferenz Exakte Inferenz NP-hart: In der Praxis spielen approximative Inferenzverfahren wichtige Rolle Wir betrachten Sampling-basierte Verfahren Relativ einfach zu verstehen/implementieren Praktisch brauchbar 40

82 Inferenz: Sampling-basiert Grundidee Sampling: p() z Wir interessieren uns für eine Verteilung, z.b. bedingte Verteilung über Anfragevariablen in graphischem Modell) Es ist schwierig, p() z direkt auszurechnen Stattdessen ziehen wir Samples (Stichproben) z ( k) ~ p( z) i.i.d., k 1,..., K, z ( k ) jedes Sample ist eine vollständige Belegung der Zufallsvariablen in z (1) (2) ( K ) Die Samples z, z,..., z approximieren die Verteilung 41

83 Inferenz: Sampling-basiert Beispiel: Anteil Samples mit Wert z Eindimensionale Verteilung, Diskrete Variable mit Zuständen {0,,6}: Anzahl Kopf bei 6 Münzwürfen Sample-Histogramm z z K {} z Echte Verteilung (Binomial) 42

84 Inferenz: Sampling-basiert Wie erhalten wir Samples aus der gesuchten Verteilung p() z? Markov Chain Monte Carlo: Klasse von Sampling- Verfahren, die in der Praxis oft effizientes Samplen ermöglichen z 43

85 Inferenz: MCMC Markov Chain Monte Carlo ( MCMC ) Idee: Strategie: Konstruiere Folge von Samples (0) (1) (2) (3) (4) (5) z z z z z z... (0) ( t1) t z z update z zufällig initialisiert ( ) durch mehrfache probabilistische Update-Schritte Wenn Updates geeignet gewählt, gilt asymptotisch ZV: T-te Variablenbelegung ( T z ) ~ p( z) ungefähr, für sehr grosse T 44

86 Inferenz: Gibbs Sampling Gibbs Sampling: Eine Version von MCMC Lokales Ziehen einer ZV gegeben den Zustand aller anderen Variablen Gegeben aktueller Zustand Ziehen des neuen Zustands x ' ( ' ') : Bisher gesampelte (alte) Werte x ' ~ p( x x,..., x ) x ' ~ p( x x ', x,..., x ) x ' ~ p( x x ', x ', x,..., x ) xn ' ~ p( xn x1 ', x2 ',..., xn 1 ') 3 x N ( N x,..., ) 1 x N x,..., 1 x N N 45

87 Gibbs-Sampling mit Evidenz Gibbs Sampling kann einfach Evidenz berücksichtigen Mit Evidenz: Nur die unbeobachteten Variablen werden jeweils neu gezogen, die beobachteten Variablen werden fest auf den beobachteten Wert gesetzt Satz: Falls p( xn x1, x2,..., xn 1, xn 1,..., xn 1) 0 für alle n und alle möglichen Zustände x i, dann folgen die generierten Samples asymptotisch der gesuchten Verteilung 46

88 Hidden Markov Modelle Zustände (versteckt) Beobachtungen Hidden Markov Modelle für sequentielle Daten Probabilistischer Automat: Versteckte Zustände, Beobachtungen q 1 q2 q q 3 4 O1 O2 O3 O 4 47

89 48

90 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse I Christoph Sawade/Niels Landwehr/Tobias Scheffer

91 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 50

92 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster 51

93 Problemstellung Clustering (Deterministisch) Problemstellung k-means: Gesucht sind Zuweisung der Daten zu Clustern: Clusterzentren K,...,, k 1,..., K 1 K K-Means Algorithmus: abwechselnde Neuberechnung von Clusterzentren und Clusterzugehörigkeiten 52

94 K-Means: Beispiel K = 2 53

101 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 60

102 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess zur Erzeugung der Daten Cluster wählen, anschliessend Datenpunkt generieren versteckt beobachtet p( z, x) p( z) p( x z) Wähle Clusterkomponente Generiere Daten aus Komponente 61

103 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung über Clusterkomponenten: Multinomialverteilung Verteilung der Daten in einem Cluster k: normalverteilt p( x z 1) ( x, ) k k k Clusterzentrum 1 1 exp ( x Z 2 Clusterkovarianz T 1 k ) k ( x k ) Beispiel D=2: Dichte, Samples aus Verteilung Normalisierer Z 2 D/2 1/2 62

104 EM Algorithmus Clustern = Anpassen des Modells an Daten (Maximum Likelihood) Iteratives Verfahren EM: bestimme Parameter Betrachte Q-Funktion Erwartungswert über p( Z X, ) Beginne mit zufälligem. Iteriere: Expectation: Maximization: 1,,, Parameterwert im letzten Schritt 63

105 Beispiel Gaußsches Mischmodell Clustering 64

110 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Zusammenfassung Christoph Sawade/Niels Landwehr Tobias Scheffer

111 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 2

113 Graphen-basiertes Clustern Ähnlichkeitsgraph Ähnlichkeit zwischen Datenpunkten (Knoten) bilden gewichtete Kanten: V 4

114 Spectral-Clustering (unnormalisiert) Relaxation NP-hart RatioCut PV n n T 2 i i i1 i1 min f Lf, wobei f 0, f n (Unnormalisiertes) Spectral-Clustering f n n n T 2 i i i1 i1 min f Lf, wobei f 0, f n Diskretisierung: sign(f i) Eigenwertproblem 5

116 PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature Aussagelos sind oder sich aus anderen ergeben d mm Ziel: Reduktion auf -dimensionalen Hauptunterraum 7

117 PCA Projektion Eine Projektion ist eine idempotente lineare Abbildung m T Sei u mit 1 u1u1 1 T y1 x u1x stellt Projektion in einen eindimensionalen Unterraum dar Für Daten im Projektionsraum gilt: T y x u x Mittelpunkt: Varianz: 1 1 n 1 2 u x u x u u n i 1 T T T 1 i x x i y x 1 i y1 x T ux 1 8

118 PCA Optimierungsproblem T Ziel: Varianz der projizierten Daten u soll nicht 1u1 verloren gehen T Maximiere u1u1 bzgl. u1, wobei T T u u 1 u u Lagrangian: Ableiten, Nullsetzen: u1 1u1 Lösung muss Eigenvektor sein T u1 u1 1 Varianz ist entsprechender Eigenwert Bestimmung des größten Eigenwert Größter Eigenvektor ist erste Hauptkomponente T u1u1 1 9

119 Fisher-Diskriminante Durch die PCA induzierter Unterraum erhält maximale Varianz der gesamten Daten Nicht das richtige Kriterium für Klassifikation x Original Space x 1 T 10 Xu P C A x x 1 u PCA Subspace u PCA PCA PCA T 0.05 Xu FS I x Fisher Subpace x 1 b u u FIS FIS w FIS 10

121 Bayes-Point Herleitung Mitteln der Vorhersage über alle (linearen) ineffiziente Modelle mit der Gewichtung wie gut ein Modell zu den Daten passt: x * hp AC sign sign w, x p w dw wvs Approximation der Bayes-Hypothese durch den Bayes- Punkt x * hpac sign w, x p w dw sign wvs w cm,x wcm wp w L dw ist der Masseschwerpunkt des wvs Version-Space Klassifikation 12

122 Billiard-Algorithmus Duale Darstellung v i v' w1 i v i v y x,w di x w 0 w 0 i i 0 i x i i x i w i i v i i d i w 0 w p i w 2 i i1 wi 1 13

124 Konfidenzintervalle Hypothesenbewertung: Was ist der erwartete Fehler (Risiko) eines Modells?, ( ), R f y f x p x y dxdy Da p x, y unbekannt ist, muss es aus Daten geschätzt werden, z.b.: ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 i i i i ˆR f Was sagt über R f aus? 15

125 Konfidenzintervalle ˆR f Punktschätzer sagt nichts über die Unsicherheit der Schätzung (Schätzfehler) aus. Idee: Intervall um den geschätzten Fehler angeben, so dass der echte Fehler meistens im Intervall liegt Ein zweiseitiges Konfidenzintervall C mit Konfidenz 1 gibt an, dass RCmit Wahrscheinlichkeit 1 gilt. Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable [ ] R Rˆ L, U 16

126 Konfidenzintervalle Übergang von der Verteilung zum Konfidenzintervall: ˆR f Schätzer ist binomialverteilt (Clopper-Pearson): Schätzer ist annähernd normalverteilt (Wald): C 1 1 CCP 1 Beta n k, k 1, Beta 1 n k 1, k 2 2 Wald k 1 n n 2 n ˆR f R R Experimente Experimente 17

127 Statistische Tests Hypothesenvergleich: Ist mein Modell besser als die Baseline-Methode? Da p x, y unbekannt ist, müssen Risiken aus Daten geschätzt werden. ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 R f R f 1 2 i i i i Was sagt der beobachtete Unterschied über R f R f aus? 1 2 Rˆ f Rˆ f

128 Statistische Tests Nullhypothese: Aussage, von der wir bis auf weiteres ausgehen, die wir aber überprüfen möchten und zu widerlegen bereit sind. Bedingung für einen statistischen Test: Wenn die Nullhypothese gilt, dann darf sie nur mit einer Wahrscheinlichkeit von höchstens abgelehnt werden. Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. 19

129 Statistische Tests Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. c T 20

130 p-wert p-wert: kleinste Signifikanz-Niveau, für das die Nullhypothese abgelehnt wird Tx c T 21

131 Dualität Ein Test mit Signifikanzniveau verwirft die Nullhypothese h 0: 0, genau dann nicht, wenn 0 innerhalb des 1 -Vertrauensintervalls liegt. 22