Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II: Zusammenfassung

Größe: px
Ab Seite anzeigen:

Download "Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II: Zusammenfassung"

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II: Zusammenfassung

2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning

3 Problemstellungen des maschinellen Lernens Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zb. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. Temporal Credit Assignment Problem. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

4 Lernen aus Interaktionen Reward Beobachtung Umgebung Agent Controller Aktionen Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

5 Markov Decision Processes Markov-Entscheidungsprozess (S,A,R,P) S : endliche Zustandsmenge A : endliche Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Discount factor. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

6 MDP Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

7 Markov-Eigenschaft Markov-Eigenschaft: Aus Sequenz von Beobachtungen und Aktionen wird Zustand. Markov-Eigenschaft in Realität selten genau erfüllt. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

8 Value Functions Bewertungsfunktionen Value function V ¼ (s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Bewertungsfunktion für Zustand-Aktions-Paar: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

9 Bellman-Gleichungen Für Bewertungsfunktionen gelten die Bellman- Gleichungen (durch Markov-Eigenschaft): Zustand-Aktions-Bewertungsfunktion: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

10 Bellman-Optimalitätsgleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

11 Problemstellungen P,R bekannt. P(s s,a) können abgefragt werden. Planen. P,R nicht explizit bekannt. Aber aus den Verteilungen P(s s,a) kann gesamplet werden. Annahme: Generatives Modell von P und R. P,R nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. Reinforcement Learning. Batch Reinforcement Learning: Es muss von einer fixen Menge von Beispielepisoden gelernt werden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

12 Arten von Reinforcement Learning Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

13 MDP vollständig bekannt Dynamische Programmierung 2 Schritte zum Berechnen der optimalen Policy: Policy Evaluation: V ¼ berechnen für festes ¼ k Policy Improvement: Neues ¼ k+1 bestimmen Policy Iteration. Bellman-Gleichungen bilden ein lineares Gleichungssystem. Zustandsmengen sind allerdings in der Realität in der Regel zu groß um Standardlösungsverfahren für LGS zu verwenden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

14 Policy Iteration Allgemeines Verfahren zum Bestimmen der optimalen Policy. Iteriere: Policy Evaluation: Gegeben Policy ¼ k, bestimme Policy Improvement: Inferiere verbesserte Policy ¼ k+1 aus z.b. greedy Policy: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

15 Value Iteration Iteratives Verfahren zur Berechnung von V ¼ bzw. Q ¼ Konvergiert gegen V ¼ bzw. Q ¼ für k 1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

16 Value Iteration Value Iteration für das Kontrollproblem. Für V * : für Q * : Konvergiert gegen V * bzw. Q * für k 1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

17 TD( ) Updateregel: TD( ) Update: 0 1 interpoliert zwischen 1-step und MC. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

18 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

19 Exploration / Exploitation Problem Tradeoff zwischen Verfolgen der derzeit besten Policy, um den (greedy) Gewinn zu maximieren. (Exploitation) und Erkunden derzeit suboptimaler Aktionen, über deren Wert noch Unsicherheit besteht, um eine potentiell bessere Policy zu finden. (Exploration) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

20 Stochastische Policy: Softmax ¼stochastische Policy. Schätzungen sollen Einfluss auf Auswahlwahrscheinlichkeit haben. Softmax Beispiel: Gibbs-Verteilung: t ist Temperaturparameter. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

21 Große und unendliche Zustandsräume In realistischen Anwendungen sind Zustandsräume i.a. sehr groß bzw. kontinuierlich. Bisherige Annahme: tabellarische Repräsentation der Value Function. Mögliche Lösungen: Planen: Monte-Carlo Sampling Diskretisierung und anschließend z.b. Value Iteration Approximation der Value Function durch Funktionsapproximationsmethoden. Direktes Lernen der Policy. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

22 Monte-Carlo Sampling Angenommen, S sehr groß Ziel: Finde Q, so dass Q-Q * 1 <². Sparse Lookahead Trees: [Kearns et al. 02] Monte-Carlo: Samplen eines sparsen Aktions-Zustands-Baums. Tiefe des Baums: Effektiver Horizont H(²) = O( 1/(1- ) log(1/²(1- )) ) MC unabhängig von S Aber exponentiell in H(²): min. Größe des Baums Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

23 Sparse Lookahead Trees Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

24 Upper Confidence Bounds for Trees Besser: Nur solche Teilbäume genauer untersuchen, die vielversprechend sind. Optimismus bei Unsicherheit! Nutze das gleiche Prinzip wie bei Bandit Problem. UCT: UCB for Trees. [Kocsis & Szepesvári 06] Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

25 Diskretisierung Kontinuierlicher Zustandsraum S. Random Discretization Method: [Rust 97] Sampling von Zuständen S nach uniformer Verteilung über den Zustandsraum. Value Iteration. Kontinuierliche Value Iteration: Diskretisierung: Weighted Importance Sampling Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

26 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V ¼, bzw. Q ¼ am besten approximiert wird. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

27 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <s t, a t, R t, s t+1 > aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹ (s). Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

28 FA für Reinforcement Learning Online Updates: Anpassen von µ t nach jeder Interaktion <s t, a t, R t, s t+1 >. Qˆ(; θ ) Gradientenabstieg: t Qˆ(; θ ) t Q π Q * t t Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

29 FA für Reinforcement Learning Spezialfall: lineare Methoden. ˆ(; ) T Q θ = φθ t Gradientenabstieg: 1 2 π θ ˆ t+ 1 = θt αt θ Q ( st, at) Q( st, at; θ ) 2 t π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π = θ (, ) ˆ t + α t Q st at Q( st, at; θ) φ( st, at) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

30 FA für Reinforcement Learning Value Function V ¼ unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V ¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen für t ) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

31 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t+ 1 = t t θ Q st at Q st at t θ θ α (, ) (, ; θ ) 2 = θ (, ) max ˆ( ˆ ˆ t + α t Rst at + γ Qst+ 1, a; θt) Qs ( t, at; θt) θqs ( t, at; θt) a T T = θt + α t R( st, at) + γ max φ( st+ 1, a) θt φ( st, at) θ t φ( st, at) a 2 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

32 FA für Reinforcement Learning TD( ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

33 SARSA( ) Kontrollproblem: SARSA( ) (On-Policy) Off-policy kann divergieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

34 Fitted Value Iteration mit Samples [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹ (s). Für jedes s und a2a, Ziehe M Nachfolgezustände s aus P( s,a) und Rewards R(s,a). Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Dann least-squares Fitting: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

35 Fitted Policy Evaluation mit Samples Q = 0. Ziehe N Samples s,a aus ¹ (s),p(a). Ziehe R und Nachfolgezustand s entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Q ( sa, ) Rsa (, ) + γq( s', π( s')) k+ 1 i= 1 Dann least-squares Fitting: M M Qˆ ( s, a) argmin Q ( s, a ) f( s, a ) k+ 1 k+ 1 i i i i f I i = 1 k Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

36 Approximate Policy Iteration Falls Samples von Q ¼ (s,a) bekannt, lerne Q ¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a)) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

37 Least-Squares Temporal Difference Q ist aus Funktionsraum F. T ¼ Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T ¼ Q auf F. Unbiased. LSTD oft bessere Ergebnisse. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

38 Bellman-Operatoren In (linearer) Operatorschreibweise: Mit linearem Operator T ¼ : Q ¼ ist ein Fixpunkt des Bellman-Operators T ¼. Iteration: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2

39 Recommendation Empfehlung von Produkten, Informationen, Personen, Musik, Ziel: Rausfilterung von unwichtigen / unerwünschten / unsympathischen Optionen; Finden von wichtigen / gefallenden / beliebten Optionen Basierend auf Transaktionen aus der Vergangenheit: Käufe, Bewertungen, Klicks, Nutzerspezifisch: Keine globale Sortierung der Optionen, sondern persönliche Empfehlung Landwehr/Sawade/Scheffer, Maschinelles Lernen II 1

40 Inhaltsbasierte Recommendation Featureabbildung φ: X R d notwendig Unabhängige Lernprobleme: Normale Regressions- oder Klassifikationsformalisierung Gemeinsames Lernproblem: Verteilung der Gewichtsvektoren um gemeinsamen, gleichzeitig gelernten, Mittelpunkt Landwehr/Sawade/Scheffer, Maschinelles Lernen II 2

41 Kollaborative Recommendation Keine Featureabbildung nötig. K-Nearest-Neighbor: Vorhersage berechnet sich als gewichtetes Mittel der Bewertungen der ähnlichsten Nutzer Latente Features: Gleichzeitiges Lernen von versteckten Geschmacks -Featurevektoren von Benutzern und Objekten Landwehr/Sawade/Scheffer, Maschinelles Lernen II 3

42 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias Scheffer

43 Graphische Modelle Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten 2

44 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 3

45 Graphische Modelle: Einführung am Beispiel Beispiel: Alarm Szenario Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm hört. Wenn eingebrochen wurde, wollen wir zurück kommen. Leider ist der Nachbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B E A N R Burglary Einbruch hat stattgefunden Earthquake Erdbeben hat stattgefunden Alarm Alarmanlage geht los NeighborCalls Nachbar ruft an RadioReport Bericht über Erdbeben im Radio 4

46 Graphische Modelle: Einführung am Beispiel Ziel: Repräsentation der gemeinsamen Verteilung p(b,e,a,n,r) Wähle Variablenordnung: z.b. B<E<A<N<R Produktregel: p( B, E, A, N, R) p( B, E, A, N) p( R B, E, A, N) p( B, E, A) p( N B, E, A) p( R B, E, A, N) p( B, E) p( A B, E) p( N B, E, A) p( R B, E, A, N) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. 5

47 Graphische Modelle: Einführung am Beispiel p( B, E, A, N, R) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Idee: vereinfache Faktoren durch Unabhängigkeitsannahmen p( E B) p( E) p( A B, E) p( A B, E) p( N B, E, A) p( N A) p( R B, E, A, N) p( R E) Vereinfachte Darstellung der gemeinsamen Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) Vereinfachte Faktoren Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab Anruf von Nachbar hängt nur von Alarm ab Nachricht im Radio hängt nur von Erdbeben ab 6

48 Graphische Modelle: Einführung am Beispiel Graphisches Modell für Alarm Szenario P(B=1) P(E=1) B E P(A=1 B,E) B E A N A P(N=1 A) Modellierte Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) E P(R=1 E) R Graphisches Modell: - Jede ZV ist ein Knoten - Für jeden Faktor der Form p( X X,..., X ) fügen wir gerichtete Kanten von den X zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen px ( X1,..., X k ) 1 i k 7

49 Graphische Modelle: Unabhängigkeit Die Graphstruktur impliziert Unabhängigkeiten zwischen Mengen von ZV D-separation Kriterium, um Unabhängigkeiten aus Graphstruktur abzulesen A,B unabhängig gegeben C gdw jeder Pfad von Knoten in A zu Knoten in B blockiert ist gegeben C Menge einfacher Regeln, wann Pfade blockiert sind 8

50 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R? B A N E R Nein, p( A R) p( A) Divergierende Verbindung B= Einbruch E= Erdbeben A= Alarm N= Nachbar ruft an R= Radio Bericht RadioReport wahrscheinlich Erdbeben wahrscheinlich Alarm ZV R beeinflusst ZV A über die divergierende Verbindung R E A 9

51 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R E? B A N E R Ja, p( A R) p( A) Divergierende Verbindung B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport Der divergierende Pfad R E A wird durch Beobachtung von E blockiert 10

52 Serielle Verbindungen Betrachte Pfad N A B. Gilt? B Serielle Verbindung A N E R Nein, p( B N) p( B) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: NeighborCalls wahrscheinlich Alarm wahrscheinlich Burglary p( B 1 N 1) p( B 1 N 0) B= Einbruch E= Erdbeben A= Alarm ZV N beeinflusst ZV B über den seriellen Pfad N AB N= Nachbar ruft an R= Radio Bericht 11

53 Serielle Verbindungen Betrachte Pfad N A B. Gilt A? B Serielle Verbindung A N E R Ja, p( B N, A) p( B A) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft Der serielle Pfad N A B wird durch Beobachtung von A blockiert. 12

54 Konvergierende Verbindung Betrachte Pfad B A E. Gilt? B Konvergierende Verbindung A N E R Ja, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben N= Nachbar ruft an R= Radio Bericht Der konvergierende Pfad B A E ist blockiert wenn A nicht beobachtet ist 13

55 Konvergierende Verbindung Betrachte Pfad B A E. Gilt A? B Konvergierende Verbindung A N E R Nein, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B AE wird freigegeben durch Beobachtung von A 14

56 D-Separation: Korrektheit, Vollständigkeit Gegeben ein graphisches Modell über {X 1,,X N } mit Graphstruktur G. Das GM modelliert eine Verteilung durch p( X,..., X ) p( X pa( X )) 1 N i1 abhängig von den bedingten Verteilungen p( X n pa( X n)). Theorem (Korrektheit, Vollständigkeit d-separation) Falls A,B d-separiert gegeben C in G, dann N Es gibt keine anderen Unabhängigkeiten, die für jede Wahl der bedingten Verteilungen p( X pa( X )) gelten. i i i i p( A B, C) p( A C) 15

57 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 16

58 Münzwürfe als graphisches Modell Münzwurf: N Bernoulli-verteilte Zufallsvariablen Parameter, Beta-Prior p ( X,..., X, ) p ( p( X ) 1 N k z k z Darstellung als graphisches Modell: X X 1 2 X 3 Prior X N N i1 i Likelihood pa( ) pa( X ) { } i X,..., 1 XN 17

59 Parameterschätzung als Inferenzproblem MAP-Parameterschätzung Münzwurf Inferenzproblem: arg max p ( x,..., x ) k z 1 N p, ( ) X1 2 k z px ( ) px ( ) X X X 3 Evidenz auf den Knoten X 1,, X N Wahrscheinlichster Zustand des Knotens μ gegeben X 1,, X N N 18

60 Plate-Modelle Plate Notation X X 1 2 X 3 X N Plate Notation Ein Plate ist eine abkürzende Notation für N Variablen der gleichen Form Bezeichnet mit Anzahl der Variablen, N Variablen haben Index (z.b. X i ). X i N Plate 19

61 Erinnerung: Bayessche Lineare Regression Diskriminatives Setting: x i fest, Verteilung über Label y i Lineares Modell plus Gaußsches Rauschen p y N y T 2 ( x, w) w x ( 0, ) Bayessches Setting: Prior auf Parametervektor p N I 2 2 ( w ) ( w 0, ) Zufallsvariablen: (nicht: x x N ), y1,..., yn y T wx w 1,...,,, x 20

62 Bayessche Lineare Regression als Graphisches Modell 1 Graphisches Modell, N=3 y 1 N , yn, w x1,..., xn w ( i xi, w, ) i1 Prior Likelihood p( y,,, ) p( ) p y w y2 y3 x1 x2 x3 Graphisches Modell, Plate-Notation x i w y i N 21

63 MAP Parameterschätzung als Inferenzproblem w y1 y2 y3 x1 x2 x3 MAP Parameterschätzung: wahrscheinlichstes Modell gegeben Daten w w x x 2 2 * arg max w p( y1,..., y N, 1,..., N,, ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten w, gegeben beobachtete Knoten y 1,, y N? x n w y n N 22

64 Bayes-optimale Vorhersage Klassifikation mit MAP Modell: w*,, 2 2 arg max w p( w L X, ) y p y 2 * arg max y ( xw, *, ) w x T * Statt MAP Modell kann man auch direkt die Bayes sche Vorhersageverteilung ausrechnen: p( y, L, X,, ) p( y,, ) p( L, X,, ) d X x1... x N Merkmalsvektoren x x w w w Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu legen 23

65 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage: Erweiterung des Modells durch neue Testinstanz (neue Zufallsvariable y) p( y,,, ) p( ) p( y, p y N ,..., yn, y, w x1,..., xn x w i w xi, ) ( w, x, ) i1 Graphisches Modell, N=3 w y1 y2 y3 x1 x2 x3 x y Plate Notation x n w y n N x y 24

66 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage y p y L X * 2 2 arg max y ( x,,,, ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten y, gegeben beobachtete Knoten y 1,, y N? 25

67 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 26

68 Problemstellung Inferenz Gegeben Bayessches Netz über Menge von ZV {X 1,,X N }. Problemstellung Inferenz: Variablen mit Evidenz Anfrage-Variable Berechne Randverteilung über Anfrage-Variable gegeben Evidenz Bedingte Verteilung über ZV X a Berechne p( x x,..., x ) a i1 i m X,..., X { i,..., i } {1,..., N} i i m 1 m 1 X a {1,..., N { i,..., i } a Evidenz: beobachtete Werte für ZV X,..., X } 1 m i1 i m 27

69 Exakte Inferenz: Naiv Naive Inferenz: Notation :{ X,..., } { X, X,..., X, X,..., X } 1 X N a i i j p( x x,..., x ) a i i 1 Anfrage- Variable m p( x, x,..., x ) a 1 m 1 Evidenz-Variablen 1 i j1 j2 1 m p( x,..., x ) i x x x i 1 p ( xa, xi 1,..., xi m ) Z 1 p( x1,..., xn ) Z Zentrales Problem: Aussummieren aller restlichen Variablen (exponentiell, wenn naiv gelöst) m jk i restliche Variablen j k 28

70 Graphische Modelle: Inferenz Inferenz schwieriges Problem Allgemeine Graphische Modelle: exakte Inferenz NP-hart Es gibt Algorithmen für exakte Inferenz in Graphischen Modellen, deren Laufzeit von den Eigenschaften der Graphstruktur abhängt ( Message-Passing ) Es gibt verschiedene Techniken für approximative Inferenz (Sampling, Variational Inference, Expectation Propagation) Wir betrachten Message-Passing Algorithmus: in Spezialfällen Sampling-basierte approximative Inferenz 29

71 Effiziente exakte Inferenzmethoden? Idee Message Passing : Lokale Berechnungen, die entlang der Graphstruktur propagiert werden Knoten schicken sich gegenseitig Nachrichten, die Ergebnisse von Teilberechnungen enthalten 30

72 Graphische Modelle: Inferenz auf linearer Kette Wir betrachten zunächst Spezialfall mit besonders einfacher Struktur: lineare Kette von Zufallsvariablen x1 x2 x3 x 4 p( x ) p( x x ) p( x x ) p( x x ) N N1 p( x1,..., xn) 1,2 ( x1, x2) 2,3( x2, x3)... N 1, N( xn, xn 1) Darstellung der gemeinsamen Verteilung als Produkt von Potenzialen ( x, x ) über je zwei ZV ii, 1 i i1 31

73 Message Passing Algorithmus Austausch von Alpha Nachrichten von links nach rechts ( x ) 1 1 Für k 2,..., a: ( x ) ( x, x ) ( x ) ( x ) 2 ( ) ( ) x a 1 k k1, k k1 k k1 x x a Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x x k 32

74 Message Passing Algorithmus Austausch von Beta Nachrichten von rechts nach links ( ) 1 x N Für k N -1,..., a: ( x ) ( x, x ) ( x ) k kk, 1 k k1 k1 x ( x a ) ( ) x a 1 Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x ( ) x N 1 x k 33

75 Message Passing Algorithmus Nachrichten treffen sich im Anfrageknoten ( x2) x a 1 ( ) ( ) Randverteilung ohne Evidenz ergibt sich als Produkt der Nachrichten p( x ) ( x ) ( x ) a a a x a x a ( x a ) ( x a 1) x N 1 x a ( ) 34

76 Message Passing mit Evidenz Evidenz: Leichte Modifikation des Message-Passing Algorithmus Falls x k+1 unbeobachtet ist, summieren wir diesen Knoten aus k 1 { i,. } ( x ) ( x, x ) x ) 1.., im k k, k1 k k1 ( k1 x k1 Falls x k+1 beobachtet ist, verwenden wir nur den entsprechenden Summanden x k1 beobachteter Wert (Evidenz) k 1 { i,..., i } ( x ) ( x, x ) ( x ) 1 m k k, k1 k k1 k1 35

77 Inferenz: Message-Passing Laufzeit: Berechnung einer Nachricht: x : ( x ) ( x, x ) ( x ) k k k, k1 k k1 k1 x N Nachrichten insgesamt Viel besser als naive Inferenz mit k1 2 OK ( ) für Berechnung einer Nachricht (K diskrete Zustände) 2 O( NK ) Gesamtlaufzeit N OK ( ) 36

78 Inferenz in Allgemeinen Graphen Grundidee Message-Passing auf Polytrees: Umwandlung in Faktor-Graph (ungerichteter Baum) Ursprünglicher Graph x 4 x 1 Gemeinsame Verteilung p( x, x, x, x, x ) x 5 x 3 p( x ) p( x ) p( x x, x ) p( x ) p( x x, x ) x 2 Faktor Faktor-Graph Faktor-Knoten - Für jeden Faktor in der gemeinsamen Verteilung gibt es einen Faktor-Knoten - Ungerichtete Kanten von den Faktor-Knoten zu den im Faktor auftauchenden Variablen 37

79 Inferenz in Allgemeinen Graphen (Skizze) Falls der ursprüngliche Graph ein Polytree war, ist der Faktor- Graph ein ungerichteter Baum (dh zykelfrei). Blätter x a Betrachten Anfragevariable als Wurzel des Baumes Nachrichten von den Blättern zur Wurzel schicken (immer eindeutiger Pfad, weil Baum) x a Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und Variablen-Nachrichten x a Spezialfall lineare Kette 38

80 Inferenz in Allgemeinen Graphen Inferenz in Graphen, die keine Polytrees sind? Approximativer Ansatz: Iteratives Message-Passing Schema, wegen Zyklen im Graph nicht exakt Alternative für exakte Inferenz in allgemeinen Graphen: x 1 x2 x3 x 4 p( x) p( x ) p( x x ) p( x x ) p( x x, x ) Graph in einen äquivalenten azyklischen Graphen umwandeln Junction Tree Algorithmus, (i.a. exponentielle Laufzeit) Loopy Belief Propagation 39

81 Approximative Inferenz Exakte Inferenz NP-hart: In der Praxis spielen approximative Inferenzverfahren wichtige Rolle Wir betrachten Sampling-basierte Verfahren Relativ einfach zu verstehen/implementieren Praktisch brauchbar 40

82 Inferenz: Sampling-basiert Grundidee Sampling: p() z Wir interessieren uns für eine Verteilung, z.b. bedingte Verteilung über Anfragevariablen in graphischem Modell) Es ist schwierig, p() z direkt auszurechnen Stattdessen ziehen wir Samples (Stichproben) z ( k) ~ p( z) i.i.d., k 1,..., K, z ( k ) jedes Sample ist eine vollständige Belegung der Zufallsvariablen in z (1) (2) ( K ) Die Samples z, z,..., z approximieren die Verteilung 41

83 Inferenz: Sampling-basiert Beispiel: Anteil Samples mit Wert z Eindimensionale Verteilung, Diskrete Variable mit Zuständen {0,,6}: Anzahl Kopf bei 6 Münzwürfen Sample-Histogramm z z K {} z Echte Verteilung (Binomial) 42

84 Inferenz: Sampling-basiert Wie erhalten wir Samples aus der gesuchten Verteilung p() z? Markov Chain Monte Carlo: Klasse von Sampling- Verfahren, die in der Praxis oft effizientes Samplen ermöglichen z 43

85 Inferenz: MCMC Markov Chain Monte Carlo ( MCMC ) Idee: Strategie: Konstruiere Folge von Samples (0) (1) (2) (3) (4) (5) z z z z z z... (0) ( t1) t z z update z zufällig initialisiert ( ) durch mehrfache probabilistische Update-Schritte Wenn Updates geeignet gewählt, gilt asymptotisch ZV: T-te Variablenbelegung ( T z ) ~ p( z) ungefähr, für sehr grosse T 44

86 Inferenz: Gibbs Sampling Gibbs Sampling: Eine Version von MCMC Lokales Ziehen einer ZV gegeben den Zustand aller anderen Variablen Gegeben aktueller Zustand Ziehen des neuen Zustands x ' ( ' ') : Bisher gesampelte (alte) Werte x ' ~ p( x x,..., x ) x ' ~ p( x x ', x,..., x ) x ' ~ p( x x ', x ', x,..., x ) xn ' ~ p( xn x1 ', x2 ',..., xn 1 ') 3 x N ( N x,..., ) 1 x N x,..., 1 x N N 45

87 Gibbs-Sampling mit Evidenz Gibbs Sampling kann einfach Evidenz berücksichtigen Mit Evidenz: Nur die unbeobachteten Variablen werden jeweils neu gezogen, die beobachteten Variablen werden fest auf den beobachteten Wert gesetzt Satz: Falls p( xn x1, x2,..., xn 1, xn 1,..., xn 1) 0 für alle n und alle möglichen Zustände x i, dann folgen die generierten Samples asymptotisch der gesuchten Verteilung 46

88 Hidden Markov Modelle Zustände (versteckt) Beobachtungen Hidden Markov Modelle für sequentielle Daten Probabilistischer Automat: Versteckte Zustände, Beobachtungen q 1 q2 q q 3 4 O1 O2 O3 O 4 47

89 48

90 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse I Christoph Sawade/Niels Landwehr/Tobias Scheffer

91 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 50

92 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster 51

93 Problemstellung Clustering (Deterministisch) Problemstellung k-means: Gesucht sind Zuweisung der Daten zu Clustern: Clusterzentren K,...,, k 1,..., K 1 K K-Means Algorithmus: abwechselnde Neuberechnung von Clusterzentren und Clusterzugehörigkeiten 52

94 K-Means: Beispiel K = 2 53

95 K-Means: Beispiel K = 2 54

96 K-Means: Beispiel K = 2 55

97 K-Means: Beispiel K = 2 56

98 K-Means: Beispiel K = 2 57

99 K-Means: Beispiel K = 2 58

100 K-Means: Beispiel K = 2 59

101 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 60

102 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess zur Erzeugung der Daten Cluster wählen, anschliessend Datenpunkt generieren versteckt beobachtet p( z, x) p( z) p( x z) Wähle Clusterkomponente Generiere Daten aus Komponente 61

103 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung über Clusterkomponenten: Multinomialverteilung Verteilung der Daten in einem Cluster k: normalverteilt p( x z 1) ( x, ) k k k Clusterzentrum 1 1 exp ( x Z 2 Clusterkovarianz T 1 k ) k ( x k ) Beispiel D=2: Dichte, Samples aus Verteilung Normalisierer Z 2 D/2 1/2 62

104 EM Algorithmus Clustern = Anpassen des Modells an Daten (Maximum Likelihood) Iteratives Verfahren EM: bestimme Parameter Betrachte Q-Funktion Erwartungswert über p( Z X, ) Beginne mit zufälligem. Iteriere: Expectation: Maximization: 1,,, Parameterwert im letzten Schritt 63

105 Beispiel Gaußsches Mischmodell Clustering 64

106 Beispiel Gaußsches Mischmodell Clustering 65

107 Beispiel Gaußsches Mischmodell Clustering 66

108 Beispiel Gaußsches Mischmodell Clustering 67

109 Beispiel Gaußsches Mischmodell Clustering 68

110 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Zusammenfassung Christoph Sawade/Niels Landwehr Tobias Scheffer

111 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 2

112 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 3

113 Graphen-basiertes Clustern Ähnlichkeitsgraph Ähnlichkeit zwischen Datenpunkten (Knoten) bilden gewichtete Kanten: V 4

114 Spectral-Clustering (unnormalisiert) Relaxation NP-hart RatioCut PV n n T 2 i i i1 i1 min f Lf, wobei f 0, f n (Unnormalisiertes) Spectral-Clustering f n n n T 2 i i i1 i1 min f Lf, wobei f 0, f n Diskretisierung: sign(f i) Eigenwertproblem 5

115 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 6

116 PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature Aussagelos sind oder sich aus anderen ergeben d mm Ziel: Reduktion auf -dimensionalen Hauptunterraum 7

117 PCA Projektion Eine Projektion ist eine idempotente lineare Abbildung m T Sei u mit 1 u1u1 1 T y1 x u1x stellt Projektion in einen eindimensionalen Unterraum dar Für Daten im Projektionsraum gilt: T y x u x Mittelpunkt: Varianz: 1 1 n 1 2 u x u x u u n i 1 T T T 1 i x x i y x 1 i y1 x T ux 1 8

118 PCA Optimierungsproblem T Ziel: Varianz der projizierten Daten u soll nicht 1u1 verloren gehen T Maximiere u1u1 bzgl. u1, wobei T T u u 1 u u Lagrangian: Ableiten, Nullsetzen: u1 1u1 Lösung muss Eigenvektor sein T u1 u1 1 Varianz ist entsprechender Eigenwert Bestimmung des größten Eigenwert Größter Eigenvektor ist erste Hauptkomponente T u1u1 1 9

119 Fisher-Diskriminante Durch die PCA induzierter Unterraum erhält maximale Varianz der gesamten Daten Nicht das richtige Kriterium für Klassifikation x Original Space x 1 T 10 Xu P C A x x 1 u PCA Subspace u PCA PCA PCA T 0.05 Xu FS I x Fisher Subpace x 1 b u u FIS FIS w FIS 10

120 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 11

121 Bayes-Point Herleitung Mitteln der Vorhersage über alle (linearen) ineffiziente Modelle mit der Gewichtung wie gut ein Modell zu den Daten passt: x * hp AC sign sign w, x p w dw wvs Approximation der Bayes-Hypothese durch den Bayes- Punkt x * hpac sign w, x p w dw sign wvs w cm,x wcm wp w L dw ist der Masseschwerpunkt des wvs Version-Space Klassifikation 12

122 Billiard-Algorithmus Duale Darstellung v i v' w1 i v i v y x,w di x w 0 w 0 i i 0 i x i i x i w i i v i i d i w 0 w p i w 2 i i1 wi 1 13

123 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 14

124 Konfidenzintervalle Hypothesenbewertung: Was ist der erwartete Fehler (Risiko) eines Modells?, ( ), R f y f x p x y dxdy Da p x, y unbekannt ist, muss es aus Daten geschätzt werden, z.b.: ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 i i i i ˆR f Was sagt über R f aus? 15

125 Konfidenzintervalle ˆR f Punktschätzer sagt nichts über die Unsicherheit der Schätzung (Schätzfehler) aus. Idee: Intervall um den geschätzten Fehler angeben, so dass der echte Fehler meistens im Intervall liegt Ein zweiseitiges Konfidenzintervall C mit Konfidenz 1 gibt an, dass RCmit Wahrscheinlichkeit 1 gilt. Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable [ ] R Rˆ L, U 16

126 Konfidenzintervalle Übergang von der Verteilung zum Konfidenzintervall: ˆR f Schätzer ist binomialverteilt (Clopper-Pearson): Schätzer ist annähernd normalverteilt (Wald): C 1 1 CCP 1 Beta n k, k 1, Beta 1 n k 1, k 2 2 Wald k 1 n n 2 n ˆR f R R Experimente Experimente 17

127 Statistische Tests Hypothesenvergleich: Ist mein Modell besser als die Baseline-Methode? Da p x, y unbekannt ist, müssen Risiken aus Daten geschätzt werden. ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 R f R f 1 2 i i i i Was sagt der beobachtete Unterschied über R f R f aus? 1 2 Rˆ f Rˆ f

128 Statistische Tests Nullhypothese: Aussage, von der wir bis auf weiteres ausgehen, die wir aber überprüfen möchten und zu widerlegen bereit sind. Bedingung für einen statistischen Test: Wenn die Nullhypothese gilt, dann darf sie nur mit einer Wahrscheinlichkeit von höchstens abgelehnt werden. Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. 19

129 Statistische Tests Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. c T 20

130 p-wert p-wert: kleinste Signifikanz-Niveau, für das die Nullhypothese abgelehnt wird Tx c T 21

131 Dualität Ein Test mit Signifikanzniveau verwirft die Nullhypothese h 0: 0, genau dann nicht, wenn 0 innerhalb des 1 -Vertrauensintervalls liegt. 22

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick: Graphische Modelle Graphische Modelle: Werkzeug zur Modellierung einer Domäne mit verschiedenen

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle: Inferenz Wir haben eine Domäne durch gemeinsame

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias Scheffer Graphische Modelle Werkzeug zur Modellierung einer Domäne mit

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle Modellierung einer Domäne mit verschiedenen

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick Graphische Modelle: Synta und Semantik Graphische Modelle im Maschinellen Lernen Eakte

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick Graphische Modelle: Synta und Semantik Graphische Modelle im Maschinellen Lernen Eakte

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Tobias Scheffer Überblick Wiederholung: Konfidenzintervalle Statistische Tests

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II. Zusammenfassung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II. Zusammenfassung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Uwe Dick/Peter Haider/Niels Landwehr/Blaine Nelson/Christoph Sawade Tobias Scheffer Part 1: Uwe Dick ZUSAMMENFASSUNG:

Mehr

Bayessche Lineare Regression

Bayessche Lineare Regression Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.

Mehr

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Überblick Grundkonzepte des Baes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Baes sche Vorhersage Münzwürfe Lineare Regression 57 Erinnerung:

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Maschinelles Lernen II

Maschinelles Lernen II Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means

Mehr

Latente Dirichlet-Allokation

Latente Dirichlet-Allokation Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30

Mehr

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Syntaktische und Statistische Mustererkennung. Bernhard Jung Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel

Mehr

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der

Mehr

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur

Mehr

Statistische Sprachmodelle

Statistische Sprachmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch

Mehr

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38 Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung

Mehr

Reinforcement Learning. Volker Tresp

Reinforcement Learning. Volker Tresp Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes

Mehr

Frequentisten und Bayesianer. Volker Tresp

Frequentisten und Bayesianer. Volker Tresp Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben

Mehr

Generative Modelle. Generative Modelle 1 / 49

Generative Modelle. Generative Modelle 1 / 49 Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

Generative Modelle. Generative Modelle 1 / 49

Generative Modelle. Generative Modelle 1 / 49 Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die

Mehr

Bayes sche und probabilistische Netze

Bayes sche und probabilistische Netze Bayes sche und probabilistische Netze Gliederung Wahrscheinlichkeiten Bedingte Unabhängigkeit, Deduktion und Induktion Satz von Bayes Bayes sche Netze D-Separierung Probabilistische Inferenz Beispielanwendung

Mehr

3.2 Maximum-Likelihood-Schätzung

3.2 Maximum-Likelihood-Schätzung 291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

Mathematische Statistik Aufgaben zum Üben. Schätzer

Mathematische Statistik Aufgaben zum Üben. Schätzer Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation

Mehr

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities) Bayes-Netze Claudio Fischer 20.06.2013 Text- und Datamining (AG Digital Humanities) Agenda Wiederholung Wahrscheinlichkeitstheorie Beispiel Motivation Bayes-Netze Inferenz exakt Inferenz annäherend Belief

Mehr

Strukturelle SVM zum Graph-labelling

Strukturelle SVM zum Graph-labelling 23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Wahrscheinlichkeitstheorie 2

Wahrscheinlichkeitstheorie 2 Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

Probabilistische Graphische Modelle

Probabilistische Graphische Modelle Probabilistische Graphische Modelle 1 Probabilistische Graphische Modelle Sven Wachsmuth Universität Bielefeld, Technische Fakultät, AG Angewandte Informatik WS 2006/2007 Übersicht über die Vorlesung Probabilistische

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Der Metropolis-Hastings Algorithmus

Der Metropolis-Hastings Algorithmus Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung

Mehr

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten Markov-Chain Monte-Carlo Verfahren Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Übersicht 1 Einführung

Mehr

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

Elementare Wahrscheinlichkeitslehre

Elementare Wahrscheinlichkeitslehre Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?

Mehr

Hypothesenbewertungen: Übersicht

Hypothesenbewertungen: Übersicht Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung

Mehr

Lineare Klassifikatoren

Lineare Klassifikatoren Universität Potsdam Institut für Informatik Lehrstuhl Lineare Klassifikatoren Christoph Sawade, Blaine Nelson, Tobias Scheffer Inhalt Klassifikationsproblem Bayes sche Klassenentscheidung Lineare Klassifikator,

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell

Mehr

Planung von Handlungen bei unsicherer Information

Planung von Handlungen bei unsicherer Information Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Zusammenfassung Pfade Zusammenfassung: en Pfad --Y-Z- st B A E Blockert be Y, wenn Dvergerende Verbndung,

Mehr

Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp

Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität Volker Tresp 1 Einführung Bisher haben wir uns fast ausschließich mit überwachtem Lernen beschäftigt: Ziel war es, eine (oder mehr als eine)

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Einführung in die Induktive Statistik: Testen von Hypothesen

Einführung in die Induktive Statistik: Testen von Hypothesen Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte

Mehr

Stochastische dynamische Optimierung

Stochastische dynamische Optimierung Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators

Mehr

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014

Hidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014 idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme

Mehr

Vorlesung: Statistik II für Wirtschaftswissenschaft

Vorlesung: Statistik II für Wirtschaftswissenschaft Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Tobias Scheffer Michael Brückner Hypothesenbewertung Ziel: gute Vorhersagen treffen. Bayesian model averaging,

Mehr

INTELLIGENTE DATENANALYSE IN MATLAB

INTELLIGENTE DATENANALYSE IN MATLAB INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator

Mehr

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Stochastik Praktikum Markov Chain Monte Carlo Methoden Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem

Mehr

Semester-Fahrplan 1 / 17

Semester-Fahrplan 1 / 17 Semester-Fahrplan 1 / 17 Hydroinformatik I Einführung in die Hydrologische Modellierung Bayes sches Netz Olaf Kolditz *Helmholtz Centre for Environmental Research UFZ 1 Technische Universität Dresden TUDD

Mehr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Mathematische Grundlagen (Bayes sches Lernen)

Mathematische Grundlagen (Bayes sches Lernen) Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen (Bayes sches Lernen) Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick Anwendungsbeispiel 1: Diagnostik

Mehr

Unüberwachtes Lernen

Unüberwachtes Lernen Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht

Mehr

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011 Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester 2011 28. Oktober 2011 Prof. Dr. Torsten Hothorn Institut für Statistik Nachname: Vorname: Matrikelnummer: Anmerkungen: ˆ Schreiben

Mehr

Punktetabelle (wird von den Korrektoren beschriftet)

Punktetabelle (wird von den Korrektoren beschriftet) Probability and Statistics FS 2018 Prüfung 13.08.2018 Dauer: 180 Minuten Name: Legi-Nummer: Diese Prüfung enthält 12 Seiten (zusammen mit dem Deckblatt) und 10 Aufgaben. Das Formelblatt wird separat verteilt.

Mehr

Fortgeschrittene Ökonometrie: Maximum Likelihood

Fortgeschrittene Ökonometrie: Maximum Likelihood Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,

Mehr

Statistik I für Betriebswirte Vorlesung 14

Statistik I für Betriebswirte Vorlesung 14 Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Noémie Becker & Dirk Metzler 31. Mai 2016 Inhaltsverzeichnis 1 Binomialverteilung 1 2 Normalverteilung 2 3 T-Verteilung

Mehr

Vorlesung Wissensentdeckung

Vorlesung Wissensentdeckung Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

Die Maximum-Likelihood-Methode

Die Maximum-Likelihood-Methode Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft

Mehr