Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II: Zusammenfassung
|
|
- Frank Ralph Fried
- vor 5 Jahren
- Abrufe
Transkript
1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II: Zusammenfassung
2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning
3 Problemstellungen des maschinellen Lernens Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zb. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. Temporal Credit Assignment Problem. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
4 Lernen aus Interaktionen Reward Beobachtung Umgebung Agent Controller Aktionen Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
5 Markov Decision Processes Markov-Entscheidungsprozess (S,A,R,P) S : endliche Zustandsmenge A : endliche Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Discount factor. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
6 MDP Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
7 Markov-Eigenschaft Markov-Eigenschaft: Aus Sequenz von Beobachtungen und Aktionen wird Zustand. Markov-Eigenschaft in Realität selten genau erfüllt. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
8 Value Functions Bewertungsfunktionen Value function V ¼ (s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Bewertungsfunktion für Zustand-Aktions-Paar: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
9 Bellman-Gleichungen Für Bewertungsfunktionen gelten die Bellman- Gleichungen (durch Markov-Eigenschaft): Zustand-Aktions-Bewertungsfunktion: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
10 Bellman-Optimalitätsgleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
11 Problemstellungen P,R bekannt. P(s s,a) können abgefragt werden. Planen. P,R nicht explizit bekannt. Aber aus den Verteilungen P(s s,a) kann gesamplet werden. Annahme: Generatives Modell von P und R. P,R nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. Reinforcement Learning. Batch Reinforcement Learning: Es muss von einer fixen Menge von Beispielepisoden gelernt werden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
12 Arten von Reinforcement Learning Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
13 MDP vollständig bekannt Dynamische Programmierung 2 Schritte zum Berechnen der optimalen Policy: Policy Evaluation: V ¼ berechnen für festes ¼ k Policy Improvement: Neues ¼ k+1 bestimmen Policy Iteration. Bellman-Gleichungen bilden ein lineares Gleichungssystem. Zustandsmengen sind allerdings in der Realität in der Regel zu groß um Standardlösungsverfahren für LGS zu verwenden. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
14 Policy Iteration Allgemeines Verfahren zum Bestimmen der optimalen Policy. Iteriere: Policy Evaluation: Gegeben Policy ¼ k, bestimme Policy Improvement: Inferiere verbesserte Policy ¼ k+1 aus z.b. greedy Policy: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
15 Value Iteration Iteratives Verfahren zur Berechnung von V ¼ bzw. Q ¼ Konvergiert gegen V ¼ bzw. Q ¼ für k 1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
16 Value Iteration Value Iteration für das Kontrollproblem. Für V * : für Q * : Konvergiert gegen V * bzw. Q * für k 1 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
17 TD( ) Updateregel: TD( ) Update: 0 1 interpoliert zwischen 1-step und MC. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
18 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
19 Exploration / Exploitation Problem Tradeoff zwischen Verfolgen der derzeit besten Policy, um den (greedy) Gewinn zu maximieren. (Exploitation) und Erkunden derzeit suboptimaler Aktionen, über deren Wert noch Unsicherheit besteht, um eine potentiell bessere Policy zu finden. (Exploration) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
20 Stochastische Policy: Softmax ¼stochastische Policy. Schätzungen sollen Einfluss auf Auswahlwahrscheinlichkeit haben. Softmax Beispiel: Gibbs-Verteilung: t ist Temperaturparameter. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
21 Große und unendliche Zustandsräume In realistischen Anwendungen sind Zustandsräume i.a. sehr groß bzw. kontinuierlich. Bisherige Annahme: tabellarische Repräsentation der Value Function. Mögliche Lösungen: Planen: Monte-Carlo Sampling Diskretisierung und anschließend z.b. Value Iteration Approximation der Value Function durch Funktionsapproximationsmethoden. Direktes Lernen der Policy. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
22 Monte-Carlo Sampling Angenommen, S sehr groß Ziel: Finde Q, so dass Q-Q * 1 <². Sparse Lookahead Trees: [Kearns et al. 02] Monte-Carlo: Samplen eines sparsen Aktions-Zustands-Baums. Tiefe des Baums: Effektiver Horizont H(²) = O( 1/(1- ) log(1/²(1- )) ) MC unabhängig von S Aber exponentiell in H(²): min. Größe des Baums Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
23 Sparse Lookahead Trees Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
24 Upper Confidence Bounds for Trees Besser: Nur solche Teilbäume genauer untersuchen, die vielversprechend sind. Optimismus bei Unsicherheit! Nutze das gleiche Prinzip wie bei Bandit Problem. UCT: UCB for Trees. [Kocsis & Szepesvári 06] Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
25 Diskretisierung Kontinuierlicher Zustandsraum S. Random Discretization Method: [Rust 97] Sampling von Zuständen S nach uniformer Verteilung über den Zustandsraum. Value Iteration. Kontinuierliche Value Iteration: Diskretisierung: Weighted Importance Sampling Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
26 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V ¼, bzw. Q ¼ am besten approximiert wird. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
27 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <s t, a t, R t, s t+1 > aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹ (s). Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
28 FA für Reinforcement Learning Online Updates: Anpassen von µ t nach jeder Interaktion <s t, a t, R t, s t+1 >. Qˆ(; θ ) Gradientenabstieg: t Qˆ(; θ ) t Q π Q * t t Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
29 FA für Reinforcement Learning Spezialfall: lineare Methoden. ˆ(; ) T Q θ = φθ t Gradientenabstieg: 1 2 π θ ˆ t+ 1 = θt αt θ Q ( st, at) Q( st, at; θ ) 2 t π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π = θ (, ) ˆ t + α t Q st at Q( st, at; θ) φ( st, at) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
30 FA für Reinforcement Learning Value Function V ¼ unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V ¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen für t ) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
31 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t+ 1 = t t θ Q st at Q st at t θ θ α (, ) (, ; θ ) 2 = θ (, ) max ˆ( ˆ ˆ t + α t Rst at + γ Qst+ 1, a; θt) Qs ( t, at; θt) θqs ( t, at; θt) a T T = θt + α t R( st, at) + γ max φ( st+ 1, a) θt φ( st, at) θ t φ( st, at) a 2 Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
32 FA für Reinforcement Learning TD( ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
33 SARSA( ) Kontrollproblem: SARSA( ) (On-Policy) Off-policy kann divergieren. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
34 Fitted Value Iteration mit Samples [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹ (s). Für jedes s und a2a, Ziehe M Nachfolgezustände s aus P( s,a) und Rewards R(s,a). Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Dann least-squares Fitting: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
35 Fitted Policy Evaluation mit Samples Q = 0. Ziehe N Samples s,a aus ¹ (s),p(a). Ziehe R und Nachfolgezustand s entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Q ( sa, ) Rsa (, ) + γq( s', π( s')) k+ 1 i= 1 Dann least-squares Fitting: M M Qˆ ( s, a) argmin Q ( s, a ) f( s, a ) k+ 1 k+ 1 i i i i f I i = 1 k Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
36 Approximate Policy Iteration Falls Samples von Q ¼ (s,a) bekannt, lerne Q ¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a)) Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
37 Least-Squares Temporal Difference Q ist aus Funktionsraum F. T ¼ Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T ¼ Q auf F. Unbiased. LSTD oft bessere Ergebnisse. Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
38 Bellman-Operatoren In (linearer) Operatorschreibweise: Mit linearem Operator T ¼ : Q ¼ ist ein Fixpunkt des Bellman-Operators T ¼. Iteration: Scheffer/Landwehr/Sawade/Dick/Haider, Maschinelles Lernen 2
39 Recommendation Empfehlung von Produkten, Informationen, Personen, Musik, Ziel: Rausfilterung von unwichtigen / unerwünschten / unsympathischen Optionen; Finden von wichtigen / gefallenden / beliebten Optionen Basierend auf Transaktionen aus der Vergangenheit: Käufe, Bewertungen, Klicks, Nutzerspezifisch: Keine globale Sortierung der Optionen, sondern persönliche Empfehlung Landwehr/Sawade/Scheffer, Maschinelles Lernen II 1
40 Inhaltsbasierte Recommendation Featureabbildung φ: X R d notwendig Unabhängige Lernprobleme: Normale Regressions- oder Klassifikationsformalisierung Gemeinsames Lernproblem: Verteilung der Gewichtsvektoren um gemeinsamen, gleichzeitig gelernten, Mittelpunkt Landwehr/Sawade/Scheffer, Maschinelles Lernen II 2
41 Kollaborative Recommendation Keine Featureabbildung nötig. K-Nearest-Neighbor: Vorhersage berechnet sich als gewichtetes Mittel der Bewertungen der ähnlichsten Nutzer Latente Features: Gleichzeitiges Lernen von versteckten Geschmacks -Featurevektoren von Benutzern und Objekten Landwehr/Sawade/Scheffer, Maschinelles Lernen II 3
42 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias Scheffer
43 Graphische Modelle Modellierung einer Domäne mit verschiedenen Zufallsgrössen Gemeinsame Verteilung, insb. Abhängigkeiten 2
44 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 3
45 Graphische Modelle: Einführung am Beispiel Beispiel: Alarm Szenario Unser Haus in LA hat eine Alarmanlage. Wir sind im Urlaub. Unser Nachbar ruft an, falls er den Alarm hört. Wenn eingebrochen wurde, wollen wir zurück kommen. Leider ist der Nachbar nicht immer zu Hause Leider geht die Alarmanlage auch bei kleinen Erdbeben los 5 binäre Zufallsvariablen B E A N R Burglary Einbruch hat stattgefunden Earthquake Erdbeben hat stattgefunden Alarm Alarmanlage geht los NeighborCalls Nachbar ruft an RadioReport Bericht über Erdbeben im Radio 4
46 Graphische Modelle: Einführung am Beispiel Ziel: Repräsentation der gemeinsamen Verteilung p(b,e,a,n,r) Wähle Variablenordnung: z.b. B<E<A<N<R Produktregel: p( B, E, A, N, R) p( B, E, A, N) p( R B, E, A, N) p( B, E, A) p( N B, E, A) p( R B, E, A, N) p( B, E) p( A B, E) p( N B, E, A) p( R B, E, A, N) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Faktoren beschreiben die Verteilung einer Zufallsvariablen in Abhängigkeit anderer Zufallsvariablen. 5
47 Graphische Modelle: Einführung am Beispiel p( B, E, A, N, R) p( B) p( E B) p( A B, E) p( N B, E, A) p( R B, E, A, N) Idee: vereinfache Faktoren durch Unabhängigkeitsannahmen p( E B) p( E) p( A B, E) p( A B, E) p( N B, E, A) p( N A) p( R B, E, A, N) p( R E) Vereinfachte Darstellung der gemeinsamen Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) Vereinfachte Faktoren Erdbeben hängt nicht von Einbruch ab Alarm hängt von Einbruch und Erdbeben ab Anruf von Nachbar hängt nur von Alarm ab Nachricht im Radio hängt nur von Erdbeben ab 6
48 Graphische Modelle: Einführung am Beispiel Graphisches Modell für Alarm Szenario P(B=1) P(E=1) B E P(A=1 B,E) B E A N A P(N=1 A) Modellierte Verteilung: p( B, E, A, N, R) p( B) p( E) p( A E, B) p( N A) p( R E) E P(R=1 E) R Graphisches Modell: - Jede ZV ist ein Knoten - Für jeden Faktor der Form p( X X,..., X ) fügen wir gerichtete Kanten von den X zu X ein - Modell ist parametrisiert mit den bedingten Verteilungen px ( X1,..., X k ) 1 i k 7
49 Graphische Modelle: Unabhängigkeit Die Graphstruktur impliziert Unabhängigkeiten zwischen Mengen von ZV D-separation Kriterium, um Unabhängigkeiten aus Graphstruktur abzulesen A,B unabhängig gegeben C gdw jeder Pfad von Knoten in A zu Knoten in B blockiert ist gegeben C Menge einfacher Regeln, wann Pfade blockiert sind 8
50 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R? B A N E R Nein, p( A R) p( A) Divergierende Verbindung B= Einbruch E= Erdbeben A= Alarm N= Nachbar ruft an R= Radio Bericht RadioReport wahrscheinlich Erdbeben wahrscheinlich Alarm ZV R beeinflusst ZV A über die divergierende Verbindung R E A 9
51 Divergierende Verbindungen Betrachte Pfad A E R. Gilt R E? B A N E R Ja, p( A R) p( A) Divergierende Verbindung B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Wenn wir schon wissen, dass ein Erdbeben eingetreten ist, wird die Wahrscheinlichkeit für Alarm nicht höher/niedriger durch RadioReport Der divergierende Pfad R E A wird durch Beobachtung von E blockiert 10
52 Serielle Verbindungen Betrachte Pfad N A B. Gilt? B Serielle Verbindung A N E R Nein, p( B N) p( B) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: NeighborCalls wahrscheinlich Alarm wahrscheinlich Burglary p( B 1 N 1) p( B 1 N 0) B= Einbruch E= Erdbeben A= Alarm ZV N beeinflusst ZV B über den seriellen Pfad N AB N= Nachbar ruft an R= Radio Bericht 11
53 Serielle Verbindungen Betrachte Pfad N A B. Gilt A? B Serielle Verbindung A N E R Ja, p( B N, A) p( B A) [Ausrechnen mit gemeinsamer Verteilung] Intuitiv: B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Wenn wir schon wissen, dass der Alarm ausgelöst wurde, sinkt/steigt die Wahrscheinlichkeit für Einbruch nicht dadurch, dass Nachbar anruft Der serielle Pfad N A B wird durch Beobachtung von A blockiert. 12
54 Konvergierende Verbindung Betrachte Pfad B A E. Gilt? B Konvergierende Verbindung A N E R Ja, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm Einbrüche treten nicht häufiger/seltener auf an Tagen mit Erdbeben N= Nachbar ruft an R= Radio Bericht Der konvergierende Pfad B A E ist blockiert wenn A nicht beobachtet ist 13
55 Konvergierende Verbindung Betrachte Pfad B A E. Gilt A? B Konvergierende Verbindung A N E R Nein, p( B E) p( B) B= Einbruch E= Erdbeben A= Alarm beobachteter Knoten N= Nachbar ruft an R= Radio Bericht Alarm wurde ausgelöst. Falls wir ein Erdbeben beobachten, erklärt das den Alarm, Wahrscheinlichkeit für Einbruch sinkt ("explaining away"). Der konvergierende Pfad B AE wird freigegeben durch Beobachtung von A 14
56 D-Separation: Korrektheit, Vollständigkeit Gegeben ein graphisches Modell über {X 1,,X N } mit Graphstruktur G. Das GM modelliert eine Verteilung durch p( X,..., X ) p( X pa( X )) 1 N i1 abhängig von den bedingten Verteilungen p( X n pa( X n)). Theorem (Korrektheit, Vollständigkeit d-separation) Falls A,B d-separiert gegeben C in G, dann N Es gibt keine anderen Unabhängigkeiten, die für jede Wahl der bedingten Verteilungen p( X pa( X )) gelten. i i i i p( A B, C) p( A C) 15
57 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 16
58 Münzwürfe als graphisches Modell Münzwurf: N Bernoulli-verteilte Zufallsvariablen Parameter, Beta-Prior p ( X,..., X, ) p ( p( X ) 1 N k z k z Darstellung als graphisches Modell: X X 1 2 X 3 Prior X N N i1 i Likelihood pa( ) pa( X ) { } i X,..., 1 XN 17
59 Parameterschätzung als Inferenzproblem MAP-Parameterschätzung Münzwurf Inferenzproblem: arg max p ( x,..., x ) k z 1 N p, ( ) X1 2 k z px ( ) px ( ) X X X 3 Evidenz auf den Knoten X 1,, X N Wahrscheinlichster Zustand des Knotens μ gegeben X 1,, X N N 18
60 Plate-Modelle Plate Notation X X 1 2 X 3 X N Plate Notation Ein Plate ist eine abkürzende Notation für N Variablen der gleichen Form Bezeichnet mit Anzahl der Variablen, N Variablen haben Index (z.b. X i ). X i N Plate 19
61 Erinnerung: Bayessche Lineare Regression Diskriminatives Setting: x i fest, Verteilung über Label y i Lineares Modell plus Gaußsches Rauschen p y N y T 2 ( x, w) w x ( 0, ) Bayessches Setting: Prior auf Parametervektor p N I 2 2 ( w ) ( w 0, ) Zufallsvariablen: (nicht: x x N ), y1,..., yn y T wx w 1,...,,, x 20
62 Bayessche Lineare Regression als Graphisches Modell 1 Graphisches Modell, N=3 y 1 N , yn, w x1,..., xn w ( i xi, w, ) i1 Prior Likelihood p( y,,, ) p( ) p y w y2 y3 x1 x2 x3 Graphisches Modell, Plate-Notation x i w y i N 21
63 MAP Parameterschätzung als Inferenzproblem w y1 y2 y3 x1 x2 x3 MAP Parameterschätzung: wahrscheinlichstes Modell gegeben Daten w w x x 2 2 * arg max w p( y1,..., y N, 1,..., N,, ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten w, gegeben beobachtete Knoten y 1,, y N? x n w y n N 22
64 Bayes-optimale Vorhersage Klassifikation mit MAP Modell: w*,, 2 2 arg max w p( w L X, ) y p y 2 * arg max y ( xw, *, ) w x T * Statt MAP Modell kann man auch direkt die Bayes sche Vorhersageverteilung ausrechnen: p( y, L, X,, ) p( y,, ) p( L, X,, ) d X x1... x N Merkmalsvektoren x x w w w Unsicherheit über Modelle: nicht nötig, sich auf ein Modell fest zu legen 23
65 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage: Erweiterung des Modells durch neue Testinstanz (neue Zufallsvariable y) p( y,,, ) p( ) p( y, p y N ,..., yn, y, w x1,..., xn x w i w xi, ) ( w, x, ) i1 Graphisches Modell, N=3 w y1 y2 y3 x1 x2 x3 x y Plate Notation x n w y n N x y 24
66 Bayessche Lineare Regression als Graphisches Modell Bayessche Vorhersage y p y L X * 2 2 arg max y ( x,,,, ) Inferenzproblem: was ist der wahrscheinlichste Zustand für Knoten y, gegeben beobachtete Knoten y 1,, y N? 25
67 Überblick Graphische Modelle: Einführung Graphische Modelle im Maschinellen Lernen Inferenz in Graphischen Modellen 26
68 Problemstellung Inferenz Gegeben Bayessches Netz über Menge von ZV {X 1,,X N }. Problemstellung Inferenz: Variablen mit Evidenz Anfrage-Variable Berechne Randverteilung über Anfrage-Variable gegeben Evidenz Bedingte Verteilung über ZV X a Berechne p( x x,..., x ) a i1 i m X,..., X { i,..., i } {1,..., N} i i m 1 m 1 X a {1,..., N { i,..., i } a Evidenz: beobachtete Werte für ZV X,..., X } 1 m i1 i m 27
69 Exakte Inferenz: Naiv Naive Inferenz: Notation :{ X,..., } { X, X,..., X, X,..., X } 1 X N a i i j p( x x,..., x ) a i i 1 Anfrage- Variable m p( x, x,..., x ) a 1 m 1 Evidenz-Variablen 1 i j1 j2 1 m p( x,..., x ) i x x x i 1 p ( xa, xi 1,..., xi m ) Z 1 p( x1,..., xn ) Z Zentrales Problem: Aussummieren aller restlichen Variablen (exponentiell, wenn naiv gelöst) m jk i restliche Variablen j k 28
70 Graphische Modelle: Inferenz Inferenz schwieriges Problem Allgemeine Graphische Modelle: exakte Inferenz NP-hart Es gibt Algorithmen für exakte Inferenz in Graphischen Modellen, deren Laufzeit von den Eigenschaften der Graphstruktur abhängt ( Message-Passing ) Es gibt verschiedene Techniken für approximative Inferenz (Sampling, Variational Inference, Expectation Propagation) Wir betrachten Message-Passing Algorithmus: in Spezialfällen Sampling-basierte approximative Inferenz 29
71 Effiziente exakte Inferenzmethoden? Idee Message Passing : Lokale Berechnungen, die entlang der Graphstruktur propagiert werden Knoten schicken sich gegenseitig Nachrichten, die Ergebnisse von Teilberechnungen enthalten 30
72 Graphische Modelle: Inferenz auf linearer Kette Wir betrachten zunächst Spezialfall mit besonders einfacher Struktur: lineare Kette von Zufallsvariablen x1 x2 x3 x 4 p( x ) p( x x ) p( x x ) p( x x ) N N1 p( x1,..., xn) 1,2 ( x1, x2) 2,3( x2, x3)... N 1, N( xn, xn 1) Darstellung der gemeinsamen Verteilung als Produkt von Potenzialen ( x, x ) über je zwei ZV ii, 1 i i1 31
73 Message Passing Algorithmus Austausch von Alpha Nachrichten von links nach rechts ( x ) 1 1 Für k 2,..., a: ( x ) ( x, x ) ( x ) ( x ) 2 ( ) ( ) x a 1 k k1, k k1 k k1 x x a Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x x k 32
74 Message Passing Algorithmus Austausch von Beta Nachrichten von rechts nach links ( ) 1 x N Für k N -1,..., a: ( x ) ( x, x ) ( x ) k kk, 1 k k1 k1 x ( x a ) ( ) x a 1 Anschauung: wir summieren Knoten k 1 aus, und schicken das Ergebnis weiter an Knoten k1 x a x ( ) x N 1 x k 33
75 Message Passing Algorithmus Nachrichten treffen sich im Anfrageknoten ( x2) x a 1 ( ) ( ) Randverteilung ohne Evidenz ergibt sich als Produkt der Nachrichten p( x ) ( x ) ( x ) a a a x a x a ( x a ) ( x a 1) x N 1 x a ( ) 34
76 Message Passing mit Evidenz Evidenz: Leichte Modifikation des Message-Passing Algorithmus Falls x k+1 unbeobachtet ist, summieren wir diesen Knoten aus k 1 { i,. } ( x ) ( x, x ) x ) 1.., im k k, k1 k k1 ( k1 x k1 Falls x k+1 beobachtet ist, verwenden wir nur den entsprechenden Summanden x k1 beobachteter Wert (Evidenz) k 1 { i,..., i } ( x ) ( x, x ) ( x ) 1 m k k, k1 k k1 k1 35
77 Inferenz: Message-Passing Laufzeit: Berechnung einer Nachricht: x : ( x ) ( x, x ) ( x ) k k k, k1 k k1 k1 x N Nachrichten insgesamt Viel besser als naive Inferenz mit k1 2 OK ( ) für Berechnung einer Nachricht (K diskrete Zustände) 2 O( NK ) Gesamtlaufzeit N OK ( ) 36
78 Inferenz in Allgemeinen Graphen Grundidee Message-Passing auf Polytrees: Umwandlung in Faktor-Graph (ungerichteter Baum) Ursprünglicher Graph x 4 x 1 Gemeinsame Verteilung p( x, x, x, x, x ) x 5 x 3 p( x ) p( x ) p( x x, x ) p( x ) p( x x, x ) x 2 Faktor Faktor-Graph Faktor-Knoten - Für jeden Faktor in der gemeinsamen Verteilung gibt es einen Faktor-Knoten - Ungerichtete Kanten von den Faktor-Knoten zu den im Faktor auftauchenden Variablen 37
79 Inferenz in Allgemeinen Graphen (Skizze) Falls der ursprüngliche Graph ein Polytree war, ist der Faktor- Graph ein ungerichteter Baum (dh zykelfrei). Blätter x a Betrachten Anfragevariable als Wurzel des Baumes Nachrichten von den Blättern zur Wurzel schicken (immer eindeutiger Pfad, weil Baum) x a Es gibt zwei Typen von Nachrichten: Faktor-Nachrichten und Variablen-Nachrichten x a Spezialfall lineare Kette 38
80 Inferenz in Allgemeinen Graphen Inferenz in Graphen, die keine Polytrees sind? Approximativer Ansatz: Iteratives Message-Passing Schema, wegen Zyklen im Graph nicht exakt Alternative für exakte Inferenz in allgemeinen Graphen: x 1 x2 x3 x 4 p( x) p( x ) p( x x ) p( x x ) p( x x, x ) Graph in einen äquivalenten azyklischen Graphen umwandeln Junction Tree Algorithmus, (i.a. exponentielle Laufzeit) Loopy Belief Propagation 39
81 Approximative Inferenz Exakte Inferenz NP-hart: In der Praxis spielen approximative Inferenzverfahren wichtige Rolle Wir betrachten Sampling-basierte Verfahren Relativ einfach zu verstehen/implementieren Praktisch brauchbar 40
82 Inferenz: Sampling-basiert Grundidee Sampling: p() z Wir interessieren uns für eine Verteilung, z.b. bedingte Verteilung über Anfragevariablen in graphischem Modell) Es ist schwierig, p() z direkt auszurechnen Stattdessen ziehen wir Samples (Stichproben) z ( k) ~ p( z) i.i.d., k 1,..., K, z ( k ) jedes Sample ist eine vollständige Belegung der Zufallsvariablen in z (1) (2) ( K ) Die Samples z, z,..., z approximieren die Verteilung 41
83 Inferenz: Sampling-basiert Beispiel: Anteil Samples mit Wert z Eindimensionale Verteilung, Diskrete Variable mit Zuständen {0,,6}: Anzahl Kopf bei 6 Münzwürfen Sample-Histogramm z z K {} z Echte Verteilung (Binomial) 42
84 Inferenz: Sampling-basiert Wie erhalten wir Samples aus der gesuchten Verteilung p() z? Markov Chain Monte Carlo: Klasse von Sampling- Verfahren, die in der Praxis oft effizientes Samplen ermöglichen z 43
85 Inferenz: MCMC Markov Chain Monte Carlo ( MCMC ) Idee: Strategie: Konstruiere Folge von Samples (0) (1) (2) (3) (4) (5) z z z z z z... (0) ( t1) t z z update z zufällig initialisiert ( ) durch mehrfache probabilistische Update-Schritte Wenn Updates geeignet gewählt, gilt asymptotisch ZV: T-te Variablenbelegung ( T z ) ~ p( z) ungefähr, für sehr grosse T 44
86 Inferenz: Gibbs Sampling Gibbs Sampling: Eine Version von MCMC Lokales Ziehen einer ZV gegeben den Zustand aller anderen Variablen Gegeben aktueller Zustand Ziehen des neuen Zustands x ' ( ' ') : Bisher gesampelte (alte) Werte x ' ~ p( x x,..., x ) x ' ~ p( x x ', x,..., x ) x ' ~ p( x x ', x ', x,..., x ) xn ' ~ p( xn x1 ', x2 ',..., xn 1 ') 3 x N ( N x,..., ) 1 x N x,..., 1 x N N 45
87 Gibbs-Sampling mit Evidenz Gibbs Sampling kann einfach Evidenz berücksichtigen Mit Evidenz: Nur die unbeobachteten Variablen werden jeweils neu gezogen, die beobachteten Variablen werden fest auf den beobachteten Wert gesetzt Satz: Falls p( xn x1, x2,..., xn 1, xn 1,..., xn 1) 0 für alle n und alle möglichen Zustände x i, dann folgen die generierten Samples asymptotisch der gesuchten Verteilung 46
88 Hidden Markov Modelle Zustände (versteckt) Beobachtungen Hidden Markov Modelle für sequentielle Daten Probabilistischer Automat: Versteckte Zustände, Beobachtungen q 1 q2 q q 3 4 O1 O2 O3 O 4 47
89 48
90 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse I Christoph Sawade/Niels Landwehr/Tobias Scheffer
91 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 50
92 Clusteranalyse: Was ist Clustern? Wir haben Datenpunkte Merkmalsvektoren Wir wollen Einteilung der Datenpunkte in Cluster 51
93 Problemstellung Clustering (Deterministisch) Problemstellung k-means: Gesucht sind Zuweisung der Daten zu Clustern: Clusterzentren K,...,, k 1,..., K 1 K K-Means Algorithmus: abwechselnde Neuberechnung von Clusterzentren und Clusterzugehörigkeiten 52
94 K-Means: Beispiel K = 2 53
95 K-Means: Beispiel K = 2 54
96 K-Means: Beispiel K = 2 55
97 K-Means: Beispiel K = 2 56
98 K-Means: Beispiel K = 2 57
99 K-Means: Beispiel K = 2 58
100 K-Means: Beispiel K = 2 59
101 Überblick Deterministischer Ansatz: K-Means Probabilistischer Ansatz: Gaußsche Mischmodelle 60
102 Probabilistisches Clustern: Gaußsches Mischmodell Generativer Prozess zur Erzeugung der Daten Cluster wählen, anschliessend Datenpunkt generieren versteckt beobachtet p( z, x) p( z) p( x z) Wähle Clusterkomponente Generiere Daten aus Komponente 61
103 Probabilistisches Clustern: Gaußsches Mischmodell Verteilung über Clusterkomponenten: Multinomialverteilung Verteilung der Daten in einem Cluster k: normalverteilt p( x z 1) ( x, ) k k k Clusterzentrum 1 1 exp ( x Z 2 Clusterkovarianz T 1 k ) k ( x k ) Beispiel D=2: Dichte, Samples aus Verteilung Normalisierer Z 2 D/2 1/2 62
104 EM Algorithmus Clustern = Anpassen des Modells an Daten (Maximum Likelihood) Iteratives Verfahren EM: bestimme Parameter Betrachte Q-Funktion Erwartungswert über p( Z X, ) Beginne mit zufälligem. Iteriere: Expectation: Maximization: 1,,, Parameterwert im letzten Schritt 63
105 Beispiel Gaußsches Mischmodell Clustering 64
106 Beispiel Gaußsches Mischmodell Clustering 65
107 Beispiel Gaußsches Mischmodell Clustering 66
108 Beispiel Gaußsches Mischmodell Clustering 67
109 Beispiel Gaußsches Mischmodell Clustering 68
110 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Zusammenfassung Christoph Sawade/Niels Landwehr Tobias Scheffer
111 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 2
112 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 3
113 Graphen-basiertes Clustern Ähnlichkeitsgraph Ähnlichkeit zwischen Datenpunkten (Knoten) bilden gewichtete Kanten: V 4
114 Spectral-Clustering (unnormalisiert) Relaxation NP-hart RatioCut PV n n T 2 i i i1 i1 min f Lf, wobei f 0, f n (Unnormalisiertes) Spectral-Clustering f n n n T 2 i i i1 i1 min f Lf, wobei f 0, f n Diskretisierung: sign(f i) Eigenwertproblem 5
115 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 6
116 PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature Aussagelos sind oder sich aus anderen ergeben d mm Ziel: Reduktion auf -dimensionalen Hauptunterraum 7
117 PCA Projektion Eine Projektion ist eine idempotente lineare Abbildung m T Sei u mit 1 u1u1 1 T y1 x u1x stellt Projektion in einen eindimensionalen Unterraum dar Für Daten im Projektionsraum gilt: T y x u x Mittelpunkt: Varianz: 1 1 n 1 2 u x u x u u n i 1 T T T 1 i x x i y x 1 i y1 x T ux 1 8
118 PCA Optimierungsproblem T Ziel: Varianz der projizierten Daten u soll nicht 1u1 verloren gehen T Maximiere u1u1 bzgl. u1, wobei T T u u 1 u u Lagrangian: Ableiten, Nullsetzen: u1 1u1 Lösung muss Eigenvektor sein T u1 u1 1 Varianz ist entsprechender Eigenwert Bestimmung des größten Eigenwert Größter Eigenvektor ist erste Hauptkomponente T u1u1 1 9
119 Fisher-Diskriminante Durch die PCA induzierter Unterraum erhält maximale Varianz der gesamten Daten Nicht das richtige Kriterium für Klassifikation x Original Space x 1 T 10 Xu P C A x x 1 u PCA Subspace u PCA PCA PCA T 0.05 Xu FS I x Fisher Subpace x 1 b u u FIS FIS w FIS 10
120 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 11
121 Bayes-Point Herleitung Mitteln der Vorhersage über alle (linearen) ineffiziente Modelle mit der Gewichtung wie gut ein Modell zu den Daten passt: x * hp AC sign sign w, x p w dw wvs Approximation der Bayes-Hypothese durch den Bayes- Punkt x * hpac sign w, x p w dw sign wvs w cm,x wcm wp w L dw ist der Masseschwerpunkt des wvs Version-Space Klassifikation 12
122 Billiard-Algorithmus Duale Darstellung v i v' w1 i v i v y x,w di x w 0 w 0 i i 0 i x i i x i w i i v i i d i w 0 w p i w 2 i i1 wi 1 13
123 Überblick Clusterverfahren III Hierarchisches Clustern Graphen-basiertes Clustern Principal Component Analysis Optimierungsproblem Fisher Linear Discriminant Bayes Point Machine Billiard-Algorithmus Statistische Tests Konfidenzintervalle Teststärke, Konfidenz, p-wert Vorzeichen-, Wald-, t- und Pearsons Test 14
124 Konfidenzintervalle Hypothesenbewertung: Was ist der erwartete Fehler (Risiko) eines Modells?, ( ), R f y f x p x y dxdy Da p x, y unbekannt ist, muss es aus Daten geschätzt werden, z.b.: ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 i i i i ˆR f Was sagt über R f aus? 15
125 Konfidenzintervalle ˆR f Punktschätzer sagt nichts über die Unsicherheit der Schätzung (Schätzfehler) aus. Idee: Intervall um den geschätzten Fehler angeben, so dass der echte Fehler meistens im Intervall liegt Ein zweiseitiges Konfidenzintervall C mit Konfidenz 1 gibt an, dass RCmit Wahrscheinlichkeit 1 gilt. Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable [ ] R Rˆ L, U 16
126 Konfidenzintervalle Übergang von der Verteilung zum Konfidenzintervall: ˆR f Schätzer ist binomialverteilt (Clopper-Pearson): Schätzer ist annähernd normalverteilt (Wald): C 1 1 CCP 1 Beta n k, k 1, Beta 1 n k 1, k 2 2 Wald k 1 n n 2 n ˆR f R R Experimente Experimente 17
127 Statistische Tests Hypothesenvergleich: Ist mein Modell besser als die Baseline-Methode? Da p x, y unbekannt ist, müssen Risiken aus Daten geschätzt werden. ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 R f R f 1 2 i i i i Was sagt der beobachtete Unterschied über R f R f aus? 1 2 Rˆ f Rˆ f
128 Statistische Tests Nullhypothese: Aussage, von der wir bis auf weiteres ausgehen, die wir aber überprüfen möchten und zu widerlegen bereit sind. Bedingung für einen statistischen Test: Wenn die Nullhypothese gilt, dann darf sie nur mit einer Wahrscheinlichkeit von höchstens abgelehnt werden. Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. 19
129 Statistische Tests Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. c T 20
130 p-wert p-wert: kleinste Signifikanz-Niveau, für das die Nullhypothese abgelehnt wird Tx c T 21
131 Dualität Ein Test mit Signifikanzniveau verwirft die Nullhypothese h 0: 0, genau dann nicht, wenn 0 innerhalb des 1 -Vertrauensintervalls liegt. 22
Reinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick: Graphische Modelle Graphische Modelle: Werkzeug zur Modellierung einer Domäne mit verschiedenen
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle: Inferenz Wir haben eine Domäne durch gemeinsame
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias Scheffer Graphische Modelle Werkzeug zur Modellierung einer Domäne mit
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Zusammenfassung. Niels Landwehr, Uwe Dick, Matthias Bussas
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Niels Landwehr, Uwe Dick, Matthias Bussas Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer Ansatz:
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrReinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/iels Landwehr/Tobias Scheffer Graphische Modelle Modellierung einer Domäne mit verschiedenen
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/Niels Landwehr/Tobias Scheffer Überblick Problemstellung/Motivation Deterministischer i ti Ansatz:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick Graphische Modelle: Synta und Semantik Graphische Modelle im Maschinellen Lernen Eakte
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle iels Landwehr Überblick Graphische Modelle: Synta und Semantik Graphische Modelle im Maschinellen Lernen Eakte
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Tobias Scheffer Christoph Sawade
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Christoph Sawade Heute: Niels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz:
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Tobias Scheffer Überblick Wiederholung: Konfidenzintervalle Statistische Tests
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen II. Zusammenfassung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Zusammenfassung Uwe Dick/Peter Haider/Niels Landwehr/Blaine Nelson/Christoph Sawade Tobias Scheffer Part 1: Uwe Dick ZUSAMMENFASSUNG:
MehrBayessche Lineare Regression
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.
MehrÜberblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression
Überblick Grundkonzepte des Baes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Baes sche Vorhersage Münzwürfe Lineare Regression 57 Erinnerung:
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrMaschinelles Lernen II
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II Niels Landwehr Organisation Vorlesung/Übung 4 SWS. Ort: 3.01.2.31. Termin: Vorlesung: Dienstag, 10:00-11:30.
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Christoph Sawade/Niels Landwehr/Tobias Scheffer
Universität Potsdam Institut für Informati Lehrstuhl Maschinelles Lernen Clusteranalyse Christoph Sawade/iels Landwehr/Tobias Scheffer Überblic Problemstellung/Motivation Deterministischer Ansatz: K-Means
MehrLatente Dirichlet-Allokation
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Latente Dirichlet-Allokation Tobias Scheffer Peter Haider Paul Prasse Themenmodellierung Themenmodellierung (Topic modeling) liefert
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Bayes sches Lernen Niels Landwehr Überblick Grundkonzepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münzwürfe
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sprachtechnologie Tobias Scheffer Thomas Vanck Statistik & Maschinelles Lernen Statistik: Deskriptive Statistik: Beschreibung (Tabellen,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
MehrSyntaktische und Statistische Mustererkennung. Bernhard Jung
Syntaktische und Statistische Mustererkennung VO 1.0 840.040 (UE 1.0 840.041) Bernhard Jung bernhard@jung.name http://bernhard.jung.name/vussme/ 1 Rückblick Nicht lineare Entscheidungsfunktionen SVM, Kernel
MehrSEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG
SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der
MehrBayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur
MehrStatistische Sprachmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Statistische Sprachmodelle Tobias Scheffer Thomas Vanck Statistische Sprachmodelle Welche Sätze sind Elemente einer Sprache (durch
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 3: Lineares Modell, Klassifikation, PCA Randolf Altmeyer January 9, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Dominik Lahmann Tobias Scheffer Überblick Hypothesenbewertung, Risikoschätzung
MehrReinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
MehrGenerative Modelle. Generative Modelle 1 / 49
Generative Modelle Generative Modelle 1 / 49 Die Zielstellung Bisher: Lerne eine unbekannte Zielfunktion approximativ nach Beobachtung zufällig erzeugter Beispiele Jetzt: Finde möglichst viel über die
MehrBayes sche und probabilistische Netze
Bayes sche und probabilistische Netze Gliederung Wahrscheinlichkeiten Bedingte Unabhängigkeit, Deduktion und Induktion Satz von Bayes Bayes sche Netze D-Separierung Probabilistische Inferenz Beispielanwendung
Mehr3.2 Maximum-Likelihood-Schätzung
291 Die Maximum-Likelihood-Schätzung ist die populärste Methode zur Konstruktion von Punktschätzern bei rein parametrischen Problemstellungen. 292 3.2.1 Schätzkonzept Maximum-Likelihood-Prinzip: Finde
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrStatistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung 11. Vorlesung Jochen Köhler 10.05.011 1 Inhalt der heutigen Vorlesung Zusammenfassung Parameterschätzung Übersicht über Schätzung und Modellbildung Modellevaluation
MehrBayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)
Bayes-Netze Claudio Fischer 20.06.2013 Text- und Datamining (AG Digital Humanities) Agenda Wiederholung Wahrscheinlichkeitstheorie Beispiel Motivation Bayes-Netze Inferenz exakt Inferenz annäherend Belief
MehrStrukturelle SVM zum Graph-labelling
23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und
MehrWahrscheinlichkeitstheorie 2
Wahrscheinlichkeitstheorie 2 Caroline Sporleder Computational Linguistics Universität des Saarlandes Sommersemester 2011 19.05.2011 Caroline Sporleder Wahrscheinlichkeitstheorie 2 (1) Wiederholung (1):
MehrDWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr
2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X
MehrProbabilistische Graphische Modelle
Probabilistische Graphische Modelle 1 Probabilistische Graphische Modelle Sven Wachsmuth Universität Bielefeld, Technische Fakultät, AG Angewandte Informatik WS 2006/2007 Übersicht über die Vorlesung Probabilistische
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrDer Metropolis-Hastings Algorithmus
Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung
MehrÜbersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten
Markov-Chain Monte-Carlo Verfahren Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Übersicht 1 Einführung
MehrReasoning and decision-making under uncertainty
Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,
MehrElementare Wahrscheinlichkeitslehre
Elementare Wahrscheinlichkeitslehre Vorlesung Computerlinguistische Techniken Alexander Koller 13. November 2015 CL-Techniken: Ziele Ziel 1: Wie kann man die Struktur sprachlicher Ausdrücke berechnen?
MehrHypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
MehrLineare Klassifikatoren
Universität Potsdam Institut für Informatik Lehrstuhl Lineare Klassifikatoren Christoph Sawade, Blaine Nelson, Tobias Scheffer Inhalt Klassifikationsproblem Bayes sche Klassenentscheidung Lineare Klassifikator,
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr
Universität Potsdam Institut für Informatik ehrstuhl Maschinelles ernen Modellevaluierung Niels andwehr ernen und Vorhersage Klassifikation, Regression: ernproblem Eingabe: Trainingsdaten Ausgabe: Modell
MehrPlanung von Handlungen bei unsicherer Information
Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr
Unverstät Potsdam Insttut für Informatk Lehrstuhl Maschnelles Lernen Graphsche Modelle els Landwehr Zusammenfassung Pfade Zusammenfassung: en Pfad --Y-Z- st B A E Blockert be Y, wenn Dvergerende Verbndung,
MehrBayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität. Volker Tresp
Bayes sche Netze: Konstruktion, Inferenz, Lernen und Kausalität Volker Tresp 1 Einführung Bisher haben wir uns fast ausschließich mit überwachtem Lernen beschäftigt: Ziel war es, eine (oder mehr als eine)
MehrEinführung in die Maximum Likelihood Methodik
in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood
MehrStatistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze
Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze Erich Schubert 6. Juli 2003 LMU München, Institut für Informatik, Erich Schubert Zitat von R. P. Feynman Richard P. Feynman (Nobelpreisträger
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Paul Prasse Tobias Scheffer Sawade/Landwehr/Prasse/Scheffer, Maschinelles Lernen
MehrBZQ II: Stochastikpraktikum
BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
MehrStochastische dynamische Optimierung
Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrMustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle
Mustererkennung Unüberwachtes Lernen R. Neubecker, WS 01 / 01 Übersicht (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren 1 Lernen Überwachtes Lernen Zum Training des Klassifikators
MehrHidden Markov Models. Vorlesung Computerlinguistische Techniken Alexander Koller. 8. Dezember 2014
idden Markov Models Vorlesung omputerlinguistische Techniken Alexander Koller 8. Dezember 04 n-gramm-modelle Ein n-gramm ist ein n-tupel von Wörtern. -Gramme heißen auch Unigramme; -Gramme Bigramme; -Gramme
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Tobias Scheffer Michael Brückner Hypothesenbewertung Ziel: gute Vorhersagen treffen. Bayesian model averaging,
MehrINTELLIGENTE DATENANALYSE IN MATLAB
INTELLIGENTE DATENANALYSE IN MATLAB Überwachtes Lernen: Entscheidungsbäume Literatur Stuart Russell und Peter Norvig: Artificial i Intelligence. Andrew W. Moore: http://www.autonlab.org/tutorials. 2 Überblick
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
MehrStochastik Praktikum Markov Chain Monte Carlo Methoden
Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem
MehrSemester-Fahrplan 1 / 17
Semester-Fahrplan 1 / 17 Hydroinformatik I Einführung in die Hydrologische Modellierung Bayes sches Netz Olaf Kolditz *Helmholtz Centre for Environmental Research UFZ 1 Technische Universität Dresden TUDD
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrWichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrMathematische Grundlagen (Bayes sches Lernen)
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Mathematische Grundlagen (Bayes sches Lernen) Tobias Scheffer Michael Großhans Paul Prasse Uwe Dick Anwendungsbeispiel 1: Diagnostik
MehrUnüberwachtes Lernen
Unüberwachtes Lernen Mustererkennung und Klassifikation, Vorlesung No. 12 M. O. Franz 17.01.2008 Übersicht 1 Hauptkomponentenanalyse 2 Nichtlineare Hauptkomponentenanalyse 3 K-Means-Clustering Übersicht
MehrNachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011
Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester 2011 28. Oktober 2011 Prof. Dr. Torsten Hothorn Institut für Statistik Nachname: Vorname: Matrikelnummer: Anmerkungen: ˆ Schreiben
MehrPunktetabelle (wird von den Korrektoren beschriftet)
Probability and Statistics FS 2018 Prüfung 13.08.2018 Dauer: 180 Minuten Name: Legi-Nummer: Diese Prüfung enthält 12 Seiten (zusammen mit dem Deckblatt) und 10 Aufgaben. Das Formelblatt wird separat verteilt.
MehrFortgeschrittene Ökonometrie: Maximum Likelihood
Universität Regensburg, Lehrstuhl für Ökonometrie Sommersemester 202 Fortgeschrittene Ökonometrie: Maximum Likelihood Poissonverteilung Man betrachte die poisson-verteilten Zufallsvariablen y t, t =, 2,...,
MehrStatistik I für Betriebswirte Vorlesung 14
Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen
Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Noémie Becker & Dirk Metzler 31. Mai 2016 Inhaltsverzeichnis 1 Binomialverteilung 1 2 Normalverteilung 2 3 T-Verteilung
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Klassifikation und Regression: nächste Nachbarn Katharina Morik, Uwe Ligges 14.05.2013 1 von 24 Gliederung Funktionsapproximation 1 Funktionsapproximation Likelihood 2 Kreuzvalidierung
MehrFit for Abi & Study Stochastik
Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen
MehrDie Maximum-Likelihood-Methode
Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft
Mehr