V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

Größe: px
Ab Seite anzeigen:

Download "V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:"

Transkript

1 Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement Learning MIT Press 1998 Optimales Verhalten des Agenten Steuerstrategie lernen: Aktionen abhängig von aktuellem Umwelt-Zustand Umwelt-Zustand verändert durch Aktionen Umwelt-Zustand wird bewertet ( rewards ) Umwelt nur partiell erfahrbar Erfolgsbewertung verzögert Umwelt i.a. nicht explizit gegeben (aber bei dynamischer Programmierung/Optimierung) Explorationsstrategie: Experimentieren mit möglichen Aktionen Sommer-Semester 2007 MMKI: Reinforcement Learning 2 Modelle für Interaktion Umwelt/Agent (Wdh.) Dynamische Beschreibung in diskreter Welt - Zusammenhänge zwischen Zuständen und Ereignissen - Wie verändert sich die Welt durch Ereignisse Modelle für Interaktion Umwelt/Agent Ablaufbeschreibung mit Ereignissen e t für diskrete lineare Zeit t s 0 -e 0 r 1 s 1 -e 1 r 2 s 2 -e 2. oder mit Aktionen u t eines Agenten a s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. Agent beeinflusst die Welt durch Aktionen - Strategie π legt Aktion fest (z.b. abhängig vom aktuellen Zustand/Ziel) Zustand s t Wert r t a Aktion u t s t+1 r t+1 Umwelt Sommer-Semester 2007 MMKI: Reinforcement Learning 3 Sommer-Semester 2007 MMKI: Reinforcement Learning 4 Markov-Bedingung Abfolge s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. u t-1 r t s t -u t i.a. Zustand/Wert r t+1 s t+1 zur Zeit t+1 abhängig von gesamter Vergangenheit: P(s t+1 = s, r t+1 =r s 0 u 0 r 1 s 1 u 1 r 2 s 2 u 2 u t-1 r t s t u t ) Markov-Bedingung: = P(s t+1 = s, r t+1 =r s t u t ) d.h. nur aus letztem Zustand/letzter Aktion berechenbar Markov-Bedingung Dynamik des Systems für stochastisch beschriebene Welt mit Markov-Bedingung : F: S x U Verteilungen über S x R P(s = s t+1, r = r t+1 s t u t =su ) = F(s,u )(s,r) daraus abgeleitet Übergangswahrscheinlichkeit P sus := P( s = s t+1 s t u t =su ) Reward-Wahrscheinlichkeit P sus r := P( r= r t+1 s t u t s t+1 =sus ) Erwartungswert für Reward r sus := E(r t+1 s t u t s t+1 =sus ) Sommer-Semester 2007 MMKI: Reinforcement Learning 5 Sommer-Semester 2007 MMKI: Reinforcement Learning 6 1

2 Werte (rewards), analog: Kosten Für einen Agenten zur Zeit t : r t bzw. r sus Kumulativer Wert für feste Folge s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. Wert ab Zeit t : R t := i=0... γ i r t+1+i mit Discount-Faktor 0 < γ <=1 In stochastischer Welt: Erwartungswert für R t bei gegebener Strategie π Markov-Entscheidungsprozess Markov Decision Process (MDP) ist gegeben durch Diskrete lineare Zeitskala t=0,1,2, (Endliche) Menge S von Zuständen s, Agent kann s vollständig und zuverlässig beobachten (Endliche) Menge U von Aktionen u des Agenten Dynamik beschrieben mittels Übergangswahrscheinlichkeiten P sus Erwartungswerten r sus œ R Der Agent muss sich zu jedem Zeitpunkt t für eine Aktion entscheiden. Sommer-Semester 2007 MMKI: Reinforcement Learning 7 Sommer-Semester 2007 MMKI: Reinforcement Learning 8 Strategie (policy) Deterministische MDP mit deterministischer Strategie: π: S Ø U Agent entscheidet sich für die Aktion u=π(s) in Abhängigkeit vom aktuellen Zustand s Wertfunktion (value function) V In deterministischem MDP ist bei gegebener Strategie π für jeden Zustand s der Wert berechenbar: V π : S R Damit ergibt sich die Abfolge s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. u t-1 r t s t -u t auf der Basis von Reward-/Übergangsfunktionen u t = π(s t ) r t+1 = f r (s t,u t ) s t+1 = f s (s t,u t ) V π (s) ist der Wert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: V π (s t ) := R t = i=0... γ i r t+1+i Sommer-Semester 2007 MMKI: Reinforcement Learning 9 Sommer-Semester 2007 MMKI: Reinforcement Learning 10 Strategie (policy) Für stochastische MDP: π: S x U Ø [0,1] Agent entscheidet sich mit Wahrscheinlichkeit π(s,u) für die Aktion u in Abhängigkeit vom aktuellen Zustand s Daraus ergeben sich Wahrscheinlichkeiten für die Abfolgen s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. u t-1 r t s t -u t auf der Basis von π(s i,u i ), P sus, P sus r Wertfunktion (state-value function) V Bei gegebener Strategie π ist für jeden Zustand s der Erwartungswert bestimmt: V π : S R V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: V π (s) := E( R t s = s t, π) = E ( i=0... γ i r t+1+i s = s t, π) Sommer-Semester 2007 MMKI: Reinforcement Learning 11 Sommer-Semester 2007 MMKI: Reinforcement Learning 12 2

3 Bellmann-Gleichung V π (s) := E( R t s = s t, π) = E ( i=0... γ i r t+1+i s = s t, π) = E ( r t+1 + γ i=0... γ i r t+2+i s = s t, π) = u π(s,u) s P sus ( r sus + γ E ( i=0... γ i r t+2+i s = s t+1, π) ) = u π(s,u) s P sus ( r sus + γ V π (s ) ) Iterative Beziehungen zwischen den Werten V π (s) Bei n = card(s) gibt es n lineare Gleichungen für n Werte. Nach bekannten Verfahren lösbar. Sommer-Semester 2007 MMKI: Reinforcement Learning 13 Optimale Strategie π π besser oder gleichwertig bzgl. π, falls V π (s) V π' (s) für alle s S Es gibt maximale Strategien (muss nicht eindeutig sein). Maximale Strategie: π Wertfunktion für maximale Strategie: V * V * (s) := max π V π (s) Sommer-Semester 2007 MMKI: Reinforcement Learning 14 Optimale Strategie π Bellmann-Gleichung für Wertfunktion V* der optimalen Strategie π ZR-Suche BlindeSuche ZR-Suche mit Kosten A Det. MDP V (s) = max u s P sus ( r sus + γ V (s ) ) n := card(s) n nicht-lineare Gleichungen für n Werte V (s) Lösung mit Methoden der dynamischen Programmierung Voraussetzung: Modell ist bekannt Spezialfälle: Suchverfahren (vgl. EKI) Heurist. ZR-Suche Heurist.Suche Heurist. ZR-Suche mit Kosten A* MDP (stoch). Bek. Modell Dyn.Progr. MDP Unbek. Modell Q-Learning TD-Learning MC-Learning Sommer-Semester 2007 MMKI: Reinforcement Learning 15 Sommer-Semester 2007 MMKI: Reinforcement Learning 16 Q-Funktion (action-value function) Q π : S x U R Q π (s,u) ist der Erwartungswert der rewards, bei Start in s mit Aktion u und Arbeit gemäß der π insgesamt erreicht wird: Q π (s, u) := E( R t s=s t, u=u t, π) = E ( i=0... γ i r t+1+i s=s t, u=u t, π) Bellmann-Gleichung für Q-Funktion Q π (s,u) := E( R t s = s t, u=u t, π) = E ( i=0... γ i r t+1+i s = s t, u=u t, π) = E ( r t+1 + γ i=0... γ i r t+2+i s = s t, u=u t, π) = s P sus (r sus +γ u π(s,u ) E( i=0... γ i r t+2+i s =s t+1,u =u t+1,π) ) = s P sus ( r sus + γ u π(s,u ) Q π (s,u ) ) Iterative Beziehungen zwischen den Werten Q π (s,u) Bei n = card(s) und m = card(u) gibt es n m lineare Gleichungen für n m Werte. Nach bekannten Verfahren lösbar (vgl. Wertfunktion V). Sommer-Semester 2007 MMKI: Reinforcement Learning 17 Sommer-Semester 2007 MMKI: Reinforcement Learning 18 3

4 Zusammenhänge zwischen Q und V V π (s) := u π(s,u) Q π (s,u) Q π (s,u) := s P sus ( r sus + γ V π (s ) ) Optimale Strategie π Q-Funktion für maximale Strategie π * : Q * (s,u) := max π Q π (s,u) Bellmann-Gleichung für Q* : Q π (s,u) = s P sus ( r sus + γ max u Q π (s,u ) ) n := card(s), m = card(u) : n m nicht-lineare Gleichungen für n m Werte Q (s,u) Lösung mit Methoden der dynamischen Programmierung Voraussetzung: Modell ist bekannt Sommer-Semester 2007 MMKI: Reinforcement Learning 19 Sommer-Semester 2007 MMKI: Reinforcement Learning 20 Betrachtete Funktionen (Wdh.) MDP mit Übergangswahrscheinlichkeit P sus := P( s = s t+1 s t u t =su ) Reward-Wahrscheinlichkeit P sus r := P( r= r t+1 s t u t s t+1 =sus ) Erwartungswert für Reward r sus := E(r t+1 s t u t s t+1 =sus ) Optimale Funktionen (Wdh.) Optimale Strategie π : S U dazu: Wert-Funktion (state-value-function) V * (s) = max π V π (s) Q-Funktion (action-value function) Q * (s,u) = max π Q π (s,u) Strategie π: S U bzw. stochastisch π: S x U Ø [0,1] Wert-Funktion (state-value-function) V π : S R für Strategie π Q-Funktion (action-value function)q π : S x U R für Strategie π Bestimmung von π anhand von V* bzw. Q* : π*(s) = max u Q (s,u) Anwendbar ohne Kenntnis des Modells = max u (r sus + γ V*(s ) ) Kenntnis des Modells notwendig Statt π* kann auch V* bzw. Q* bestimmt (gelernt) werden Sommer-Semester 2007 MMKI: Reinforcement Learning 21 Sommer-Semester 2007 MMKI: Reinforcement Learning 22 Dynamische Programmierung Voraussetzung: Modell bekannt, d.h. Übergangswahrscheinlichkeit P sus := P( s = s t+1 s t u t =su ) Reward-Wahrscheinlichkeit P sus r := P( r= r t+1 s t u t s t+1 =sus ) Erwartungswert für Reward r sus := E(r t+1 s t u t s t+1 =sus ) Aufgaben: Für gegebene Strategie π die Wertfunktion V π berechnen Optimale Strategie π* bestimmen (alternativ V* bzw. Q* ) Strategie-Bewertung: V π berechnen Aufgabe: Gegeben π, berechne V π (Vorhersage-Problem) in bekanntem MDP 1. Variante: Lösen der Bellmann-Gleichung (Lineares System): V π (s) = u π(s,u) s P sus ( r sus + γ V π (s ) ) Sommer-Semester 2007 MMKI: Reinforcement Learning 23 Sommer-Semester 2007 MMKI: Reinforcement Learning 24 4

5 Iterative Strategie-Bewertung 2. Variante: Iterative Strategie-Bewertung Iteration anhand der Bellmann-Gleichung: V 0 (s) := 0 V k+1 (s) := u π(s,u) s P sus ( r sus + γ V k (s ) ) Konvergenz gegen V π (Fixpunkt, Bellmann-Gleichung, Voraussetzung: V π existiert ) full backup : alle Nachfolge-Zustände berücksichtigen Iterative Strategie-Bewertung Implementation: a) Zwei Tabellen für V k und V k+1, Einträge für V k+1 anhand der Werte für V k (entspricht simultaner Berechnung) b) Nur eine Tabelle überschreiben der Werte konvergiert schneller (Resultat für V k+1 abhängig von Reihenfolge) Iteration abbrechen, wenn Abstand zwischen V k und V k+1 hinreichend gering Sommer-Semester 2007 MMKI: Reinforcement Learning 25 Sommer-Semester 2007 MMKI: Reinforcement Learning 26 Strategie-Verbesserung Zunächst deterministisch: Greedy-Verfahren Ausgehend von Strategie π wird neue Strategie π definiert: π (s) := argmax u Q π (s,u) (falls u nicht eindeutig: wählen) Dann gilt für alle s : V π (s) V π (s) und V π = V π Ø V π = V Strategie-Iteration Sukzessive neue Strategien π k+1 aus Strategie π k definieren: π k+1 (s) := argmax u Q πk (s,u) Dann gilt für alle s und alle k: V π0 V π1 V π2 V π3 Ø V πk+1 (s) V πk (s) Konvergenz nach endlich vielen Schritten für endliche MDP. V Für stochastische Strategien analog. Sommer-Semester 2007 MMKI: Reinforcement Learning 27 Sommer-Semester 2007 MMKI: Reinforcement Learning 28 Strategie-Iteration Implementation: Abwechselnd Strategie-Bewertung und Strategie-Verbesserung ausführen (Start beliebig, Abbruch bei Gleichheit bzw. geringer Verbesserung): π 0 Ø Bew. V π0 Ø Verb. π 1 Ø Bew. V π1 Ø Verb. π 2 Ø Bew. V π2. Ø Verb. π * Ø Bew. V Problem: Strategie-Bewertung durch Iteration ist unendlicher Prozess. Man muss aber nicht vollständig bewerten. Wert-Iteration Kombinierte Strategie-Bewertung und Strategie-Verbesserung, wobei nur Wertfunktion V explizit iteriert wird: V k+1 (s) := max u E( r t+1 + γ V k (s t+1 ) s t =s, u t =u ) = max u s P sus ( r sus + γ V k (s ) ) Aus Ergebnis V (Abbruch wenn nur noch geringe Verbesserung) dann Strategie π bestimmen. Sommer-Semester 2007 MMKI: Reinforcement Learning 29 Sommer-Semester 2007 MMKI: Reinforcement Learning 30 5

6 Verallgemeinerte Strategie-Iteration (GPI) Interagierende Prozesse: General Poliy Iteration Strategie-Bewertung Strategie-Verbesserung Varianten dabei bzgl. Ausführlichkeit der jeweiligen Prozesse. Sukkzessive Annäherung an optimale Strategie. Lernen ohne Modell Dynamische Programmierung/Optimierung: optimale Strategie ermitteln unter Verwendung des Modells: π bzw. V* oder Q* Jetzt: Exploration Modell unbekannt, aber durch Aktionen erkunden Strategiebewertung: V:=V π Ende bei π = greedy(v π ) Voraussetzung: Umwelt (Zustand, Reward) beobachtbar Strategieverbesserung: π:=greedy(v) Sommer-Semester 2007 MMKI: Reinforcement Learning 31 Sommer-Semester 2007 MMKI: Reinforcement Learning 32 Iteration ohne Modell Grundidee: Mit Aktionen Modell (partiell) erkunden und mittels Iterationen Funktion bestimmen Bei stochastischer Umwelt: Wiederholte Erkundung Entspricht GPI-Ansatz: Aktionsauswahl nach jeweils verbesserter Strategie (Verkürzte) Bewertung der Strategie Beispiel Q-Learning für unbekanntes deterministisches MDP f: S x U S x R [s t+1, r t+1 ] = f(s t,u t ) kann man aufspalten in : Übergangsfunktion f s : S x U S Rewardfunktion f r : S x U R s t+1 = f s (s t,u t ) r t+1 = f r (s t,u t ) Sommer-Semester 2007 MMKI: Reinforcement Learning 33 Sommer-Semester 2007 MMKI: Reinforcement Learning 34 Beispiel Q-Learning-Algorithmus (det. Modell) Lernziel: optimale Aktions-Wert-Funktion Q* daraus ableitbar: π (s) = ArgMax u Q(s,u), V*(s) = Max u Q(s,u) Bellmann-Optimalitäts-Gleichung (Iteration): Q*(s,u) = f r (f s (s,u)) + γ Max u Q*( f s (s,u), u ) ermöglicht iteratives Lernen Folge von Hypothesen Q k : Q k+1 (s,u) = f r (f s (s,u)) + γ Max u Q k ( f s (s,u), u ) Beschreibung von z.b. in Tabellenform update durch Auswertung von Explorationen: s = f s (s, u), f r (s ) Lernen in aufeinander folgenden Episoden. Sommer-Semester 2007 MMKI: Reinforcement Learning 35 Sommer-Semester 2007 MMKI: Reinforcement Learning 36 6

7 Q-Learning-Algorithmus (det. Modell) Initial: Q 0 : beliebig Repeat for ever (für jede Episode) Q i : Werte aus voriger Episode Anfangs-Zustand s bestimmen Mit s iterieren: Aktion u bestimmen und ausführen. s = f s (s, u), r = f r (s,u) beobachten Aktualisieren: Q i+1 (s,u) := r + γ Max u Q i (s, u ) s := s Q-Learning: Konvergenz (det. Modell) Konvergenz von Q k gegen Q* gilt auch in unendlichen Modellen, falls 0 <= γ < 1 f r (s,u) beschränkt durch Konstante c beliebige endliche initiale Werte alle Paare (s,u) werden unendlich oft betrachtet. (Beweis) Bei Initialisierung mit 0 gilt stets 0 <= Q k (s,u) <= Q(s,u) Sommer-Semester 2007 MMKI: Reinforcement Learning 37 Sommer-Semester 2007 MMKI: Reinforcement Learning 38 Q-Learning: Aktionsauswahl Generalized Strategy Iteration (GPI): Aktionsauswahl nach jeweils verbesserter Strategie (Verkürzte) Bewertung des erreichbaren Q-Werts Auswahl-Strategie (nächste Aktion u): Möglichkeit: gierige (greedy) Auswahl u:=argmax u ( f r (s,u ) + γ Q k (s, u ) ) Damit bestes bekanntes Resultat erzielt. Problem: evtl. bessere Zustände werden nicht probiert. Explorationstrategien Problem (Exploration vs. Exploitation) : Auswahl zwischen bekannten guten Aktionen und Experiment mit anderen Aktionen (Konvergenzbedingung: alle (s,u) unendlich oft) Auswahl-Wahrscheinlichkeiten (stochastische Strategie!) z.b. π(s,u) := c Qk(s,u) / Σ v c Qk(s,v) Sommer-Semester 2007 MMKI: Reinforcement Learning 39 Sommer-Semester 2007 MMKI: Reinforcement Learning 40 Explorationstrategien Weitere Varianten Spezielle (günstige) Folgen verwenden (ausgehend von den Zustandsübergängen mit rewards) Simulation: partiell: über bereits bekannte Folgen bei neuen Q k -Werten total: bei bekannten f s und f r (dynamische Programmierung) Q-Learning für stochastische Modelle Einfaches update (Überschreiben) nicht sinnvoll (keine Konvergenz) Stattdessen: Inkrementelle Annäherung an Erwartungswert neu := alt + Schrittweite (Messwert alt) Beispiel: n-armiger Bandit Sommer-Semester 2007 MMKI: Reinforcement Learning 41 Sommer-Semester 2007 MMKI: Reinforcement Learning 42 7

8 Beispiel: n-armiger Bandit Ohne Zustand, n Aktionen Q*(u) : Unbekannter (Erwartungs-)Wert für Aktion u Q t (u) : geschätzter Wert für u zur Zeit t z.b. Mittelwert über bisher erhaltene rewards: Q t (u)= 1/k Σ i=1 k r i (konvergiert gegen Q*(u) ) Auswahl einer Aktion zur Zeit t Exploitation: nächste Aktion gemäß argmax u Q t (u) Exploration: andere Aktion (momentan schlechter, aber falls noch weitere Aktionen folgen sollen: evtl. bessere Alternativen finden) n-armiger Bandit greedy-auswahl: immer Exploitation ε-greedy : mit Wkt. ε >0 andere Aktion Softmax: P(u) = e Qt(u)/τ / Σ v e Qt(v)/τ τ >0 Temperatur (Boltzmann-Verteilung) Optimistischer Anfangswert führt dazu, dass zunächst exploriert wird Sommer-Semester 2007 MMKI: Reinforcement Learning 43 Sommer-Semester 2007 MMKI: Reinforcement Learning 44 n-armiger Bandit Inkrementele Berechnung: Q t+1 (u) = (k u +1) -1 Σ i=1 ku+1 r i = (k u +1) -1 (r t+1 + Σ i=1 ku r ) i = (k u +1) -1 (r t+1 + k u Q t (u) + Q t (u) - Q t (u) ) = (k u +1) -1 (r t+1 + (k u +1) Q t (u) - Q t (u) ) = Q t (u) + (k u +1) -1 (r t+1 -Q t (u) ) Allgemeine Form: neu := alt + Schrittweite (Messwert alt) = alt + Schrittweite Fehler n-armiger Bandit Q t+1 (u) = Q t (u) + (k u +1) -1 (r i+1 -Q t (u) ) Allgemeiner Q t+1 (u) = Q t (u) + α t (r t+1 -Q t (u) ) Schrittweite α t variieren für bessere Konvergenz, Konvergenz mit Wkt. 1 falls Σ i=0 α i = und Σ i=0 α i2 < Sommer-Semester 2007 MMKI: Reinforcement Learning 45 Sommer-Semester 2007 MMKI: Reinforcement Learning 46 Q-Learning für stochastisches Modell Initial: Q 0 : beliebig Repeat for ever (für jede Episode) Q i : Werte aus voriger Episode Anfangs-Zustand s bestimmen Mit s iterieren: Aktion u wählen (z.b. ε-greedy) und ausführen. s, r beobachten Aktualisieren: Q i+1 (s,u) := Q i (s,u) + α (r + γ Max u Q i (s, u ) - Q i (s,u) ) s := s Dabei ist r + γ Max u Q i (s,u ) der neue Messwert Temporal difference: r + γ Max u Q i (s,u ) - Q i (s,u) Sommer-Semester 2007 MMKI: Reinforcement Learning 47 TD-Lernen TD = Temporal difference (entspricht der Abweichung vom bisher angenommen Wert) (Später mehr dazu) Auch für andere Probleme anwendbar Allgemeine Formel: update = Lernrate * Fehler (vgl. delta-regel für NN, Gradientenverfahren usw.) Sommer-Semester 2007 MMKI: Reinforcement Learning 48 8

9 Haben bis jetzt für stochastische Modelle: Monte Carlo (MC) Lernen v π Q π π V* Modell bekannt (DP) Lin. Glgssytem Iteration Strategie-Iteration Iteration Modell unbekannt (RL) Modell nicht bekannt Lernen in Episoden (!) Mittlung der interessierenden Werte aus Episoden Prinzip GPI für Steuerung des Agenten Q* Q-Lernen Für deterministische Modelle auch einfachere Iterationsverfahren Sommer-Semester 2007 MMKI: Reinforcement Learning 49 Sommer-Semester 2007 MMKI: Reinforcement Learning 50 MC: Strategiebewertung für π Initial: Liste Returns(s i,u i ) leer, V beliebig Repeat for ever Episode (endl. Zustandsfolge s 0,s 1,s 2,..., s n mit rewards) gemäß π generieren und beobachten Für alle s i den dabei erreichten Wert R i ermitteln und an Liste Returns(s i ) anhängen V(s i ) := Mittelwert(Returns(s i )) MC: Strategiebewertung (Policy evaluation) für geg. π Varianten: jedes Auftreten eines Zustands s berücksichtigen nur das erste Auftreten ( first visit ) Evtl. nicht alle Zustände in den Episoden berücksichtigen (dadurch attraktiv) Konvergenz gemäß Gesetz der großen Zahlen (unendliche viele Besuche der Zustände) Sommer-Semester 2007 MMKI: Reinforcement Learning 51 Sommer-Semester 2007 MMKI: Reinforcement Learning 52 MC: Strategiebewertung für Q π -Funktion Analog zu Strategie-Bewertung. Problem: Bei deterministischer Strategie π wird im Zustand s stets nur Aktion u=π(s) ausgeführt, d.h. keine vollständige Exploration. Optimale Strategie In unbekanntem Modell kann optimale Strategie π* aus Q* bestimmt werden: π*(s) = max u Q (s,u) Explorationsproblem (vgl. n-armiger Bandit) (nicht möglich aus V* ) Möglichkeit: initial kann jedes Zustands-Aktions-Paar (s,u) unendlich oft auftreten Sommer-Semester 2007 MMKI: Reinforcement Learning 53 Sommer-Semester 2007 MMKI: Reinforcement Learning 54 9

10 MC: Optimale Q-Funktion lernen Initial: Returns(s i,u i ) leer, Q beliebig, π beliebig (stoch.) Repeat for ever Episode (endl. Zustandsfolge s 0,s 1,s 2,..., s n mit rewards) gemäß aktueller Strategie π generieren und beobachten Für alle (s i,a i ) den dabei erreichten Wert R i ermitteln und an Liste Returns(s i,u i ) anhängen Q(s i,u i ) := Mittelwert(Returns(s i,u i )) Verbesserte Strategie π z.b. gemäß (ε-greedy) π(s,u):=1-ε+ε/card(u) für u :=argmax u Q(s,u) π(s,u):= ε/card(u) sonst folgt dem GPI-Schema Sommer-Semester 2007 MMKI: Reinforcement Learning 55 MC: Optimale Q-Funktion lernen folgt dem GPI-Schema: Es erfolgen abwechselnd Schritte zur Strategieverbesserung (neue Strategie π) Strategiebewertung (Q π ), aber nicht vollständig - ε-greedy statt Start mit unterschiedlichen s 0, u - Approximation der optimalen Q-Funktion bzw. Strategie. - Zusätzliche Analyse bzgl. Stabilität des Prozesses für deterministische Strategie (Abbruch bei Stabilität: Optimale Strategie gefunden) Sommer-Semester 2007 MMKI: Reinforcement Learning 56 MC: Off-Policy Bisher: Wertfunktion/Q-Funktion für Strategie π wird gelernt durch Episoden, die mit π erzeugt werden Alternative: Wertfunktion/Q-Funktion für Strategie π wird gelernt durch Episoden, die mit einer anderen Strategie π erzeugt werden MC: Off-Policy Vorteile: Strategie π kann greedy (deterministisch) sein Strategie π erzeugt die notwendigen Beispiele Dafür notwendig: 1. π(s,u) >0 Ø π (s,u) >0 2. Ausgleich der unterschiedlicher Wahrscheinlichkeiten für die durchlaufenen Folgen bei π bzw. π Sommer-Semester 2007 MMKI: Reinforcement Learning 57 Sommer-Semester 2007 MMKI: Reinforcement Learning 58 MC: inkrementelles Vorgehen V(s i ) := Mittelwert(Returns(s i ) inkrementell berechnen Verallgemeinerung: gewichteter Mittelwert (für off-policy) V n = Σ i=1 n w i R i / Σ i=1 n w i Inkrementell: V n+1 = V n +w n+1 / W n+1 (R n+1 V n ) mit W n+1 =W n +w n+1 und V 0 =W 0 = 0 Temporal Difference Learning (TD) Allgemeine Idee: Differenz zwischen letzter Schätzung und aktuellem Messwert zur Korrektur verwenden: Richtung der Änderung Schrittweite der Änderung durch Wichtungsfaktor α gegeben mit der Zeit abnehmend, z.b. α := 1 / ( 1+Anzahl der bisherigen Aktionen u in s) V n +w n+1 / W n+1 (R n+1 V n ) = 1/ W n+1 (W n+1 V n +w n+1 R n+1 w n+1 V n ) = 1/ W n+1 ((W n+1 w n+1 )V n +w n+1 R n+1 ) = 1/ W n+1 ((W n V n +w n+1 R n+1 ) = 1/ W n+1 ( Σ i=1 n w i R i +w n+1 R n+1 ) = 1/ W n+1 ( Σ i=1 n+1 w i R i ) = V n+1 Sommer-Semester 2007 MMKI: Reinforcement Learning 59 Sommer-Semester 2007 MMKI: Reinforcement Learning 60 10

11 TD(0) für Strategiebewertung V π Initial: V beliebig Für jede Episode: Startzustand s 0 bestimmen V : Werte aus vorheriger Episode Wiederhole für jeden Zustand s der Episode bis zum Ende Aktion u := π(s) ausführen Folgezustand s und reward r beobachten V(s) := V(s) + α ( r + γv(s ) V(s) ) s := s Vergleich MC und TD Update jeweils für besuchten Zustand (analog Zustand/Aktion): Nach Besuch von s t erfolgt update von V(s t ) - MC: mittels R t vom Ende der Episode (gemittelt bei mehrmaligem Auftreten) - TD: mittels r t+1 und V(s t+1 ) ( Bootstrapping-Verfahren ) Konvergenz mit Wkt. 1 bei unendlich vielen Besuchen Sommer-Semester 2007 MMKI: Reinforcement Learning 61 Sommer-Semester 2007 MMKI: Reinforcement Learning 62 Vergleich MC, DP und TD Bellmann-Glg.: V π (s) = E( R t s = s t, π) = E ( i=0... γ i r t+1+i s = s t, π) Update für MC = E ( r t+1 + γ i=0... γ i r t+2+i s = s t, π) = E ( r t+1 + γ V π (s t+1 ) s = s t, π) Update für DP Tatsächlich werden jeweils nur Approximationen verwendet: MC: Beispielwert für R t (gemittelt über bisherigen Episoden) DP: bisherige Schätzung V iπ für V π (bootstrapping) TD: Beispielwert für r t+1 und bisherige Schätzung V π i Q-Learning (Wdh.) Initial: Q: beliebig Repeat for ever (für jede Episode) Q : Werte aus voriger Episode Anfangs-Zustand s bestimmen Mit s iterieren: Aktion u wählen (z.b. ε-greedy) und ausführen. s, r beobachten Aktualisieren (mit bereits neueren Q-Werten): Q(s,u) := Q(s,u) + α (r + γ Max u Q(s,u ) - Q(s,u) ) s := s Off-policy Sommer-Semester 2007 MMKI: Reinforcement Learning 63 Sommer-Semester 2007 MMKI: Reinforcement Learning 64 Sarsa (anderes GPI-Schema) Initial: Q beliebig Repeat for ever (für jede Episode) Anfangs-Zustand s bestimmen Wiederhole für jeden Zustand s der Episode state action reward state action Aktion u wählen (z.b. ε-greedy gemäß Q) und ausführen. s, r beobachten Aktion u für s wählen (z.b. ε-greedy gemäß Q) und ausführen Aktualisieren: on-policy Q(s,u) := Q(s,u) + α (r + γ Q(s,u ) - Q(s,u) ) s := s, u:=u statt bei off-policy: r + γ Max u Q(s,u ) - Q(s,u) Sommer-Semester 2007 MMKI: Reinforcement Learning 65 TD(λ): Vorwärtsbetrachtung s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. Wert ab Zeit t : R t := i=0... γ i r t+1+i Approximation gemäß 1-Schritt-Vorausschau: r t+1 + γ V t (s t+1 ) Alternativ: Approximation mit Vorausschau von n Schritten ab s t n-schritt-returns R t (n n=1: R (1) t := r t+1 + γ V(s t+1 ) n=2: R (2) t := r t+1 + γ r t+2 + γ 2 V(s t+2 )... n: R (n) t := r t+1 + γ r t γ n-1 r t+n-1 + γ n V(s t+n ) usw. Sommer-Semester 2007 MMKI: Reinforcement Learning 66 11

12 TD(λ): Vorwärtsbetrachtung Gleichzeitige Benutzung aller Vorausschaumöglichkeiten bei Kombination mit Wichtungsfaktor λ (recency factor) : ( 0<=λ<=1, Gesamtgewicht = 1) R tλ := (1-λ) (R t (1) + λ R t (2) + λ 2 R t (3) +... ) = (1-λ) Σ i=1,... λ i-1 R t (i) TD(λ): Vorwärtsbetrachtung Bei einer Episode der Länge T wird abschließender Return R t erreicht bei : R (T-t-1) t =R t Danach weiter für i>0 : R (T-t-1 +i ) t =R t R tλ = (1-λ) Σ i=1,...t-t-1 λ i-1 R (i) t + (1-λ) Σ T-t,,, λ i-1 R t = (1-λ) Σ i=1,...t-t-1 λ i-1 R t (i) + λ T-t-1 R t Falls λ =1: R tλ = R t entspricht MC-Lernen Falls λ =0: R tλ = R (1) t entspricht bisherigem TD-Lernen ( daher Bezeichnung TD(0) ) Insgesamt bei 0< λ <1 : Kombination von beidem Sommer-Semester 2007 MMKI: Reinforcement Learning 67 Sommer-Semester 2007 MMKI: Reinforcement Learning 68 TD(λ): Rückwärtsbetrachtung Nach jeder Aktion erfolgt update der bereits früher besuchten Zustände. Dabei Wichtung der Zustände entsprechend der Häufigkeit der Besuche ( eligibility trace = Spur) mit den Parametern γ, λ Für jeden Zeitpunkt t : e t (s) := γ λ e t-1 (s) e t (s) := γ λ e t-1 (s) +1 e t : S R für s s t für s = s t TD(λ): Strategiebewertung V π Initial: V(s) beliebig, e(s)=0 für alle s S Repeat (für jede Episode) Initial: s wählen Repeat (für jeden Schritt der Episode) Aktion u=π(s) ausführen, reward r und Folgezustand s beobachten Korrekturwert δ := r + γ V(s ) - V(s) e-wert für s erhöhen: e(s) := e(s)+1 α ist Lernrate Für alle s S neue Schätzung: V(s) := V(s) + α δ e(s) Alle e-werte anpassen: e(s) := γ λ e(s) s := s Sommer-Semester 2007 MMKI: Reinforcement Learning 69 Sommer-Semester 2007 MMKI: Reinforcement Learning 70 TD(λ) TD(1) d.h. λ =1: entspricht MC-Lernen, aber inkrementelle Realisierung Variationen von λ Zeitlich Zustandsabhängig e(s) := γ λ(s) e(s) Bei guter Schätzung in s : λ(s) 0 (hoher Einfluss) Bei schlechter Schätzung: λ(s) 1 (geringer Einfluss) Sarsa(λ) Initial: Q beliebig, e(s,u)=0 für alle s, u Repeat (für jede Episode) s, u bestimmen Repeat (für jeden Schritt der Episode) Aktion u wählen (z.b. ε-greedy gemäß Q) und ausführen. s, r beobachten u für s wählen (z.b. ε-greedy gemäß Q) und ausführen Korrektur-Wert δ := r + γ Q(s,u ) - Q(s,u) e-wert für s erhöhen: e(s) := e(s)+1 für alle s, u neue Schätzung: Q(s,u) := Q(s,u) + α δ e(s,u) Alle e-werte anpassen: e(s) := γ λ e(s) s := s, u:=u Sommer-Semester 2007 MMKI: Reinforcement Learning 71 Sommer-Semester 2007 MMKI: Reinforcement Learning 72 12

13 Q(λ): Q-Learning erweitert Off-Policy-Verfahren Problem: Exploitation -Aktionen (nicht greedy gewählt) können Verfahren verfälschen Eligibility-Trace entsprechend modifizieren: Verfahren von Watkins Sommer-Semester 2007 MMKI: Reinforcement Learning 73 Q(λ): Verfahren von Watkins Initial: Q beliebig, e(s,u)=0 für alle s, u Repeat (für jede Episode) s, u bestimmen Repeat (für jeden Schritt der Episode) Aktion u wählen (z.b. ε-greedy gemäß Q) und ausführen. s, r beobachten u für s wählen (z.b. ε-greedy gemäß Q) und ausführen Greedy-Aktion bestimmen: u*:= argmax v Q(s,v) Korrektur-Wert δ := r + γ Q(s,u*) - Q(s,u) e-wert für s erhöhen: e(s) := e(s)+1 für alle s, u neue Schätzung: Q(s,u) := Q(s,u) + α δ e(s,u) e-werte anpassen: falls u =u* : e(s,u) := γ λ e(s,ua) sonst: e(s,u) := 0 s := s, u:=u Sommer-Semester 2007 MMKI: Reinforcement Learning 74 Für große/kontinuierliche Modelle Behandelte Probleme Tabelle für V(s) bzw. Q(s,a) ersetzen durch Approximation Funktionen Neuronale Netze, Statt verbessern der Tabellenwerte: Lernverfahren für die Approximationen (Gradientenabstieg, BackPropagation, ) Trainingsbeispiele aus den beobachteten Werten Bewertung (prediction) V π Bewertung Q π Strategie- Iteration π Mit Modell DP Lin-.Glgen. Iteration Iteration Ohne Modell MC Episoden Ohne Modell Temporal Difference TD(0) Ohne Modell Eligibility Traces TD(λ) Konvergenz nicht gesichert Wert-Iteration V Q-Learning Q*, Control (GPI) Iteration Episoden Q-Learning Sarsa Watkins Sarsa(λ) Sommer-Semester 2007 MMKI: Reinforcement Learning 75 Sommer-Semester 2007 MMKI: Reinforcement Learning 76 Modellierung beim Verstärkungslernen MDP festlegen: Beschreibungen für Zustände, Aktionen: S, U Übergangsfunktion: Tabelle, lin. Funktion, Neuron. Netz, Rewardfunktion: Tabelle, lin. Funktion, Neuron. Netz, Lernverfahren: Episoden Akkumulation von rewards: Parameter γ on-policy vs. off-policy Exploration vs. Exploitation: ε-greedy, Parameter ε Schrittweite α für TD-Lernen Recency-Faktor λ für TD(λ)-Lernen Konvergenz-Aussagen Notwendig: Alle Zustands-Aktionspaare werden hinreichend oft besucht in endl. stochastischen MDP: unendlich oft in endl. Determinist. MDP: endlich Anzahl von Besuchen in unendl. MDP: Problem der Approximationsmodelle für Zustandsübergangs-Funktion/Reward-Funktion Beispiel: Konvergenz beim Q-Lernen gegen Q*, falls 0 <= γ < 1 f r (s,u) beschränkt durch Konstante c beliebige endliche initiale Werte alle Paare (s,u) werden unendlich oft betrachtet Sommer-Semester 2007 MMKI: Reinforcement Learning 77 Sommer-Semester 2007 MMKI: Reinforcement Learning 78 13

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process. Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden im Verstärkungslernen [Spink] Bryan Spink 2003 Ketill Gunnarsson [ ketill@inf.fu-berlin.de ], Seminar zum Verstärkungslernen, Freie Universität Berlin [ www.inf.fu-berlin.de ] Einleitung

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright

Mehr

Hidden-Markov-Modelle

Hidden-Markov-Modelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene

Mehr

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

Signalverarbeitung 2. Volker Stahl - 1 -

Signalverarbeitung 2. Volker Stahl - 1 - - 1 - Hidden Markov Modelle - 2 - Idee Zu klassifizierende Merkmalvektorfolge wurde von einem (unbekannten) System erzeugt. Nutze Referenzmerkmalvektorfolgen um ein Modell Des erzeugenden Systems zu bauen

Mehr

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der

Mehr

TD-Gammon. Michael Zilske

TD-Gammon. Michael Zilske TD-Gammon Michael Zilske zilske@inf.fu-berlin.de TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991) TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

7. Die Brownsche Bewegung

7. Die Brownsche Bewegung 7. DIE BROWNSCHE BEWEGUNG 7 5 5 50 00 50 200 250 0 5 20 Abbildung 7.: Pfad einer Brownschen Bewegung 7. Die Brownsche Bewegung Definition 7.. Ein cadlag stochastischer Prozess {W t } mit W 0 = 0, unabhängigen

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k

Mehr

Moderne Methoden der KI: Maschinelles Lernen

Moderne Methoden der KI: Maschinelles Lernen Moderne Methoden der KI: Maschinelles Lernen Prof. Dr.Hans-Dieter Burkhard Vorlesung Sommer-Semester 2008 Konzept-Lernen Konzept-Lernen Lernen als Suche Inductive Bias Konzept-Lernen: Problemstellung Ausgangspunkt:

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Learning To Play Chess Using Temporal Differences

Learning To Play Chess Using Temporal Differences Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)

Mehr

13 Grenzwertsätze Das Gesetz der großen Zahlen

13 Grenzwertsätze Das Gesetz der großen Zahlen 13 Grenzwertsätze 13.1 Das Gesetz der großen Zahlen Der Erwartungswert einer zufälligen Variablen X ist in der Praxis meist nicht bekannt. Um ihn zu bestimmen, sammelt man Beobachtungen X 1,X 2,...,X n

Mehr

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P. 2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet

Mehr

Hidden Markov Modellen

Hidden Markov Modellen Elektrotechnik und Informationstechnik Institut für Automatisierungstechnik, Professur Prozessleittechnik Zeitreihenanalyse mit Hidden Markov Modellen (nach http://www.cs.cmu.edu/~awm/tutorials) VL PLT2

Mehr

5.3.5 Abstiegs & Gradientenverfahren

5.3.5 Abstiegs & Gradientenverfahren 5.3 Iterative Lösungsverfahren für lineare Gleichungssysteme 5.3.5 Abstiegs & Gradientenverfahren Die bisher kennengelernten Iterationsverfahren zur Approximation von linearen Gleichungssystemen haben

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 15.01.2015 INSTITUT FÜR THEORETISCHE 0 KIT 15.01.2015 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der Informatik

Mehr

Intelligente Agenten

Intelligente Agenten Intelligente Agenten Einige einfache Überlegungen zu Agenten und deren Interaktionsmöglichkeiten mit ihrer Umgebung. Agent benutzt: Sensoren Aktuatoren (Aktoren; Effektoren) zum Beobachten/Mess seiner

Mehr

2 Stationarität. Strikte Stationarität

2 Stationarität. Strikte Stationarität 2 Stationarität. Strikte Stationarität Die in 1 benutzten Begriffe sind noch zu präzisieren : Definition 2.1. a) Ein stochastischer Prozess {X t } t T heißt strikt stationär, falls für je endlich viele

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

Der Metropolis-Hastings Algorithmus

Der Metropolis-Hastings Algorithmus Der Algorithmus Michael Höhle Department of Statistics University of Munich Numerical Methods for Bayesian Inference WiSe2006/07 Course 30 October 2006 Markov-Chain Monte-Carlo Verfahren Übersicht 1 Einführung

Mehr

ETHZ, D-MATH. Numerische Methoden D-PHYS, WS 2015/16 Dr. V. Gradinaru

ETHZ, D-MATH. Numerische Methoden D-PHYS, WS 2015/16 Dr. V. Gradinaru ETHZ, D-MATH Prüfung Numerische Methoden D-PHYS, WS 5/6 Dr. V. Gradinaru..6 Prüfungsdauer: 8 Minuten Maximal erreichbare Punktzahl: 6. Der van-der-pol Oszillator ( Punkte) Der van-der-pol Oszillator kann

Mehr

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II Statistik & Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte

Mehr

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit

Mehr

Statistisches Testen

Statistisches Testen Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall

Mehr

Reinforcement Learning

Reinforcement Learning VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,

Mehr

Folgen und Reihen. Folgen. Inhalt. Mathematik für Chemiker Teil 1: Analysis. Folgen und Reihen. Reelle Funktionen. Vorlesung im Wintersemester 2014

Folgen und Reihen. Folgen. Inhalt. Mathematik für Chemiker Teil 1: Analysis. Folgen und Reihen. Reelle Funktionen. Vorlesung im Wintersemester 2014 Inhalt Mathematik für Chemiker Teil 1: Analysis Vorlesung im Wintersemester 2014 Kurt Frischmuth Institut für Mathematik, Universität Rostock Rostock, Oktober 2014... Folgen und Reihen Reelle Funktionen

Mehr

3. Prozesse mit kontinuierlicher Zeit

3. Prozesse mit kontinuierlicher Zeit 3. Prozesse mit kontinuierlicher Zeit 3.1 Einführung Wir betrachten nun Markov-Ketten (X(t)) t R +. 0 Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir uns auch hier einen Grenzprozess

Mehr

Einführung in Heuristische Suche

Einführung in Heuristische Suche Einführung in Heuristische Suche Beispiele 2 Überblick Intelligente Suche Rundenbasierte Spiele 3 Grundlagen Es muss ein Rätsel / Puzzle / Problem gelöst werden Wie kann ein Computer diese Aufgabe lösen?

Mehr

Kapitel 4: Nichtlineare Nullstellenprobleme

Kapitel 4: Nichtlineare Nullstellenprobleme Vorlesung Höhere Mathematik: Numerik (für Ingenieure) Kapitel 4: Nichtlineare Nullstellenprobleme Jun.-Prof. Dr. Stephan Trenn AG Technomathematik, TU Kaiserslautern Sommersemester 2015 HM: Numerik (SS

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

1. Was ist eine Wahrscheinlichkeit P(A)?

1. Was ist eine Wahrscheinlichkeit P(A)? 1. Was ist eine Wahrscheinlichkeit P(A)? Als Wahrscheinlichkeit verwenden wir ein Maß, welches die gleichen Eigenschaften wie die relative Häufigkeit h n () besitzt, aber nicht zufallsbehaftet ist. Jan

Mehr

Grenzen der Regularität

Grenzen der Regularität Grenzen der Regularität Um die Mächtigkeit von endlichen Automaten zu verstehen, muss man auch ihre Grenzen kennen. Sei z.b. B = {0 n 1 n n 0} Gibt es einen DEA für B? Es sieht so aus, als müsste sich

Mehr

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit 3 Bedingte Wahrscheinlichkeit, Unabhängigkeit Bisher : (Ω, A, P) zur Beschreibung eines Zufallsexperiments Jetzt : Zusatzinformation über den Ausgang des Experiments, etwa (das Ereignis) B ist eingetreten.

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Seminar Gewöhnliche Differentialgleichungen

Seminar Gewöhnliche Differentialgleichungen Seminar Gewöhnliche Differentialgleichungen Dynamische Systeme I 1 Einleitung 1.1 Nichtlineare Systeme In den vorigen Vorträgen haben wir uns mit linearen Differentialgleichungen beschäftigt. Nun werden

Mehr

Folgen und Reihen Folgen

Folgen und Reihen Folgen Folgen und Reihen 30307 Folgen Einstieg: Wir beginnen mit einigen Beispielen für reelle Folgen: (i),, 4, 8, 6, (ii) 4,, 6, 3, 7, (iii) 0,,,, 3,, (iv), 3, 7,,, Aufgabe : Setzt die Zahlenfolgen logisch fort

Mehr

Stochastik I. Vorlesungsmitschrift

Stochastik I. Vorlesungsmitschrift Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................

Mehr

Statistik für Ingenieure Vorlesung 3

Statistik für Ingenieure Vorlesung 3 Statistik für Ingenieure Vorlesung 3 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 14. November 2017 3. Zufallsgrößen 3.1 Zufallsgrößen und ihre Verteilung Häufig sind

Mehr

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten

Mehr

Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem

Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 13. Unsicherheiten 14. Probabilistisches Schließen 15. Probabilistisches

Mehr

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsverteilungen Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet

Mehr

1.3 Zufallsvariablen

1.3 Zufallsvariablen 1.3 Zufallsvariablen Beispiel Irrfahrt zwischen drei Zuständen Start in G bei t = 0, Zeithorizont T N Grundraum σ-algebra Ω = {ω = (ω 0, ω 1,..., ω T ) {G, R, B} T +1, ω 0 = G} Wahrscheinlichkeitsmaß P

Mehr

Iterative Lösung Linearer Gleichungssysteme

Iterative Lösung Linearer Gleichungssysteme Iterative Lösung Linearer Gleichungssysteme E. Olszewski, H. Röck, M. Watzl 1. Jänner 00 E. Olszewski, H. Röck, M. Watzl: WAP (WS 01/0) 1 Vorwort C.F.Gauß in einem Brief vom 6.1.18 an Gerling:

Mehr

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Stochastik Praktikum Markov Chain Monte Carlo Methoden Stochastik Praktikum Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 14.10.2010 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem

Mehr

Einführung und Grundlagen

Einführung und Grundlagen Kapitel 1 Einführung und Grundlagen Generelle Notation: Ω, A, P sei ein W-Raum im Hintergrund nie weiter spezifiziert Die betrachteten Zufallsvariablen seien auf Ω definiert, zb X : Ω, A M, A, wobei M,

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Konvexe Optimierungsprobleme

Konvexe Optimierungsprobleme von: Veronika Kühl 1 Konvexe Optimierungsprobleme Betrachtet werden Probleme der Form (P) min x C f(x) wobei f : C R eine auf C konvexe, aber nicht notwendigerweise differenzierbare Funktion ist. Ziel

Mehr

Seminar: Gegenbeispiele in der Wahrscheinlichkeitstheorie. Ausarbeitung zum Seminarthema: Zentraler Grenzwertsatz und diverse Grenzwertsätze

Seminar: Gegenbeispiele in der Wahrscheinlichkeitstheorie. Ausarbeitung zum Seminarthema: Zentraler Grenzwertsatz und diverse Grenzwertsätze Seminar: Gegenbeispiele in der Wahrscheinlichkeitstheorie - Ausarbeitung zum Seminarthema: Zentraler Grenzwertsatz und diverse Grenzwertsätze Klaus Kuchler 0. Januar 03 Zentraler Grenzwertsatz. Grundlagen,

Mehr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr 2. Ankunftswahrscheinlichkeiten und Übergangszeiten Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustände i und j beziehen: Wie wahrscheinlich ist es,

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS2/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +.

$Id: reihen.tex,v /06/12 10:59:50 hk Exp $ unendliche Summe. a 1 + a 2 + a 3 +. Mathematik für Informatiker B, SS 202 Dienstag 2.6 $Id: reihen.tex,v.8 202/06/2 0:59:50 hk Exp $ 7 Reihen Eine Reihe ist eine unendliche Summe a + a 2 + a 3 +. Die Summanden a i können dabei reell oder

Mehr

Klassifikation von Signifikanztests

Klassifikation von Signifikanztests Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen

Mehr

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Eine kurze Einführung in Quasi Newton Verfahren

Mehr

Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza)

Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza) SS 2013 Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza) Dr. Werner Meixner Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2013ss/dwt/uebung/ 10. Mai 2013

Mehr

Probleme bei reinen Strategien. Nash Gleichgewichte in gemischten Strategien Kopf 1, 1 1, 1 Zahl 1, 1 1, 1. Gemischte Strategien

Probleme bei reinen Strategien. Nash Gleichgewichte in gemischten Strategien Kopf 1, 1 1, 1 Zahl 1, 1 1, 1. Gemischte Strategien Probleme bei reinen Strategien Bisher hatten wir angenommen, daß sich jeder Spieler b auf genau eine Strategie S b S b festlegt. Das ist nicht immer plausibel. Nash Gleichgewichte in gemischten Strategien

Mehr

Angewandte Stochastik

Angewandte Stochastik Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel

Mehr

Die partielle Likelihood-Funktion

Die partielle Likelihood-Funktion Die partielle Likelihood-Funktion Roger Züst 12. Juni 26 1 Repetition: Maximum-Likelihood-Methode Hat man n unabhängige Beobachtungen x 1, x 2,..., x n einer Zufallsvariablen X und eine Familie von möglichen

Mehr

Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik

Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank 27. Juli 2012 Name: Matrikelnummer: Vorname: Übungsleiter: Diese Klausur besteht aus 8 Seiten. Bitte überprüfen

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 20. November 2014 INSTITUT FÜR THEORETISCHE 0 KIT 20.11.2014 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der

Mehr

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute

Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute 3.4 PageRank Arbeit: Page, Brin, Motwani, Winograd (1998). Ziel: Maß für absolute Wichtigkeit von Webseiten; nicht Relevanz bezüglich Benutzeranfrage. Anfrageunabhängiges Ranking. Ausgangspunkt: Eingangsgrad.

Mehr

6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme

6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme 6 Iterationsverfahren für lineare und nichtlineare Gleichungssysteme 6.1 Nullstellen reeller Funktionen Bemerkung 6.1 (Problemstellung) geg.: f C[a, b] ges.: x [a, b] mit f(x ) = 0 Lösungstheorie f linear

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Das Subgradientenverfahren

Das Subgradientenverfahren Das Subgradientenverfahren Seminar Optimierung WS 05/06 Betreuer: Prof. F. Jarre von Jalo Liljo Das Subgradientenverfahren Das Ziel dieses Vortrags ist die Berechnung einer Lösung des unrestringierten

Mehr

Beispiel: Positionsschätzung

Beispiel: Positionsschätzung Das Kalman Filter Beispiel: Positionsschätzung Beispiel: Positionsschätzung. Messung: mit Varianz Daraus abgeleitete Positionsschätzung: mit Varianz ˆX = = f f ( y ) y 3 Beispiel: Positionsschätzung. Messung:

Mehr

Forschungsstatistik I

Forschungsstatistik I Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/

Mehr

Brownsche Bewegung Seminar - Weiche Materie

Brownsche Bewegung Seminar - Weiche Materie Brownsche Bewegung Seminar - Weiche Materie Simon Schnyder 11. Februar 2008 Übersicht Abbildung: 3 Realisationen des Weges eines Brownschen Teilchens mit gl. Startort Struktur des Vortrags Brownsches Teilchen

Mehr

BZQ II: Stochastikpraktikum

BZQ II: Stochastikpraktikum BZQ II: Stochastikpraktikum Block 5: Markov-Chain-Monte-Carlo-Verfahren Randolf Altmeyer February 1, 2017 Überblick 1 Monte-Carlo-Methoden, Zufallszahlen, statistische Tests 2 Nichtparametrische Methoden

Mehr

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt Grundbegriffe der Wahrscheinlichkeitstheorie Karin Haenelt 1 Inhalt Wahrscheinlichkeitsraum Bedingte Wahrscheinlichkeit Abhängige und unabhängige Ereignisse Stochastischer Prozess Markow-Kette 2 Wahrscheinlichkeitsraum

Mehr

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende Universität Duisburg-Essen Essen, den 15.0.009 Fachbereich Mathematik Prof. Dr. M. Winkler C. Stinner Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende Lösung Die Klausur gilt als bestanden,

Mehr

Methoden der Statistik Markov Chain Monte Carlo Methoden

Methoden der Statistik Markov Chain Monte Carlo Methoden Methoden der Statistik Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 08.02.2013 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem

Mehr

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010

Statistik für Punktprozesse. Seminar Stochastische Geometrie und ihre Anwendungen WS 2009/2010 Statistik für Punktprozesse Seminar Stochastische Geometrie und ihre Anwendungen WS 009/00 Inhalt I. Fragestellung / Problematik II. Ansätze für a) die Schätzung der Intensität b) ein Testverfahren auf

Mehr

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren) 5.1. Einführung Schätzen unbekannter Parameter im Modell, z.b. Wahrscheinlichkeiten p i (Anteile in der Gesamtmenge), Erwartungswerte

Mehr

Simulationsmethoden in der Bayes-Statistik

Simulationsmethoden in der Bayes-Statistik Simulationsmethoden in der Bayes-Statistik Hansruedi Künsch Seminar für Statistik, ETH Zürich 6. Juni 2012 Inhalt Warum Simulation? Modellspezifikation Markovketten Monte Carlo Simulation im Raum der Sprungfunktionen

Mehr

Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung

Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung Wintersemester 2009/10 Prof. Dr. Dr. h.c. Manfred Broy Unter Mitarbeit von Dr. K. Spies, Dr. M. Spichkova, L. Heinemann, P.

Mehr

Neuronale Netze (Konnektionismus)

Neuronale Netze (Konnektionismus) Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung

Mehr

3 Nichtlineare Gleichungssysteme

3 Nichtlineare Gleichungssysteme 3 Nichtlineare Gleichungsssteme 3.1 Eine Gleichung in einer Unbekannten Problemstellung: Gegeben sei die stetige Funktion f(). Gesucht ist die Lösung der Gleichung f() = 0. f() f() a) f ( ) 0 b) f ( )

Mehr