V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

Transkript

1 Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement Learning MIT Press 1998 Optimales Verhalten des Agenten Steuerstrategie lernen: Aktionen abhängig von aktuellem Umwelt-Zustand Umwelt-Zustand verändert durch Aktionen Umwelt-Zustand wird bewertet ( rewards ) Umwelt nur partiell erfahrbar Erfolgsbewertung verzögert Umwelt i.a. nicht explizit gegeben (aber bei dynamischer Programmierung/Optimierung) Explorationsstrategie: Experimentieren mit möglichen Aktionen Sommer-Semester 2007 MMKI: Reinforcement Learning 2 Modelle für Interaktion Umwelt/Agent (Wdh.) Dynamische Beschreibung in diskreter Welt - Zusammenhänge zwischen Zuständen und Ereignissen - Wie verändert sich die Welt durch Ereignisse Modelle für Interaktion Umwelt/Agent Ablaufbeschreibung mit Ereignissen e t für diskrete lineare Zeit t s 0 -e 0 r 1 s 1 -e 1 r 2 s 2 -e 2. oder mit Aktionen u t eines Agenten a s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. Agent beeinflusst die Welt durch Aktionen - Strategie π legt Aktion fest (z.b. abhängig vom aktuellen Zustand/Ziel) Zustand s t Wert r t a Aktion u t s t+1 r t+1 Umwelt Sommer-Semester 2007 MMKI: Reinforcement Learning 3 Sommer-Semester 2007 MMKI: Reinforcement Learning 4 Markov-Bedingung Abfolge s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. u t-1 r t s t -u t i.a. Zustand/Wert r t+1 s t+1 zur Zeit t+1 abhängig von gesamter Vergangenheit: P(s t+1 = s, r t+1 =r s 0 u 0 r 1 s 1 u 1 r 2 s 2 u 2 u t-1 r t s t u t ) Markov-Bedingung: = P(s t+1 = s, r t+1 =r s t u t ) d.h. nur aus letztem Zustand/letzter Aktion berechenbar Markov-Bedingung Dynamik des Systems für stochastisch beschriebene Welt mit Markov-Bedingung : F: S x U Verteilungen über S x R P(s = s t+1, r = r t+1 s t u t =su ) = F(s,u )(s,r) daraus abgeleitet Übergangswahrscheinlichkeit P sus := P( s = s t+1 s t u t =su ) Reward-Wahrscheinlichkeit P sus r := P( r= r t+1 s t u t s t+1 =sus ) Erwartungswert für Reward r sus := E(r t+1 s t u t s t+1 =sus ) Sommer-Semester 2007 MMKI: Reinforcement Learning 5 Sommer-Semester 2007 MMKI: Reinforcement Learning 6 1

2 Werte (rewards), analog: Kosten Für einen Agenten zur Zeit t : r t bzw. r sus Kumulativer Wert für feste Folge s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. Wert ab Zeit t : R t := i=0... γ i r t+1+i mit Discount-Faktor 0 < γ <=1 In stochastischer Welt: Erwartungswert für R t bei gegebener Strategie π Markov-Entscheidungsprozess Markov Decision Process (MDP) ist gegeben durch Diskrete lineare Zeitskala t=0,1,2, (Endliche) Menge S von Zuständen s, Agent kann s vollständig und zuverlässig beobachten (Endliche) Menge U von Aktionen u des Agenten Dynamik beschrieben mittels Übergangswahrscheinlichkeiten P sus Erwartungswerten r sus œ R Der Agent muss sich zu jedem Zeitpunkt t für eine Aktion entscheiden. Sommer-Semester 2007 MMKI: Reinforcement Learning 7 Sommer-Semester 2007 MMKI: Reinforcement Learning 8 Strategie (policy) Deterministische MDP mit deterministischer Strategie: π: S Ø U Agent entscheidet sich für die Aktion u=π(s) in Abhängigkeit vom aktuellen Zustand s Wertfunktion (value function) V In deterministischem MDP ist bei gegebener Strategie π für jeden Zustand s der Wert berechenbar: V π : S R Damit ergibt sich die Abfolge s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. u t-1 r t s t -u t auf der Basis von Reward-/Übergangsfunktionen u t = π(s t ) r t+1 = f r (s t,u t ) s t+1 = f s (s t,u t ) V π (s) ist der Wert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: V π (s t ) := R t = i=0... γ i r t+1+i Sommer-Semester 2007 MMKI: Reinforcement Learning 9 Sommer-Semester 2007 MMKI: Reinforcement Learning 10 Strategie (policy) Für stochastische MDP: π: S x U Ø [0,1] Agent entscheidet sich mit Wahrscheinlichkeit π(s,u) für die Aktion u in Abhängigkeit vom aktuellen Zustand s Daraus ergeben sich Wahrscheinlichkeiten für die Abfolgen s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. u t-1 r t s t -u t auf der Basis von π(s i,u i ), P sus, P sus r Wertfunktion (state-value function) V Bei gegebener Strategie π ist für jeden Zustand s der Erwartungswert bestimmt: V π : S R V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: V π (s) := E( R t s = s t, π) = E ( i=0... γ i r t+1+i s = s t, π) Sommer-Semester 2007 MMKI: Reinforcement Learning 11 Sommer-Semester 2007 MMKI: Reinforcement Learning 12 2

3 Bellmann-Gleichung V π (s) := E( R t s = s t, π) = E ( i=0... γ i r t+1+i s = s t, π) = E ( r t+1 + γ i=0... γ i r t+2+i s = s t, π) = u π(s,u) s P sus ( r sus + γ E ( i=0... γ i r t+2+i s = s t+1, π) ) = u π(s,u) s P sus ( r sus + γ V π (s ) ) Iterative Beziehungen zwischen den Werten V π (s) Bei n = card(s) gibt es n lineare Gleichungen für n Werte. Nach bekannten Verfahren lösbar. Sommer-Semester 2007 MMKI: Reinforcement Learning 13 Optimale Strategie π π besser oder gleichwertig bzgl. π, falls V π (s) V π' (s) für alle s S Es gibt maximale Strategien (muss nicht eindeutig sein). Maximale Strategie: π Wertfunktion für maximale Strategie: V * V * (s) := max π V π (s) Sommer-Semester 2007 MMKI: Reinforcement Learning 14 Optimale Strategie π Bellmann-Gleichung für Wertfunktion V* der optimalen Strategie π ZR-Suche BlindeSuche ZR-Suche mit Kosten A Det. MDP V (s) = max u s P sus ( r sus + γ V (s ) ) n := card(s) n nicht-lineare Gleichungen für n Werte V (s) Lösung mit Methoden der dynamischen Programmierung Voraussetzung: Modell ist bekannt Spezialfälle: Suchverfahren (vgl. EKI) Heurist. ZR-Suche Heurist.Suche Heurist. ZR-Suche mit Kosten A* MDP (stoch). Bek. Modell Dyn.Progr. MDP Unbek. Modell Q-Learning TD-Learning MC-Learning Sommer-Semester 2007 MMKI: Reinforcement Learning 15 Sommer-Semester 2007 MMKI: Reinforcement Learning 16 Q-Funktion (action-value function) Q π : S x U R Q π (s,u) ist der Erwartungswert der rewards, bei Start in s mit Aktion u und Arbeit gemäß der π insgesamt erreicht wird: Q π (s, u) := E( R t s=s t, u=u t, π) = E ( i=0... γ i r t+1+i s=s t, u=u t, π) Bellmann-Gleichung für Q-Funktion Q π (s,u) := E( R t s = s t, u=u t, π) = E ( i=0... γ i r t+1+i s = s t, u=u t, π) = E ( r t+1 + γ i=0... γ i r t+2+i s = s t, u=u t, π) = s P sus (r sus +γ u π(s,u ) E( i=0... γ i r t+2+i s =s t+1,u =u t+1,π) ) = s P sus ( r sus + γ u π(s,u ) Q π (s,u ) ) Iterative Beziehungen zwischen den Werten Q π (s,u) Bei n = card(s) und m = card(u) gibt es n m lineare Gleichungen für n m Werte. Nach bekannten Verfahren lösbar (vgl. Wertfunktion V). Sommer-Semester 2007 MMKI: Reinforcement Learning 17 Sommer-Semester 2007 MMKI: Reinforcement Learning 18 3

4 Zusammenhänge zwischen Q und V V π (s) := u π(s,u) Q π (s,u) Q π (s,u) := s P sus ( r sus + γ V π (s ) ) Optimale Strategie π Q-Funktion für maximale Strategie π * : Q * (s,u) := max π Q π (s,u) Bellmann-Gleichung für Q* : Q π (s,u) = s P sus ( r sus + γ max u Q π (s,u ) ) n := card(s), m = card(u) : n m nicht-lineare Gleichungen für n m Werte Q (s,u) Lösung mit Methoden der dynamischen Programmierung Voraussetzung: Modell ist bekannt Sommer-Semester 2007 MMKI: Reinforcement Learning 19 Sommer-Semester 2007 MMKI: Reinforcement Learning 20 Betrachtete Funktionen (Wdh.) MDP mit Übergangswahrscheinlichkeit P sus := P( s = s t+1 s t u t =su ) Reward-Wahrscheinlichkeit P sus r := P( r= r t+1 s t u t s t+1 =sus ) Erwartungswert für Reward r sus := E(r t+1 s t u t s t+1 =sus ) Optimale Funktionen (Wdh.) Optimale Strategie π : S U dazu: Wert-Funktion (state-value-function) V * (s) = max π V π (s) Q-Funktion (action-value function) Q * (s,u) = max π Q π (s,u) Strategie π: S U bzw. stochastisch π: S x U Ø [0,1] Wert-Funktion (state-value-function) V π : S R für Strategie π Q-Funktion (action-value function)q π : S x U R für Strategie π Bestimmung von π anhand von V* bzw. Q* : π*(s) = max u Q (s,u) Anwendbar ohne Kenntnis des Modells = max u (r sus + γ V*(s ) ) Kenntnis des Modells notwendig Statt π* kann auch V* bzw. Q* bestimmt (gelernt) werden Sommer-Semester 2007 MMKI: Reinforcement Learning 21 Sommer-Semester 2007 MMKI: Reinforcement Learning 22 Dynamische Programmierung Voraussetzung: Modell bekannt, d.h. Übergangswahrscheinlichkeit P sus := P( s = s t+1 s t u t =su ) Reward-Wahrscheinlichkeit P sus r := P( r= r t+1 s t u t s t+1 =sus ) Erwartungswert für Reward r sus := E(r t+1 s t u t s t+1 =sus ) Aufgaben: Für gegebene Strategie π die Wertfunktion V π berechnen Optimale Strategie π* bestimmen (alternativ V* bzw. Q* ) Strategie-Bewertung: V π berechnen Aufgabe: Gegeben π, berechne V π (Vorhersage-Problem) in bekanntem MDP 1. Variante: Lösen der Bellmann-Gleichung (Lineares System): V π (s) = u π(s,u) s P sus ( r sus + γ V π (s ) ) Sommer-Semester 2007 MMKI: Reinforcement Learning 23 Sommer-Semester 2007 MMKI: Reinforcement Learning 24 4

5 Iterative Strategie-Bewertung 2. Variante: Iterative Strategie-Bewertung Iteration anhand der Bellmann-Gleichung: V 0 (s) := 0 V k+1 (s) := u π(s,u) s P sus ( r sus + γ V k (s ) ) Konvergenz gegen V π (Fixpunkt, Bellmann-Gleichung, Voraussetzung: V π existiert ) full backup : alle Nachfolge-Zustände berücksichtigen Iterative Strategie-Bewertung Implementation: a) Zwei Tabellen für V k und V k+1, Einträge für V k+1 anhand der Werte für V k (entspricht simultaner Berechnung) b) Nur eine Tabelle überschreiben der Werte konvergiert schneller (Resultat für V k+1 abhängig von Reihenfolge) Iteration abbrechen, wenn Abstand zwischen V k und V k+1 hinreichend gering Sommer-Semester 2007 MMKI: Reinforcement Learning 25 Sommer-Semester 2007 MMKI: Reinforcement Learning 26 Strategie-Verbesserung Zunächst deterministisch: Greedy-Verfahren Ausgehend von Strategie π wird neue Strategie π definiert: π (s) := argmax u Q π (s,u) (falls u nicht eindeutig: wählen) Dann gilt für alle s : V π (s) V π (s) und V π = V π Ø V π = V Strategie-Iteration Sukzessive neue Strategien π k+1 aus Strategie π k definieren: π k+1 (s) := argmax u Q πk (s,u) Dann gilt für alle s und alle k: V π0 V π1 V π2 V π3 Ø V πk+1 (s) V πk (s) Konvergenz nach endlich vielen Schritten für endliche MDP. V Für stochastische Strategien analog. Sommer-Semester 2007 MMKI: Reinforcement Learning 27 Sommer-Semester 2007 MMKI: Reinforcement Learning 28 Strategie-Iteration Implementation: Abwechselnd Strategie-Bewertung und Strategie-Verbesserung ausführen (Start beliebig, Abbruch bei Gleichheit bzw. geringer Verbesserung): π 0 Ø Bew. V π0 Ø Verb. π 1 Ø Bew. V π1 Ø Verb. π 2 Ø Bew. V π2. Ø Verb. π * Ø Bew. V Problem: Strategie-Bewertung durch Iteration ist unendlicher Prozess. Man muss aber nicht vollständig bewerten. Wert-Iteration Kombinierte Strategie-Bewertung und Strategie-Verbesserung, wobei nur Wertfunktion V explizit iteriert wird: V k+1 (s) := max u E( r t+1 + γ V k (s t+1 ) s t =s, u t =u ) = max u s P sus ( r sus + γ V k (s ) ) Aus Ergebnis V (Abbruch wenn nur noch geringe Verbesserung) dann Strategie π bestimmen. Sommer-Semester 2007 MMKI: Reinforcement Learning 29 Sommer-Semester 2007 MMKI: Reinforcement Learning 30 5

6 Verallgemeinerte Strategie-Iteration (GPI) Interagierende Prozesse: General Poliy Iteration Strategie-Bewertung Strategie-Verbesserung Varianten dabei bzgl. Ausführlichkeit der jeweiligen Prozesse. Sukkzessive Annäherung an optimale Strategie. Lernen ohne Modell Dynamische Programmierung/Optimierung: optimale Strategie ermitteln unter Verwendung des Modells: π bzw. V* oder Q* Jetzt: Exploration Modell unbekannt, aber durch Aktionen erkunden Strategiebewertung: V:=V π Ende bei π = greedy(v π ) Voraussetzung: Umwelt (Zustand, Reward) beobachtbar Strategieverbesserung: π:=greedy(v) Sommer-Semester 2007 MMKI: Reinforcement Learning 31 Sommer-Semester 2007 MMKI: Reinforcement Learning 32 Iteration ohne Modell Grundidee: Mit Aktionen Modell (partiell) erkunden und mittels Iterationen Funktion bestimmen Bei stochastischer Umwelt: Wiederholte Erkundung Entspricht GPI-Ansatz: Aktionsauswahl nach jeweils verbesserter Strategie (Verkürzte) Bewertung der Strategie Beispiel Q-Learning für unbekanntes deterministisches MDP f: S x U S x R [s t+1, r t+1 ] = f(s t,u t ) kann man aufspalten in : Übergangsfunktion f s : S x U S Rewardfunktion f r : S x U R s t+1 = f s (s t,u t ) r t+1 = f r (s t,u t ) Sommer-Semester 2007 MMKI: Reinforcement Learning 33 Sommer-Semester 2007 MMKI: Reinforcement Learning 34 Beispiel Q-Learning-Algorithmus (det. Modell) Lernziel: optimale Aktions-Wert-Funktion Q* daraus ableitbar: π (s) = ArgMax u Q(s,u), V*(s) = Max u Q(s,u) Bellmann-Optimalitäts-Gleichung (Iteration): Q*(s,u) = f r (f s (s,u)) + γ Max u Q*( f s (s,u), u ) ermöglicht iteratives Lernen Folge von Hypothesen Q k : Q k+1 (s,u) = f r (f s (s,u)) + γ Max u Q k ( f s (s,u), u ) Beschreibung von z.b. in Tabellenform update durch Auswertung von Explorationen: s = f s (s, u), f r (s ) Lernen in aufeinander folgenden Episoden. Sommer-Semester 2007 MMKI: Reinforcement Learning 35 Sommer-Semester 2007 MMKI: Reinforcement Learning 36 6

7 Q-Learning-Algorithmus (det. Modell) Initial: Q 0 : beliebig Repeat for ever (für jede Episode) Q i : Werte aus voriger Episode Anfangs-Zustand s bestimmen Mit s iterieren: Aktion u bestimmen und ausführen. s = f s (s, u), r = f r (s,u) beobachten Aktualisieren: Q i+1 (s,u) := r + γ Max u Q i (s, u ) s := s Q-Learning: Konvergenz (det. Modell) Konvergenz von Q k gegen Q* gilt auch in unendlichen Modellen, falls 0 <= γ < 1 f r (s,u) beschränkt durch Konstante c beliebige endliche initiale Werte alle Paare (s,u) werden unendlich oft betrachtet. (Beweis) Bei Initialisierung mit 0 gilt stets 0 <= Q k (s,u) <= Q(s,u) Sommer-Semester 2007 MMKI: Reinforcement Learning 37 Sommer-Semester 2007 MMKI: Reinforcement Learning 38 Q-Learning: Aktionsauswahl Generalized Strategy Iteration (GPI): Aktionsauswahl nach jeweils verbesserter Strategie (Verkürzte) Bewertung des erreichbaren Q-Werts Auswahl-Strategie (nächste Aktion u): Möglichkeit: gierige (greedy) Auswahl u:=argmax u ( f r (s,u ) + γ Q k (s, u ) ) Damit bestes bekanntes Resultat erzielt. Problem: evtl. bessere Zustände werden nicht probiert. Explorationstrategien Problem (Exploration vs. Exploitation) : Auswahl zwischen bekannten guten Aktionen und Experiment mit anderen Aktionen (Konvergenzbedingung: alle (s,u) unendlich oft) Auswahl-Wahrscheinlichkeiten (stochastische Strategie!) z.b. π(s,u) := c Qk(s,u) / Σ v c Qk(s,v) Sommer-Semester 2007 MMKI: Reinforcement Learning 39 Sommer-Semester 2007 MMKI: Reinforcement Learning 40 Explorationstrategien Weitere Varianten Spezielle (günstige) Folgen verwenden (ausgehend von den Zustandsübergängen mit rewards) Simulation: partiell: über bereits bekannte Folgen bei neuen Q k -Werten total: bei bekannten f s und f r (dynamische Programmierung) Q-Learning für stochastische Modelle Einfaches update (Überschreiben) nicht sinnvoll (keine Konvergenz) Stattdessen: Inkrementelle Annäherung an Erwartungswert neu := alt + Schrittweite (Messwert alt) Beispiel: n-armiger Bandit Sommer-Semester 2007 MMKI: Reinforcement Learning 41 Sommer-Semester 2007 MMKI: Reinforcement Learning 42 7

8 Beispiel: n-armiger Bandit Ohne Zustand, n Aktionen Q*(u) : Unbekannter (Erwartungs-)Wert für Aktion u Q t (u) : geschätzter Wert für u zur Zeit t z.b. Mittelwert über bisher erhaltene rewards: Q t (u)= 1/k Σ i=1 k r i (konvergiert gegen Q*(u) ) Auswahl einer Aktion zur Zeit t Exploitation: nächste Aktion gemäß argmax u Q t (u) Exploration: andere Aktion (momentan schlechter, aber falls noch weitere Aktionen folgen sollen: evtl. bessere Alternativen finden) n-armiger Bandit greedy-auswahl: immer Exploitation ε-greedy : mit Wkt. ε >0 andere Aktion Softmax: P(u) = e Qt(u)/τ / Σ v e Qt(v)/τ τ >0 Temperatur (Boltzmann-Verteilung) Optimistischer Anfangswert führt dazu, dass zunächst exploriert wird Sommer-Semester 2007 MMKI: Reinforcement Learning 43 Sommer-Semester 2007 MMKI: Reinforcement Learning 44 n-armiger Bandit Inkrementele Berechnung: Q t+1 (u) = (k u +1) -1 Σ i=1 ku+1 r i = (k u +1) -1 (r t+1 + Σ i=1 ku r ) i = (k u +1) -1 (r t+1 + k u Q t (u) + Q t (u) - Q t (u) ) = (k u +1) -1 (r t+1 + (k u +1) Q t (u) - Q t (u) ) = Q t (u) + (k u +1) -1 (r t+1 -Q t (u) ) Allgemeine Form: neu := alt + Schrittweite (Messwert alt) = alt + Schrittweite Fehler n-armiger Bandit Q t+1 (u) = Q t (u) + (k u +1) -1 (r i+1 -Q t (u) ) Allgemeiner Q t+1 (u) = Q t (u) + α t (r t+1 -Q t (u) ) Schrittweite α t variieren für bessere Konvergenz, Konvergenz mit Wkt. 1 falls Σ i=0 α i = und Σ i=0 α i2 < Sommer-Semester 2007 MMKI: Reinforcement Learning 45 Sommer-Semester 2007 MMKI: Reinforcement Learning 46 Q-Learning für stochastisches Modell Initial: Q 0 : beliebig Repeat for ever (für jede Episode) Q i : Werte aus voriger Episode Anfangs-Zustand s bestimmen Mit s iterieren: Aktion u wählen (z.b. ε-greedy) und ausführen. s, r beobachten Aktualisieren: Q i+1 (s,u) := Q i (s,u) + α (r + γ Max u Q i (s, u ) - Q i (s,u) ) s := s Dabei ist r + γ Max u Q i (s,u ) der neue Messwert Temporal difference: r + γ Max u Q i (s,u ) - Q i (s,u) Sommer-Semester 2007 MMKI: Reinforcement Learning 47 TD-Lernen TD = Temporal difference (entspricht der Abweichung vom bisher angenommen Wert) (Später mehr dazu) Auch für andere Probleme anwendbar Allgemeine Formel: update = Lernrate * Fehler (vgl. delta-regel für NN, Gradientenverfahren usw.) Sommer-Semester 2007 MMKI: Reinforcement Learning 48 8

9 Haben bis jetzt für stochastische Modelle: Monte Carlo (MC) Lernen v π Q π π V* Modell bekannt (DP) Lin. Glgssytem Iteration Strategie-Iteration Iteration Modell unbekannt (RL) Modell nicht bekannt Lernen in Episoden (!) Mittlung der interessierenden Werte aus Episoden Prinzip GPI für Steuerung des Agenten Q* Q-Lernen Für deterministische Modelle auch einfachere Iterationsverfahren Sommer-Semester 2007 MMKI: Reinforcement Learning 49 Sommer-Semester 2007 MMKI: Reinforcement Learning 50 MC: Strategiebewertung für π Initial: Liste Returns(s i,u i ) leer, V beliebig Repeat for ever Episode (endl. Zustandsfolge s 0,s 1,s 2,..., s n mit rewards) gemäß π generieren und beobachten Für alle s i den dabei erreichten Wert R i ermitteln und an Liste Returns(s i ) anhängen V(s i ) := Mittelwert(Returns(s i )) MC: Strategiebewertung (Policy evaluation) für geg. π Varianten: jedes Auftreten eines Zustands s berücksichtigen nur das erste Auftreten ( first visit ) Evtl. nicht alle Zustände in den Episoden berücksichtigen (dadurch attraktiv) Konvergenz gemäß Gesetz der großen Zahlen (unendliche viele Besuche der Zustände) Sommer-Semester 2007 MMKI: Reinforcement Learning 51 Sommer-Semester 2007 MMKI: Reinforcement Learning 52 MC: Strategiebewertung für Q π -Funktion Analog zu Strategie-Bewertung. Problem: Bei deterministischer Strategie π wird im Zustand s stets nur Aktion u=π(s) ausgeführt, d.h. keine vollständige Exploration. Optimale Strategie In unbekanntem Modell kann optimale Strategie π* aus Q* bestimmt werden: π*(s) = max u Q (s,u) Explorationsproblem (vgl. n-armiger Bandit) (nicht möglich aus V* ) Möglichkeit: initial kann jedes Zustands-Aktions-Paar (s,u) unendlich oft auftreten Sommer-Semester 2007 MMKI: Reinforcement Learning 53 Sommer-Semester 2007 MMKI: Reinforcement Learning 54 9

10 MC: Optimale Q-Funktion lernen Initial: Returns(s i,u i ) leer, Q beliebig, π beliebig (stoch.) Repeat for ever Episode (endl. Zustandsfolge s 0,s 1,s 2,..., s n mit rewards) gemäß aktueller Strategie π generieren und beobachten Für alle (s i,a i ) den dabei erreichten Wert R i ermitteln und an Liste Returns(s i,u i ) anhängen Q(s i,u i ) := Mittelwert(Returns(s i,u i )) Verbesserte Strategie π z.b. gemäß (ε-greedy) π(s,u):=1-ε+ε/card(u) für u :=argmax u Q(s,u) π(s,u):= ε/card(u) sonst folgt dem GPI-Schema Sommer-Semester 2007 MMKI: Reinforcement Learning 55 MC: Optimale Q-Funktion lernen folgt dem GPI-Schema: Es erfolgen abwechselnd Schritte zur Strategieverbesserung (neue Strategie π) Strategiebewertung (Q π ), aber nicht vollständig - ε-greedy statt Start mit unterschiedlichen s 0, u - Approximation der optimalen Q-Funktion bzw. Strategie. - Zusätzliche Analyse bzgl. Stabilität des Prozesses für deterministische Strategie (Abbruch bei Stabilität: Optimale Strategie gefunden) Sommer-Semester 2007 MMKI: Reinforcement Learning 56 MC: Off-Policy Bisher: Wertfunktion/Q-Funktion für Strategie π wird gelernt durch Episoden, die mit π erzeugt werden Alternative: Wertfunktion/Q-Funktion für Strategie π wird gelernt durch Episoden, die mit einer anderen Strategie π erzeugt werden MC: Off-Policy Vorteile: Strategie π kann greedy (deterministisch) sein Strategie π erzeugt die notwendigen Beispiele Dafür notwendig: 1. π(s,u) >0 Ø π (s,u) >0 2. Ausgleich der unterschiedlicher Wahrscheinlichkeiten für die durchlaufenen Folgen bei π bzw. π Sommer-Semester 2007 MMKI: Reinforcement Learning 57 Sommer-Semester 2007 MMKI: Reinforcement Learning 58 MC: inkrementelles Vorgehen V(s i ) := Mittelwert(Returns(s i ) inkrementell berechnen Verallgemeinerung: gewichteter Mittelwert (für off-policy) V n = Σ i=1 n w i R i / Σ i=1 n w i Inkrementell: V n+1 = V n +w n+1 / W n+1 (R n+1 V n ) mit W n+1 =W n +w n+1 und V 0 =W 0 = 0 Temporal Difference Learning (TD) Allgemeine Idee: Differenz zwischen letzter Schätzung und aktuellem Messwert zur Korrektur verwenden: Richtung der Änderung Schrittweite der Änderung durch Wichtungsfaktor α gegeben mit der Zeit abnehmend, z.b. α := 1 / ( 1+Anzahl der bisherigen Aktionen u in s) V n +w n+1 / W n+1 (R n+1 V n ) = 1/ W n+1 (W n+1 V n +w n+1 R n+1 w n+1 V n ) = 1/ W n+1 ((W n+1 w n+1 )V n +w n+1 R n+1 ) = 1/ W n+1 ((W n V n +w n+1 R n+1 ) = 1/ W n+1 ( Σ i=1 n w i R i +w n+1 R n+1 ) = 1/ W n+1 ( Σ i=1 n+1 w i R i ) = V n+1 Sommer-Semester 2007 MMKI: Reinforcement Learning 59 Sommer-Semester 2007 MMKI: Reinforcement Learning 60 10

11 TD(0) für Strategiebewertung V π Initial: V beliebig Für jede Episode: Startzustand s 0 bestimmen V : Werte aus vorheriger Episode Wiederhole für jeden Zustand s der Episode bis zum Ende Aktion u := π(s) ausführen Folgezustand s und reward r beobachten V(s) := V(s) + α ( r + γv(s ) V(s) ) s := s Vergleich MC und TD Update jeweils für besuchten Zustand (analog Zustand/Aktion): Nach Besuch von s t erfolgt update von V(s t ) - MC: mittels R t vom Ende der Episode (gemittelt bei mehrmaligem Auftreten) - TD: mittels r t+1 und V(s t+1 ) ( Bootstrapping-Verfahren ) Konvergenz mit Wkt. 1 bei unendlich vielen Besuchen Sommer-Semester 2007 MMKI: Reinforcement Learning 61 Sommer-Semester 2007 MMKI: Reinforcement Learning 62 Vergleich MC, DP und TD Bellmann-Glg.: V π (s) = E( R t s = s t, π) = E ( i=0... γ i r t+1+i s = s t, π) Update für MC = E ( r t+1 + γ i=0... γ i r t+2+i s = s t, π) = E ( r t+1 + γ V π (s t+1 ) s = s t, π) Update für DP Tatsächlich werden jeweils nur Approximationen verwendet: MC: Beispielwert für R t (gemittelt über bisherigen Episoden) DP: bisherige Schätzung V iπ für V π (bootstrapping) TD: Beispielwert für r t+1 und bisherige Schätzung V π i Q-Learning (Wdh.) Initial: Q: beliebig Repeat for ever (für jede Episode) Q : Werte aus voriger Episode Anfangs-Zustand s bestimmen Mit s iterieren: Aktion u wählen (z.b. ε-greedy) und ausführen. s, r beobachten Aktualisieren (mit bereits neueren Q-Werten): Q(s,u) := Q(s,u) + α (r + γ Max u Q(s,u ) - Q(s,u) ) s := s Off-policy Sommer-Semester 2007 MMKI: Reinforcement Learning 63 Sommer-Semester 2007 MMKI: Reinforcement Learning 64 Sarsa (anderes GPI-Schema) Initial: Q beliebig Repeat for ever (für jede Episode) Anfangs-Zustand s bestimmen Wiederhole für jeden Zustand s der Episode state action reward state action Aktion u wählen (z.b. ε-greedy gemäß Q) und ausführen. s, r beobachten Aktion u für s wählen (z.b. ε-greedy gemäß Q) und ausführen Aktualisieren: on-policy Q(s,u) := Q(s,u) + α (r + γ Q(s,u ) - Q(s,u) ) s := s, u:=u statt bei off-policy: r + γ Max u Q(s,u ) - Q(s,u) Sommer-Semester 2007 MMKI: Reinforcement Learning 65 TD(λ): Vorwärtsbetrachtung s 0 -u 0 r 1 s 1 -u 1 r 2 s 2 -u 2. Wert ab Zeit t : R t := i=0... γ i r t+1+i Approximation gemäß 1-Schritt-Vorausschau: r t+1 + γ V t (s t+1 ) Alternativ: Approximation mit Vorausschau von n Schritten ab s t n-schritt-returns R t (n n=1: R (1) t := r t+1 + γ V(s t+1 ) n=2: R (2) t := r t+1 + γ r t+2 + γ 2 V(s t+2 )... n: R (n) t := r t+1 + γ r t γ n-1 r t+n-1 + γ n V(s t+n ) usw. Sommer-Semester 2007 MMKI: Reinforcement Learning 66 11

12 TD(λ): Vorwärtsbetrachtung Gleichzeitige Benutzung aller Vorausschaumöglichkeiten bei Kombination mit Wichtungsfaktor λ (recency factor) : ( 0<=λ<=1, Gesamtgewicht = 1) R tλ := (1-λ) (R t (1) + λ R t (2) + λ 2 R t (3) +... ) = (1-λ) Σ i=1,... λ i-1 R t (i) TD(λ): Vorwärtsbetrachtung Bei einer Episode der Länge T wird abschließender Return R t erreicht bei : R (T-t-1) t =R t Danach weiter für i>0 : R (T-t-1 +i ) t =R t R tλ = (1-λ) Σ i=1,...t-t-1 λ i-1 R (i) t + (1-λ) Σ T-t,,, λ i-1 R t = (1-λ) Σ i=1,...t-t-1 λ i-1 R t (i) + λ T-t-1 R t Falls λ =1: R tλ = R t entspricht MC-Lernen Falls λ =0: R tλ = R (1) t entspricht bisherigem TD-Lernen ( daher Bezeichnung TD(0) ) Insgesamt bei 0< λ <1 : Kombination von beidem Sommer-Semester 2007 MMKI: Reinforcement Learning 67 Sommer-Semester 2007 MMKI: Reinforcement Learning 68 TD(λ): Rückwärtsbetrachtung Nach jeder Aktion erfolgt update der bereits früher besuchten Zustände. Dabei Wichtung der Zustände entsprechend der Häufigkeit der Besuche ( eligibility trace = Spur) mit den Parametern γ, λ Für jeden Zeitpunkt t : e t (s) := γ λ e t-1 (s) e t (s) := γ λ e t-1 (s) +1 e t : S R für s s t für s = s t TD(λ): Strategiebewertung V π Initial: V(s) beliebig, e(s)=0 für alle s S Repeat (für jede Episode) Initial: s wählen Repeat (für jeden Schritt der Episode) Aktion u=π(s) ausführen, reward r und Folgezustand s beobachten Korrekturwert δ := r + γ V(s ) - V(s) e-wert für s erhöhen: e(s) := e(s)+1 α ist Lernrate Für alle s S neue Schätzung: V(s) := V(s) + α δ e(s) Alle e-werte anpassen: e(s) := γ λ e(s) s := s Sommer-Semester 2007 MMKI: Reinforcement Learning 69 Sommer-Semester 2007 MMKI: Reinforcement Learning 70 TD(λ) TD(1) d.h. λ =1: entspricht MC-Lernen, aber inkrementelle Realisierung Variationen von λ Zeitlich Zustandsabhängig e(s) := γ λ(s) e(s) Bei guter Schätzung in s : λ(s) 0 (hoher Einfluss) Bei schlechter Schätzung: λ(s) 1 (geringer Einfluss) Sarsa(λ) Initial: Q beliebig, e(s,u)=0 für alle s, u Repeat (für jede Episode) s, u bestimmen Repeat (für jeden Schritt der Episode) Aktion u wählen (z.b. ε-greedy gemäß Q) und ausführen. s, r beobachten u für s wählen (z.b. ε-greedy gemäß Q) und ausführen Korrektur-Wert δ := r + γ Q(s,u ) - Q(s,u) e-wert für s erhöhen: e(s) := e(s)+1 für alle s, u neue Schätzung: Q(s,u) := Q(s,u) + α δ e(s,u) Alle e-werte anpassen: e(s) := γ λ e(s) s := s, u:=u Sommer-Semester 2007 MMKI: Reinforcement Learning 71 Sommer-Semester 2007 MMKI: Reinforcement Learning 72 12

13 Q(λ): Q-Learning erweitert Off-Policy-Verfahren Problem: Exploitation -Aktionen (nicht greedy gewählt) können Verfahren verfälschen Eligibility-Trace entsprechend modifizieren: Verfahren von Watkins Sommer-Semester 2007 MMKI: Reinforcement Learning 73 Q(λ): Verfahren von Watkins Initial: Q beliebig, e(s,u)=0 für alle s, u Repeat (für jede Episode) s, u bestimmen Repeat (für jeden Schritt der Episode) Aktion u wählen (z.b. ε-greedy gemäß Q) und ausführen. s, r beobachten u für s wählen (z.b. ε-greedy gemäß Q) und ausführen Greedy-Aktion bestimmen: u*:= argmax v Q(s,v) Korrektur-Wert δ := r + γ Q(s,u*) - Q(s,u) e-wert für s erhöhen: e(s) := e(s)+1 für alle s, u neue Schätzung: Q(s,u) := Q(s,u) + α δ e(s,u) e-werte anpassen: falls u =u* : e(s,u) := γ λ e(s,ua) sonst: e(s,u) := 0 s := s, u:=u Sommer-Semester 2007 MMKI: Reinforcement Learning 74 Für große/kontinuierliche Modelle Behandelte Probleme Tabelle für V(s) bzw. Q(s,a) ersetzen durch Approximation Funktionen Neuronale Netze, Statt verbessern der Tabellenwerte: Lernverfahren für die Approximationen (Gradientenabstieg, BackPropagation, ) Trainingsbeispiele aus den beobachteten Werten Bewertung (prediction) V π Bewertung Q π Strategie- Iteration π Mit Modell DP Lin-.Glgen. Iteration Iteration Ohne Modell MC Episoden Ohne Modell Temporal Difference TD(0) Ohne Modell Eligibility Traces TD(λ) Konvergenz nicht gesichert Wert-Iteration V Q-Learning Q*, Control (GPI) Iteration Episoden Q-Learning Sarsa Watkins Sarsa(λ) Sommer-Semester 2007 MMKI: Reinforcement Learning 75 Sommer-Semester 2007 MMKI: Reinforcement Learning 76 Modellierung beim Verstärkungslernen MDP festlegen: Beschreibungen für Zustände, Aktionen: S, U Übergangsfunktion: Tabelle, lin. Funktion, Neuron. Netz, Rewardfunktion: Tabelle, lin. Funktion, Neuron. Netz, Lernverfahren: Episoden Akkumulation von rewards: Parameter γ on-policy vs. off-policy Exploration vs. Exploitation: ε-greedy, Parameter ε Schrittweite α für TD-Lernen Recency-Faktor λ für TD(λ)-Lernen Konvergenz-Aussagen Notwendig: Alle Zustands-Aktionspaare werden hinreichend oft besucht in endl. stochastischen MDP: unendlich oft in endl. Determinist. MDP: endlich Anzahl von Besuchen in unendl. MDP: Problem der Approximationsmodelle für Zustandsübergangs-Funktion/Reward-Funktion Beispiel: Konvergenz beim Q-Lernen gegen Q*, falls 0 <= γ < 1 f r (s,u) beschränkt durch Konstante c beliebige endliche initiale Werte alle Paare (s,u) werden unendlich oft betrachtet Sommer-Semester 2007 MMKI: Reinforcement Learning 77 Sommer-Semester 2007 MMKI: Reinforcement Learning 78 13