Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick

2 Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden Policy Iteration Least-Squares-Methoden Gradienten-Methoden Gade e e Policy Gradient Actor-Critic-Methoden

3 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V ¼, bzw. Q ¼ am besten approximiert wird. Scheffer/S Sawade/Dick, Masch hinelles Lernen 2

4 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <s t, a t, R t, s t+1 > aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹(s).

5 Batch Reinforcement Learning Episode gesamplet nach ¼ b Zum Trainingszeitpunkt nur Zugang g zu dieser einen Episode. Scheffer/S Sawade/Dick, Maschinelles Lernen 2

6 Approximate Policy Iteration Initialisiere Policy pi Iteriere Approximate Policy Evaluation Finde ˆQ, eine Approximation von Q durch Interaktion fester Trainingsmenge Policy Improvement Finde, so dass ˆ 1 arg max Qsa t a (, ), für alle a t 1

7 Approximate Policy Iteration Falls Samples von Q ¼ (sa) (s,a) bekannt, lerne Q ¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a))

8 Approximate Policy Evaluation Idee: Minimiere den quadratischen Abstand zwischen Q und TQ. Mean Squared Bellman Error Leider ist TQ nicht notwendigerweise in F. Besser: Minimiere Mean Squared Projected Bellman Error

9 Bellman-Residuen-Minimierung Temporal Difference Methode. Bellman-Gleichung als Fixpunkt-Gleichung. Linke Seite als Fehler interpretieren: Bellman Residuum. ¹ stationäre Verteilung von Zuständen. Empirisch:

10 Bellman-Residuen-Minimierung Problem: Schätzer nicht erwartungstreu. Denn Es folgt: Scheffer/S Sawade/Dick, Maschinelles Le ernen 2

11 Bellman-Residuen-Minimierung Aber für gilt: Es gilt aber für Erwartungswerte über Zufallsvariablen X: Scheffer/S Sawade/Dick, Maschinelles Le ernen 2

12 Bellman-Residuen-Minimierung Anwendung auf inneren Erwartungswert: Aber: Schätzung aus Samples ist Scheffer/S Sawade/Dick, Maschinelles Le ernen 2

13 Bellman-Residuen-Minimierung Alternative Herleitung für BRM mit Funktionsapproximation. Optimierungskriterium J ( ) E [ Qˆ ( s, a ; ) ( R ( s, a ) E [ Qˆ( s, a ; )])] s, a t t t t s t 1 t 1 t E E s 2 s [ [ t( ) t] ] t Gradient 1 J J ( ) 2 E [ ( ) Qˆ ( s, a ; )] s, s t t t t t1 t1 E [ E [ ( ) s ] E [ Qˆ ( s, a ; ) s ]] st st1 t t st1 t1 t1 t

14 Bellman-Residuen-Minimierung Daher müssen eigentlich immer zwei unabhängige Nachfolgezustände gezogen werden, um erwartungstreue Schätzung zu bekommen Unpraktisch und oft unrealistisch Stattdessen wurde vorgeschlagen, einfach nur ein Sample zu nehmen und die Updates damit zu machen. Damit konvergiert der Algorithmus allerdings nicht mehr gegen den Fixpunkt von

15 Residual Gradient Die neue Lösung nennt man Residual Gradient (RG) Lösung I.A. schlechtere Lösung als genaue BRM Aber dafür kann ein stochastischer echter Gradient berechnet werden (allerdings nicht für das ursprünglich gewünschte Optimierungskriterium) (Kommt später)

16 BRM Vorschlag: [Antos et. al. 07] Erwartungstreue durch Einführung einer Hilfsfunktion h2f. Scheffer/S Sawade/Dick, Maschinelles Lernen 2

17 Least-Squares Temporal Difference Q ist aus Funktionsraum F. T ¼ Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T ¼ Q auf F. Unbiased. LSTD oft bessere Ergebnisse. Scheffer/S Sawade/Dick, Maschinelles Le ernen 2

18 Fitted Policy Evaluation mit Samples Q = 0. Ziehe N Samples s,a aus ¹(s),p(a). Ziehe R und Nachfolgezustand s entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Q (, s a) R(, s a) Q ( s', ( s')) k1 M i1 Dann least-squares Fitting: M Qˆ ( s, a) argmin Q ( s, a ) f( s, a ) k1 k1 i i i i f i 1 k

19 Projected Bellman Equation Lineare Approximation der Q-Funktion ˆ(, ; ) T Qsa (, sa ) Fixpunkt der Bellman Gleichung Projektion: Least-Squares Definiere Q r p π SA SA SA x S Q( ij) Q( s, a ) r( ij) R( s, a ) i i p( ij,') i P( s s, a ) j j i' i j Q T Q S x S A π j i (, i', ij ) ( a s ), falls i i',sonst 0

20 Projected Bellman Equation Lineare Approximation, also Q= π Definiere T(Q)=r+ pπq Dann Mit T ( ) Q T π (Q) 1 T T, T pπ, z T r kann als Lösung von berechnet werden. z

21 LSTD-Q Gegeben eine Menge von n Samples ( s, a, s ') Gegeben eine Menge von n Samples 0, 0, z For i=1...n ( s, a ) ( s, a ) T i i 1 i i i i ( s, a ) ( s', ( s' )) T i i1 i i i i zi zi 1 ( si, ai) ri Löse nach ˆ 1 ˆ 1 ˆ 1 n n n n n n z i i i

22 LSPE-Q Gegeben eine Menge von n Samples ( s, a, s ') Gegeben eine Menge von n Samples 0, 0, z For i=1...n T ( s, a ) ( s, a ) i i1 i i i i ( s, a ) ( s', ( s' )) T i i1 i i i i i i i zi zi 1 ( si, ai) ri h 1 h 1 1 1( 1) wobei 1 z i i i ˆ i i i i i i i i i n

23 Konvergenz n Für konvergieren beide Lösungen gegen i h die Lösung der projected Bellman Gleichung i. Konvergenz für beide Algorithmen bewiesen, falls Samples nach h gesamplet wurden. Intuitiv dadurch, dass n, n, zn z n n n Aber h darf nicht deterministisch sein. Es kann also z.b. eine e-greedy Policy verwendet werden. ˆ h

24 Least-Squares-Methoden LSPE-Q ist ein inkrementeller Algorithmus, kann also als online On-Policy Methode verwendet werden und z.b. von einer guten Startlösung ˆ h 0 profitieren. LSTD-Q auf der anderen Seite berechnet die Lösung in einem Schritt, was bessere Stabilität im Vergleich zu LSPE bedeuten kann, falls sich die Policy h während der Evaluierung ändert.

25 Gradientenbasierte Policy Evaluation Eine andere Möglichkeit von (online) Policy Evaluation sind gradientenbasierte Methoden. 1 2 ˆ t 1 t t Q ( st, at) Q( st, at; t) 2 (, ) ˆ(, ; ) ˆ t t Q st at Q st at Q( st, at; t) Q ( s ist unbekannt. Deshalb wird es t, at) approximiert durch eine stochastische Approximation eines Bellman Updates (1 Sample) Rsa (, ) Qs ˆ ( ', a')

26 TD(0) Daraus ergibt sich die Update-Regel für TD(0): ˆ ˆ ˆ t1 t t Rs ( t, at) Qs ( t 1, at 1; ) Qs ( t, at; ) Qs ( t, at; t) Spezialfall lineare Funktionsapproximation T T t 1 t t R( st, at) ( st 1, at 1) t ( st, at) t( st, at) Auch hier gilt wieder, dass die Policy nicht deterministisch sein darf. Aber: Kein Sample eines echten Gradienten!

27 Gradientenbasierte Policy Evaluation Echter Echter Gradient ist Residual Gradient E s, s t t t t t 1 [ ( ) Qˆ ( s, a ; )] E [ E [ ( ) s ] E [ Qˆ ( s, a ; ) s ]] st st1 t t st1 t1 t1 t Empirischer Gradient (1 Sample) T T Rs ( t, at) ( st 1, at 1) t ( st, at) t T ( ( s, a ) ( s, a )) t1 t1 t t

28 Konvergenz Konvergenz für TD(0) ist unter bestimmten Annahmen und einem On-Policy-Sample-Prozess bewiesen. Wie immer muss zum On-Policy Lernen eine stochastische Policy verwendet werden. Um eine (möglichst) deterministische Policy zu lernen, wird oft z.b. das Epsilon einer epsilon- greedy Policy nach und nach immer kleiner gewählt. Leider ist für sehr kleine Epsilon die Konvergenz nicht mehr gewährleistet!

29 Konvergenz Residual Gradient hat bessere Konvergenzeigenschaften, vor allen Dingen dadurch, dass ein echter Gradient verwendet wird. Für Off-Policy TD(0) Policy Evaluation kann i.a. keine Konvergenz gezeigt werden. (Kann aber trotzdem konvergieren)

30 Off-Policy Policy Evaluation Off-Policy Policy Evaluation bedeutet, dass die Samples ( st, at, st 1) nach einer Verhaltenspolicy b gezogen g (generiert) werden, man aber die Value Function von einer anderen Policy lernen möchte. b ist i.a. stochastisch, um zu gewährleisten, dass alle Zustands-Aktions-Paare gesehen werden. Realisierung abhängig von Falls deterministisch, Realisierung durch Subsampling Falls stochastisch, Realisierung durch Importance Sampling

31 Off-Policy Policy Evaluation Subsampling: Verwerfe alle Beispiele ( st, at, st 1), die nicht zur Policy passen Importance Sampling: Umgewichten der Beispiele im Update. Z.B. TD(0): E[ ( ) ] E[ ( ) ] t t t t t t ( s, a ) t ( s, a ) t b t t TD(0) mit Importance Sampling: t 1 t t t t ( ) ( s t, a t )

32 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Divergenz von Q-Learning

33 Off-Policy Policy Evaluation Neue Algorithmen, die auch Konvergenz unter Off- Policy-Lernen garantieren. Z.B. GTD Algorithmus. (Gradient TD) Idee: Neues Optimierungskriterium: Minimiere die L2-Norm des TD(0)-Updates. T E[ ( ) ] E[ ( ) ] t t t t Da das Update als der Fehler der derzeigen Lösung angesehen werden kann, macht die Minimierung intuitiv Sinn.

34 GTD-Algorithmus Der Gradient kann folgendermaßen berechnet werden: E[ ( ) ] E[ ( ) ] E[ ( ) ] E[ ( ) ] T T T E[( ' ) ] E[ ( ) ] Bei Approximation basierend auf Samples (für Stochastic Gradient) wird nur einer der beiden Erwartungswerte direkt gesamplet. T ( ) u T t1 t t t t t t u u ( u ) t1 t t t t t

35 Policy Improvement Falls A endlich und klein, kann die greedy Policy berechnet werden. Ansonsten muss sie approximiert werden. Man kann z.b. auch die Policy als eine Funktion von Zustand auf optimale Aktion lernen, etwa indem man das (approximative) max auf Samplemenge bestimmt und damit lernt.

36 Approximative PI Theoretische Garantien Konvergenz von Approximativen Policy Iteration Algorithmen ist i.a. nicht beweisbar. Man kann aber Suboptimalitätsschranken angeben, abhängig ggvon den maximalen Fehlern bei Policy Evaluation und Policy Improvement. Scheffer/S Sawade/Dick, Masch hinelles Lernen 2

37 Approximative PI Theoretische Garantien Ist der Fehler bei der Policy Evaluation beschränkt mit ˆ ˆ t Q Q Q ˆ t Q Q Und der Fehler der Policy Improvement mit ˆt ˆ ˆt ˆ ˆt T ( Q ) T( Q ) Dann kann der gesamte Fehler mit lim sup t beschränkt werden ˆ ˆ 2 t * Q Q 2 (1 ) Q

38 FA für Reinforcement Learning Online Updates: Anpassen von µ t nach jeder Interaktion <s t, a t, R t, s t+1 >. Qˆ (; ) t Qˆ(; ) Gradientenabstieg: Q t * t Q t

39 FA für Reinforcement Learning Spezialfall: lineare Methoden. ˆ(; ) T Q t Gradientenabstieg: 1 2 ˆ t1 t t (, ) (, ; ) 2 Q st at Q st at t (, ) ˆ(, ; ) ˆ t t Q st at Q st at Q( st, at; t) (, ) ˆ t t Q st at Q( st, at; ) ( st, at)

40 FA für Reinforcement Learning Value Function V ¼ unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V ¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen g für t t) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar.

41 Approximative Value Iteration Analog zu Approximativer Policy Evaluation: Finde Fixpunkt von Bellman Gleichung für das Kontrollproblem. QT Q Bei parametrischer Approximation mit Parametervektor T Q( )

42 Approximative Value Iteration Der Bellman-Operator ist definiert als TQ ( )( sa, ) Rsa (, ) max E[ Qs ( ', a)] Und die Projektion wird realisiert durch Least- Squares-Approximation ( Q) min f F Q f a 2 2 s'

43 Fitted Value Iteration mit Samples [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹(s). Für jedes s und a2a, Ziehe M Nachfolgezustände s aus P( s,a) und Rewards R(s,a). Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Dann least-squares Fitting:

44 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Fehlerabschätzung

45 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t1 t t Q st at Q st at t (, ) (, ; ) 2 Analog zu TD(0) wird das unbekannte Q * ( st, at ) approximiert mit einem Bellman-Update (, ) (, ) [max ˆ(, ; )] * Q st at R st at Es Q st 1 a t t1 2

46 Approximatives Q-Learning Wieder stochastische Gradient-Methode, es wird also der Erwartungswert durch stochastische Samples approximiert ˆ ˆ ˆ t1 t t Rs ( t, at) max Qs ( t1, a; t) Qs ( t, at; t) Qs ( t, at; t) a T T t t Rs ( t, at) max ( st 1, a) t ( st, at) t ( st, at) a Unter bestimmen Voraussetzungen kann man die Konvergenz von Q-Learning beweisen, allerdings müssen dafür Einschränkungen für Art der Policy oder der Featurevektoren gemacht werden.

47 Approximative Value Iteration Konvergenz-Beweise von Value Iteration basieren i.a. auf der Beweisbarkeit der Nichtexpansionseigenschaften der Projektion und der Funktionsapproximation, damit ( T Q )( ) ( T Q )( ') ' D.h., es muss gelten: und Q( ) Q( ') ' ( Q) ( Q') QQ'

48 Approximative Value Iteration Q ( ) Q ( ') ' kann garantiert werden, indem die Featurevektoren normalisiert N werden. 1 i1 Projektion schwieriger zu zeigen. i Scheffer/S Sawade/Dick, Masch hinelles Lernen 2

49 Approximatives SARSA On-Policy-Methode für das Kontrollproblem ˆ ˆ ˆ t1 t t Rs ( t, at) Qs ( t 1, at 1; t) Qs ( t, at; ) t Qs ( t, at; t) T T Rs (, a ) ( s, a ) ( s, a ) t t t t t1 t1 t t t t ( s t, a t) Konvergenz kann unter vernünftigen Annahmen bewiesen werden. Allerdings gilt die Konvergenz grob gesagt nur, falls nicht zu klare Entscheidungen getroffen werden (z.b. nur bei großem Epsilon in Epsilon-Greedy)

50 TD( ) Updateregel: TD( ) Update: 0 1 interpoliert zwischen 1-step und MC. Scheffer/Sawade/Dick, Masch hinelles Le ernen 2

51 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände Scheffer/S Sawade/Dick, Maschinelles Le ernen 2

52 FA für Reinforcement Learning TD( ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung:

53 SARSA( ) Kontrollproblem: SARSA( ) (On-Policy) Off-policy kann divergieren. Scheffer/S Sawade/Dick, Maschinelles Le ernen 2

54 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )

55 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )

56 Policy Gradient Lernen einer stochastischen Policy. Die Policy wird explizit repräsentiert, z.b. als Gibbs Verteilung Lerne, so dass minimiert wird Idee: (stochastische) Gradientenmethode

57 Policy Gradient Frage: Wie wird der Gradient berechnet? Antwort: Policy Gradient Theorem Definiere zeitlich discounted Zustandswahrscheinlichkeit Dann

58 Policy Gradient Theorem Es gilt: Policy Gradient Theorem: Sei L definiert wie oben. Dann gilt für den Gradienten D.h. der Gradient berechnet sich auf Grund der gleichen erwarteten Zustandsverteilung und der Value Function

59 Policy Gradient: Log-Trick Der Gradient kann umgeschrieben werden mit Hilfe des log-tricks Daraus folgt für den empirischen Gradienten d.h. der Gradient wird ohne Bias approximiert, wenn die Samples aus der On-Policy Verteilung stammen.

60 Policy Gradient: Baseline Um die Varianz des Gradienten klein zu halten, wird oft eine Baseline in den Gradienten eingefügt Die Baseline verändert nicht den Erwartungswert, denn da Empirischer Gradient:

61 Actor-Critic Um den Gradienten zu berechnen, brauchen wir die Value Function Q Z.B. möglich über MC Andere Möglichkeit: Approximieren der Value Function mit Hilfe z.b. einer linearen Funktion Werden der Actor (die Policy) und der Critic (die Value Function) beide gelernt, spricht man von ACtor-Critic-Methoden

62 Literatur [Auer et al. 02 ]: P.Auer, N.Cesa-Bianchi and P.Fischer: Finite time analysis of the multiarmed bandit problem. Machine Learning 47, [Kearns et al. 02]: M.J. Kearns, Y. Mansour, A.Y. Ng: A sparse sampling algorithm for near-optimal planning in large Markov decision processes. Machine Learning 49: [Kocsis & Szepesvári 06]: L. Kocsis and Cs. Szepesvári: Bandit based Monte- Carlo planning. ECML, [Rust 97]: J. Rust, 1997, Using randomization to break the curse of dimensionality, Econometrica, 65: , [Szepesvári & Munos 05]: Cs. Szepesvári and R. Munos: Finite time bounds for sampling based fitted value iteration, ICML, [Antos et. al. 07]: A. Antos, Cs. Szepesvari and R. Munos: Learning nearoptimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path, Machine Learning Journal, 2007