Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Transkript

1 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick

2 Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche Zustandsräume Monte-Carlo Sampling, UCT Diskretisierung Approximate Policy Iteration Bellman Residual Minimization Least Squares Temporal Difference

3 Literatur Reinforcement Learning. An Introduction. von Richard S. Sutton und Andrew G. Barto Tutorials auf videolectures.net z.b. von Csaba Szepesvari oder Satinder Singh

4 Große und unendliche Zustandsräume In realistischen Anwendungen sind Zustandsräume i.a. sehr groß bzw. kontinuierlich. Bisherige Annahme: tabellarische Repräsentation der Value Function. Mögliche Lösungen: Planen: Monte-Carlo Sampling Diskretisierung und anschließend z.b. Value Iteration Approximation der Value Function durch Funktionsapproximationsmethoden. Direktes Lernen der Policy.

5 Approximation Arten von Approximation Repräsentation, z.b. Value Function ˆ(, ; ) T Q s a θ = φ ( s, a ) θ T Policy π( s, a; θ) = h( φ ( s, a) θ) Sampling Online Lernen durch Interaktion Samplen aus generativem Modell der Umgebung Maximierung Finden der besten Aktion in einem Zustand

6 Funktionsapproximation Modellierung Value Iteration Least-Squares-Methoden Gradienten-Methoden Policy Iteration Least-Squares-Methoden Gradienten-Methoden Policy Gradient Actor-Critic-Methoden

7 Funktionsapproximation Darstellen der Value Function als parametrisierte Funktion aus dem Funktionsraum F mit Parametervektor µ. Vorhersageproblem: Finde Parametervektor µ, so dass V ¼, bzw. Q ¼ am besten approximiert wird.

8 Funktionsapproximation Generatives Modell Annahme: Es kann jederzeit aus P und R gesamplet werden. Nicht aber P(s s,a) abgefragt werden. Das Reinforcement Learning Problem: Beispiele <s t, a t, R t, s t+1 > aus Interaktion mit der Umgebung. Mögliche Annahme: Interaktion folgt der zu lernenden Policy On-policy-Verteilung von Zuständen ¹(s).

9 Batch Reinforcement Learning Episode gesamplet nach ¼ b Zum Trainingszeitpunkt nur Zugang zu dieser einen Episode.

10 Approximate Policy Iteration Initialisiere Policy Iteriere π 0 Approximate Policy Evaluation Finde ˆQ aus F, eine Approximation von Q π, durch Interaktion fester Trainingsmenge Policy Improvement Finde π t + 1, so dass π ˆ t 1 argmax Q a ( sa, ), für alle s +

11 Approximate Policy Iteration Falls Samples von Q ¼ (s,a) bekannt, lerne Q ¼ vom Trainingssample mit Hilfe einer überwachten Regressionsmethode. Problem: Oft off-policy, d.h. Trainingsbeispiele werden beobachtet während einer Verhaltenspolicy gefolgt wird. Sample Selection Bias (Unterschiedliche Trainingund Testverteilungen p(s,a))

12 Approximate Policy Evaluation Idee: Minimiere den quadratischen Abstand zwischen Q und TQ. Mean Squared Bellman Error Leider ist TQ nicht notwendigerweise in F. Besser: Minimiere Mean Squared Projected Bellman Error

13 Bellman-Residuen-Minimierung Temporal Difference Methode. Bellman-Gleichung als Fixpunkt-Gleichung. Linke Seite als Fehler interpretieren: Bellman Residuum. ¹ stationäre Verteilung von Zuständen. Empirisch:

14 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Bellman-Residuen-Minimierung Problem: Schätzer nicht erwartungstreu. Denn Es folgt:

15 Bellman-Residuen-Minimierung Aber für gilt: Es gilt aber für Erwartungswerte über Zufallsvariablen X:

16 Bellman-Residuen-Minimierung Anwendung auf inneren Erwartungswert: Aber: Schätzung aus Samples ist

17 Bellman-Residuen-Minimierung Alternative Herleitung für BRM mit Funktionsapproximation. Optimierungskriterium J( θ) = E Qˆ s a R s a + E Qˆ s a = 2 s µ, a [( ( t, t ; θ ) ( ( t, t ) s [ γ ( t+ 1, t+ 1 ; θ )])) ] t E E 2 s µ [ as, [ δt( θ) st] ] t t+ 1 Gradient 1 J( θ) 2 = E [ δ ( θ) Qˆ ( s, a; θ)] s, as, t t t t t+ 1 E [ E [ δ ( θ) s] E [ γ Qˆ ( s, a ; θ) s]] st as, t+ 1 t t st+ 1 t+ 1 t+ 1 t t+ 1

18 Bellman-Residuen-Minimierung Daher müssen eigentlich immer zwei unabhängige Nachfolgezustände gezogen werden, um erwartungstreue Schätzung zu bekommen Unpraktisch und oft unrealistisch Stattdessen wurde vorgeschlagen, einfach nur ein Sample zu nehmen und die Updates damit zu machen. Damit konvergiert der Algorithmus allerdings nicht mehr gegen den Fixpunkt von

19 Residual Gradient Die neue Lösung nennt man Residual Gradient (RG) Lösung I.A. schlechtere Lösung als genaue BRM Aber dafür kann ein stochastischer echter Gradient berechnet werden (allerdings nicht für das ursprünglich gewünschte Optimierungskriterium) (Kommt später)

20 BRM Vorschlag: [Antos et. al. 07] Erwartungstreue durch Einführung einer Hilfsfunktion h2f.

21 Least-Squares Temporal Difference Q ist aus Funktionsraum F. T ¼ Q aber nicht notwendigerweise. LSTD minimiert den quadratischen Abstand zwischen Q und der Projektion von T ¼ Q auf F. Unbiased. LSTD oft bessere Ergebnisse.

22 Fitted Policy Evaluation mit Samples Q = 0. Ziehe N Samples s,a aus ¹(s),p(a). Ziehe M Samples von R und Nachfolgezustand s entsprechend Modell. Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Q ( s, a) R( s, a) + γq ( s', π( s')) k+ 1 i= 1 Dann least-squares Fitting: M M Qˆ ( s, a) argmin Q ( s, a) f( s, a) k+ 1 k+ 1 i i i i f I i = 1 k

23 Projected Bellman Equation Lineare Approximation der Q-Funktion ˆ(, ; ) T Q s a θ = φ ( s, a ) θ Fixpunkt der Bellman Gleichung Projektion: Least-Squares Definiere Q r p π S A R = S A = R Q( ij) Qs (, a) r( ij) Rs (, a) S A x S = R i j i j Q p( iji, ') Ps ( s, a) i' i j S x S A R i ij = π aj si = = ΠTQ π(', ) ( ), falls i i',sonst 0

24 Projected Bellman Equation Lineare Approximation, also Definiere Dann Mit Q=φθ π T(Q)=r+ γpπq Π = 1 ( T T φ φ φ) φ Q =Π T(Q) π T T T Γ = φ φ, Λ = φ pπφ, z = φ r θ π kann als Lösung von berechnet werden. θ γ θ π π Γ = Λ + z

25 LSTD-Q Gegeben eine Menge von n Samples Γ = 0, Λ = 0, z = For i=1...n Γ = Γ + φ( s, a) φ ( s, a) T i i 1 i i i i Λ = Λ + φ( s, a) φ ( s', π( s')) T i i 1 i i i i z = z + φ( s, a) r i i 1 i i i Löse nach θˆπ 1 ˆπ 1 ˆπ 1 Γ θ = γ Λ θ + n n n n n n z ( si, ai, si')

26 LSPE-Q Gegeben eine Menge von n Samples Γ = 0, Λ = 0, z = For i=1...n Γ = Γ + φ ( s, a ) φ T ( s, a ) i i 1 i i i i Λ = Λ + φ( s, a) φ ( s', π( s')) T i i 1 i i i i z = z + φ( s, a) r i i 1 i i i ( si, ai, si') θ θ + α( θ θ ) wobei Γ θ = γ Λ θ + z i i i ˆπ θ = θ h h i i 1 i i 1 i i i i 1 i n

27 Konvergenz n Für konvergieren beide Lösungen gegen h die Lösung der projected Bellman Gleichung θ i. Konvergenz für beide Algorithmen bewiesen, falls Samples nach h gesamplet wurden. Intuitiv dadurch, dass Γn Γ, Λn Λ, zn z n n n ˆh θ i Aber h darf nicht deterministisch sein. Es kann also z.b. eine e-greedy Policy verwendet werden.

28 Least-Squares-Methoden LSPE-Q ist ein inkrementeller Algorithmus, kann also als online On-Policy Methode verwendet werden und z.b. von einer guten Startlösung θˆ h 0 profitieren. LSTD-Q auf der anderen Seite berechnet die Lösung in einem Schritt, was bessere Stabilität im Vergleich zu LSPE bedeuten kann, falls sich die Policy h während der Evaluierung ändert.

29 Gradientenbasierte Policy Evaluation Eine andere Möglichkeit von (online) Policy Evaluation sind gradientenbasierte Methoden. 1 2 θ ˆ t 1 t t Q π + = θ α θ ( st, at) Q( st, at; θt) 2 π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π Q ( s ist unbekannt. Deshalb wird es t, at) approximiert durch eine stochastische Approximation eines Bellman Updates (1 Sample) R( s, a) +γqˆ ( s', a')

30 TD(0) Daraus ergibt sich die Update-Regel für TD(0): θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) γq( st 1, at 1; θ) Q( st, at; θ) θq( st, at; θt) Spezialfall lineare Funktionsapproximation T T θt+ 1 = θt + α t R( st, at) + γφ ( st+ 1, at+ 1) θt φ ( st, at) θ t φ( st, at) Auch hier gilt wieder, dass die Policy nicht deterministisch sein darf. Aber: Kein Sample eines echten Gradienten!

31 Gradientenbasierte Policy Evaluation Echter Gradient ist Residual Gradient E s, s t t t t t+ 1 [ δ ( θ) Qˆ ( s, a; θ)] E [ E [ δ ( θ) s] E [ Qˆ ( s, a ; θ) s]] st st+ 1 t t st+ 1 t+ 1 t+ 1 t Empirischer Gradient (1 Sample) T T R( st, at) + γφ ( st+ 1, at+ 1) θt φ ( st, at) θ t T ( γφ ( s, a ) φ( s, a)) t+ 1 t+ 1 t t

32 Konvergenz Konvergenz für TD(0) ist unter bestimmten Annahmen und einem On-Policy-Sample-Prozess bewiesen. Wie immer muss zum On-Policy Lernen eine stochastische Policy verwendet werden. Um eine (möglichst) deterministische Policy zu lernen, wird oft z.b. das Epsilon einer epsilongreedy Policy nach und nach immer kleiner gewählt. Leider ist für sehr kleine Epsilon die Konvergenz nicht mehr gewährleistet!

33 Konvergenz Residual Gradient hat bessere Konvergenzeigenschaften, vor allen Dingen dadurch, dass ein echter Gradient verwendet wird. Für Off-Policy TD(0) Policy Evaluation kann i.a. keine Konvergenz gezeigt werden. (Kann aber trotzdem konvergieren)

34 Off-Policy Policy Evaluation Off-Policy Policy Evaluation bedeutet, dass die Samples ( st, at, s t + 1) nach einer Verhaltenspolicy gezogen (generiert) werden, man aber die Value Function von einer anderen Policy π lernen möchte. π b ist i.a. stochastisch, um zu gewährleisten, dass alle Zustands-Aktions-Paare gesehen werden. Realisierung abhängig von π Falls deterministisch, Realisierung durch Subsampling π Falls stochastisch, Realisierung durch Importance Sampling π π b

35 Off-Policy Policy Evaluation Subsampling: Verwerfe alle Beispiele ( st, at, s t + 1), die nicht zur Policy passen π Importance Sampling: Umgewichten der Beispiele im Update. Z.B. TD(0): E[ δ ( θ) φ] E[ ρ δ ( θ) φ] t t t t t π( st, at) ρt = π ( s, a) b t t TD(0) mit Importance Sampling: θ = t 1 θ + + t αtρtδt( θ) φ( st, at)

36 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Divergenz von Q-Learning

37 Off-Policy Policy Evaluation Neue Algorithmen, die auch Konvergenz unter Off- Policy-Lernen garantieren. Z.B. GTD Algorithmus. (Gradient TD) Idee: Neues Optimierungskriterium: Minimiere die L2-Norm des TD(0)-Updates. T E[ δ ( θ) φ] E[ δ ( θ) φ] t t t t Da das Update als der Fehler der derzeigen Lösung θ angesehen werden kann, macht die Minimierung intuitiv Sinn.

38 GTD-Algorithmus Der Gradient kann folgendermaßen berechnet werden: T T E[ δ( θ) φ ] E[ δ( θ) φ] = 2 E[ δ( θ) φ ] E[ δ( θ) φ] θ θ T = 2 E[( γφ' φ) φ ] E[ δ( θ) φ] Bei Approximation basierend auf Samples (für Stochastic Gradient) wird nur einer der beiden Erwartungswerte direkt gesamplet. θ = θ + α( φ γφ ) φ u T T t+ 1 t t t t t t u = u + β( δ φ u) t+ 1 t t t t t

39 Policy Improvement Falls A endlich und klein, kann die greedy Policy berechnet werden. Ansonsten muss sie approximiert werden. Man kann z.b. auch die Policy als eine Funktion von Zustand auf optimale Aktion lernen, etwa indem man das (approximative) max auf Samplemenge bestimmt und damit lernt.

40 Approximative PI Theoretische Garantien Konvergenz von Approximativen Policy Iteration Algorithmen ist i.a. nicht beweisbar. Man kann aber Suboptimalitätsschranken angeben, abhängig von den maximalen Fehlern bei Policy Evaluation und Policy Improvement.

41 Approximative PI Theoretische Garantien Ist der Fehler bei der Policy Evaluation beschränkt mit ˆ ˆ πt Q Q Und der Fehler der Policy Improvement mit ˆ π t ˆt ˆ ˆt ˆ ˆt T π ( Q π ) T( Q π ) ς Dann kann der gesamte Fehler mit lim sup t beschränkt werden Q ς π ˆ ˆ ς 2 t * π + γς π Q Q 2 (1 γ) Q

42 FA für Reinforcement Learning Online Updates: Anpassen von µ t nach jeder Interaktion <s t, a t, R t, s t+1 >. Qˆ(; θ ) t Qˆ(; θ ) Gradientenabstieg: Q π t * t Q t

43 FA für Reinforcement Learning Spezialfall: lineare Methoden. ˆ(; ) T Q θ = φ θ t Gradientenabstieg: 1 2 π θ ˆ t+ 1 = θt αt θ Q ( st, at) Q( st, at; θ) 2 t π = θ (, ) ˆ(, ; ) ˆ t + α t Q st at Q st at θ θq( st, at; θt) π = θ (, ) ˆ t + α t Q st at Q( st, at; θ) φ( st, at)

44 FA für Reinforcement Learning Value FunctionV ¼ unbekannt. Ersetze mit Schätzung. Monte-Carlo: Erwartungstreue Schätzung von V ¼. Konvergenz zu lokalem Optimum. (Unter Bedingungen für t ) Temporal Difference (TD(0)): Gebiaste Schätzung. keine Konvergenz zu lokalem Optimum beweisbar. t

45 Approximative Value Iteration Analog zu Approximativer Policy Evaluation: Finde Fixpunkt von Bellman Gleichung für das Kontrollproblem. Q = ΠTQ Bei parametrischer Approximation mit Parametervektor θ θ = ΠTQ( θ)

46 Approximative Value Iteration Der Bellman-Operator ist definiert als T( Q)( s, a) = R( s, a) +γmax E [ Q( s', a)] a s' Und die Projektion wird realisiert durch Least- Squares-Approximation Π ( Q) = min f F Q f 2 2

47 Fitted Value Iteration mit Samples [Szepesvári & Munos 05] V = 0. Ziehe N Zustände s aus ¹(s). Für jedes s und a2a, Ziehe M Nachfolgezustände s aus P( s,a) und RewardsR(s,a). Iteriere: Mit diesen Samples <s, a, R, s > wird ein Bellman- Update-Schritt durchgeführt: Dann least-squares Fitting:

48 Scheffer/Sawade/Dick, Maschinelles Lernen 2 Fehlerabschätzung

49 Approximatives Q-Learning Lineare Parametrisierung der Q-Funktion Iterationsschritt: 1 * ˆ t+ 1 = t t θ Q st at Q st at t θ θ α (, ) (, ; θ) 2 Analog zu TD(0) wird das unbekannte Q * ( st, at) approximiert mit einem Bellman-Update (, ) (, ) γ [max ˆ(, ; θ)] * Q st at R st at + Es Q st 1 a t t

50 Approximatives Q-Learning Wieder stochastische Gradient-Methode, es wird also der Erwartungswert durch stochastische Samples approximiert θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) + γmax Q( st+ 1, a; θt) Q( st, at; θt) θq( st, at; θt) a T T = θt + α t R( st, at) + γmax φ( st+ 1, a) θt φ( st, at) θ t φ( st, at) a Unter bestimmen Voraussetzungen kann man die Konvergenz von Q-Learning beweisen, allerdings müssen dafür Einschränkungen für Art der Policy oder der Featurevektoren gemacht werden.

51 Approximative Value Iteration Konvergenz-Beweise von Value Iteration basieren i.a. auf der Beweisbarkeit der Nichtexpansionseigenschaften der Projektion und der Funktionsapproximation, damit ( Π T Q )( θ ) ( Π T Q )( θ ') γ θ θ ' D.h., es muss gelten: und Q( θ) Q( θ') θ θ' Π( Q) Π( Q') Q Q'

52 Approximative Value Iteration θ θ θ θ Q( ) Q( ') ' kann garantiert werden, indem die Featurevektoren φ normalisiert N werden. φ = 1 i= 1 Projektion schwieriger zu zeigen. i

53 Approximatives SARSA On-Policy-Methode für das Kontrollproblem θ ˆ ˆ ˆ t+ 1 = θt + α t R( st, at) γq( st 1, at 1; θt) Q( st, at; θt) θq( st, at; θt) T T = θ α R( s, a ) γφ( s, a ) θ φ( s, a ) θ t + t t t + t + 1 t + 1 t t t t φ( s t, a t) Konvergenz kann unter vernünftigen Annahmen bewiesen werden. Allerdings gilt die Konvergenz grob gesagt nur, falls nicht zu klare Entscheidungen getroffen werden (z.b. nur bei großem Epsilon in Epsilon-Greedy)

54 Scheffer/Sawade/Dick, Maschinelles Lernen 2 TD( ) Updateregel: TD( ) Update: 0 1 interpoliert zwischen 1-step und MC.

55 Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände

56 FA für Reinforcement Learning TD( ) Eligibility traces: Lineare Methode: Konvergenzgarantie nur für on-policy. Fehlerabschätzung:

57 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( ) Kontrollproblem: SARSA( ) (On-Policy) Off-policy kann divergieren.

58 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )

59 Scheffer/Sawade/Dick, Maschinelles Lernen 2 SARSA( )

60 Policy Gradient Lernen einer stochastischen Policy. Die Policy wird explizit repräsentiert, z.b. als Gibbs Verteilung Lerne, so dass maximiert wird. Idee: (stochastische) Gradientenmethode

61 Policy Gradient Frage: Wie wird der Gradient berechnet? Antwort: Policy Gradient Theorem Definiere zeitlich discounted Zustandswahrscheinlichkeit Dann

62 Policy Gradient Theorem Es gilt: Policy Gradient Theorem: Sei L definiert wie oben. Dann gilt für den Gradienten D.h. der Gradient berechnet sich auf Grund der gleichen erwarteten Zustandsverteilung und der Value Function

63 Policy Gradient: Log-Trick Der Gradient kann umgeschrieben werden mit Hilfe des log-tricks Daraus folgt für den empirischen Gradienten d.h. der Gradient wird ohne Bias approximiert, wenn die Samples aus der On-Policy Verteilung stammen.

64 Policy Gradient: Baseline Um die Varianz des Gradienten klein zu halten, wird oft eine Baseline in den Gradienten eingefügt Die Baseline verändert nicht den Erwartungswert, denn da Empirischer Gradient:

65 Actor-Critic Um den Gradienten zu berechnen, brauchen wir die Value Function Q Z.B. möglich über MC Andere Möglichkeit: Approximieren der Value Function mit Hilfe z.b. einer linearen Funktion Werden der Actor (die Policy) und der Critic (die Value Function) beide gelernt, spricht man von Actor-Critic-Methoden

66 Literatur [Auer et al. 02 ]: P.Auer, N.Cesa-Bianchi and P.Fischer: Finite time analysis of the multiarmed bandit problem. Machine Learning 47, [Kearns et al. 02]: M.J. Kearns, Y. Mansour, A.Y. Ng: A sparse sampling algorithm for near-optimal planning in large Markov decision processes. Machine Learning 49: [Kocsis & Szepesvári 06]: L. Kocsis and Cs. Szepesvári: Bandit based Monte- Carlo planning. ECML, [Rust 97]: J. Rust, 1997, Using randomization to break the curse of dimensionality, Econometrica, 65: , [Szepesvári & Munos 05]: Cs. Szepesvári and R. Munos: Finite time bounds for sampling based fitted value iteration, ICML, [Antos et. al. 07]: A. Antos, Cs. Szepesvari and R. Munos: Learning nearoptimal policies with Bellman-residual minimization based fitted policy iteration and a single sample path, Machine Learning Journal, 2007