RL und Funktionsapproximation

Größe: px

Ab Seite anzeigen:

Download "RL und Funktionsapproximation"

Hans Schmitz
vor 6 Jahren
Abrufe

1 RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht enormer Speicherbedarf. Andereits, liegen in den Anwendungen meist gar nicht genügend Beispieldaten zur Verfügung, um die V und insbesondere die Q-Funktion vollständig zu lernen. Dies ist insbesondere dann der Fall, wenn der Zustandsraum bzw. auch der Aktionenraum (teilweise) kontinuierliche Größen enthält. Einziger Weg in diesen Problemstellungen eine Funktion zu lernen, ist die Generalisierung. Genauer gesagt die Funktionsapproximation. Zur Approximation von Funktionen sind viele Verfahren bekannt (Polynome, Splines, künstliche neuronale Netze, Regressionsbäume, etc). Funktionsapproximation ist ein wichtiges Beispiel aus dem Bereich des überwachten Lernens. F. Schwenker Reinforcement Learning 114

2 Ziel: Überwachte Lernverfahren zur Funktionsapproximation (eben zur Approximation der V und insbesonder der Q-Funktion mit den bekannten RL Lernverfahren kombinieren). Für das überwachte Lernen steht eine Vielzahl von Methoden bereit. Wir beginnen wieder mit dem Problem V π für eine feste Policy pi berechnen. Dazu gehen wir jetzt davon aus, V t sei nicht als Tabelle V t (s) mit s S gegeben, sondern als eine parametrisierte Funktion mit einem Parametervektor θ t. Der Wert von V t (s) hängt jetzt von θ t ab, etwa die synaptischen Kopplungsgewichte eines künstlichen neuronalen Netzes, die Koeffizienten eines multivariaten Polynoms, usw. Typischerweise ist die Zahl der Zustände (zustands-aktions-paare) sehr viel größer als die Anzahl der reellen Parameter in θ. Änderung eines einzelnen Parameters in θ, beeinflusst den Wert der Funktion potenziell an allen Stellen, d.h. V (s) ändert sich für alle Zustände s (Q(s, a) ändert sich für alle (s, a)). F. Schwenker Reinforcement Learning 115

3 Vorgehen beim Erlernen der V -Funktion: Paar bestehend aus (s t, v t ) mit s S und dem Lehrersignal v R verwenden um θ t so anzupassen, dass V (s t ) v t wird. Was sind nun die Lehrersignale v t? Dies hängt vom Verfahren ab: Beim TD(0) Backup ist v t = r t+1 + γ t V t (s t+1 ). Bei den Monte Carlo Verfahren gilt v t = R t und bei den TD(λ) Verfahren v t = R λ t. Häufig verwendetes Performanzmaß ist der MSE E(θ t ) = s S (V π (s) V (θ t )(s)) 2 Gesucht ist nun der Vektor θ, der den Fehler möglichst klein ist und E(θ ) E(θ) für alle θ, also ein globales Minimum des quadratischen Fehlers. Dies ist allerdings nur für einfache Funktionsapproimationsschemata möglich. Im Allgemeinen ist auf Lösungen θ angewiesen, die numerisch (z.b. Gradientenverfahren) berechnet werden und bei denen es sich um lokale Minima der Fehlerfunktion handelt. F. Schwenker Reinforcement Learning 116

4 On-line Gradient- TD(λ) 1. Initalize θ R N arbitrarily and e R N ; π policy to be evaluated 2. Repeat (for each episode) Initialize s Repeat (for each step of episode): a := π(s) take a, observe reward r, and next state s δ := r + γv θ (s ) V θ (s) e := γλe + grad θ (V (s)); θ := θ + αδe s := s Until s is terminal F. Schwenker Reinforcement Learning 117

5 Lineare Funktionsapproximation Hier ist V t (s) eine lineare Funktion des Parametervektors θ t also V t (s) = i θ i φ i (s) Dann ist der Gradient V θ i = φ i (s) Für lineare Funktionsapproximatoren konvergiert die Optimierung nach der quadratischen Fehlerfunktion gegen ein globales Optimum θ Für das Gradienten TD(λ) Verfahren mit lineare Wertfunktion V t (s) = i θ iφ i (s) lässt sich zeigen Konvergenz gegen ein θ, das dem theoretischen Optimum nahe kommt. Es gilt: E(θ ) 1 γλ 1 γ E(θ ) F. Schwenker Reinforcement Learning 118

6 Lineare Funktionsapproximatoren Es sei S R n. Radiale Basisfunktionen V t (s) = θ i exp ( s c i 2 ) 2σ 2 i i + θ 0 mit σ i > 0, c i R n. Hier in R dargestellt σ i c i-1 c i c i+1 F. Schwenker Reinforcement Learning 119

7 Coarse Coding (eine binäre Variante von RBFs) V t (s) = i 1 { s ci 2 σ 2 i } mit σ i > 0, c i R n. Veranschaulichung im R 2 F. Schwenker Reinforcement Learning 120

8 Beispiele möglicher Verallgemeinerungen a) Narrow generalization b) Broad generalization c) Asymmetric generalization Polynomfunktionen vom Grad 1 V t (s) = i θ i s i + θ 0 F. Schwenker Reinforcement Learning 121

9 Q(λ) mit Gradientenverfahren Es lassen sich jetzt die Funktionsapproximationsverfahren (lineare oder nichtlinear) mit unterschiedlichen Kodierungen des Zustandsraums mit den verschiedenen Verfahren des Reinforcementlernens verbinden. So entstehen eine Vielzahl von Lernverfahren. Beispiel: Q(λ) mit Gradientenverfahren für lineare Q a Funktionen mit Gradientenverfahren für binäre Merkmalskodierung 1. Initalize θ R N arbitrarily and e R N 2. Repeat (for each episode) Initialize s For all a A(s) F a := set of features present in (s, a) Q a := i Fa θ i Repeat (for each step of episode): With probability 1 ɛ: a := arg max a Q a F. Schwenker Reinforcement Learning 122

10 e := γλe else a := random action A(s) e := 0 For all features i F a : e i := e i + 1 take a, observe reward r, and next state s δ := r Q a For all a A(s ) F a := set of features present in (s, a) Q a := i Fa θ i a := arg max a Q a δ := δ + γq a θ := θ + αδe Until s is terminal F. Schwenker Reinforcement Learning 123

Ähnliche Dokumente

Temporal Difference Learning

Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)