Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Transkript

1 Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright 29, W. Ertel 562 Einführung Robotik Aufgaben sind oft sehr komple nicht programmierbar Aufgabenstellung durch Versuch und Irrtum herausfinden, welche Aktionen gut sind Menschen lernen so, z.b. Laufen: Belohnung durch Vorwärtskommen Bestrafung durch Stürze Copyright 29, W. Ertel 563

2 Copyright 29, W. Ertel 564 Der Krabbler g y g Copyright 29, W. Ertel 565 Der Krabbler Copyright 29, W. Ertel 566 Der Krabbler

3 Copyright 29, W. Ertel 567 Der Krabbler Copyright 29, W. Ertel 568 Der Krabbler Copyright 29, W. Ertel 569 Der Krabbler

4 Copyright 29, W. Ertel 57 Der Laufroboter 2 3 Copyright 29, W. Ertel 57 Der Laufroboter 2 3 Copyright 29, W. Ertel 572 Der Laufroboter 2 3

7 Copyright 29, W. Ertel 579 Der Zustandsraum Copyright 29, W. Ertel 58 Der Zustandsraum li. re. ob. unt Zustandsraum: 2 2 (links), 4 4 (Mitte), optimale Strategie (rechts). Copyright 29, W. Ertel 58 Der Agent Agent Zustand s Umgebung Aktion a

8 Copyright 29, W. Ertel 582 Der Agent Belohnung r Agent Zustand s Umgebung Aktion a Copyright 29, W. Ertel 583 Die Aufgabenstellung Zustand s t S: s t a t s t+ Übergangsfunktion δ: s t+ = δ(s t, a t ) Copyright 29, W. Ertel 584 Direkte Belohnung r t = r(s t, a t ) r t > : r t = : r t < : positive Verstärkung kein Feedback negative Verstärkung oft ist über lange Zeit r t =! Strategie π : S A Eine Strategie ist optimal, wenn sie langfristig die Belohnung maimiert

9 Copyright 29, W. Ertel 585 Abgeschwächte Belohnung (engl. discounted reward) Belohnungsfunktion: V π (s t ) = r t + γr t+ + γ 2 r t = γ i r t+i. (.) i= Alternative: V π h (s t ) = lim r h h t+i. (.2) i= Eine Strategie π heißt optimal, wenn für alle Zustände s V π (s) V π (s) (.3) Abkürzung: V = V π Copyright 29, W. Ertel 586 Entscheidungsprozesse Markov-Entscheidungsprozess (engl. Markov decision process, MDP): Belohnung einer Aktion hängt nur von aktuellem Zustand und aktueller Aktion ab POMDP (engl. partially observable Markov decision process): Zustand des Agenten nicht eakt bekannt. Copyright 29, W. Ertel 587 Uninformierte kombinatorische Suche Gitter Anz. Zust Strategien = 6 =

10 Copyright 29, W. Ertel 588 Uninformierte kombinatorische Suche allgemein: 4 Eckknoten mit 2 möglichen Aktionen 2(n 2) + 2(n y 2) Randknoten mit 3 Aktionen (n 2)(n y 2) innere Knoten mit 4 Aktionen also: (n 2)+2(n y 2) 4 (n 2)(n y 2) verschiedene Strategien Copyright 29, W. Ertel 589 Wert von Zuständen π : s π 2 : s Bewegung nach rechts mit belohnt, nach links mit - bestraft mittlerer Vortrieb für π : 3/8 =.375, mittlerer Vortrieb für π 2 : 2/6.333 V π (s t ) = r t + γr t+ + γ 2 r t γ V π (s ) V π 2(s ) größeres γ: größerer Zeithorizont für die Bewertung von Strategien! Copyright 29, W. Ertel 59 Wert-Iteration und Dynamische Programmierung Dynamische Programmierung, Richard Bellman, 957 Bellman: Unabhängig vom Startzustand s t und der ersten Aktion a t müssen ausgehend von jedem möglichen Nachfolgezustand s t+ alle folgenden Entscheidungen optimal sein. global optimale Strategie durch lokale Optimierungen Gesucht ist eine optimale Strategie π, welche und erfüllt. Es folgt V (s t ) = V π (s t ) = r t + γr t+ + γ 2 r t = V π (s) V π (s) γ i r t+i. ma a t,a t+,a t+2,... (r(s t, a t )+γ r(s t+, a t+ )+γ 2 r(s t+2, a t+2 )+...). (.4) i=

11 Copyright 29, W. Ertel 59 r(s t, a t ) hängt nur von s t und a t ab, also V (s t ) = ma[r(s t, a t ) + γ ma a t a t+,a t+2,... (r(s t+, a t+ ) + γ r(s t+2, a t+2 ) +...)] (.5) = ma a t [r(s t, a t ) + γv (s t+ )]. (.6) Bellman-Gleichung: (Fipunktgleichung) V (s) = ma a [r(s, a) + γv (δ(s, a))]. (.7) also π (s) = argma[r(s, a) + γv (δ(s, a))]. (.8) a Iterationsvorschrift: (Fipunktiteration) Initialisierung: s ˆV (s) = ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] (.9) Copyright 29, W. Ertel 592 Wert-Iteration() For all s S ˆV (s) = Repeat For all s S ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] Until ˆV (s) sich nicht mehr ändert Satz.2 Die Wert-Iteration konvergiert gegen V Sutton/Barto. Copyright 29, W. Ertel V * Wert-Iteration mit γ =.9 und zwei optimale Strategien. Achtung: es ist falsch, die Aktion zu wählen, welche zum Zustand mit maimalem V -Wert führt. Warum?

12 Copyright 29, W. Ertel 594 Anwendung auf s = (2, 3) in V * π (2, 3) = argma [r(s, a) + γv (δ(s, a))] a {links,rechts,oben} = argma {links,rechts,oben} = argma {links,rechts,oben} = links { , , } {3.39, 2.65, 2.95} Copyright 29, W. Ertel 595 Der Laufroboter in Hardware Copyright 29, W. Ertel 596 Demo:Laufroboter

13 Copyright 29, W. Ertel 597 Unbekannte Welt was tun, wenn der Agent kein Modell für seine Aktionen hat? ˆV (s) = ma a [r(s, a) + γ ˆV (δ(s, a))] V * Copyright 29, W. Ertel 598 Q-Lernen Bewertungsfunktion Q(s t, a t ) π (s) = argmaq(s, a). (.) a Abschwächen zukünftiger Belohnungen und maimieren von Bewertung der Aktion a t im Zustand s t : Q(s t, a t ) = r t + γr t+ + γ 2 r t ma a t+,a t+2,... (r(s t, a t ) + γr(s t+, a t+ ) + γ 2 r(s t+2, a t+2 ) +...). (.) Copyright 29, W. Ertel 599 Vereinfachung: Q(s t, a t ) = ma a t+,a t+2,... (r(s t, a t ) + γ r(s t+, a t+ ) + γ 2 r(s t+2, a t+2 ) +...) = r(s t, a t ) + γ ma a t+,a t+2,... (r(s t+, a t+ ) + γr(s t+2, a t+2 ) +...) (.2) (.3) = r(s t, a t ) + γ ma a t+ (r(s t+, a t+ ) + γ ma a t+2 (r(s t+2, a t+2 ) +...)) (.4) = r(s t, a t ) + γ maq(s a t+, a t+ ) t+ (.5) = r(s t, a t ) + γ maq(δ(s t, a t ), a a t+ ) t+ (.6) = r(s, a) + γ ma a Q(δ(s, a), a ) (.7) Fipunktgleichung wird iterativ gelöst mittels: ˆQ(s, a) = r(s, a) + γ ma ˆQ(δ(s, a), a ) (.8) a

14 Copyright 29, W. Ertel 6 Q-Lernen() For all s S, a A ˆQ(s, a) = (oder zufällig) Repeat Wähle (z.b. zufällig) einen Zustand s Repeat Wähle eine Aktion a und führe sie aus Erhalte Belohnung r und neuen Zustand s ˆQ(s, a) := r(s, a) + γ ma a ˆQ(s, a ) s := s Until s ist ein Endzustand Oder Zeitschranke erreicht Until ˆQ konvergiert Der Algorithmus für das Q-Lernen. Copyright 29, W. Ertel 6 Anwendung des Verfahrens mit γ =.9 und n = 3, n y = Copyright 29, W. Ertel 62 Satz.4 Gegeben sei ein deterministischer MDP mit beschränkten direkten Belohnungen r(s, a). Zum Lernen wird Gleichung.8 mit γ < verwendet. Sei ˆQn (s, a) der Wert für ˆQ(s, a) nach n Aktualisierungen. Wird jedes Zustands-Aktions-Paar unendlich oft besucht, so konvergiert ˆQ n (s, a) für alle Werte von s und a gegen Q(s, a) für n. Beweis: Jeder Zustands-Aktions-Übergang kommt unendlich oft vor Betrachte Intervalle in denen alle Zustands-Aktions-Übergänge mindestens einmal vorkommen. Der ma. Fehler in der ˆQ-Tabelle wird in jedem dieser Intervalle um mindestens den Faktor γ reduziert: Sei n = ma s,a ˆQ n (s, a) Q(s, a) der maimale Fehler in der Tabelle ˆQ n und s = δ(s, a).

15 Copyright 29, W. Ertel 63 Für jeden Tabelleneintrag ˆQ n (s, a) gilt: ˆQ n+ (s, a) Q(s, a) = (r + γ ma = γ ma a a ˆQn (s, a )) (r + γ ma a Q(s, a )) ˆQn (s, a ) ma a Q(s, a ) γ ma a ˆQ n (s, a ) Q(s, a ) γ ma s,a ˆQ n (s, a ) Q(s, a ) = γ n. Die erste Ungleichung gilt, weil für beliebige Funktionen f und g ma f() ma g() ma f() g() und die zweite, weil durch zusätzliches Variieren des Zustandes s das resultierende Maimum nicht kleiner werden kann. Es folgt also n+ γ n und k γ k also: lim n n = Copyright 29, W. Ertel 64 Bemerkungen Q-Lernen konvergiert nach Satz.4 unabhängig von den während des Lernens gewählten Aktionen. Konvergenzgeschwindigkeit ist abhängig von den während des Lernens gewählten Aktionen. Copyright 29, W. Ertel 65 Q-Lernen in nichtdeterministischer Umgebung nichtdeterministischer Agent: Reaktion der Umgebung auf die Aktionaim Zustand s ist nichtdeterministisch. Q(s t, a t ) = E(r(s, a)) + γ s P(s s, a) maq(s, a ), (.9) a Konvergenzgarantie für das Q-Lernen geht verloren! Grund: bei gleichem Zustand s und gleicher Aktion a völlig verschiedene Reaktion der Umgebung

16 Copyright 29, W. Ertel 66 Neue Lernregel ˆQ n (s, a) = ( α n ) ˆQ n (s, a) +α n [r(s, a) +γ ma a ˆQn (δ(s, a), a )] (.2) mit zeitlich variablem Gewichtungsfaktor α n = + b n (s, a). b n (s, a) gibt an, wie oft bis zur n-ten Iteration im Zustand s die Aktion a schon ausgeführt wurde. stabilisierender Term ˆQ n (s, a). Werte b n (s, a) für alle Zustands-Aktions-Paare müssen gespeichert werden. Copyright 29, W. Ertel 67 TD-Fehler und TD-Lernen α n = α (konstant): ˆQ n (s, a) = ( α) ˆQ n (s, a) + α[r(s, a) + γ ma ˆQn (δ(s, a), a )] a = ˆQ n (s, a) + α [r(s, a) + γ ma ˆQn (δ(s, a), a ) ˆQ n (s, a)] } a {{} TD-Fehler α = : Q-Lernen α = : Es findet kein Lernen statt < α < :??? Copyright 29, W. Ertel 68 Erkunden und Verwerten Q-Lernen() For all s S, a A ˆQ(s, a) = (oder zufällig) Repeat Wähle (z.b. zufällig) einen (welchen?) Zustand s Repeat Wähle eine (welche?) Aktion a und führe sie aus Erhalte Belohnung r und neuen Zustand s ˆQ(s, a) := r(s, a) + γ ma a ˆQ(s, a ) s := s Until s ist ein Endzustand Oder Zeitschranke erreicht Until ˆQ konvergiert

17 Copyright 29, W. Ertel 69 Möglichkeiten zur Wahl der nächsten Aktion zufällige Wahl: führt zu gleichmäßigem Erkunden (engl. eploration) aller möglichen Aktionen sehr langsame Konvergenz immer die beste Aktion wählen (höchster ˆQ-Wert:) optimales Verwerten (engl. eploitation) schon gelernten Verhaltens relativ schnelle Konvergenz nicht optimale Strategien werden gelernt Copyright 29, W. Ertel 6 Wahl des Startzustands Copyright 29, W. Ertel 6 Funktionsapproimation, Generalisierung und Konvergenz Stetige Variablen unendlicher Zustandsraum Tabelle mit V oder Q Werten kann nicht mehr gespeichert werden Lösung: Q(s, a)-tabelle wird ersetzt durch ein neuronales Netz mit den Input-Variablen s, a und Q-Wert als Ziel-Output. Endliche Repräsentation der (unendlichen) Funktion Q(s, a)! Generalisierung (aus endlich vielen Trainingsbeispielen) Achtung: Keine Konvergenzgarantie mehr, denn Satz.4 gilt nur, wenn jedes Zustands-Aktionspaar unendlich oft besucht wird. Alternative: beliebiger anderer Funktionsapproimator

18 Copyright 29, W. Ertel 62 POMDP POMDP (engl. partially observable Markov decision process): viele verschiedene Zustände werden als einer erkennt. viele Zustände in der realen Welt werden auf eine Beobachtung (engl. observation) abgebildet. Konvergenzprobleme bei der Wert-Iteration oder beim Q-Lernen Lösungsansätze:, Observation Based Learning 2. Sutton, R./Barto, A. Reinforcement Learning. MIT Press, Lauer, M./Riedmiller, M. Generalisation in Reinforcement Learning and the Use of Obse rvation-based Learning. In Kokai, Gabriella/Zeidler, Jens (Hrsg.) Proceedings of the FGML Workshop Copyright 29, W. Ertel 63 Anwendungen: TD-Gammon TD-Learning (Temporal Difference Learning) verwendet weiter in der Zukunft liegende Zustände TD-Gammon: einem Programm zum Spielen von Backgammon TD-Learning zusammen mit einem Backpropagation-Netz mit 4 bis 8 verdeckten Neuronen Einzige direkte Belohnung: Ergebnis am Ende eines Spiels. TD-Gammon wurde trainiert in.5 Millionen Spielen gegen sich selbst. Es besiegte Weltklassespieler. Copyright 29, W. Ertel 64 Weitere Anwendungen RoboCup: mit Lernen durch Verstärkung wird heute das Verhalten der Roboter gelernt, z.b. Dribbeln 3. Inverses Pendel Steuerung eines Quadrocopter Probleme in der Robotik: Etreme Rechenzeiten bei hochdimensionalen Problemen (viele Variablen/Aktionen Feedback der Umwelt bei realen Robotern ist sehr langsam. Bessere, schnellere Lernalgorithmen werden benötigt. 3 Stone, P./Sutton, R.S./Kuhlmann, G. Reinforcement Learning for RoboCup-Soccer Keepaway. Adaptive Behavior, 25; The RoboCup Soccer Simulator.

19 Copyright 29, W. Ertel 65 Landen von Flugzeugen [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 66 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 67 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8]

20 Copyright 29, W. Ertel 68 Birds don t solve Navier-Stokes! [Russ Tedrake, IROS 8] Copyright 29, W. Ertel 69 Fluch der Dimensionen curse of dimensionality Problem: hochdimensionale Zustands- und Aktionsräume Lösungsmöglichkeiten: Lernen in der Natur auf vielen Abstraktionsebenen Informatik: jede gelernte Fähigkeit wird in ein Modul gekapselt Aktionsraum wird stark verkleinert Zustände werden abstrahiert hierarchisches Lernen Barto/Mahadevan verteiltes Lernen (Tausendfüßler ein Gehirn pro Bein) Copyright 29, W. Ertel 62 Fluch der Dimensionen, weitere Ideen Menschl. Gehirn ist bei Geburt keine Tabula Rasa Gute initiale Strategie für Roboter?. Klassische Programmierung. 2. Lernen durch Verstärkung 3. Trainer gibt zusätzliches Feedback oder:. Lernen durch Demonstration (lernen mit Lehrer) 2. Lernen durch Verstärkung Billard et al. 3. Trainer gibt zusätzliches Feedback

21 Copyright 29, W. Ertel 62 Aktuelle Forschung Verbindung von Lernen durch Verstärkung mit Imitation Learning Policy Gradienten Methoden Actor Critic Methoden Natural Gradient Methoden Copyright 29, W. Ertel reinforcement learning algorithms: value iteration Q(λ), SARSA(λ) TD(λ) tabular and function approimation versions actor critic tile coding locally weighted regression Eample Environments: mountain car gridworld (with editor), windy gridworld dicegame n armed bandit pole swing up Copyright 29, W. Ertel 623 Literatur Erste Einführung: Mitchell, T. Machine Learning. McGraw Hill, 997 Standardwerk: Sutton, R./Barto, A. Reinforcement Learning. MIT Press, 998 Übersicht: Kaelbling, L.P./Littman, M.L./Moore, A.P. Reinforcement Learning: A Survey. Journal of Articial Intelligence Research, 4 996