8. Reinforcement Learning

8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält der Agent eine mehr oder weniger große Belohnung für seine Handlungen. Die Aufgabe des Agenten besteht dann darin, Handlungsfolgen zu lernen, die eine hohe Belohnung in Aussicht stellen. Verwandtschaft mit dynamischer Optimierung Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 330

8. Reinforcement Learning Einführung Agent und Politik Wir wollen einen lernenden Roboter bzw. Agenten bauen: Sensoren um den aktuellen Zustand zu ermitteln Mit Aktoren (bzw. einer Aktion) kann der Zustand verändert werden: Transition Gegeben ist ein Ziel, für das Erreichen des Ziels gibt es eine Belohnung Lernaufgabe: Ermittlung einer guten Aktionsfolge, eine sogenannte Politik Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 331

8. Reinforcement Learning Einführung Beispiel Mobiler Roboter Sensoren: Kamera, Radar, etc. Aktoren/Aktionen: Bewegungen: vor, drehen, etc. Ziel: Andocken an Ladegerät bei geringer Batterielaufzeit Belohnung: Nur für eine Aktion, durch die das Aufladen in Gang gesetzt wird. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 332

8. Reinforcement Learning Einführung Agent und Umwelt Agent Zustand Belohnung Aktion Umgebung s0 a0 r0 s1 a1 r1 s2 a2 r2... Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 333

8. Reinforcement Learning Einführung Verzögerte Belohnung und Diskontierung Formales Ziel: Maximiere die Summe der erhaltenen Belohnungen: mit 0 γ < 1. nicht endlicher Horizont max : r 0 + γr 1 + γ 2 r 2 + r i ist die Belohnung für die Aktion a i im Zustand s i. Verzögerte Belohnung: Es kann günstig sein, eine Aktion zu wählen, die aktuell keine Belohnung liefert, dafür eine hohe Belohnung zu einem späteren Zeitpunkt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 334

8. Reinforcement Learning Einführung γ ist ein Diskontierungsfaktor, d.h. eine direkte Belohnung ist günstiger als eine spätere Belohnung in gleicher Höhe. Vgl. Barwert in den Wirtschaftswissenschaften um Zahlungströme zu bewerten. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 335

8. Reinforcement Learning Einführung Mögliche unterschiedliche Szenarien Zustandsübergänge sind deterministisch oder stochastisch Belohnungen können deterministisch oder stochastisch sein Zustandsübergänge sind vorher bekannt oder müssen gelernt werden Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 336

8. Reinforcement Learning Einführung Unterschiede zu anderen Lernproblemen Verzögerte Belohnung: Funktionslernen aus Beispielen und Greedy- Entscheidung ist nicht unbedingt optimal. Oder alle Entscheidungen liefern für den aktuellen Zustand keine Belohnung: Was soll man tun? Neue unbekannte Aktionen ausprobieren oder bekannte Aktionen mit sicheren hohen Belohnungen wählen? In vielen praktischen Situationen liefern die Sensoren keine vollständige Information. Lebenslanges Lernen und der Agent muss u.u. mehrere Dinge gleichzeitig lernen. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 337

8. Reinforcement Learning Die Lernaufgabe Die Lernaufgabe (endliche) Zustandsmenge S (endliche) Aktionenmenge A Diskrete Zeit: zum Zeitpunkt t ist der Agent im Zustand s t und wählt die Aktion a t aus Belohnungsfunktion r: r : S A IR mit r t := r(s t, a t ) ist die Belohnung für die Aktion a t im Zustand s t zur Zeit t. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 338

8. Reinforcement Learning Die Lernaufgabe Transitionsfunktion δ: δ : S A S mit s t+1 := δ(s t, a t ) als Nachfolgezustand. Zunächst seien r und δ deterministisch. Eine Politik π ist eine Abbildung π : S A gibt also an, was in welcher Situation getan werden soll. Markow-Entscheidungsproblem Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 339

8. Reinforcement Learning Die Lernaufgabe Die kumulierte diskontierte Belohnung V π für eine Politik π ausgehend von einem Zustand s t zum Zeitpunkt t ist: V π (s t ) = γ i r t+i i=0 Der Agent soll eine Politik π lernen, die V π (s) maximiert für alle Zustände s S. Solch eine Politik heißt optimale Politik: π := argmax π V π (s) für alle s S Zur Vereinfachung der Notation schreibt man V (s) statt V π (s). Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 340

8. Reinforcement Learning Die Lernaufgabe Beispiel Roboter muss Raum mit Ladestation finden Belohnung wenn der Raum mit Ladestation betreten wird. Anschließend kann der Raum mit der Ladestation nicht mehr verlassen werden. Absorbierender Zustand Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 341

8. Reinforcement Learning Die Lernaufgabe Beispiel: Belohnungen 0 100 0 0 0 0 Goal 0 0 0 0 100 0 0 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 342

8. Reinforcement Learning Die Lernaufgabe Beispiel: Optimale Politik Goal Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 343

8. Reinforcement Learning Die Lernaufgabe Beispiel: Diskontierte kumulierte Belohnung für optimale Politik 90 100 0 Goal 81 90 100 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 344

Welche Bewertungsfunktion soll der Agent lernen? Die Trainingsdaten stellen keine Beispiele der Form (s, a) zur Verfügung, deshalb ist es nicht möglich, π direkt zu lernen. Konsequenz: Lerne eine Bewertungsfunktion, mit deren Hilfe π bestimmt werden kann. Der Agent könnte versuchen V als Bewertungsfunktion zu lernen. Bevorzuge s 1 gegenüber s 2 genau dann, wenn V (s 1 ) > V (s 2 ). Aber wir müssen nicht zwischen Zuständen sondern zwischen Aktionen wählen. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 345

Hier könnten wir das Bellmansche Optimalitätsprinzip verwenden: V (s) = max a A r(s, a) + γ V (δ(s, a)) Damit ergibt sich π durch: π (s) = argmax a A r(s, a) + γ V (δ(s, a)) Beispiel: Tafel Problem: Dazu müssen wir r und δ kennen, d.h. vollständiges Wissen über die Umwelt haben. Dieses liegt in der Regel nicht vor. V zu lernen, wäre nur dann sinnvoll, wenn die Transitionsfunktion δ und die Belohnungsfunktion r vollständig bekannt wären. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 346

Dies kann für viele praktische Lernszenarien nicht vorausgesetzt werden. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 347

Die Q-Funktion Wir definieren die Funktion Q(s, a) durch: Q(s, a) := r(s, a) + γ V (δ(s, a)) Q(s, a) gibt damit die maximale diskontierte kumulierte Belohnung an, die vom Zustand s mit Aktion a erzielt werden kann. Es gilt: π (s) = argmax a A Q(s, a) Wenn der Agent die Funktion Q lernt, kann er ohne Wissen von r und δ die optimale Aktion wählen! Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 348

Beispiel: Die Funktion Q(s, a) 90 100 0 72 81 81 Goal 81 90 81 90 100 72 81 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 349

Die Funktion Q lernen Wenn wir Q lernen, lernen wir implizit π. Kernproblem: Wie können wir Trainingsbeispiele für Q zuverlässig schätzen? Ansatz: iterative Approximation Es gilt: V (s) = max Q(s, a ) a A Damit erhalten wir eine Rekursionsgleichung für Q(s, a): Q(s, a) = r(s, a) + γ max Q(s, a ) a A Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 350

Diese Rekursionsgleichung stellt den Kern für den Lernalgorithmus dar. Es sei ^Q(s, a) die aktuelle Hypothese für Q. Wir repräsentieren ^Q durch eine große Tabelle bzw. S A -Matrix. Die Matrix wird zu Beginn mit zufälligen Werten gefüllt oder mit 0. Der Agent beobachtet nun in jeder Iteration seinen Zustand s, wählt eine Aktion a, beobachtet die Belohnung r und den neuen Zustand s = δ(s, a). Anschließend wird ^Q gemäß der folgenden Trainingsregel angepasst: ^Q(s, a) = r + γ max ^Q(s, a ) a A Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 351

Der Q-Lernalgorithmus Für alle s S,a A : ^Q(s, a) 0 s aktueller Zustand do forever Man wähle eine Aktion a und führe sie aus r aktuelle Belohnung s neuer Zustand ^Q(s, a) = r + γ max a A ^Q(s,a ) s s Beispiel: Tafel Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 352

Konvergenz Unter den folgenden Voraussetzungen konvergiert ^Q gegen Q: Es liegt ein deterministisches Markow-Entscheidungsproblem vor, d.h. r und δ sind deterministisch. Die Belohnungen sind nach oben beschränkt, d.h. r(s, a) c <. Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 353

Experimentieren Der Q-Lernalgorithmus gibt nicht an, wie Aktionen ausgwählt werden. Möglichkeit: Maximierung von ^Q(s, a), führt aber zu einer eingeschränkten Auswahl Man beachte die Voraussetzungen für die Konvergenz: Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Konsequenz: In jedem Zustand sollte jede Aktion prinzipiell ausgewählt werden können. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 354

Beispiel: Zufallsbasierte Auswahl mit folgenden Wahrscheinlichkeiten P(a i s) = k ^Q(s,a i ) j k ^Q(s,a j ) mit k > 0 Große Werte von k begünstigen Aktionen deren Q-Werte über dem Durschnitt liegen, kleine Q-Werte dagegen die anderen Aktionen. k kann auch im Verlauf des Lernen geändert werden, zunächst klein zum Experimentieren, später groß um stabile Werte zu erhalten. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 355

Nichtdeterminismus nichtdeterministische Belohnungen r(s, a) nichtdeterministische Aktionen δ(s, a) Die zugehörigen Wahrscheinlichkeitsverteilungen sind nicht bekannt. nichtdeterministisches Markow-Entscheidungsproblem Die kumulierte diskontierte Belohnung stellt nun einen Erwartungswert dar: ( ) V π (s t ) = E γ i r t+i i=0 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 356

Analog passen wir die Definition der Q-Funktion an: Q(s, a) = E (r(s, a) + γv (δ(s, a))) = E (r(s, a)) + γe (V (δ(s, a))) = E (r(s, a)) + γ s P(s s, a)v (s ) Hierbei bezeichnet P(s s,a) die Wahrscheinlichkeit, dass Zustand s eintritt, wenn in der Vorperiode Zustand s vorlag und Aktion a gewählt wurde. V (s ) können wir wieder durch die Maximierung der Q-Funktion ausdrücken (vgl. Folie 350): Q(s,a) = E (r(s, a)) + γ s P(s s, a) max a Q(s, a ) Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 357

Damit haben wir wieder eine Rekursionsgleichung (vgl. Folie 350), die nun aber auf einem Erwartungswert basiert. Leider funktioniert für den nichtdeterministischen Fall unsere Trainingsregel für ^Q(s, a) nicht (siehe Folie 351)! Keine Konvergenz! Stattdessen gleitende Mittelwertbildung: ) ^Q n (s, a) = (1 α n )^Q n 1 (s, a) + α n (r + max ^Q n 1 (s,a ) a mit 1 α n = 1 + visits n (s, a) Der Term visits n (s, a) gibt dabei an, wie häufig das Zustands- Aktionen-Paar (s, a) bisher angewendet wurde. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 358

Konvergenz Nicht-deterministisches Markow-Entscheidungsproblem Die Belohnungen sind nach oben beschränkt. Trainingsregel für ^Q n (s, a) wie angegeben. 0 γ < 1 Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 359

0 α n < 1 mit α n(i,s,a) =, i=1 α 2 n(i,s,a) < i=1 dann ^Q n (s, a) Q(s, a) für n mit Wahrscheinlichkeit 1. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 360