Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick
Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte MDPs Monte-Carlo Temporal Difference
Problemstellungen des maschinellen Lernens Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zb. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. Temporal Credit Assignment Problem.
Beispiele Schach: Welcher Zug hatte wieviel Einfluss auf das Spielergebnis? Robofußball: Ziel ist es, ein Tor zu schießen. Aber welche Bewegungen haben das ermöglicht? Helikopterflug: Welche Bewegungen müssen ausgeführt werden, um bei unvorhersehbaren äußeren Bedingungen nicht abzustürzen.
Lernen aus Interaktionen Reward Beobachtung Umgebung Agent Controller Aktionen
Wann Reinforcement Learning? Verzögerte Bewertung von Aktionen. (Temporal credit assignment problem) Kontrollprobleme Agenten Das volle KI-Problem
Was ist Reinforcement Learning? RL-Methoden sind Sampling based methods to solve optimal control problems (Richard Sutton) Suche nach einer optimalen Policy: Funktion von Zustand zu Aktion. Optimalität des Lernens: Policy mit höchstem erwarteten Reward. Aber auch: schnelles Lernen ohne zuviele Fehler zu machen.
Markov Decision Processes Markov-Entscheidungsprozess (S,A,R,P) S : endliche Zustandsmenge A : endliche Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Diskrete Zeitschritte t. Discount factor.
MDP Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren.
Markov-Eigenschaft Markov-Eigenschaft: Aus Sequenz von Beobachtungen und Aktionen wird Zustand. Markov-Eigenschaft in Realität selten genau erfüllt.
Value Functions Bewertungsfunktionen Value function V ¼ (s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Es existiert immer eine optimale deterministische stationäre Policy ¼ *, die die Value Function maximiert.
Value Functions Bewertungsfunktion für Zustand-Aktions-Paar: Optimale Bewertungsfunktion Annahme: tabellarische Speicherung der Bewertungen aller Zustände
Bellman-Gleichungen Für Bewertungsfunktionen gelten die Bellman- Gleichungen (durch Markov-Eigenschaft)
Bellman-Gleichungen Zustand-Aktion-Bewertungsfunktion: Die Bellman-Gleichungen bilden ein lineares Gleichungssystem
Bellman-Operatoren In (linearer) Operatorschreibweise: Mit linearem Operator T ¼ : V ¼ ist ein Fixpunkt des Bellman-Operators T ¼.
Bellman-Optimalitätsgleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions.
Modellwissen Es ergeben sich unterschiedliche Problemstellungen je nach Wissen über den MDP. MDP vollständig bekannt. Planen. MDP nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. Reinforcement Learning.
Arten von Reinforcement Learning Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation
MDP vollständig bekannt Dynamische Programmierung 2 Schritte zum Berechnen der optimalen Policy: Policy Evaluation: V ¼ berechnen für festes ¼ k Policy Improvement: Neues ¼ k+1 bestimmen Policy Iteration. Bellman-Gleichungen bilden ein lineares Gleichungssystem. Zustandsmengen sind allerdings in der Realität in der Regel zu groß um Standardlösungsverfahren für LGS zu verwenden.
Policy Iteration Iteratives Verfahren: V ¼ iterativ durch Folge von Approximationen V k berechnen Greedy Policy Improvement:
Policy Evaluation Im Limit k 1 konvergiert V k zu V ¼. Konvergenzrate O( k ): V V * = O( k ) Beweis z.b. über Banach schen Fixpunktsatz. Sei B=(B,. ) ein Banachraum. Sei T ein Operator T:B B, so dass TU TV U V mit <1. T nennt man dann eine -Kontraktion. Dann hat T einen eindeutigen Fixpunkt V und es gilt, dass für alle V 0 2 B die Folge V k+1 =T V k, k 1 gegen V konvergiert. Außerdem gilt V V * = O( k )
Policy Evaluation Es gilt, dass der Bellman-Operator T ¼ eine -Kontraktion ist. Daraus folgt, dass die iterative Anwendung des Operators gegen V ¼ konvergiert.
Policy Evaluation: Kontraktion Was bedeutet Kontraktion? Anwenden der Iterationsvorschrift: Die maximale Veränderung der Value Function verringert sich pro Iteration mit Faktor.
Policy Improvement Greedy Policy Improvement Policy Improvement Theorem: Seien ¼ und ¼ deterministische Policies für die gilt, dass für alle s2s: Q ¼ (s,¼ (s)) V ¼ (s). Dann V ¼ (s) V ¼ (s)
Value Iteration Value Iteration für das Kontrollproblem: Konvergiert gegen Q * für k 1 Ähnlicher Beweis.
MDP unvollständig Reinforcement Learning Indirektes Reinforcement Learning: Modelbasiert Lerne Modell des MDP: Rewardfunktion R Transitionswahrscheinlichkeiten P Anschließend Planen. Exploration / Exploitation Problem: um R und P gut schätzen zu können, müssen alle Zustände und Zustandsübergänge beobachtet werden. (Im tabellarischen Fall)
Monte-Carlo Methoden Lernen von episodischen Interaktionen mit der Umgebung. Ziel: Lernen von Q ¼ (s,a). Monte-Carlo Schätzung von Q ¼ (s,a): Mittelwert bilden über gesamplete kumulative Rewards. Erwartungstreue Schätzung des echten erwarteten Rewards. Varianz fällt mit 1/n. Schätzungen der Bewertungen der Zustände sind unabhängig.
Monte-Carlo Methoden Berechnungszeit der Schätzung ist unabhängig von der Größe des Zustandsraums. Problem: Falls ¼ deterministisch werden viele stateaction-paare Q(s,a) nie beobachtet. Probleme beim der Policy Improvement-Schritt Lösung: stochastische Policies, z.b. ²-greedy Policies.
Temporal Difference Learning Idee: Updates von Zuständen auf Grund von Schätzungen von anderen Zuständen. Natürliche Formulierung als Online-Methoden. Anwendbar auch für unvollständige Episoden. Nachteil gegenüber Monte-Carlo: Stärkerer Schaden durch Verletzung der Markov- Eigenschaft.
Q-Learning Q-Learning Update-Schritt: Konvergiert gegen Q * falls Jeder Zustand unendlich oft besucht wird Für den Schrittweitenparameter gilt: Beweis folgt durch Theorie der stochastischen Approximation aus dem Beweis für DP-Fall.
Q-Learning Off-Policy-Methode. Dadurch wird das Exploration / Exploitation Problem gelöst. Lernen einer optimalen Policy ¼ * während nach einer anderen Policy ¼ entschieden wird. Die Policy ¼ kann z.b. eine stochastische Policy mit ¼(s,a)>0 für alle s und a sein, damit Q konvergiert.
SARSA SARSA: On-Policy Temporal Difference Methode. Exploration / Exploitation Problem. SARSA vollzieht einen 1-Schritt Temporal- Difference Updateschritt.
N-step Returns Allgemeine Updateregel: Temporal Difference Methoden machen 1-Schritt Updates: Monte-Carlo-Methoden machen dagegen Updates, die auf der gesamten Episode basieren: N-Schritt-Updates:
TD( )
TD( ) Idee: gewichtete Summe aller n-step Returns
TD( ) TD( ) Update: 0 1 interpoliert zwischen 1-step und MC.
Bias-Variance-Tradeoff Weniger Bias Mehr Varianz
Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände