Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Transkript

1 Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten in einer in diskrete Zeitabschnitte eingeteilten Umgebung. Das Lernen soll automatisiert und ohne Kenntnis des optimalen Verhaltens nur durch Belohnung beziehungsweise Bestrafung des Agenten erfolgen. 1.1 Reinforcement Learning Modell Im einfachen Modell sind ein Agent und seine Umwelt gegeben. Die Umwelt besteht aus einer Menge von Zustandsabbildungen S. Dem Agent steht eine diskrete Menge A von Aktionen zur Verfügung. Ein typischer Ablauf im RL-Modell: Der Agent erhält den aktuellen Zustand der Umwelt s. Daraufhin wählt der Agent eine möglichen Aktion a aus der Menge A. Der Agent bekommt nach der Aktion den neuen Zustand der Umgebung, sowie einen Reward r (Belohnung/Bestrafung) für die letzte Aktion. Der Agent versucht nun seinen Nutzen (Belohnung) durch sein Verhalten auf Dauer zu erhöhen. 1.2 Verhaltensmodelle Um die Optimalität des Verhaltens zu Messen, gibt es verschiedene Modelle, die eine 1 / 7

2 möglichst hohen Erwartungswert an Belohnungen erreichen wollen. Beim finite-horizon Modell betrachtet man das Problem wortwörtlich mit einem Begrenzten Horizont. Man versucht die zu erwartende Belohnung für die nächsten h Schritte zu optimieren. Was danach passiert, spielt keine Rolle. Dies lässt als Summe der Rewards der nächsten h Schritte schreiben: h E r t t=0 Ein Modifikation dieses Modells beschreibt das infinite-horizon Modell, bei welchem der Horizont unbeschränkt ist. Zusätzlich wird der Reward noch mit einem Faktor y multipliziert, der mit t potenziert wird. t gibt den zukünftigen Schritt an. Da 0 y1 ist, kann man y als Interessensrate ansehen, wie schwer weit in der Zukunft liegende Schritte ins Gewicht fallen sollen: E t=0 y t r t Ein anderes Modell stellt das average-reward Modell dar. Hierbei versucht man auf lange Sicht die durchschnittliche Belohnung zu maximieren: lim E 1 h r h h t t =0 1.3 Messen der Lernleistung Nachdem wir nun verschiedene Verhaltensmodelle kennen gelernt haben, möchten wir nun die Effektivität der später vorgestellten Lernalgorithmen messen. Hier gibt es folgende Möglichkeiten: Konvergenz zum Optimum. Viele Algorithmen garantieren eine Konvergenz zum optimalen Verhalten. Für den praktischen Gebrauch ist das aber nicht immer von Bedeutung. Ein Agent, der schnell lernt sich in 99 % alle Fälle optimal zu verhalten, ist evtl. einem Agenten vorzuziehen, der irgendwann mal sein Optimum findet. Konvergenzgeschwindigkeit zum Optimum. Wegen der asymptotischen Konvergenz zum Optimum ein schlechtes Maß, da sich ein Agent schnell zum 99% Optimum bewegen kann, aber oft unverhältnismäßig lange bis zum Optimum braucht. Deshalb macht es mehr Sinn, die Leistung nach einem bestimmten Zeitpunkt zu messen, und zu vergleichen. Reue. Ein besseres Maß ist es, die Abnahme der erwarteten Belohnung währen des Lernens zu messen (Differenz zwischen dem erwarteten und dem erhaltenen Reward). Dieses Maß wir Reue genannt 2. Wissensnutzung gegen Erforschung Einer der großen Unterschiede zwischen gesteuertem Lernen und Lernen mittels reinforcement learning ist, das der Agent zunächst die Umgebung erst erforschen muss. Dabei tritt ein Konflikt auf, wie weit man nun die Umgebung erforschen soll, und in wie weit man sich nur auf bereits vorhandenes Wissen über die Umwelt stützen soll, um darauf den das optimale Verhalten aufzubauen. Das nutzen des vorhandenen Wissens mag die 2 / 7

3 Erwartungsfunktion maximieren, ein aber noch nicht erforschter Weg, oder evtl. bislang als schlecht klassifizierte Aktion könnte aber die Erwartungsfunktion auf ein neues Optimum bringen. Um dieses Konflikt zu lösen, gibt es verschiedene Lösungsansätze, die im Folgenden besprochen werden. 2.1 Formale Techniken Für einfache Probleme gibt es sehr gut erforschte Erforschungstheorien, die aber nicht gut bei komplexen Problemen funktionieren Gittins Allocation Indices Hierbei wird eine Liste angelegt, bei der jede mögliche Aktion und dessen Verhältnis von der Anzahl, wie oft diese Aktion gewählt wurde, und dem erhaltenen Reward aufgelistet. Die Aktion mit dem höchsten Index wird dann ausgewählt Learning Automata Hierbei werden zunächst alle Möglichkeiten gleich wahrscheinlich gewählt. Wenn p i die Wahrscheinlichkeit für die Wahl der Aktion i, so werden im falle eines positiven Rewards die Wahrscheinlichkeiten wie folgt verändert: p i := p i 1 p i p j := p j p j für j i Liefert die Aktion i einen negativen Reward, so bleibt alles unverändert. α gibt quasi eine Lernrate an. 2.2 Ad-Hoc Techniken In der Praxis haben sich ein paar einfache Ad-Hoc Strategien verbreitet, die hier vorgestellt werden sollen Greedy Strategies Der Agent verhält sich gierig und wählt immer die Aktion mit dem höchsten Reward im nächsten Zug Randomized Strategies Bei der Zufallsstrategie wird generell die im Aktion mit der höchsten zu erwartenden Belohnung gewählt. Nur in p-prozent aller fälle wird die Aktion zufällig gewählt, damit man evtl. unerforschte Möglichkeiten findet Intervall-Based Techniken Die Aktion wird aus den besten p-prozent, gemessen am zu erwarteten Reward, zufällig gewählt. Eine größeres p liefert eine höhere Forschungsrate. 3. Verzögerte Belohnung Im folgende Abschnitt soll die Situation behandelt werden, in der der Agent seine Bestrafung/Belohnung nicht nach jeder Aktion erhält (zumindest keine signifikante), 3 / 7

4 sondern erst nach einer Reihe von Aktionen, die Epoche genannt wird. So kann der Agent auch nicht genau entscheiden für welche Aktion er den Reward erhalten hat. 3.1 Markov Entscheidungsprozess Verzögerte Belohnungen werden oft als Markov Entscheidungsprozess (MDP) angesehen. Ein MDP hat die Eigenschaft, das die Belohnung für den Übergang von Zustand (s) in (s+1) unter der Aktion a nur von s und a abhängt, aber von der Tatsache wie man zum Zustand s gekommen ist, unabhängig ist. 3.2 Modellbasierte Lernmethoden Eine Entscheidungsregel heißt optimale, falls Sie für jeden Zustand den bestmöglichen Reward erzielt. Der Wert eines Zustandes wird durch den erhaltenen Reward zusammen mit der Summe der Rewards der Folgezustände bestimmt Iteration der Werte für eine optimale Entscheidungsregel Für alle Zustände und für alle mögliche Aktionen wird der maximale Wert gewählt Iteration der Entscheidungsregeln Im Gegensatz zum vorherigen werden hier nicht die Werte verändert, sondern alle Regeln solang durchprobiert, bis eine optimale Regeln gefunden wurde. 4. Modell freie Lernmethoden Im letzten Kapitel wurden Lernmethoden besprochen, bei denen das Modell bereits bekannt war. Der Vorteil von Reinforcement Learning liegt darin, das es auch gut funktioniert, wenn kein Modell bekannt ist, was im folgenden gezeigt werden soll. 4.1 Adaptive Heuristic Critic und TD(λ) Dieser Algorithmus ist eine adaptive Variante der Iteration der Entscheidungsregeln. Das folgende Blockdiagramm soll die Funktionsweise verdeutlichen: Der Kritiker (AHC) agiert wie bei der Vorherigen Iteration, und versucht die Werte zu der gegebenen Entscheidungsregel zu maximieren. Die RL-Komponente agiert dahingehend, das sie die Wertfunktion V maximieren will. Dadurch entsteht eine neue Entscheidungsregel, welche wiederum vom Kritiker maximiert wird. 4.2 Q-Learning Q*(s, a) entspricht dem erwarteten Reward von Aktion a im Zustand s zusammen mit der Summe der Rewards der Folgezustände. Die Lernregel ergibt sich aus: Qs,a:=Qs,ar y max Qs '.a ' Qs, a 4 / 7 a '

5 Wenn der Agent wissend genug ist, agiert er gierig, und wählt die Aktion mit dem höchsten Q-Wert. Davor muss der Alte Konflikt von Wissensnutzung und Erforschung, meistens mit den bereits genannten Ad-Hoc-Methoden, gelöst werden. 5. Modellbasierte Berechnung des optimalen Verhaltens Das vorherige Kapitel zeigte, wie man eine optimale Entscheidungsregel erlernen kann, ohne die Zustandsübergänge unter Aktion A von s nach s' und dessen Reward zu kennen. In diesem Kapitel wollen wir aber Entscheidungsregeln erlernen, zu denen wir bereits ein passendes Modell haben. 5.1 Dyna Hier werden die Erfahrungswerte genutzt, um ein Modell zu erstellen. Die Aktualisierung des Modells passiert wie folgt: Qs, a:= R s,a y s ' T s, a,s 'max Q s',a' a' Des weiteren werden noch zufällig k weitere Zustand-Aktions-Paare ausgewählt, und mit der gleichen Regel aktualisiert. 5.2 Queue-Dyna Arbeitet genau wie Dyna, jedoch werden die k weiteren Zustandsaktualisierungen nicht zufällig gewählt, sondern nach Prioritäten. Die Priorität der Zustände berechnet sich wie folgt: Der eben geänderte Zustand erhält die Priorität 0. Alle Vorgänger dieses Zustandes mit dem Betrag der Differenz der Wertänderung des eben geänderten Zustands modifiziert. Danach werden die k Zustände mit der höchsten Priorität aktualisiert. 6. Verallgemeinerung Alle bisher genannten Methoden sind davon ausgegangen, das es möglich ist, die Zustande zu speichern. Dies geht aber nur bei einfachen, kleinen Zustandswelten. Deswegen muss man die Techniken verallgemeinern, um Sie auch in großen oder kontinuierlichen Zustandsräumen anwenden zu können. 6.1 Verallgemeinerung der Eingabe Betrachtet man den Agenten als ein zustandslose Black-Box, so liefert der Input die Zustandsbeschreibung. Die Ausgabe liefert dann eine Aktionswahl oder einen anderen Wert, aus dem die gewählte Aktion erschlossen werden kann. Es wird versucht, die Wertfunktion zu approximieren, und darüber die Entscheidungen zu treffen Sofortige Belohnung Wenn die Aktion des Agenten keine Zustandsänderungen beeinflusst, so beschränkt sich das Problem auf die Maximierung der direkten Belohnung über eine Funktion des aktuellen Zustand des Agenten Verspätete Belohnungen Eine andere Möglichkeit, um den großen Zustandsraum abzubilden, ist die Approximation 5 / 7

6 einer Funktion, um die Wertfunktion von der Zustandsbeschreibung zu einem Wert abzubilden. 6.2 Verallgemeinerung der Aktion Wenn Aktionen kombinatorisch beschrieben sind, ist es wichtig, die Aktionen zu verallgemeinern, um eine große Anzahl von möglichen Aktionen darzustellen. Hierbei bietet sich ein, den Wert einer Aktion über eine Funktion zu approximieren. Eine Möglichkeit ist dabei, für jede Aktion ein separates Neuronales Netz zu verwenden, oder für jede eindeutige Aktion ein eigenen Ausgangssignal. Wenn jedoch die Aktionsmenge nicht diskret sondern kontinuierlich ist, ist dies so nicht möglich. Hier kann man jedoch ein Netz mir Aktion und dem Zustand als Input, und dem Q-Wert als Output benutzen. Die optimale Aktion kann man dann über das Gradienten-Abstiegsverfahren finden. 6.3 Hierarschische Methoden Eine weitere Möglichkeit, mit großen Zustandsräumen umzugehen, ist es, die Zustandsräume als hierarchische Lernprobleme anzusehen. Hierarchische Lernmethoden sind häufig wie in der folgenden Grafik strukturiert: Es gibt verschiedene Verhaltensmuster (b1,...) die die Umwelt in einfache Aktionen abbilden, und ein Verhaltensfunktion, die eine der Aktionen auswählt Feudal Q-Learning Dies stellt die einfachste solche Struktur dar. Sie besteht aus einem Master und einem Slave. Der Master lernt, die Zustände auf einfache Befehle abzubilden. Der Slave lernt, diese Befehle auf externe Aktion abzubilden, indem der Master ihn dafür Belohnt, Aktionen gewählt zu haben, die dem Befehl entsprechen. Der Master wählt seine Befehlsabbildung dann aufgrund des externen Rewards. 7. Zusammenfassung Es gibt eine Vielzahl von Reinforcement Learning Techniken die effektiv auf kleinen Problemen sind. Nur sehr wenige operieren auch gut auf großen Problemen. Dies liegt 6 / 7

7 daran, das es schwierig ist, einen willkürliches Problem mit allgemeinen Ansätzen zu lösen. Es gibt hierbei verschiedene Lernmöglichkeiten: Formen: Zunächst wird der Agent mit leichten Problemen trainiert, die später immer Komplizierter werden. Sofortiger Reward: Durch direkte Belohnungen, anstatt erst bei Lösung des Problems, kann die Lerngeschwindigkeit signifikant erhöhen. Nachahmung: Ein Agent kann durch das Zuschauen bei einem anderen Agenten, oder bei einem Menschen, lernen. Problemaufspaltung: Umfassende Probleme können in kleine Teilprobleme aufgespalten, und erlernt werden. Reflexe: Dem Agenten können von Grund auf einige Verhaltensmuster mitgegeben werden, um schneller ein optimales Verhalten zu erreichen. Durch eine solche Vorgangs weise ist es sicherlich auch möglich viele komplexe Probleme zu lösen. 7 / 7