Reinforcement Learning

Größe: px

Ab Seite anzeigen:

Download "Reinforcement Learning"

Fanny Falk
vor 6 Jahren
Abrufe

1 Reinforcement Learning Valentin Hermann 25. Juli 2014

2 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? Das Modell Exploration und Exploitation Das Bewerten Bewertungsfunktion V Bewertungsfunktion Q Beispiele Backgammon Analyse- und Spielprogramme Geländeroboter

3 1 Einführung Wie lernen Tiere? Wie lernen wir? Mit diesen Fragen setzten sich Ende des 19. und in der ersten Hälfte des 20. Jahrhunderts viele Biologen und Psychologen auseinander und bildeten hiermit den Grundstein für das Reinforcement Learning, denn Anfang der 80er-Jahre wurde deren Bild des Lernens Vorlage für ein Jahrzehnt an Arbeit von Ingenieuren und Programmierer. Das Ergebnis ist das Reinforcement Learning. Also wie lernen wir nun? Wir betrachten dazu das Beispiel unserer ersten Gehversuche: Ein Baby lernt das Gehen durch den Versuch. Es nimmt die Umgebung war und entscheidet sich für die nächste Aktion: Schritt nach vorn oder Oberkörper nach vorne,... Es wird häufig fallen, bevor ihm der erste erfolgreiche Gehversuch gelingt. Während der vielen Fehlversuche geschieht aber entscheidendes: Das Kind merkt sich die Aktionen, die es zu bestimmten Zuständen (im Gleichgewicht, nach vorne fallend,...) gewählt hat und bewertet diese bezüglich des Ziels Gehen. Diese Erfahrung bringt das Kind seinen Ziel immer näher. Was ist Reinforcement Learning? Reinforcement Learning ist die Lernmethode des Kindes, das das Gehen lernt, auf Maschinen angewandt. Auf deutsch übersetzt bedeutet es Bestärktes Lernen und basiert hauptsächlich auf die Kommunikation zwischen lernenden Agent und der Umgebung. Das Konzept versucht sein (Lern-)Ziel zu erreichen, indem es den Zustand der Umgebung nach einer gewählten Aktion, in Hinblick auf das Ziel, belohnt und durch die gesammelten Erfahrungen die zukünftigen Aktionen so wählt, dass die Belohnung zu maximiert wird. 2 Wie funktioniert Reinforcement Learning? 2.1 Das Modell Abbildung 1: Modell Der lernende Agent befindet sich in der Umgebung, die sich im Zustand s t (ɛ S) befindet. Der Agent wählt eine Aktion a t (ɛa(s t )). Die Umgebung reagiert und ändert seinen Zustand zu s t+1, gleichzeitig wird dieser bewertet in Hinsicht auf die Ziele des Agents und eine Belohnung r t+1 ausgegeben. 3

4 2.2 Exploration und Exploitation Abbildung 2: Policy Der oberste Punkt sei unsere Ausgangslage, von der aus wir 4 mögliche Aktionen (Linien) wählen können. Die Aktion, von der man die höchste Belohnung erwartet (Aus vorrausgegangen Erfahrungen oder auch durch einen Zufallswert zu Beginn), ist mit einem blauen Punkt am Ende der Linie gekenntzeichnet. Wie wir bereits wissen, ist es zielführend die Belohnung zu maximieren. Daher ist es offensichtlich sinnvoll die Aktion mit der höchsten zu erwarteten Belohnungen zu wählen. Diese Aktionauswahlmethode nennt sich Exploitation.(Grafik, oben) Jedoch ist nicht immer die Aktion mit der höchsten Bewertung auch die Aktion, die die höchste Belohnung erhalten wird. Dies kann verschiedene Gründe haben: Das Offensichtliche ist natürlich, dass bei Programmstart die zugeteilten Zufallswerte nicht den Tatsachen entsprechen. Zudem ist es auch möglich, dass die Umgebung sich so ändert, dass sie auf Aktionen anders wie zuvor reagiert, sodass andere Aktionen schneller zum Ziel führen und daher höhere Belohnungen erhalten. Daher muss eine neue Aktionauswahlmethode eingeführt werden. (Grafik, unten) Dazu wählt man zunächst eine Aktion aus, die nicht die höchste Bewertung hat. (Roter Punkt in Grafik) von dort aus wählt man dann wieder die Aktion mit der höchsten zu erwarteten Belohnung. Ausgehend von der hier erhaltenden Belohnung wird die rückliegende Aktion neu bewertet. In aller Regel wird nicht nur die erste rückliegende Aktion sondern alle rückliegenden Aktionen bewertet und in aller Regel auch erst dann wenn das Ziel bereits erreicht ist. An der Methoden an sich ändert das nichts. Außerdem ist es wichtig immer eine richtige Mischung aus beiden Methoden zu finden, sodass die erhaltenen Belohnungen hoch sind, aber die Anpassungsfähigkeit nicht zu sehr darunter leidet. 2.3 Das Bewerten Die Policy π speichert zu allen Zuständen und dazuhörigen möglichen Aktionen einen Wert ab, der angibt welche Aktion zielführend ist und welche weniger. Doch woher kommt 4

5 dieser Wert? Wir wissen, dass dieser Wert mit der Belohnung aus der Vergangenheit zusammenhängt. Hier sollen nun 2 Klassen von Bewertungsfunktionen erklärt werden und jenen Zusammenhang nahegelegt werden. Bewertungsfunktion V Diese Bewertungsfunktion bewertet eine Aktion ausgehend vom erwarteten Zustand (st+1 ) nach der Aktion und der damit verbundenen Belohnung. Offensichtlich ist hierzu ein genaues Modell der Umgebung erforderlich Bewertungsfunktion Q Diese Bewertungsfunktion bewertet die Aktionen direkt, das heißt sie speichert die Erfahrung die sie mit der Aktion a zum Zustand st gemacht hat. Das sieht in Formeln so aus: Q(s, a) Q(s, a) + λ(r + γmax(q(s0, a0 ) Q(s, a))) (1) Hierbei ist r die Belohnung des Zustands s, λ die Lernrate, die zwischen 1 und 0 liegen muss, wobei 1 bedeutet, dass das Gelernte gänzlich übernommen wird und 0, dass das Gelernte gar nicht gemerkt wird. γ steht für die Weitsichtigkeit. Ist γ 1 werden alle folgenden Aktionen mit in die Bewertung genommen, ist γ kleiner 1 so werden nur endlich viele Aktionen berücksichtigt und fallen in der Bewertung umso weniger ins Gewicht je weiter sie vom Zeitpunkt t weg liegen. Die Bewertung erfolgt immer rückwirkend (von st zu st 1 zu st 2...) und zumeist erst wenn das Ziel erreicht wurde oder nicht mehr zu erreichen ist. Alle Bewertungsfunktionen, beziehungsweise alle Programme erfordern viele Daten/Versuche um effektiv zu werden. 3 Beispiele 3.1 Backgammon Analyse- und Spielprogramme Abbildung 3: Backgammon Backgammon ist ein kompliziertes Würfelspiel, das sehr von Taktik geprägt wird. Mit Hilfe von Reinforcement Learning wurde ein Programm entwickelt, mit welchem komplizierte Spielsituation analysiert werden können, weil es den menschlichen Fähigkeiten 5

bei weitem übersteigt. Die erforderlichen Daten wurden dadurch erlangt, dass man das Programm mehrere tausend mal gegen sich selber hat spielen lassen. 3.

6 bei weitem übersteigt. Die erforderlichen Daten wurden dadurch erlangt, dass man das Programm mehrere tausend mal gegen sich selber hat spielen lassen. 3.2 Geländeroboter Abbildung 4: Geländeroboter Mit Hilfe von Reinforcement Learning kann man Geländeroboter programmieren, welche selber das Gehen auf schwierigem Gelände lernen und sich Dank ihres anpassungsfähigen Programms auch auf neue Geländetypen einstellen können. Dieses Modell bietet sich auch für Drohnen an, welche immer bestrebt sind, das Gleichgewicht zu halten. 6

Ähnliche Dokumente

8. Reinforcement Learning

8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält