8. Reinforcement Learning

Ähnliche Dokumente
Reinforcement Learning

3. Das Reinforcement Lernproblem

Temporal Difference Learning

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

12. Vorlesung. 19. Dezember 2006 Guido Schäfer

Reinforcement Learning

Kombinatorische Spiele mit Zufallselementen

Wiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität.

Automaten und Formale Sprachen ε-automaten und Minimierung

Künstliche Intelligenz

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Klausur zur Wahrscheinlichkeitstheorie für Lehramtsstudierende

13. Handeln unter Unsicherheit

13. Handeln unter Unsicherheit

Clusteranalyse: Gauß sche Mischmodelle

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einwegfunktionen. Problemseminar. Komplexitätstheorie und Kryptographie. Martin Huschenbett. 30. Oktober 2008

Vermietendes versus verkaufendes Monopol

4.5 Schranken an die Dichte von Kugelpackungen

7. Die Brownsche Bewegung

Kapitel 4: Gemischte Strategien. Literatur: Tadelis Chapter 6

Dieses Quiz soll Ihnen helfen, Kapitel besser zu verstehen.

Stochastik I. Vorlesungsmitschrift

Statistik für Ingenieure Vorlesung 2

bzw. die Entscheidugen anderer Spieler (teilweise) beobachten Erweitert das Analysespektrum erheblich Beschreibung des Spiels (extensive Form)

Grundlagen der KI. 15. Handeln unter Unsicherheit

Einführung in die (induktive) Statistik

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Kapitel 6 Martingale

Intelligente Agenten

Einführung in die Wahrscheinlichkeitsrechnung

Intelligente Agenten

Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung

7.5 Erwartungswert, Varianz

Vorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele

Die Schreibweise x M bedeutet, dass das Objekt x in der Menge M liegt. Ist dies nicht der Fall, dann schreibt man

Einführung in die Informatik Turing Machines

Formale Methoden 1. Gerhard Jäger 9. Januar Uni Bielefeld, WS 2007/2008 1/23

1 Σ endliches Terminalalphabet, 2 V endliche Menge von Variablen (mit V Σ = ), 3 P (V (Σ ΣV )) {(S, ε)} endliche Menge von Regeln,

5. Lokale Suchverfahren. Beispiel TSP: k-change Nachbarschaft. Nachbarschaft. k-opt Algorithmus

4. Kreis- und Wegeprobleme Abstände in Graphen

Vorlesung 1: Einleitung

Formale Systeme. Endliche Automaten. Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

eine Folge in R, für die man auch hätte schreiben können, wenn wir alle richtig raten, was auf dem Pünktchen stehen sollte.

35 Stetige lineare Abbildungen

Verfeinerungen des Bayesianischen Nash Gleichgewichts

Formale Systeme. Büchi-Automaten. Prof. Dr. Bernhard Beckert WS 2009/2010 KIT INSTITUT FÜR THEORETISCHE INFORMATIK

1. Lernen von Konzepten

Formale Systeme Prof. Dr. Bernhard Beckert, WS 2016/2017

Warum konvergieren Genetische Algorithmen gegen ein Optimum?

ANALYSIS I FÜR TPH WS 2016/17 3. Übung Übersicht

Übersicht. 20. Verstärkungslernen

Brownsche Bewegung. Satz von Donsker. Bernd Barth Universität Ulm

4.4.1 Statisches perfektes Hashing. des Bildbereichs {0, 1,..., n 1} der Hashfunktionen und S U, S = m n, eine Menge von Schlüsseln.

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Grundbegriffe der Wahrscheinlichkeitstheorie. Karin Haenelt

Lineare Differenzengleichungen

Übung zur Vorlesung Multiagentensysteme

10. Vorlesung. 12. Dezember 2006 Guido Schäfer

Bayes sches Lernen: Übersicht

Operationen auf endlichen Automaten und Transduktoren

Thomas Behr. 17. November 2011

c) {abcde, abcfg, bcade, bcafg} d) {ade, afg, bcde, bcfg} c) {abcabc} d) {abcbc, abc, a} c) {aa, ab, ba, bb} d) {{aa}, {ab}, {ba}, {bb}}

Die alternierende harmonische Reihe.

1 Einführung. 2 Typ-0- und Typ-1-Sprachen. 3 Berechnungsmodelle. 4 Unentscheidbarkeit. 5 Unentscheidbare Probleme. 6 Komplexitätstheorie

Uneigentliche Riemann-Integrale

2 Folgen und Reihen. 2.1 Folgen in C Konvergenz von Folgen. := f(n)

Automaten und Formale Sprachen

Automaten und Coinduktion

Kapitel 2: Formale Sprachen Gliederung

Es werden 120 Schüler befragt, ob sie ein Handy besitzen. Das Ergebnis der Umfrage lautet: Von 120 Schülern besitzen 99 ein Handy.

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen

Kapitel III. Stetige Funktionen. 14 Stetigkeit und Rechenregeln für stetige Funktionen. 15 Hauptsätze über stetige Funktionen

Formale Sprachen und endliche Automaten

Textmining Clustering von Dokumenten

Hidden Markov Models

KONGRUENZEN VON VISIBLY PUSHDOWN SPRACHEN REZART QELIBARI PROSEMINAR WS14/15

7. Sortieren Lernziele. 7. Sortieren

2.4 Kontextsensitive und Typ 0-Sprachen

Spieltheorie Gemischte Strategien

27 Taylor-Formel und Taylor-Entwicklungen

Vertiefung NWI: 13. Vorlesung zur Wahrscheinlichkeitstheorie

Aufgabeneinheit 2: Termen auf der Spur

Theoretische Informatik Mitschrift

Reranking. Parse Reranking. Helmut Schmid. Institut für maschinelle Sprachverarbeitung Universität Stuttgart

Seminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen

Eulerweg, Eulerkreis. Das Königsberger Brückenproblem. Definition 3.1. Ein Weg, der jede Kante von G genau einmal

Formale Sprachen. Spezialgebiet für Komplexe Systeme. Yimin Ge. 5ahdvn. 1 Grundlagen 1. 2 Formale Grammatiken 4. 3 Endliche Automaten 5.

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

DKA und dkfs (mit Übungen)

3. Prozesse mit kontinuierlicher Zeit

4. Wiederholte Spiele

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

4. Dynamische Optimierung

15.5 Stetige Zufallsvariablen

Mathematische Erfrischungen III - Vektoren und Matrizen

Transkript:

8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält der Agent eine mehr oder weniger große Belohnung für seine Handlungen. Die Aufgabe des Agenten besteht dann darin, Handlungsfolgen zu lernen, die eine hohe Belohnung in Aussicht stellen. Verwandtschaft mit dynamischer Optimierung Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 330

8. Reinforcement Learning Einführung Agent und Politik Wir wollen einen lernenden Roboter bzw. Agenten bauen: Sensoren um den aktuellen Zustand zu ermitteln Mit Aktoren (bzw. einer Aktion) kann der Zustand verändert werden: Transition Gegeben ist ein Ziel, für das Erreichen des Ziels gibt es eine Belohnung Lernaufgabe: Ermittlung einer guten Aktionsfolge, eine sogenannte Politik Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 331

8. Reinforcement Learning Einführung Beispiel Mobiler Roboter Sensoren: Kamera, Radar, etc. Aktoren/Aktionen: Bewegungen: vor, drehen, etc. Ziel: Andocken an Ladegerät bei geringer Batterielaufzeit Belohnung: Nur für eine Aktion, durch die das Aufladen in Gang gesetzt wird. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 332

8. Reinforcement Learning Einführung Agent und Umwelt Agent Zustand Belohnung Aktion Umgebung s0 a0 r0 s1 a1 r1 s2 a2 r2... Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 333

8. Reinforcement Learning Einführung Verzögerte Belohnung und Diskontierung Formales Ziel: Maximiere die Summe der erhaltenen Belohnungen: mit 0 γ < 1. nicht endlicher Horizont max : r 0 + γr 1 + γ 2 r 2 + r i ist die Belohnung für die Aktion a i im Zustand s i. Verzögerte Belohnung: Es kann günstig sein, eine Aktion zu wählen, die aktuell keine Belohnung liefert, dafür eine hohe Belohnung zu einem späteren Zeitpunkt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 334

8. Reinforcement Learning Einführung γ ist ein Diskontierungsfaktor, d.h. eine direkte Belohnung ist günstiger als eine spätere Belohnung in gleicher Höhe. Vgl. Barwert in den Wirtschaftswissenschaften um Zahlungströme zu bewerten. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 335

8. Reinforcement Learning Einführung Mögliche unterschiedliche Szenarien Zustandsübergänge sind deterministisch oder stochastisch Belohnungen können deterministisch oder stochastisch sein Zustandsübergänge sind vorher bekannt oder müssen gelernt werden Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 336

8. Reinforcement Learning Einführung Unterschiede zu anderen Lernproblemen Verzögerte Belohnung: Funktionslernen aus Beispielen und Greedy- Entscheidung ist nicht unbedingt optimal. Oder alle Entscheidungen liefern für den aktuellen Zustand keine Belohnung: Was soll man tun? Neue unbekannte Aktionen ausprobieren oder bekannte Aktionen mit sicheren hohen Belohnungen wählen? In vielen praktischen Situationen liefern die Sensoren keine vollständige Information. Lebenslanges Lernen und der Agent muss u.u. mehrere Dinge gleichzeitig lernen. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 337

8. Reinforcement Learning Die Lernaufgabe Die Lernaufgabe (endliche) Zustandsmenge S (endliche) Aktionenmenge A Diskrete Zeit: zum Zeitpunkt t ist der Agent im Zustand s t und wählt die Aktion a t aus Belohnungsfunktion r: r : S A IR mit r t := r(s t, a t ) ist die Belohnung für die Aktion a t im Zustand s t zur Zeit t. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 338

8. Reinforcement Learning Die Lernaufgabe Transitionsfunktion δ: δ : S A S mit s t+1 := δ(s t, a t ) als Nachfolgezustand. Zunächst seien r und δ deterministisch. Eine Politik π ist eine Abbildung π : S A gibt also an, was in welcher Situation getan werden soll. Markow-Entscheidungsproblem Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 339

8. Reinforcement Learning Die Lernaufgabe Die kumulierte diskontierte Belohnung V π für eine Politik π ausgehend von einem Zustand s t zum Zeitpunkt t ist: V π (s t ) = γ i r t+i i=0 Der Agent soll eine Politik π lernen, die V π (s) maximiert für alle Zustände s S. Solch eine Politik heißt optimale Politik: π := argmax π V π (s) für alle s S Zur Vereinfachung der Notation schreibt man V (s) statt V π (s). Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 340

8. Reinforcement Learning Die Lernaufgabe Beispiel Roboter muss Raum mit Ladestation finden Belohnung wenn der Raum mit Ladestation betreten wird. Anschließend kann der Raum mit der Ladestation nicht mehr verlassen werden. Absorbierender Zustand Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 341

8. Reinforcement Learning Die Lernaufgabe Beispiel: Belohnungen 0 100 0 0 0 0 Goal 0 0 0 0 100 0 0 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 342

8. Reinforcement Learning Die Lernaufgabe Beispiel: Optimale Politik Goal Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 343

8. Reinforcement Learning Die Lernaufgabe Beispiel: Diskontierte kumulierte Belohnung für optimale Politik 90 100 0 Goal 81 90 100 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 344

Welche Bewertungsfunktion soll der Agent lernen? Die Trainingsdaten stellen keine Beispiele der Form (s, a) zur Verfügung, deshalb ist es nicht möglich, π direkt zu lernen. Konsequenz: Lerne eine Bewertungsfunktion, mit deren Hilfe π bestimmt werden kann. Der Agent könnte versuchen V als Bewertungsfunktion zu lernen. Bevorzuge s 1 gegenüber s 2 genau dann, wenn V (s 1 ) > V (s 2 ). Aber wir müssen nicht zwischen Zuständen sondern zwischen Aktionen wählen. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 345

Hier könnten wir das Bellmansche Optimalitätsprinzip verwenden: V (s) = max a A r(s, a) + γ V (δ(s, a)) Damit ergibt sich π durch: π (s) = argmax a A r(s, a) + γ V (δ(s, a)) Beispiel: Tafel Problem: Dazu müssen wir r und δ kennen, d.h. vollständiges Wissen über die Umwelt haben. Dieses liegt in der Regel nicht vor. V zu lernen, wäre nur dann sinnvoll, wenn die Transitionsfunktion δ und die Belohnungsfunktion r vollständig bekannt wären. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 346

Dies kann für viele praktische Lernszenarien nicht vorausgesetzt werden. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 347

Die Q-Funktion Wir definieren die Funktion Q(s, a) durch: Q(s, a) := r(s, a) + γ V (δ(s, a)) Q(s, a) gibt damit die maximale diskontierte kumulierte Belohnung an, die vom Zustand s mit Aktion a erzielt werden kann. Es gilt: π (s) = argmax a A Q(s, a) Wenn der Agent die Funktion Q lernt, kann er ohne Wissen von r und δ die optimale Aktion wählen! Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 348

Beispiel: Die Funktion Q(s, a) 90 100 0 72 81 81 Goal 81 90 81 90 100 72 81 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 349

Die Funktion Q lernen Wenn wir Q lernen, lernen wir implizit π. Kernproblem: Wie können wir Trainingsbeispiele für Q zuverlässig schätzen? Ansatz: iterative Approximation Es gilt: V (s) = max Q(s, a ) a A Damit erhalten wir eine Rekursionsgleichung für Q(s, a): Q(s, a) = r(s, a) + γ max Q(s, a ) a A Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 350

Diese Rekursionsgleichung stellt den Kern für den Lernalgorithmus dar. Es sei ^Q(s, a) die aktuelle Hypothese für Q. Wir repräsentieren ^Q durch eine große Tabelle bzw. S A -Matrix. Die Matrix wird zu Beginn mit zufälligen Werten gefüllt oder mit 0. Der Agent beobachtet nun in jeder Iteration seinen Zustand s, wählt eine Aktion a, beobachtet die Belohnung r und den neuen Zustand s = δ(s, a). Anschließend wird ^Q gemäß der folgenden Trainingsregel angepasst: ^Q(s, a) = r + γ max ^Q(s, a ) a A Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 351

Der Q-Lernalgorithmus Für alle s S,a A : ^Q(s, a) 0 s aktueller Zustand do forever Man wähle eine Aktion a und führe sie aus r aktuelle Belohnung s neuer Zustand ^Q(s, a) = r + γ max a A ^Q(s,a ) s s Beispiel: Tafel Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 352

Konvergenz Unter den folgenden Voraussetzungen konvergiert ^Q gegen Q: Es liegt ein deterministisches Markow-Entscheidungsproblem vor, d.h. r und δ sind deterministisch. Die Belohnungen sind nach oben beschränkt, d.h. r(s, a) c <. Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 353

Experimentieren Der Q-Lernalgorithmus gibt nicht an, wie Aktionen ausgwählt werden. Möglichkeit: Maximierung von ^Q(s, a), führt aber zu einer eingeschränkten Auswahl Man beachte die Voraussetzungen für die Konvergenz: Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Konsequenz: In jedem Zustand sollte jede Aktion prinzipiell ausgewählt werden können. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 354

Beispiel: Zufallsbasierte Auswahl mit folgenden Wahrscheinlichkeiten P(a i s) = k ^Q(s,a i ) j k ^Q(s,a j ) mit k > 0 Große Werte von k begünstigen Aktionen deren Q-Werte über dem Durschnitt liegen, kleine Q-Werte dagegen die anderen Aktionen. k kann auch im Verlauf des Lernen geändert werden, zunächst klein zum Experimentieren, später groß um stabile Werte zu erhalten. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 355

Nichtdeterminismus nichtdeterministische Belohnungen r(s, a) nichtdeterministische Aktionen δ(s, a) Die zugehörigen Wahrscheinlichkeitsverteilungen sind nicht bekannt. nichtdeterministisches Markow-Entscheidungsproblem Die kumulierte diskontierte Belohnung stellt nun einen Erwartungswert dar: ( ) V π (s t ) = E γ i r t+i i=0 Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 356

Analog passen wir die Definition der Q-Funktion an: Q(s, a) = E (r(s, a) + γv (δ(s, a))) = E (r(s, a)) + γe (V (δ(s, a))) = E (r(s, a)) + γ s P(s s, a)v (s ) Hierbei bezeichnet P(s s,a) die Wahrscheinlichkeit, dass Zustand s eintritt, wenn in der Vorperiode Zustand s vorlag und Aktion a gewählt wurde. V (s ) können wir wieder durch die Maximierung der Q-Funktion ausdrücken (vgl. Folie 350): Q(s,a) = E (r(s, a)) + γ s P(s s, a) max a Q(s, a ) Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 357

Damit haben wir wieder eine Rekursionsgleichung (vgl. Folie 350), die nun aber auf einem Erwartungswert basiert. Leider funktioniert für den nichtdeterministischen Fall unsere Trainingsregel für ^Q(s, a) nicht (siehe Folie 351)! Keine Konvergenz! Stattdessen gleitende Mittelwertbildung: ) ^Q n (s, a) = (1 α n )^Q n 1 (s, a) + α n (r + max ^Q n 1 (s,a ) a mit 1 α n = 1 + visits n (s, a) Der Term visits n (s, a) gibt dabei an, wie häufig das Zustands- Aktionen-Paar (s, a) bisher angewendet wurde. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 358

Konvergenz Nicht-deterministisches Markow-Entscheidungsproblem Die Belohnungen sind nach oben beschränkt. Trainingsregel für ^Q n (s, a) wie angegeben. 0 γ < 1 Jedes Zustands-Aktionenpaar (s, a) wird unendlich oft ausgewählt. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 359

0 α n < 1 mit α n(i,s,a) =, i=1 α 2 n(i,s,a) < i=1 dann ^Q n (s, a) Q(s, a) für n mit Wahrscheinlichkeit 1. Wissensarchitekturen HS Bonn-Rhein-Sieg, WS 09/10 360