Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone

Ähnliche Dokumente
Reinforcement Learning

3. Das Reinforcement Lernproblem

Reinforcement Learning. Volker Tresp

Reinforcement Learning

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Reinforcement Learning

TD-Gammon. Michael Zilske

Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter

8. Reinforcement Learning

Echtzeitfähige Algorithmen für markerloses Tracking und Umfelderkennung , Dr.-Ing. Steffen Herbort, A.R.T. GmbH

SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Reasoning and decision-making under uncertainty

Planung von Handlungen bei unsicherer Information

Learning To Play Chess Using Temporal Differences

Reinforcement-Learning

Projektbeschreibung Projekt:

Maschinelles Lernen SS 2005

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

auf einer Suche basierender problemlösender Agent (Kapitel 3) logischer Planungsagent (Kapitel 10)

Reinforcement Learning

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Reinforcement learning

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

TUD Computer Poker Challenge

Focusing Search in Multiobjective Evolutionary Optimization through Preference Learning from User Feedback

HMMs und der Viterbi-Algorithmus

Reinforcement Learning

Reinforcement Learning

Modell Komplexität und Generalisierung

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Nutzung maschinellen Lernens zur Extraktion von Paragraphen aus PDF-Dokumenten

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

Rekapitulation, Erweiterung und Systematisierung technischer Fehler biometrischer Systeme (welche Komponenten machen welche Fehler)

Reinforcement Learning

ASIM Fachgruppentreffen STS/GMMS

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Grundlagen der Künstlichen Intelligenz

Hannah Wester Juan Jose Gonzalez

Temporal Difference Learning

Man sieht hier einzelne Fragmente, die man häufig bei der Programmierung mit Schleifen antrifft. Es gibt eine lokale Variable, die vor dem

Künstliche Intelligenz

Bildsegmentierung mit Level Sets

Realtime Analytics im Bereich IoT Masterstudiengang Data Science, TU Chemnitz, Michael Thess

Lernen von optimalen Strategien

Modell zur Einflussanalyse Ein Modell zur Einflussanalyse von Methodenänderungen in Entwicklungsprozessen

Übersicht. Definition Daten Problemklassen Fehlerfunktionen

, Data Mining, 2 VO Sommersemester 2008

Grundseminar SoSe 2017

Dr. Michael Thess. prudsys AG. Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom Juni 2006)

DOKUMENTENKLASSIFIKATION MIT MACHINE LEARNING

Strukturelle SVM zum Graph-labelling

Bachelor-Arbeit Techniken für Virtual Reality Spiele mit Ganzkörperbewegungserfassung

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Naive Bayes für Regressionsprobleme

Abgabe: (vor der Vorlesung) Aufgabe 2.1 (P) O-Notation Beweisen Sie die folgenden Aussagen für positive Funktionen f und g:

Thunderbird-Plugin zur Erkennung anhangverdächtiger s

Pairwise Naive Bayes Classifier

Abschnitt 7: Komplexität von imperativen Programmen

Data Mining auf Datenströmen Andreas M. Weiner

Der Alpha-Beta-Algorithmus

Der diskrete Kalman Filter

Companion Technologie

2. Beispiel: n-armiger Bandit

Grundlagen zu neuronalen Netzen. Kristina Tesch

LDA-based Document Model for Adhoc-Retrieval

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

elaboratum InsureFin Digital Day 2018 Was kann KI für die Finanzdienstleistungs- und Versicherungsbranche leisten?

Real Time Tracking of the Human Body. Hauptseminar Bildverstehen: Videobasierte Erkennung und Analyse menschlicher Aktionen. Thomas Endres SS 2006

Ant Colony Optimization (ACO)

Greedy Algorithms - Gierige Algorithmen

Übungsblatt 6 Lösungen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Machine Learning & Künstliche Intelligenz

Learning to Optimize Mobile Robot Navigation Based on HTN Plans

Dynamic Scripting. Knowledge Engineering und Lernen in Spielen. Thomas Kellner

Symbolisches Lernen in Go

Übung Algorithmen und Datenstrukturen

Gleiche Daten, unterschiedliche Erkenntnisziele?

Monte Carlo Methoden

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Reinforcement Learning mit Wissenstransfer am BRIO Labyrinth Fabian Müller

Backgammon. Tobias Krönke. Technische Universität Darmstadt Fachbereich Informatik Fachgebiet Knowledge Engineering

Graphentheorie. Kürzeste Wege. Kürzeste Wege. Kürzeste Wege. Rainer Schrader. 25. Oktober 2007

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

RL und Funktionsapproximation

Quanteninformation und mögliche Anwendungen in der Kommunikationstechnik

Maschinelles Lernen II

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Bio-Inspired Credit Risk Analysis

Angewandte Mathematik am Rechner 1

2. Algorithmen und Algorithmisierung Algorithmen und Algorithmisierung von Aufgaben

1. Die rekursive Datenstruktur Liste

KI in der Spieleprogrammierung: Reinforcement Learning

1.1 Was ist KI? 1.1 Was ist KI? Grundlagen der Künstlichen Intelligenz. 1.2 Menschlich handeln. 1.3 Menschlich denken. 1.

Algorithmen und Komplexität

Grundlagen der Künstlichen Intelligenz

Emotion Recognition of Call Center Conversations Robert Bosch Engineering and Business Solutions Private Limited

Einführung in die Programmierung

Transkript:

Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone 14.12.2012 Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1

Inhalt Problemstellung MDP TAMER Kombinationsmethoden Experimente Ergebnisse Fazit Quellen 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 2

Problemstellung Lernende Agenten gehen mehr und mehr von der Forschung ins reale Leben über Probleme: 1. Nicht alle Endbenutzer haben Fachkenntnisse 2. Manche Trainingsdaten sind kostspielig, erbringen aber keine gute Leistung 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 3

Nicht alle Endbenutzer haben Fachkenntnisse In realer Welt kann nicht jeder Mensch programmieren Soll dennoch in der Lage sein, einem Agenten ein gewünschtes Verhalten beizubringen 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 4

Kostspielige Trainingsdaten mit geringer Leistung Sie sollen reduziert werden Wenn möglich komplett weglassen 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 5

Wichtige Begriffe Markov Decision Process TAMER 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 6

Wichtige Begriffe Markov Decision Process TAMER 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 7

Markov Decision Prozess MDP Wofür? MDP Funktionsweise MDP Reward Eigenschaften des MDP 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 8

MDP Wofür? Wahrscheinlichkeitsberechnung Schlägt nächsten Zustand vor 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 9

MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s s 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 10

MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar s 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 11

MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar 3. Eine Aktion a wird gewählt s 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 12

MDP Funktionsweise 1. Zu jedem Zeitpunkt befindet sich Prozess in einem Zustand s 2. In Zustand s sind ein oder mehrere Aktionen verfügbar 3. Eine Aktion a wird gewählt 4. Nachfolgende Zeitpunkt bewegt sich Prozess in Zustand s und liefert den dazugehörigen Reward s s s s 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 13

MDP Reward Als Signal genutzt Drückt Belohnung, von Zustand s in Zustand s, zu gelangen aus Fehlerlos Informationsarm z.t. Verzögert 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 14

Eigenschaften des MDP s abhängig von aktuellem Zustand s und Aktion a Unabhängig von davor gewählten Aktionen 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 15

Wichtige Begriffe Markov Decision Process TAMER 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 16

TAMER Was ist TAMER? Wie funktioniert TAMER? Bisherige Ergebnisse von TAMER Schlussfolgerungen 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 17

Was ist TAMER? Teaching Agents Manually via Evaluative Reinforcement Framework Agenten können interaktiv geformt werden 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 18

Wie funktioniert TAMER? Menschlicher Trainer gibt positives oder negatives Feedback Signal An Hand der Signale wird Human Reinforcement Function Ĥ erstellt TAMER wählt Aktion auf Grund von Ĥ 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 19

Bisherige Beobachtungen von TAMER Sample Komplexität wird reduziert Gewährleistung einer guten Policy Laien können Agenten zu gewünschtem Verhalten trainieren Agenten lernen in einem MDP ohne Reward Function 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 20

Überlegungen Human Reinforcement Signal: informationsreich und fehleranfällig MDP Reward: informationsarm und fehlerlos Kombination des Human Reinforcement Signals und des MDP Reward 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 21

Problem bei der Umsetzung Kombination von Reinforcement Algorithmen mit TAMER TAMER ist mit Reward Function nicht kompatibel! 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 22

Kombinationsmethoden Ziel: Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 23

Kombinationsmethoden SARSA(λ) als Reinforcement Learning Algorithmus Q Function wird erstellt Q Function wird aktualisiert Q Function betrachtet zuvorgegangen Wege (Aktionssequenzen) 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 24

Kombinationsmethoden Aktion a Zustand s Ĥ(s,a) R(s,a) Q(s,a) Parameter weight wird dekrementiert constant bleibt konstant 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 25

1 R (s,a) = R(s,a) + (weight * Ĥ(s,a)) Reward Signal wird durch die Summe von sich und einem Anteil der Human Reinforcement Function ersetzt Anteil der Reinforcement Function nimmt ab somit auch ihr Einfluss Vorhersage des Menschen wird mit der Zeit unbedeutender 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 26

2 f = f.append(ĥ(s,a)) Annahme, dass die Q Function über einen Feature Vector erlernt wird Fügt zu sich selbst zusätzlich noch die Information der Human Reinforcement Function hinzu Information kann vom Reinforcement Learning Algorithmus, je nach Bedarf, mehr oder weniger genutzt werden 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 27

3 Q(s,a) (constant * Ĥ(s,a)) Q Function so trainieren, dass sie sich an einen Anteil von Ĥ(s,a) annähert Q wird mit 0 initialisiert Ĥ wird als Q Function behandelt 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 28

4 Q (s,a) = Q(s,a) + constant * Ĥ(s,a) Ähnlich wie 1 Statt MDP Reward wird Q Function benutzt Ĥ(s,a) nimmt nicht ab 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 29

5 A = A ᴜ argmax a [Ĥ(s,a)] Fügt zu der Menge der möglichen Aktionen die Aktion hinzu, welche der TAMER Agent wählen würde Mindestens zwei optimale Aktionen stehen zur Verfügung 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 30

6 a = argmax a [Q(s,a) + weight * Ĥ(s,a)] Ein Anteil der Human Reinforcement FunctionĤwird zur Q Function während der Aktionsauswahl hinzugefügt Der Anteil der Human Reinforcement FunctionĤnimmt mit der Zeit ab 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 31

7 P (a = argmax a [Ĥ(s,a)]) = p p ist eine fixe Wahrscheinlichkeit Entweder wählt Reinforcement Learning Algorithmus die nächste Aktion aus oder TAMER Agent wählt die nächste Aktion aus, während der Reinforcement Learning Algorithmus überwacht und aktualisiert Anfangs wird die Aktion von Ĥ gewählt Gegen Ende vom RL-Algorithmus 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 32

8 R (s t,a) = R(s,a) + constant * (Ф(s t ) Ф(s t-1 )) Ф(s) = max a H(s,a) H wird über Potentialfunktion Ф genutzt Potentialfunktion Ф gibt an, welches die optimale Aktion a im Zustand s ist Aktueller Zustand und Zustand aus Zeitschritt davor wird betrachtet Je größer die Abweichung desto größer der Einfluss 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 33

Experimente - Randbedingungen SARSA(λ) als Reinforcement Algorithmus Mountain Car Umgebung Zwei Human Reinforcement Functions Ĥ 1 : durchschnittliche Funktion Ĥ 2 : beste Funktion Zwei Parameter Sets Optimistisch: Initialisierung von Q = 0 Pessimistisch: Initialisierung von Q = -120 constant und weight Auswahl der besten Parameter 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 34

Erfolgskriterien 1. Höheres Level der Endperformanz der Kombinationstechnik ist größer als RL Algorithmus oder TAMER alleine 2. MDP Reward ist nach mehreren Lernepisoden (> 500) größer als RL Algorithmus oder TAMER alleine 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 35

1. Höhere Endperformanz Optimistische Initialisierung 1 Nur mit Q=0 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 36

1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung 1 2-8 Nur mit Q=0 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 37

1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung 1 2-8 Nur mit Q=0 2, 5 Schlechtesten Ergebnisse 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 38

1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung 1 2-8 Nur mit Q=0 2, 5 8 Schlechtesten Ergebnisse Etwas verbessert 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 39

1. Höhere Endperformanz Optimistische Initialisierung Pessimistische Initialisierung 1 2-8 Nur mit Q=0 2, 5 8 3,4,6,7 Schlechtesten Ergebnisse Etwas verbessert Besten Ergebnisse 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 40

2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6,7 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 41

2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6,7 Verbessert sich auch etwas 4 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 42

2. Höherer Reward Verbesserungen mit beiden Initialisierungen 1,6,7 Verschlechterungen Verbessert sich auch etwas 4 3 8 Nicht unbedingt besser als SARSA(λ) Geringe Verbesserung unter einer der beiden H Funktionen Schlechter als SARSA(λ) alleine 5 2 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 43

Beste Höhere Endperformanz Höherer Reward 3,4,6,7 1,6,7 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 44

Beste Höhere Endperformanz Höherer Reward 3,4,6,7 1,6,7 6 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 45

Fazit Zwei erkennbare Muster 1. Wird die Q Funktion am Anfang manipuliert, führt das zu einer schlechteren Performanz 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 46

Fazit Zwei erkennbare Muster 1. Wird die Q Funktion am Anfang manipuliert, führt das zu einer schlechteren Performanz 2. Wenn der Agent sanft in eine Richtung geleitet wird und der Einfluss von Ĥ mit der Zeit reduziert wird, führt das zu einer guten Performanz 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 47

Ziel Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 48

Frage Ziel: Etablierung von Kombinationsmethoden für TAMER und RL Algorithmen Erforschung verschiedener Wege, um sie umzusetzen Erreicht, ja oder nein? 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 49

Erreicht, ja oder nein? Jein Guter Ansatz 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 50

Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 51

Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 52

Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Roboter (Operationen) nein 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 53

Erreicht, ja oder nein? Jein Guter Ansatz Spiele (Schach, Backgammon, etc.) ja Erkennung (Gesichtsdetektion) ja Roboter (Operationen) nein Für komplexe Anwendungen noch nicht genügend erforscht 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 54

Quellen http://en.wikipedia.org/wiki/markov_decision_process http://en.wikipedia.org/wiki/markov_property http://en.wikipedia.org/wiki/sarsa http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77. html http://www.cs.utexas.edu/~bradknox/papers/aamas10post er-knox.pdf 14.12.2012 Informatik FB20 Knowledge Engineering Yasmin Krahofer 55