Reinforcement Learning

Ähnliche Dokumente
Reinforcement Learning 2

Monte Carlo Methoden

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Optimierendes Lernen (Reinforcement Learning) - Adaptive Verfahren für dynamische Optimierungsprobleme. VE 1: Einführung

Übersicht. 20. Verstärkungslernen

Reinforcement Learning

Seminar aus maschinellem Lernen MCTS und UCT

Exkurs: Dynamische Optimierung

Multi Agent Reinforcement Learning

Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

Aufabe 7: Baum-Welch Algorithmus

Datenbankanwendung. Prof. Dr.-Ing. Sebastian Michel TU Kaiserslautern. Wintersemester 2014/15.

Reinforcment learning

Hierarchical Reinforcement Learning in Robot Control

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Dynamische Optimierung. Kapitel 4. Dynamische Optimierung. Peter Becker (H-BRS) Operations Research II Wintersemester 2014/ / 206

Black Jack - Kartenzählen

Investition & Finanzierung. 2. Investitionsrechnung unter Sicherheit

Suche in Spielbäumen Spielbäume Minimax Algorithmus Alpha-Beta Suche. Suche in Spielbäumen. KI SS2011: Suche in Spielbäumen 1/20

Intelligente Agenten

Kapitel ML: I. I. Einführung. Beispiele für Lernaufgaben Spezifikation von Lernproblemen

Cross-Kanal-Werbewirkung die Welt ist keine Badewanne

Computer Vision: Optische Flüsse

Seminar über Software Model Checking Vortrag zum Thema Predicate Abstraction

Monte-Carlo-Simulation

Kevin Caldwell. 18.April 2012

Optimale Strategien beim Spiel Rot und Schwarz

Spiele (antagonistische Suche) Übersicht. Typen von Spielen. Spielbaum. Spiele mit vollständiger Information

5. Wiederholte Interaktion (Wiederholte Spiele Superspiele)

Sicherheit bei lernenden Robotern

Monte Carlo Methoden in Kreditrisiko-Management

9. Schätzen und Testen bei unbekannter Varianz

Monte Carlo simulation for estimating rare event probabilities and parameters in Markov process models

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Optimale Steuerung. Sequentielle Quadratische Programmierung. Kevin Sieg. 14. Juli Fachbereich für Mathematik und Statistik Universität Konstanz

(1) Problemstellung. (2) Kalman Filter

Modellierung verteilter Systeme Grundlagen der Programm und Systementwicklung

Moderne Methoden der KI: Maschinelles Lernen

Wissensbasierte Systeme

KI und Sprachanalyse (KISA)

Moderne Monte Carlo Methoden für Anwendungen in Finanz- und Versicherungsmathematik

Moderne Methoden der KI: Maschinelles Lernen

Q4. Markov-Prozesse in diskreter Zeit

Rekursionen (Teschl/Teschl )

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Linearen Gleichungssysteme Anwendungsaufgaben

Kapitel 3: Problemformulierungen in der KI. oder das Problem ist die halbe Lösung

Optimierung I. 1 Einführung. Luise Blank. Wintersemester 2012/13. Universität Regensburg

Foundations of Systems Development

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

1.3 Ein paar Standardaufgaben

Mechanismus Design Auktionen

Conjoint Measurement:

Informatik II Greedy-Algorithmen

Praktische Informatik I Der Imperative Kern Mathematiknachhilfe

Teil II. Nichtlineare Optimierung

ifa Institut für Finanz- und Aktuarwissenschaften Nested Simulations - Innovative Methoden für rechenintensive Probleme in der Lebensversicherung

Grundlagen der Künstlichen Intelligenz

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

5. Vorlesung. Das Ranking Problem PageRank HITS (Hubs & Authorities) Markov Ketten und Random Walks PageRank und HITS Berechnung

BONUS MALUS SYSTEME UND MARKOV KETTEN

Real-time MCTS (4.7) Seminar aus maschinellem Lernen

Markov-Ketten-Monte-Carlo-Verfahren

Einfache Modelle für Paneldaten. Statistik II

Motivation. Motivation

Einführung in neuronale Netze

SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Wissensbasierte Systeme

Credit Metrics. Wird in erster Linie für die Evaluierung von Bond Portfolios verwendet. (Siehe Crouhy et al. (2000), J.P.Morgan Inc.

Vorlesung Analysis I / Lehramt

Dynamische Programmierung

Lineare Programmierung

FB IV Mathematik Universität Trier. Präsentation von Nadja Wecker

Computerlinguistische Textanalyse

3. Problemlösen durch Suche

5.2 Das All-Pairs-Shortest-Paths-Problem (APSP-Problem) Kürzeste Wege zwischen allen Knoten. Eingabe: Gerichteter Graph G =(V, E, c)

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Nichtlineare Optimierung ohne Nebenbedingungen

Von den Grundlagen der Monte-Carlo-Methode zur Simulation von Teilchenreaktionen und Teilchendetektoren

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe B

Konzepte der AI. Maschinelles Lernen

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG

Bestimmung einer ersten

Name: Klasse: Datum: Klassenarbeit Wachstumsvorgänge Kl10-Gruppe A

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Arbeitsgruppe Neuroinformatik

Kalkulation versicherungstechnischer Risiken

Zum Einsatz von Operatoren im Informatikunterricht

Kategoriale abhängige Variablen:

Einleitung. Das Ein-Perioden-Modell ist das einfachste. von derivaten Finanzinstrumenten (hier: Optionen) zu erklären.

Tom Seifert. Semesterbeleg im Fach Neuronale Netze. Nutzung von RL/TD Verfahren für die Anwendung eines Strategiespieles

2. Nash Equilibria. Das Spiel kann dann beschrieben werden durch

Programmierung 2. Dynamische Programmierung. Sebastian Hack. Klaas Boesche. Sommersemester

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick

Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte MDPs Monte-Carlo Temporal Difference

Problemstellungen des maschinellen Lernens Überwachtes Lernen: Lernen einer Entscheidungsfunktion aus Beispielen der richtigen Entscheidung. Unüberwachtes Lernen: Lernen von zb. Partitionierungen von Daten (Clustern) ohne Beispiele für die richtige Partitionierung. Reinforcement Learning: Lernen von sequenziellen Entscheidungen. Die Güte einer Entscheidung wird durch die Güte der Entscheidungssequenz bestimmt. Temporal Credit Assignment Problem.

Beispiele Schach: Welcher Zug hatte wieviel Einfluss auf das Spielergebnis? Robofußball: Ziel ist es, ein Tor zu schießen. Aber welche Bewegungen haben das ermöglicht? Helikopterflug: Welche Bewegungen müssen ausgeführt werden, um bei unvorhersehbaren äußeren Bedingungen nicht abzustürzen.

Lernen aus Interaktionen Reward Beobachtung Umgebung Agent Controller Aktionen

Wann Reinforcement Learning? Verzögerte Bewertung von Aktionen. (Temporal credit assignment problem) Kontrollprobleme Agenten Das volle KI-Problem

Was ist Reinforcement Learning? RL-Methoden sind Sampling based methods to solve optimal control problems (Richard Sutton) Suche nach einer optimalen Policy: Funktion von Zustand zu Aktion. Optimalität des Lernens: Policy mit höchstem erwarteten Reward. Aber auch: schnelles Lernen ohne zuviele Fehler zu machen.

Markov Decision Processes Markov-Entscheidungsprozess (S,A,R,P) S : endliche Zustandsmenge A : endliche Aktionsmenge P : Übergangswahrscheinlichkeiten R : Erwarteter Reward. Beschreibt den sofort erzielten Gewinn. Diskrete Zeitschritte t. Discount factor.

MDP Eine deterministische stationäre Policy bildet Zustände auf Aktionen ab. Stochastische Policy: Funktion von Zuständen auf eine Verteilung von Aktionen. Ziel: Finde Policy ¼, die den erwarteten kumulativen (discounted) Gewinn maximieren.

Markov-Eigenschaft Markov-Eigenschaft: Aus Sequenz von Beobachtungen und Aktionen wird Zustand. Markov-Eigenschaft in Realität selten genau erfüllt.

Value Functions Bewertungsfunktionen Value function V ¼ (s) für einen Zustand s und Policy ¼ beschreibt den erwarteten kumulativen Gewinn der von diesem Zustand aus erreicht wird. Es existiert immer eine optimale deterministische stationäre Policy ¼ *, die die Value Function maximiert.

Value Functions Bewertungsfunktion für Zustand-Aktions-Paar: Optimale Bewertungsfunktion Annahme: tabellarische Speicherung der Bewertungen aller Zustände

Bellman-Gleichungen Für Bewertungsfunktionen gelten die Bellman- Gleichungen (durch Markov-Eigenschaft)

Bellman-Gleichungen Zustand-Aktion-Bewertungsfunktion: Die Bellman-Gleichungen bilden ein lineares Gleichungssystem

Bellman-Operatoren In (linearer) Operatorschreibweise: Mit linearem Operator T ¼ : V ¼ ist ein Fixpunkt des Bellman-Operators T ¼.

Bellman-Optimalitätsgleichungen Bellman-Gleichungen für das Kontrollproblem. Rekursive Beziehungen der optimalen Value Functions.

Modellwissen Es ergeben sich unterschiedliche Problemstellungen je nach Wissen über den MDP. MDP vollständig bekannt. Planen. MDP nicht oder teilweise bekannt. Es kann Erfahrung gesammelt werden durch Interaktion mit der Umgebung. Reinforcement Learning.

Arten von Reinforcement Learning Reinforcement Learning-Methoden können eingeteilt werden bezüglich der Verwendung der Interaktionsbeispiele. Indirekte Methoden: Model learning Direkte Methoden: Direct Policy Search Value function estimation

MDP vollständig bekannt Dynamische Programmierung 2 Schritte zum Berechnen der optimalen Policy: Policy Evaluation: V ¼ berechnen für festes ¼ k Policy Improvement: Neues ¼ k+1 bestimmen Policy Iteration. Bellman-Gleichungen bilden ein lineares Gleichungssystem. Zustandsmengen sind allerdings in der Realität in der Regel zu groß um Standardlösungsverfahren für LGS zu verwenden.

Policy Iteration Iteratives Verfahren: V ¼ iterativ durch Folge von Approximationen V k berechnen Greedy Policy Improvement:

Policy Evaluation Im Limit k 1 konvergiert V k zu V ¼. Konvergenzrate O( k ): V V * = O( k ) Beweis z.b. über Banach schen Fixpunktsatz. Sei B=(B,. ) ein Banachraum. Sei T ein Operator T:B B, so dass TU TV U V mit <1. T nennt man dann eine -Kontraktion. Dann hat T einen eindeutigen Fixpunkt V und es gilt, dass für alle V 0 2 B die Folge V k+1 =T V k, k 1 gegen V konvergiert. Außerdem gilt V V * = O( k )

Policy Evaluation Es gilt, dass der Bellman-Operator T ¼ eine -Kontraktion ist. Daraus folgt, dass die iterative Anwendung des Operators gegen V ¼ konvergiert.

Policy Evaluation: Kontraktion Was bedeutet Kontraktion? Anwenden der Iterationsvorschrift: Die maximale Veränderung der Value Function verringert sich pro Iteration mit Faktor.

Policy Improvement Greedy Policy Improvement Policy Improvement Theorem: Seien ¼ und ¼ deterministische Policies für die gilt, dass für alle s2s: Q ¼ (s,¼ (s)) V ¼ (s). Dann V ¼ (s) V ¼ (s)

Value Iteration Value Iteration für das Kontrollproblem: Konvergiert gegen Q * für k 1 Ähnlicher Beweis.

MDP unvollständig Reinforcement Learning Indirektes Reinforcement Learning: Modelbasiert Lerne Modell des MDP: Rewardfunktion R Transitionswahrscheinlichkeiten P Anschließend Planen. Exploration / Exploitation Problem: um R und P gut schätzen zu können, müssen alle Zustände und Zustandsübergänge beobachtet werden. (Im tabellarischen Fall)

Monte-Carlo Methoden Lernen von episodischen Interaktionen mit der Umgebung. Ziel: Lernen von Q ¼ (s,a). Monte-Carlo Schätzung von Q ¼ (s,a): Mittelwert bilden über gesamplete kumulative Rewards. Erwartungstreue Schätzung des echten erwarteten Rewards. Varianz fällt mit 1/n. Schätzungen der Bewertungen der Zustände sind unabhängig.

Monte-Carlo Methoden Berechnungszeit der Schätzung ist unabhängig von der Größe des Zustandsraums. Problem: Falls ¼ deterministisch werden viele stateaction-paare Q(s,a) nie beobachtet. Probleme beim der Policy Improvement-Schritt Lösung: stochastische Policies, z.b. ²-greedy Policies.

Temporal Difference Learning Idee: Updates von Zuständen auf Grund von Schätzungen von anderen Zuständen. Natürliche Formulierung als Online-Methoden. Anwendbar auch für unvollständige Episoden. Nachteil gegenüber Monte-Carlo: Stärkerer Schaden durch Verletzung der Markov- Eigenschaft.

Q-Learning Q-Learning Update-Schritt: Konvergiert gegen Q * falls Jeder Zustand unendlich oft besucht wird Für den Schrittweitenparameter gilt: Beweis folgt durch Theorie der stochastischen Approximation aus dem Beweis für DP-Fall.

Q-Learning Off-Policy-Methode. Dadurch wird das Exploration / Exploitation Problem gelöst. Lernen einer optimalen Policy ¼ * während nach einer anderen Policy ¼ entschieden wird. Die Policy ¼ kann z.b. eine stochastische Policy mit ¼(s,a)>0 für alle s und a sein, damit Q konvergiert.

SARSA SARSA: On-Policy Temporal Difference Methode. Exploration / Exploitation Problem. SARSA vollzieht einen 1-Schritt Temporal- Difference Updateschritt.

N-step Returns Allgemeine Updateregel: Temporal Difference Methoden machen 1-Schritt Updates: Monte-Carlo-Methoden machen dagegen Updates, die auf der gesamten Episode basieren: N-Schritt-Updates:

TD( )

TD( ) Idee: gewichtete Summe aller n-step Returns

TD( ) TD( ) Update: 0 1 interpoliert zwischen 1-step und MC.

Bias-Variance-Tradeoff Weniger Bias Mehr Varianz

Eligibility Traces Algorithmische Sicht auf TD( ) Einführung eines zusätzlichen Speichers e(s) für jeden Zustand s2s. Nach Beobachtung <s t,a t,r t,s t+1 >, berechne Update für alle Zustände