Reinforcement Learning

Ähnliche Dokumente
3. Das Reinforcement Lernproblem

2. Beispiel: n-armiger Bandit

8. Reinforcement Learning

Reinforcement Learning. Volker Tresp

Reinforcement Learning

Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.

Reinforcement Learning

Reinforcement learning

Grundlagen zu neuronalen Netzen. Kristina Tesch

Temporal Difference Learning

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Monte Carlo Methoden

Reinforcement Learning

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti

Reinforcement Learning 2

Reinforcement Learning

Hannah Wester Juan Jose Gonzalez

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Reinforcement Learning

Lineare Klassifikationsmethoden

Vorlesung Wissensentdeckung

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Reinforcement Learning

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

Konzepte der AI Neuronale Netze

Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar

Neural Networks: Architectures and Applications for NLP

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick

6. Schätzverfahren für Parameter

Lösung Übungsblatt 5

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

70 Wichtige kontinuierliche Verteilungen

Theoretische Informatik 1

Statistisches Testen

Kniffel-Agenten. Von Alexander Holtkamp

Einführung in die (induktive) Statistik

Thema 3: Radiale Basisfunktionen und RBF- Netze

2.3 Intervallschätzung

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Reinforcement Learning

2.3 Intervallschätzung

Biostatistik, Sommer 2017

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Wissensentdeckung in Datenbanken

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Hidden-Markov-Modelle

Varianzkomponentenschätzung

12 Ungleichungen. Wir beginnen mit einer einfachen Ungleichung über die Varianz. Satz 35 Es sei X eine zufällige Variable.

x t2 y t = 160, y = 8, y y = 3400 t=1

Kapitel LF: I. Beispiele für Lernaufgaben. Beispiele für Lernaufgaben. LF: I Introduction c STEIN

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

SBWL Tourismusanalyse und Freizeitmarketing

Seminar. Knowledge Engineering und Lernen in Spielen. Reinforcement Learning to Play Tetris. TU - Darmstadt Mustafa Gökhan Sögüt, Harald Matussek 1

Einführung in die statistische Testtheorie

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

TUD Computer Poker Challenge

Künstliche Intelligenz

Reinforcement Learning 2

Vorlesung 13b. Relative Entropie

Korollar 116 (Grenzwertsatz von de Moivre)

Zufällige stabile Prozesse und stabile stochastische Integrale. Stochastikseminar, Dezember 2011

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

Stichproben Parameterschätzung Konfidenzintervalle:

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

Stochastische dynamische Optimierung

Seminar: Data Mining. Referat: Andere Möglichkeiten des Data Mining in verteilten Systemen. Ein Vortrag von Mathias Rohde. 11.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Gewöhnliche Autokorrelationsfunktion (ACF) eines stationären Prozesses {X t } t Z zum Lag h

Seminar Stochastische Unternehmensmodelle Varianzreduzierende Techniken

κ Κα π Κ α α Κ Α

Neuronale Netze. Anna Wallner. 15. Mai 2007

6.2 Lineare Regression

Musterlösung. Modulklausur Multivariate Verfahren

Transkript:

Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1

Allgemein Reinforcement Learning Unterschied zu anderen Lernverfahren: state s t reward r t Agent action a t bewertet ausgeführte Aktionen liefert keine richtigen Aktionen sondern nur eine Zahl r t+1 s t+1 Environment läuft in Zeitschritten ab Nils-Olaf Bösch Allgemein Reinforcement Learning 2

Reinforcement Learning System besteht aus 4 Teilen: Policy: Definiert die Verhaltensweise des Agenten (vgl. stimulus-response rules) (Zustand Aktion). Reward function: Liefert die Belohnung die der Agent bekommt (Zustand-Aktions-Paar Zahl). Value function: Gibt an, wie günstig eine Aktion langfristig ist (Zustand-Aktions-Paar Zahl). (Model): Modell der Umgebung, von Zustands-Aktions-Paar wird neuer Zustand und Belohnung vorhergesagt. Nils-Olaf Bösch Allgemein Reinforcement Learning 3

Grundlegende Funktionsweise A e D a d f B C c g h b E i F Zustand Aktion a Aktion: Q (a) = fester Wert (oder Verteilung) Q 0 (a) = initialer Wert Q t (a) = abgeschätzer Wert zu Zeit t 1. eine Aktion (a) auswählen (nach einer Strategie) 2. Belohnung (r t ) und neuen Zustand von Umgebung bekommen 3. Q t (a) anpassen (bessere Schätzung für die Belohnung) Q t (a) Q (a) wenn t Nils-Olaf Bösch Allgemein Reinforcement Learning 4

Abstraktion von Zuständen a 1 B 1 B 2 A 1 A 2 a 2 a 3 a 4 B 3 A 3 A 4 Nicht alle Informationen über die Umwelt stehen zur Verfügung Notwendige Abstraktion wegen Datenmenge Kann einige Zustände nicht voneinander unterscheiden Deshalb wird Q (a) auch als Verteilung angegeben (als Annäherung zur Wirklichkeit) Nils-Olaf Bösch Allgemein Reinforcement Learning 5

Value function anpassen (Q t (a) Q (a)) Q t (a) enthält den erwarteten Gewinn von Aktion a zur Zeit t. alter Wert {}}{ Q t (a) = Q t 1 (a) +α [r t Q t 1 ] }{{} Fehlerabschätzung Fehlerabschätzung gibt die Richtung an mit der sich der Wert ändern soll. α( [0; 1]) gibt die Geschwindigkeit an mit der sich der Wert ändern soll. Nils-Olaf Bösch Allgemein Reinforcement Learning 6

Anpassen durch das arithmetisches Mittel Der einfachste Weg, aber umständlich zu berechnen: Q t (a) = r 1 + r 2 +... + r ka k a Daher umformen zu allgemeiner Gleichung: = 1 k a k a r i i=1 Q k+1 = 1 k + 1 k+1 i=1 r i = 1 k + 1 [r k+1 + k r i ] = 1 k + 1 [r k+1 + kq k + Q k Q k ] = 1 k + 1 [r k+1 + (k + 1)Q k Q k ] = Q k + 1 k + 1 [r k+1 Q k ] i=1 Nils-Olaf Bösch Allgemein Reinforcement Learning 7

Einbeziehung von zukünftigen Belohnungen Die Belohnung sollte auf lange Sicht maximiert werden R t = r t+1 + r t+2 + r t+3 +... + r T Formel nur bei in Episoden unterteilten Problemen verwendbar (wegen ). Geringere Gewichtung für zukünftige Belohnungen R t = r t+1 + γr t+1 + γ 2 r t+2 +... = γ k r t+k+1 (wobei 0 γ 1) k=0 Einführung eines Horizonts: k log 2 γ R t = r t+1 + γr t+1 + γ 2 r t+2 +... + γ log 2 γ = log 2 γ k=0 γ k r t+k+1 Nils-Olaf Bösch Allgemein Reinforcement Learning 8

Exploration Exploration vs. Exploitation Exploitation Agent wählt eine beliebige Aktion aus. maximiert die Belohnung auf lange Sicht Agent wählt die Aktion (greedy) mit dem höchsten geschätzen Wert. maximiert die erwartete Belohnung auf kurze Sicht!Die beiden Möglichkeiten schließen sich aus! Nils-Olaf Bösch Allgemein Reinforcement Learning 9

Methoden um diesen Konflikt zu beseitigen ɛ-greedy: Mit einer niedrigen Wahrscheinlichkeit ɛ wird zufällig eine Aktion ausgesucht, sonst wird greedy Aktion genommen. Softmax: Aktionen werden mit der Wahrscheinlichkeit e Q t(a)/t n b=1 eq t(b)/t (Boltzmann Verteilung) gewählt. Die Temperatur T wird dabei in Abhängigkeit von t immer kleiner. Nils-Olaf Bösch Allgemein Reinforcement Learning 10

Markov Property Umgebung, deren Zustands-Signal alle relevanten Informationen (vergangene und momentane) liefert, ist Markov (oder hat die Markov property) Häufig mehr als die momentan aufgetretenen Aspekte der Umgebung, aber nie mehr als alle vergangenen Aspekte. Reaktion der Umgebung auf eine Aktion: Formale Definition (am allgemeingültigsten): P [s t+1 = s, r t+1 = r s t, a t, r t, s t 1, a t 1,..., r 1, s 0, a 0 ] Wenn Markov Property gilt: P [s t+1 = s, r t+1 = r s t, a t ] Nils-Olaf Bösch Allgemein Reinforcement Learning 11

Markov Decision Process Reinforcement Learning Problem, das die Markov property erfüllt heißt MDP. (Mit endlichem Zustands- und Aktionsraum: finit MDP) Wichtigsten Aspekte eines finit MDP werden beschrieben durch: 1. Wahrscheinlichkeit für Folgezustand: 2. Belohnung für Folgezustand: P π ss = P [s t+1 = s s t = s, a t = a] R π ss = E[r t+1 s t = s, a t = a, s t+1 = s ] Nur Verteilung der erwarteten Belohnung geht verloren Nils-Olaf Bösch Allgemein Reinforcement Learning 12

Value Function bei finit MDP state-value function for policy π: V π (s) = E π [R t s t = s] = E π [ action-value function for policy π: Q π (s, a) = E π [R t s t = s, a t = a] = E π [ γ k r t+k+1 s t = s] k=0 γ k r t+k+1 s t = s, a t = a] Diese Funktionen V π und Q π können aus Erfahrung abgeschätzt oder berechnet werden. t=0 Nils-Olaf Bösch Allgemein Reinforcement Learning 13

Berechnung der Value Function bei finit MDP = a V π (s) = E π [R t s t = s] = E π [ γ k r t+k+1 s t = s] k=0 = E π [r t+1 + γ γ k r t+k+2 s t = s] k=0 π(s, a) Pss π [Rπ ss + γe π[ γ k r t+k+2 s t+1 = s ]] s k=0 = a π(s, a) s P π ss [Rπ ss + γv π (s )] Nils-Olaf Bösch Allgemein Reinforcement Learning 14

Neuronales Netz als Bewertungsfunktion Notwendigkeit bei großen Problemen: Die meisten Zustände werden nicht besucht Nicht alle Zustände (mit Werten) können gespeichert werden Der einzige Weg etwas zu lernen ist die Generalisierung (von bekannten auf unbekannte Zustände schließen) Die Art der Generalisierung, die man dafür benötigt, ist die function approximation aus dem Bereich des supervised learning. Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 15

Annäherung der Funktion - Allgemein V π soll durch V t (bestimmt durch θ t ) angenähert werden. θt : Kann alles sein (z.b. Verbindungsgewichte des Netzes) Während der Interaktion werden so genannte backups in der Form gewonnen. s v (abgeschätzer Wert soll mehr wie v sein) function approximation: Input: backups Output: Funktion mit gewünschtem Ein-/Ausgabe-Verhalten Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 16

Performance Measure Aber wie optimiert man das Ergebnis bei der Approximation? Man bildet den mittleren quadratischen Fehler (Mean-squared error) MSE( θ t ) = s S P (s)[v π (s) V t (s)] 2 (P (s): Verteilung gewichtet die Fehler von Zuständen) und versucht diesen global zu optimieren MSE( θ ) < MSE( θ ) wobei θ der optimale Parameter für die Funktion ist. Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 17

Methoden für die Approximation Diese Methoden aus dem Bereich supervised lerning from examples können verwendet werden: Entscheidungsbäume Multivariate Regression Neuronales Netz... Die Aufzählung soll deutlich machen, daß die Generalisierung durch viele verschiedene Methoden erreicht werden kann. Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 18

Probleme der Annäherung bei Neuronale Netze Annahme der Netze: Feste Trainingsbeispiele, die mehrmals gelernt werden. Tatsächlich benötigt: Online Lernen (während der Interaktion mit der Umgebung) Funktion, die effizient von zunehmenden Daten lernt Nils-Olaf Bösch Neuronales Netz als Bewertungsfunktion 19

Neuronales Netz als Reinforcement Learning action a t r t Environment Vereinfachung von RF: Signal nur 0 und 1 Nur einfache Problemklasse state s t Langsamer als supervised learning Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 20

Grundlegende Möglichkeit Neuronale Netze sind deterministisch und liefern daher keine zufälligen Ausgaben, Reinforcement Learning ist aber auf Exploration angewiesen (kein teacher). Stochastic Units: Σ P(S i ) P (S i = ±1) = g(±h i ) = 1 1 + e 2h i/t (wobei h i = j w ij V j ) Die Ausgangschicht des Netzes besteht aus stochastic units Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 21

Lernen des RF-Netzes Die nötigen Pattern werden (mit Hilfe von r) selber erstellt: ξ µ S µ i falls r µ = +1 i = S µ i falls r µ = 0 Daraus wird der Fehler berechnet: δ µ i = ξ µ i Sµ i (Pattern - Erwartungswert) Damit können die Gewichte der Ausgangsneuronen geändert werden: w ij = η(r µ )δ µ i V µ i Restliches Netz wird per Backpropagation von δ µ i trainiert Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 22

Ausblick für diese Möglichkeit Lernen konvergiert, dann werden die Stochastic Units fast deterministisch S µ i ±1 (Erwartungswert geht gegen ± 1) Variation für kontinuierliche Reinforcement Signale(0 r 1): w ij = η(r µ )(r µ [S µ i Sµ i ] + (1 rµ )[ S µ i Sµ i ])V µ j Keinen allgemein gültigen Konvergenzbeweis Nur für ein paar Spezialfälle (z.b. nur ein Ausgangsneuron) Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 23

Erweiterung durch ein Modell modelling network R r main network: Generiert die Ausgabe (gleiches Netz wie vorher) main network Output Error Environment modelling network: Bekommt die gleichen Informationen wie Umgebung Soll r duplizieren Input Modell ist gut, wenn R r Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 24

Vorgehensweise 1. Modelling network trainieren (R r) 2. Modelling network verwenden um main network zu trainieren Ziel: R maximieren Lernen: Backpropagation durch beide Netze (Gewichte nur im main ändern) Reinforcement Problem zu 2 supervised learning-teilen mit bekannten Zielen umgewandelt. Nils-Olaf Bösch Neuronales Netz als Reinforcement Learning 25