Reinforcement Learning

Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin

Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning Q-Learning Algorithmus Nicht deterministische Umgebungen Allgemeinere Lernfunktionen Quellenverzeichnis

Einordnung Was ist Reinforcement Learning? Was ist Reinforcement Learning? ist ein Lernparadigma zwischem überwachtem (supervised) und unüberwachtem (datengetrieben) Lernen nutzt auch ein Rückkopplungssignal Signal ist aber nur unspezifische Bewertung der Leistung Learning with critic instead of learning with teacher. lässt sich unter bestimmten Gesichtspunkten in die Klasse des temporal difference learning einordnen

Einführung - Prinzip der Agent Ziel: Lerne Aktionen auszuwählen, die das langfristige Reinforcement R maximieren.

Einführung - Prinzip Eigenschaften Eigenschaften Rückkopplung ist zeitlich verzögert der Agent kennt das Reinforcement nicht im voraus er muss eine Aktion erst ausführen bevor er bewerten kann, ob sie gut ist oder nicht im Allgemeinen kennt der Agent seine Umgebung nicht vollständig der Agent lernt sein gesamtes Leben lang

Einführung - Prinzip das Ziel der Agent verfolgt eine Policy, die zum gewünschten Ergebnis führt nach jedem Schritt bekommt er ein Reinforcement und befindet in einem neuen Zustand durch Gamma kleiner 1 wird forciert, dass sich der Agent möglichts früh aufs Ziel zubewegt andere Möglichkeiten für R denkbar eine optimale Policy lässt den Agenten genau die Aktionen ausführen, die das langfristige Reinforcement maximiert

Q-Learning warum Q-Learning warum Q-Learning im Allgemeinen kennt der Agent weder die Reinforcement-Funktion noch die Zustandsübergangsfunktion in der Praxis sind diese Funktionen schwer anzugeben Q(s,a) ist eine Funktion die den besten Reward liefert, der von s mit a erreicht werden kann wenn Q bekannt ist, wird trotzdem eine optimale Policy verfolgt, die ohne Backtracking auskommt

Q-Learning Q-Learning Algorithmus Q-Learning Algorithmus Vorraussetung: Funktion lässt sich als Tabelle darstellen Prinzip: nach jedem Schritt wird der zu erwartende Reward verringert für den letzten Zustand aktualisiert For each s, a initialize the table entry Q(s,a) to zero. Observe the current state s Do forever: - Select an action a and execute it - Receive immediate reward r - Observe the new state s - Update the table entry for Q(s,a) as follows: - s := s

Q-Learning Q-Learning Algorithmus Konvergenz des Algorithmus Unter folgenden Umständen wird die Funktion nach obigem Algorithmus gegen Q konvergieren. die Auswahl einer Aktion a geschieht nur auf Grund des aktuellen Zustands (DMP) die Werte der Rückkopplung sind begrenzt die Auswahl einer Aktion a führt dazu, dass jedes Zustand-Aktionen-Paar unendlich oft erreicht wird

Q-Learning Q-Learning Algorithmus Experimentierstrategie Um alle Zustände öfter zu erreichen, wird eine Strategie benötigt, die nicht immer den gleichen Pfad wählt. Auch wenn dieser der Beste zu seien scheint. die Warscheinlichkeit, dass eine Aktion a im Zustand s gewählt wird, hängt vom Verhältnis seines zu erwartenen Rewards und deren aller anderen Aktionen ab die Experimentierfreudigkeit kann mit der Zeit abnehmen

Nicht deterministische Umgebungen Nicht deterministische Umgebungen in der Praxis liefern Sensoren verrauschte Daten die Rückkopplung könnte sich an eine veränderte Umgebung anpassen es ist sinnvoll diese Effekte als nicht deterministische Funktion zu simulieren mathematisch lässt sich dies mittels Erwartungswert realisieren um die Lernfunktion weiterhin konvergieren zu lassen, wird eine Trägheit beim Update eingeführt

Allgemeinere Lernfunktionen Allgemeinere Lernfunktionen eine Einschränkung der Lernfunktion stellt die Verwendung einer Zuordnungstabelle dar für kontinuierliche Umgebungen erweisen sich künstliche neuronale Netze als brauchbar diese lassen sich mittels der Rewards und einem back propagation Algortihmus lernen

Quellenverzeichnis Folien unter: http://burns.cs.uni-potsdam.de/ jschloes/ Quellen: Machine Learning Tom M. Mitchel Neuroinformatik Horst-Michael Gross http://cortex.informatik.tu-ilmenau.de tic tac toe http: //listserv.ac.il/ dvorkind/tictactoe/main_doc.htm