Lernen von optimalen Strategien

Größe: px

Ab Seite anzeigen:

Download "Lernen von optimalen Strategien"

Irma Rosenberg
vor 5 Jahren
Abrufe

1 Lernen von optimalen Strategien Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

2 Gliederung 1 Q-Learning in der Praxis 2 Q-Learning anhand des Katze-und-Maus-Beispiels Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

3 Wie wird die MDP-Bewertungsfunktion akquiriert? Der Lernalgorithmus probiert alle möglichen Zustände in Kombination mit allen möglichen Aktionen aus. Der Lernalgorithmus ermittelt den reward der ausgeführten Aktion und aktualisiert damit seine Schätzung der Bewertungsfunktion. Das Domänen-Know-How steckt in der reward-funktion. Die Simulation wird so lange durchgeführt, bis die Änderung der Bewertungsfunktion unter eine bestimmte Schwelle sinkt. Der Lernalgorithmus findet eine diskrete Approximation an die tatsächliche Bewertungsfunktion. Das Lernen findet nicht anhand von Beispielen statt, sondern durch Simulieren der Systemreaktion auf einen bestimmten input. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

4 Was kann die greedy-maus? In der Umgebung ohne Hindernisse und Versteckmöglichkeiten schnappt sich die Maus in knapp 50% der Versuche den Käse. Läßt sich dieses oder sogar besseres Verhalten lernen? Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

5 Einfluss der reward-funktion Nach Trainingsläufen liegt die Erfolgsrate der Maus bei 30%. Das ist deutlich schlechter als die greedy-maus. Auch eine Verdopplung und Verdreifachung der Trainingsläufe steigert die Performanz der Maus nicht. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

6 Einfluss der reward-funktion Für die Maus ist bei den aktuellen reward-werten Überleben (100 Strafpunkte) doppelt so wichtig wie der Käse (50 Bonuspunkte). Daher tendiert die Maus dazu, vor der Katze zu fliehen. Weil das Spielfeld offen ist, hat die Katze große Chancen, die Maus zu schnappen, je länger das Spiel dauert. Wird das Überleben (10 Strafpunkte) abgewertet, gewinnt die Maus mehr Spiele! Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

Einfluss der reward-funktion Wie bedeutend die reward-werte für die Bewertungsfunktion sind, läßt sich daran erkennen, wenn für das Gefressen-Werden sogar Bonuspunkte

7 Einfluss der reward-funktion Wie bedeutend die reward-werte für die Bewertungsfunktion sind, läßt sich daran erkennen, wenn für das Gefressen-Werden sogar Bonuspunkte vergeben werden. Bei 10 Bonuspunkten für Gefressenwerden und 50 Bonuspunkten für Käse rennt die Maus zur Katze! Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

8 Einfluss des Konvergenzkriteriums Anhand der vielen Simulationsläufe lernt die Maus, die Korridore als Versteck zu nutzen, die Maus geeignet abzupassen und sich an ihr vorbeizuschleichen. Manchmal wird die Maus in einer Ecke geschnappt. Manchmal steuert die Maus zu direkt auf den Käse zu. Manchmal wird die Maus von der Katze einfach überrannt. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

9 Einfluss des Konvergenzkriteriums Nach weiteren Simulationsläufen hat die Maus aus ihren Fehlern gelernt. Sie gewinnt inzwischen fast jedes Spiel. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

10 Einfluss der Zahl an Simulationsläufen Schwierigkeit in dieser Welt: Wenn Katze und Käse in der Falle stecken, wird die Maus oft erwischt. Manchmal blockieren Katze und Maus durch Hin- und Herziehen auf dieselben Felder den Spielfortschritt. Für die Vielzahl der hier möglichen Pfade zum Ziel müssen mehr Trainingsbeispiele ausprobiert werden. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

11 Einfluss der Zahl an Simulationsläufen Schwierigkeit in dieser Welt: Wenn Katze und Käse in der Falle stecken, wird die Maus oft erwischt. Manchmal blockieren Katze und Maus durch Hin- und Herziehen auf dieselben Felder den Spielfortschritt. Für die Vielzahl der hier möglichen Pfade zum Ziel müssen mehr Trainingsbeispiele ausprobiert werden. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

12 Einfluss der Zahl an Simulationsläufen Bei Simulationsläufen erreicht die Maus eine sehr hohe Erfolgsrate. Eine so hohe Anzahl von Beispielen ist in realen Anwendungen selten generierbar. Man bräuchte extrem zuverlässige Schätzungen etwa für das Rauschen der Sensoren und Effektoren, um eine realistische Simulation zu implementieren. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

13 Einfluss der Zahl an Simulationsläufen Darüberhinaus ist ein realistisches Simulationsmodell der Umgebung vonnöten (vgl. VW-Tuareg in der Wüste). Dadurch steigt der Rechenaufwand weiter an. Gerad Tesauro vom IBM Watson Research Center entwickelte ein backgammon-programm, das seine Strategie anhand von Spielen gegen sich selbst lernte. Nach Iterationen konvergierte die Approximation der Bewertungsfunktion. Sind Simulationsläufe nicht möglich (z.b. beim Lernen von Kooperationsstrategien in der Mensch-Maschine-Kooperation), müssen Beispiele (z.b. Mensch-Mensch-Dialoge) mit dem in jedem Schritt erreichten Zustand und der (als optimal angenommenen) ausgeführten Aktion annotiert werden. Aus diesen Daten kann eine Bewertungsfunktion approximiert werden. Aus dem unüberwachten wird überwachtes Lernen. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

14 Grenzen des Q-Learning Erfolgreiche Vorgehensweise bei überschaubarer Größe des Zustandsraums, der Zahl der erlaubten Aktionen und der Zahl der Variablen, im Lösungsraum Genügend viele Simulationsläufe und eine geeignete reward-funktion ermöglichen sehr hohe Erfolgsraten (fast bis 100%!). Die Vergrößerung der entscheidenden Parameter führt zu einem raschen Anstieg des Lernaufwands. Wenn sich nicht genügend Simulationsläufe generieren lassen, bei die Approximation an die ideale Strategie sehr schwach, und die Erfolgsraten dementsprechend niedrig. Dr.-Ing. Bernd Ludwig (FAU ER) Q-Learning / 14

Ähnliche Dokumente

Planung von Handlungen bei unsicherer Information

Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)