Was ist Reinforcement Learning? Einführung. Überwachtes Lernen. Reinforcement Learning. Ziel: erreiche soviel Reward wie möglich

Größe: px

Ab Seite anzeigen:

Download "Was ist Reinforcement Learning? Einführung. Überwachtes Lernen. Reinforcement Learning. Ziel: erreiche soviel Reward wie möglich"

Sophia Vogel
vor 6 Jahren
Abrufe

1 Fachbereich Infrmatik Fachbereich Infrmatik Psychlgie Einführung Künstliche Intelligenz Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Was ist Reinfrcement Learning? Lernen aus Interaktin Ziel-rientiertes Lernen Lernen durch, vn, und während der Interaktin mit einer eternen Lernen was zu tun ist wie man Situatinen auf Aktinen abbildet um ein numerisches Reward- Signal zu maimieren Neurwissenschaft Künstliche Neurnale Netze 8 82 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Überwachtes Lernen Trainings Inf = gewünschte (Sll-) Ausgabe Reinfrcement Learning Trainings Inf = Bewertungen ( rewards / penalties ) Eingaben Überwacht lernendes System Ausgaben Eingaben RL System Ausgaben ( Aktinen ) Fehler = (Sll-Ausgabe Systemausgabe) Ziel: erreiche sviel Reward wie möglich Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde

2 Fachbereich Infrmatik Fachbereich Infrmatik Ziel: Möglichst erflgreich in der agieren Entspricht Maimierung der Belhnungssequenz R t s t Reinfrcement Learning r t Agent a t Key Features vn RL Lerner bekmmt nicht gesagt welche Aktinen zu wählen sind Trial-and-Errr Suche Möglichkeit eines verspäteten ( delayed ) Reward Aufgeben vn kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten Das Dilemma eplratin vs eplitatin Betrachte das kmplette Prblem eines ziel-rientierten Agenten in Interaktin mit einer unsicheren Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Der vllständige Agent Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die ist stchastisch und ungewiss Reward Agent Aktin Elemente des RL Plicy Reward Value Mdell der Plicy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vrhersagt Mdell: was flgt auf was Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 2

3 Fachbereich Infrmatik Ein erweitertes Beispiel: Tic-Tac Tac-TeTe Setzt einen nicht perfekten Gegner vraus: er/sie macht manchmal Fehler } s Zug } s Zug } s Zug } s Zug } s Zug 89 Fachbereich Infrmatik Ein RL Ansatz für Tic-Tac Tac-TeTe Erstelle eine Tabelle mit einem Eintrag pr : 5 5 V(s) geschätzte Wahrscheinlichkeit für den Gewinn gewnnen verlren unentschieden 2 Jetzt spiele viele Spiele Um einen Zug zu wählen, schaue einen Schritt nach vrne: Mmentaner * Verschiedene mögliche nächste Zustände Nehme den nächsten mit der höchsten geschätzten Gewinnwahrscheinlichkeit das höchste V(s); ein greedy Zug Aber in % aller Fälle wähle einen zufälligen Zug; ein eplrierender Zug 9 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik RL-Lernregel Lernregel für Tic-Tac Tac-TeTe e* Startpsitin a c* c d e b f g* g Eplrierender Zug s vr dem greedy Zug s nach dem greedy Zug Wir inkrementieren jedes V(s) zu V( s ) ein backup : kleiner psitiver Wert, zb α = der Schrittweitenparameter 9 Verbesserung des TTT Spielers Beachten vn Symmetrien Darstellung/Generalisierung Wie kann dies fehlschlagen? Braucht man Zufallszüge? Warum? Braucht man immer die %? Kann man vn Zufallszügen lernen? Kann man ffline lernen? Vr-Lernen durch Spielen gegen sich selbst? Verwendung vn gelernten Mdellen des Gegners? 92 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 3

Fachbereich Infrmatik Fachbereich Infrmatik zb Generalisierung s s2 s3 Tabelle V Generalisierender Funktinsapprimatr V Warum ist Tic-Tac Tac-TeTe einfach?

Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Einige namhafte RL Anwendungen TD-Gammn Tesaur,

4 Fachbereich Infrmatik Fachbereich Infrmatik zb Generalisierung s s2 s3 Tabelle V Generalisierender Funktinsapprimatr V Warum ist Tic-Tac Tac-TeTe einfach? Endliche, kleine Anzahl an Zuständen Es ist immer möglich einen Schritt nach vrne zu gucken (ne-step lk ahead) Zustände kmplett wahrnehmbar Trainiere hier s N Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Einige namhafte RL Anwendungen TD-Gammn Tesaur, TD-Gammn: Tesaur weltbestes Backgammn Prgramm Aufzugssteuerung: Crites & Bart High Perfrmance dwn-peak Aufzugscntrller Lagerverwaltung: Van Ry, Bertsekas, Lee & Tsitsiklis 5% Verbesserung gegenüber standard Industriemethden Dynamische Kanalzurdnung: Singh & Bertsekas, Nie & Haykin High Perfrmance Zurdnung vn Funkkanälen zu Mbiltelefnaten Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Value Aktinsauswahl durch 2 3 Lagensuche TD Fehler V t+ V t Lerne eine Wertefunktin anhand dieser simulierten Erfahrung Dies prduziert whl den besten Spieler der Welt Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 4

5 Fachbereich Infrmatik Fachbereich Infrmatik Stckwerke, 4 Kabinen Aufzugseinteilung Crites and Bart, 996 Zustände: Knpfzustände; Psitinen, Richtungen, und Bewegungszustände der Kabinen; Persnen in Kabinen & in Etagen Aktinen: halte an, der fahre nach Y, nächste Etage 8 6 Durchschn Warteund 4 System-2zeiten Perfrmance Vergleich 2 % Wartezeit > Minute 8 6 Durchschn quadrierte 4 Wartezeit 2 Rewards: geschätzt, pr Zeitschritt für jede wartende Persn 22 Vrsichtige Schätzung: ca Zustände Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Fachbereich Infrmatik Fachbereich Infrmatik Trial-and-Errr learning RL Geschichte Tempral-difference learning ptimal cntrl, value functins MENACE (Michie( 96) Matchb Educable Nughts and Crsses Engine Thrndike (Ψ) 9 Minsky Klpf Secndary reinfrcement (Ψ) Samuel Hlland Witten Hamiltn (Physics) 8s Shannn Bellman/Hward (R) Werbs Bart et al Suttn Watkins 99 2 Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde Technische Aspekte Multimdaler Systeme tbaier@infrmatikuni-hamburgde 5

Ähnliche Dokumente

Einführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL)

Einführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL) Einführung Künstliche Intelligenz Psychlgie Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Neurwissenschaft Künstliche Neurnale Netze W19, 10.5.2006, J. Zhang 1 +148 Was ist Reinfrcement Learning?