Einführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL)

Größe: px

Ab Seite anzeigen:

Download "Einführung. Künstliche Intelligenz. Steuerungs- und Regelungstechnik. Psychologie. Reinforcement Learning (RL)"

Siegfried Fürst
vor 8 Jahren
Abrufe

1 Einführung Künstliche Intelligenz Psychlgie Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Neurwissenschaft Künstliche Neurnale Netze W19, , J. Zhang

2 Was ist Reinfrcement Learning? Lernen aus Interaktin Ziel-rientiertes Lernen Lernen durch, vn, und während der Interaktin mit einer eternen Umgebung Lernen was zu tun ist wie man Situatinen auf Aktinen abbildet um ein numerisches Reward- Signal zu maimieren W19, , J. Zhang

während der Interaktin mit einer eternen Umgebung Lernen was zu tun ist

3 Überwachtes Lernen Trainings Inf = gewünschte (Sll-) Ausgabe Eingaben Überwacht lernendes System Ausgaben Fehler = (Sll-Ausgabe Systemausgabe) W19, , J. Zhang

4 Reinfrcement Learning Trainings Inf = Bewertungen ( rewards / penalties ) Eingaben RL System Ausgaben ( Aktinen ) Ziel: erreiche sviel Reward wie möglich W19, , J. Zhang

5 Reinfrcement Learning Ziel: Möglichst erflgreich in der Umgebung agieren Entspricht Maimierung der Belhnungssequenz R t Agent s t r t a t Umgebung W19, , J. Zhang

6 Key Features vn RL Lerner bekmmt nicht gesagt welche Aktinen zu wählen sind Trial-and-Errr Suche Möglichkeit eines verspäteten ( delayed ) Reward Aufgeben vn kurzfristigem Ertrag um höheren langfristigen Ertrag zu erhalten Das Dilemma eplratin vs. eplitatin Betrachte das kmplette Prblem eines ziel-rientierten Agenten in Interaktin mit einer unsicheren Umgebung W19, , J. Zhang

langfristigen Ertrag zu erhalten Das Dilemma eplratin vs.

7 Der vllständige Agent Zeitlich situiert Beständiges Lernen und Planen Beeinflusst die Umgebung Umgebung ist stchastisch und ungewiss Umgebung Zustand Aktin Reward Agent W19, , J. Zhang

8 Elemente des RL Plicy Reward Value Mdell der Umgebung Plicy: was ist zu tun Reward: was ist gut Value: was ist gut, da es Reward vrhersagt Mdell: was flgt auf was W19, , J. Zhang

9 Ein erweitertes Beispiel: Tic-Tac Tac-TeTe } s Zug } s Zug } s Zug } s Zug Setzt einen nicht perfekten Gegner vraus: er/sie macht manchmal Fehler } s Zug W19, , J. Zhang

10 Ein RL Ansatz für Tic-Tac Tac-TeTe 1. Erstelle eine Tabelle mit einem Eintrag pr Zustand: Zustand.5.5 V(s) geschätzte Wahrscheinlichkeit für den Gewinn 1 gewnnen 2. Jetzt spiele viele Spiele. Um einen Zug zu wählen, schaue einen Schritt nach vrne: Mmentaner Zustand verlren 0 unentschieden * Verschiedene mögliche nächste Zustände Nehme den nächsten Zustand mit der höchsten geschätzten Gewinnwahrscheinlichkeit das höchste V(s); ein greedy Zug. Aber in 10% aller Fälle wähle einen zufälligen Zug; ein eplrierender Zug. W19, , J. Zhang

Um einen Zug zu wählen, schaue einen Schritt nach vrne: Mmentaner Zustand.

11 RL-Lernregel Lernregel für Tic-Tac Tac-TeTe Zug des Gegners { Startpsitin a Unser Zug Zug des Gegners Unser Zug { { { e* c* c d e b Eplrierender Zug s Zustand vr dem greedy Zug s Zustand nach dem greedy Zug Wir inkrementieren jedes V(s) zu V( s ) ein backup : Zug des Gegners { f Unser Zug { g* g kleiner psitiver Wert, z.b. α = 0.1 der Schrittweitenparameter W19, , J. Zhang

dem greedy Zug Wir inkrementieren jedes V(s) zu V( s ) ein backup : Zug des Gegners { f Unser Zug

12 Verbesserung des T.T.T Spielers Beachten vn Symmetrien Darstellung/Generalisierung Wie kann dies fehlschlagen? Braucht man Zufallszüge? Warum? Braucht man immer die 10%? Kann man vn Zufallszügen lernen? Kann man ffline lernen? Vr-Lernen durch Spielen gegen sich selbst? Verwendung vn gelernten Mdellen des Gegners?... W19, , J. Zhang

fehlschlagen? Braucht man Zufallszüge? Warum? Braucht man immer die 10%?

13 z.b. Generalisierung Tabelle Zustand V s s s Generalisierender Funktinsapprimatr Zustand V Trainiere hier s N W19, , J. Zhang

14 Warum ist Tic-Tac Tac-TeTe einfach? Endliche, kleine Anzahl an Zuständen Es ist immer möglich einen Schritt nach vrnezugucken(ne-step lk ahead) Zustände kmplett wahrnehmbar... W19, , J. Zhang

15 Einige namhafte RL Anwendungen TD-Gammn: Tesaur weltbestes Backgammn Prgramm Aufzugssteuerung: Crites & Bart High Perfrmance dwn-peak Aufzugscntrller Lagerverwaltung: Van Ry, Bertsekas, Lee & Tsitsiklis 10 15% Verbesserung gegenüber standard Industriemethden Dynamische Kanalzurdnung: Singh & Bertsekas, Nie & Haykin High Perfrmance Zurdnung vn Funkkanälen zu Mbiltelefnaten W19, , J. Zhang

10 15% Verbesserung gegenüber standard Industriemethden Dynamische Kanalzurdnung: Singh & Bertsekas,

16 TD-Gammn Tesaur, Value Aktinsauswahl durch 2 3 Lagensuche TD Fehler V t+1 V t Starte mit zufälligem Netzwerk Spiele sehr viele Spiele gegen dich selbst Lerne eine Wertefunktin anhand dieser simulierten Erfahrung Dies prduziert whl den besten Spieler der Welt W19, , J. Zhang

gegen dich selbst Lerne eine Wertefunktin anhand dieser simulierten

17 10 Stckwerke, 4 Kabinen Aufzugseinteilung Crites and Bart, 1996 Zustände: Knpfzustände; Psitinen, Richtungen, und Bewegungszustände der Kabinen; Persnen in Kabinen & in Etagen Aktinen: halte an, der fahre nach Y, nächste Etage Rewards: geschätzt, 1 pr Zeitschritt für jede wartende Persn 22 Vrsichtige Schätzung: ca. 10 Zustände W19, , J. Zhang

Aktinen: halte an, der fahre nach Y, nächste Etage Rewards: geschätzt, 1 pr Zeitschritt

18 Perfrmance Vergleich Durchschn. Warteund 40 System-2zeiten 0 2 % Wartezeit >1 Minute 1 0 Durchschn. quadrierte Wartezeit Lastenverteiler Lastenverteiler Lastenverteiler W19, , J. Zhang

19 Trial-and-Errr learning Thrndike (Ψ) 1911 Minsky Klpf Bart et al. RL Geschichte Tempral-difference learning Secndary reinfrcement (Ψ) Samuel Hlland Witten Suttn ptimal cntrl, value functins Hamiltn (Physics) 1800s Shannn Bellman/Hward (R) Werbs Watkins W19, , J. Zhang

Samuel Hlland Witten Suttn ptimal cntrl, value functins Hamiltn

20 W19, , J. Zhang MENACE ( MENACE (Michie Michie 1961) 1961) Matchb Educable Nughts and Crsses Engine

Ähnliche Dokumente

Was ist Reinforcement Learning? Einführung. Überwachtes Lernen. Reinforcement Learning. Ziel: erreiche soviel Reward wie möglich

Was ist Reinforcement Learning? Einführung. Überwachtes Lernen. Reinforcement Learning. Ziel: erreiche soviel Reward wie möglich Fachbereich Infrmatik Fachbereich Infrmatik Psychlgie Einführung Künstliche Intelligenz Reinfrcement Learning (RL) Steuerungs- und Regelungstechnik Was ist Reinfrcement Learning? Lernen aus Interaktin