TD-Gammon. Michael Zilske

Größe: px

Ab Seite anzeigen:

Download "TD-Gammon. Michael Zilske"

Alfred Fiedler
vor 6 Jahren
Abrufe

1 TD-Gammon Michael Zilske

2 TD-Gammon Ein Backgammon-Spieler von Gerald Tesauro (Erste Version: 1991)

3 TD-Gammon Ein Neuronales Netz, das immer wieder gegen sich selbst spielt und dadurch lernt, eine gute Bewertungsfunktion für Backgammon-Positionen zu sein Eine Erfolgsgeschichte für Reinforcement Learning Der damals stärkste Computerspieler Weltklassespieler haben von TD-Gammon Eröffnungszüge übernommen.

4 Backgammon Ein uraltes Spiel für zwei Spieler Wahrscheinlich 1000 Jahre älter als Schach

5 Backgammon Es wird gewürfelt. Beide Spieler müssen ihre Steine nach Hause bringen. Denkt an Mensch, ärgere Dich nicht. Die Strecke ist eindimensional und kein Kreis. Die Spieler kommen einander entgegen. Einzelne Steine können herausgeworfen werden. Zusammen stehende Steine blockieren. Es wird um Geld gespielt, oder um Punkte in Matches aus vielen Runden.

6 Backgammon

7 Das Problem Komplexe Spiele haben riesige Zustandsmengen. Für Backgammon: ca Spiel nach Wertetabelle ist daher unmöglich. Hoher Verzweigungsfaktor Für Backgammon: etwa verschiedene Würfe durchschnittlich 20 mögliche Züge pro Wurf zu viel, um tief im Spielbaum zu suchen zum Vergleich: Schach Dame 8-10

8 Die Lösung Heuristische Bewertung von Spielpositionen Approximation der theoretischen Value-Function Bisherige Ansätze: Design einer Bewertungsheuristik mit menschlichen Experten Überwachtes Lernen eines neuronalen Netzes anhand einer Spieldatenbank (Neurogammon, 1989) Neuheiten bei TD-Gammon: keinerlei Vorwissen über das Spiel keinerlei Beeinflussung durch die Auffassung menschlicher Spieler

9 Das neuronale Netz approximiert beliebige stetige Funktionen lernt durch Änderung der Kantengewichte

10 Das neuronale Netz in TD-Gammon Eingabe: Einfache Repräsentation des Spielfeldinhalts durch 198 Werte Ausgabe: Geschätzte Wahrscheinlichkeit für einfachen Sieg doppelten Sieg einfachen Sieg des Gegners doppelten Sieg des Gegners Innere Knoten (hidden units)

11 Repräsentation einer Spielposition 4 Eingänge stehen für die Anzahl der weißen Steine auf einem Feld 4 Eingänge stehen für die Anzahl der schwarzen Steine auf einem Feld 2 Eingänge stehen für die weißen bzw. schwarzen Steine, die gerade herausgeworfen sind 4 Eingänge stehen für die weißen bzw. schwarzen Steine, die bereits zu Hause sind 2 Eingänge stehen dafür, ob weiß bzw. schwarz am Zuge ist

12 Ein Spielzug Würfle Bewerte für jeden möglichen Zug die resultierende Spielposition (after state) optional: schaue für einige der am besten bewerteten Positionen zwei oder drei Halbzüge in die Zukunft Wähle den besten Zug Lerne

13 Lernen Das Netz wird mit kleinen, zufälligen Gewichten initialisiert. Es bewertet zunächst völlig zufällig. Nach jedem Zug wird der TD(λ)-Algorithmus angewendet, um die Gewichte zu verbessern. w w = Y Y t t 1 t t 1 t k=1 t k w Y k

14 Lernen w: Kantengewichte des Netzes α: Lernparameter Y t+1 : Bewertung der Spielposition S t+1 durch das Netz mit den Gewichten w t λ: Verfallsparameter w w = Y Y t t 1 t t 1 t k=1 t k w Y k

15 Gradientenabstiegsverfahren Bilde den Gradienten des TD-Fehlers bezüglich der Kantengewichte. Interpretiere ihn als Maß dafür, wie stark das jeweilige Gewicht am Fehler beteiligt ist. Je größer der Gradient in einer gewissen Koordinate, desto stärker verändere das entsprechende Gewicht. w Y t 1 Y t 2

16 TD(λ) Auch Gewichte, die für länger zurückliegende Züge ausschlaggebend waren, sollen in Erwägung der aktuelle Position verbessert werden. Und zwar nicht bis zu einer festen Anzahl n vergangener Schritte, sondern durchgängig in geringerem Maße, je länger der Zug her ist. λ heißt Verfalls-Parameter und gibt an, wie stark die Relevanz einer zurückliegenden Entscheidung nach jedem Zug abnimmt. [0,1]

17 Eligibility Traces Konsequenz: Es wird ein Vektor aus sogenannten eligibility traces geführt. Sie geben an, in welchem Maße jedes Gewicht es gerade verdient (eligible), verändert zu werden, basierend auf aktueller und vergangener Relevanz.

18 Eligibility Traces Die eligibility traces werden nach jedem Zug mit dem Verfalls-Parameter multipliziert und verblassen etwas. Sodann kommen die Relevanzen für den aktuellen Fehler hinzu: e e w Y t

19 Nocheinmal: Die Lernformel Zusammengefasst: w w = Y Y e t 1 t t 1 t t e t = k=1 t t k w Y k e t 1 = e t Y w t

20 Erfolge

21 Splittest du oder slottest du? Seit einer Analyse durch TD-Gammon wird ein Eröffnungszug, der bis dahin als selbstverständlich galt, praktisch nicht mehr gespielt. Wurf: 4/1 weiß ist am Zug

22 Absolute und relative Genauigkeit TD-Gammons Einschätzungen liegen oft um mehr als einen zehntel Punkt daneben. Das macht aber nichts. Offenbar liegen die Einschätzungen benachbarter Züge hinreichend gleich daneben, so dass trotzdem sehr gute Entscheidungen getroffen werden.

23 Würfeln fördert den Lernprozess Weil gewürfelt wird, kommen automatisch sehr verschiedene Spielsituationen zustande. Das ist wichtig bei selbst lernenden Systemen. Sonst könnte es sein, dass bei schlechter Initialisierung große Teile des Positionsraums gar nicht besucht werden. Bei selbst lernenden Dame- und Go-Spielern ist das ein Problem. TD-Gammon hat und braucht keinen weiteren Mechanismus für erforschende Züge.

24 Würfeln fördert den Lernprozess Auch bei zwei dümmstmöglichen Spielern geht das Spiel immer auf sein Ende zu. Die theoretische Value-Funktion ist einigermaßen stetig und glatt. Kleine Veränderungen der Position bewirken kleine Veränderungen der Gewinnchancen. Bei deterministischen Spielen ist die theoretische Value-Funktion diskret. (Gewinne ich, verliere ich, unentschieden)

25 Lineare Eigenschaften TD-Gammon geht ohne den blassesten Dunst einer Ahnung von Backgammon an den Start...und findet sehr schnell heraus, dass es Erfolg versprechend ist, andere Steine zu schlagen eigene Steine zu schützen starke Positionen aufzubauen Diese Dinge nennt man linear features des Backgammon-Spiels, weil man sie durch lineare Funktionen der Position beschreiben kann.

26 Lineare Eigenschaften Man folgert: Neuronale Netze kombiniert mit TD-Learning entdecken sehr schnell den linearen Anteil einer Funktion Trotzdem werden in späteren Versionen von TD- Gammon wieder bestimmte Features per Hand kodiert und als zusätzliche Eingaben an das neuronale Netz gelegt.

27 Das wars!

Ähnliche Dokumente

Learning To Play Chess Using Temporal Differences

Learning To Play Chess Using Temporal Differences Der Vortrag wird von Pham Thi Thu Trang gehalten 17.06.2004 1 Einleitung TD- learning ist zuerst von Samuel (1959) entwickelt und später von Sutton (1988)