Entwicklung einer KI für Skat. Hauptseminar Erwin Lang

Größe: px

Ab Seite anzeigen:

Download "Entwicklung einer KI für Skat. Hauptseminar Erwin Lang"

Axel Hauer
vor 6 Jahren
Abrufe

1 Entwicklung einer KI für Skat Hauptseminar Erwin Lang

2 Inhalt Skat Forschung Eigene Arbeit Risikoanalyse

3 Skat Entwickelte sich Anfang des 19. Jahrhunderts Kartenspiel mit Blatt aus 32 Karten 3 Spieler Trick-taking game Hauptsächlich in Deutschland verbreitet Ähnlichkeit zu Bridge

4 Skat [Bildquelle:

5 Skat Unvollständige Informationen Zufall Diverse Spielvarianten Immenser Zustandsraum Spielphasen Spieler-rollen

6 Forschung Skatspieler Kermit Vollständige Umsetzung Vereint diverse Ansätze Supervised Learning Modell Tree Search Selektion und Inferenz [ijcai2009]

7 Forschung Imperfekte Information Testdaten Approximationsfunktion Perfekte Information Herleiten von Welten Suche [ijcai2009]

8 Forschung [ijcai2009]

9 Forschung Abstraction Selection Reinforcement Learning Idee: Auswahl und Wechsel eines Modells Viele Durchläufe => feine Abstraktion Wenige Durchläufe => grobe Abstraktion [vanseijen2014]

10 Forschung Markov Prozess wird vorausgesetzt (S,A,P,R,γ) Abstraktion z.b. durch Features Wechseln von Abstraktion wird als interne Aktion modelliert Lernproblem [vanseijen2014]

11 Forschung [vanseijen2014]

12 Forschung AlphaGo Spielt Go auf Expertenlevel Kombiniert neuronale Netze mit RL Lerndaten [silver et al., 2016]

13 Forschung [silver et al., 2016]

14 Forschung [silver et al., 2016]

15 Wo stehe ich? Skat mit aktuellen Ansätzen

16 Eigene Arbeit Vision Neuartigen Ansatz für Skat finden Umsetzung einer KI für das vollständige Spiel Entwicklung eines aussagekräftigen Testszenarios Stand Grundprojekt abgeschlossen

17 Eigene Arbeit Infrastruktur für Implementierung Recherche von Ansätzen Implementierung Vergleich

19 Eigene Arbeit Support Vector Machines Alpha Beta Pruning Temporal Difference Learning Monte Carlo Ansätze

20 Eigene Arbeit

21 Eigene Arbeit [Browne und Powley 2012]

22 Eigene Arbeit Implementierung in eingeschränktem Szenario Kein Reizen Nur der Alleinspieler wird simuliert Spielvarianten werden nicht explizit betrachtet

23 Eigene Arbeit 90 Tests für jeden Ansatz mit wachsender Simulationszahl Alle Ansätze besser als zufälliges Spielen Monte Carlo Reinforcement Learning lieferte die besten Ergebnisse

24 Eigene Arbeit Analytische Arbeit Formale Bewertung von Methoden Modell Laufzeit Kombinierbarkeit Praktische Umsetzung Ggf. Referenzimplementierung

25 Eigene Arbeit Grundlagen Skat formal beschreiben Analyse Entwurf auf Basis des Hauptprojekts

26 Eigene Arbeit Realisierung Test Testszenario Tests durchführen

27 Risikoanalyse Zeitliche Rahmen wird gesprengt Kein guter Ansatz wird gefunden Performance erlaubt keine umfangreichen Tests Fehler in der Umsetzung führen zu falschen/schlechten Ergebnissen Ansatz stellt sich als nicht gut heraus

28 Quellen [ijcai2009] Buro, M.; Long, J. R.; Furtak, T. & Sturtevant, N. R. (2009), Improving State Evaluation, Inference, and Search in Trick-Based Card Games., in Craig Boutilier, ed., 'IJCAI', pp [vanseijen2014] van Seijen, H.; Whiteson, S. & Kester, L. J. H. M. (2014), 'Efficient Abstraction Selection in Reinforcement Learning.', Computational Intelligence 30 (4), [silver et al., 2016] Mastering the game of Go with deep neural networks and tree search Nature, Vol. 529, No (27 January 2016), pp , doi: /nature16961 by David Silver, Aja Huang, Chris J. Maddison, et al.

29 Quellen [Sutton und Barto 1998] Sutton, Richard S. ; Barto, Andrew G.: Introduction to Reinforcement Learning. 1st. Cambridge, MA, USA : MIT Press, ISBN [Browne und Powley 2012] Browne, Cb ; Powley, Edward: A survey of monte carlo tree search methods. In: Intelligence and AI 4 (2012), Nr. 1, S URL arnumber= ISSN X [Hearst 1998] Hearst, Marti A.: Support Vector Machines. In: IEEE Intelligent Systems 13 (1998), Juli, Nr. 4, S URL ISSN [Knuth und Moore 1975] Knuth, Donald E. ; Moore, Ronald W.: An Analysis of Alpha-Beta Pruning. In: Artif. Intell. 6 (1975), Nr. 4, S URL

Ähnliche Dokumente

Reinforcement-Learning

Reinforcement-Learning Vortrag von: Fabien Lapok Betreuer: Prof. Dr. Meisel 1 Agenda Motivation Überblick und Probleme von RL Aktuelle Forschung Mein Vorgehen Konferenzen und Quellen 2 Reinforcement Learning