TUD Computer Poker Challenge

Ähnliche Dokumente
Strategien bei der Entwicklung und Modellierung von Poker-Agenten

TUD Poker Challenge - Einführung in menschliche Strategien -

Die Karten jeder Farbe bilden vom niedrigsten bis zum höchsten Wert die folgende Reihenfolge:

Generell lassen sich die Gegnertypen in eine Matrix einordnen, die zwischen den Polen tight loose und passiv aggressiv aufgespannt wird.

Poker. Vortrag von Daniel Schreiber. Seminar Knowledge Engineering und Lernen in Spielen, SS04, Prof. Fürnkranz

Die Verteidigung des Big Blind

Eine Range ist ein Bereich von Händen, die ein Spieler zu einem bestimmten Zeitpunkt halten kann.

Pocket Cards (Winning Probabilities) 6.1 Anzahl der Kombinationen Monte Carlo Simulation Ergebnisse 6

3. Das Reinforcement Lernproblem

Online Poker Bot. Inhalt

Die Herkunft des Geldes

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

by PP2000 / 2009 Seite 1

Das Handbuch zu Offiziersskat. Martin Heni Eugene Trounev Korrektur: Mike McBride Deutsche Übersetzung: Maren Pakura

Theorieserie: SNG Silber Software

Reinforcement Learning

Dies ist die entscheidende Erkenntnis, um die es in diesem Buch geht. Nach Abschluss der Lektüre werden Sie verstehen, was genau ich damit meine.

WLAN-Ortung im Projekt MagicMap Referenzpunkteverwaltung

Fragebogen: Abschlussbefragung

All-in Wenn ein Spieler nicht mehr die Möglichkeit besitzt, den gesamten erforderlichen Einsatz zu tätigen, dann ist er «All-in».

Theorieserie: NL Silber Kavalor

Seit einigen Jahren ist Pokern eine richtige Trendbeschäftigung geworden. Man sieht es sowohl im Fernsehen, als auch im Internet.

Fiktives Spiel und Verlustminimierung. Seminarvortrag von Alexander Marinc zur TUD Computer Poker Challenge 2008

Handlungsplanung und Allgemeines Spiel Ausblick: GDL-II. Peter Kissmann

bzw. die Entscheidugen anderer Spieler (teilweise) beobachten Erweitert das Analysespektrum erheblich Beschreibung des Spiels (extensive Form)

2. Spiele. Arten von Spielen. Kombinatorik. Spieler haben festgelegte Handlungsmöglichkeiten, die durch die Spielregeln definiert werden.

Spielerklärung. Poker. Poker

Vom klassischen Spielerruinproblem zu Spiele- Strategien

Einführung Basic Strategy. Blackjack. Das Spiel und die Basic Strategy. Ruwen Hollenbach R. Hollenbach Blackjack

12. Vorlesung. 19. Dezember 2006 Guido Schäfer

Poker Fachbegriffe von deinem Pokercoach Michael Lohmeyer

Opponent Modeling im Poker

Verfeinerungen des Bayesianischen Nash Gleichgewichts

Gewichtung in der Umfragepraxis. Von Tobias Hentze

Deutscher Poker Sportbund e.v.

1. Welche Eigenschaften sollte ein Pseudo-Random Generator haben?

Vier Gewinnt Nicolas Schmidt Matthias Dietsche Bernhard Weiß Benjamin Ruile Datum: Tutor: Prof. Schottenloher Spieltheorie

Intelligente Agenten

Das Softwaresystem BASEMENT

Diese Spielanleitung wird Ihnen präsentiert von:

Das Handbuch zu KReversi. Clay Pradarits Entwickler: Mario Weilguni Korrektur: Lauri Watts Deutsche Übersetzung: Maren Pakura

Kombinatorische Spiele mit Zufallselementen

1.4! Einführung. Systemmodellierung. Methoden und Werkzeuge

Wirtschafts- und Sozialwissenschaftliche Fakultät. der Christian-Albrechts-Universität zu Kiel

SigmaDeWe Risikomanagement

Kapitel 5: Spiele mit simultanen Spielzügen und reinen Strategien: Kontinuierliche Strategien

Klausur zur Vorlesung Spieltheorie

Anfänger für Pokerspieler/in Texas Hold EM

Effiziente Berechnung des ε-nash-equilibriums einer Poker-Variante

14. Algorithmus der Woche Gewinnstrategie für ein Streichholzspiel

Schritt 4. Die Heizkurve im Betrieb optimieren

Anwendungen der Spieltheorie

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron

Würfelspiele und Zufall

Kognitive Basis des defensiven und offensiven Spiels. - Ich habe den Ball / Ich habe den Ball nicht /Ich erobere den Ball /Ich verliere den Ball

Pflichtteilaufgaben zu Stochastik (Pfadregeln, Erwartungswert, Binomialverteilung) Baden-Württemberg

POKER POKER. Das Spiel

Teil 2: Dynamische Spiele mit vollständigen Informationen

Fragenkatalog 2 CAF-Gütesiegel - Fragenkatalog für den CAF-Aktionsplan (Verbesserungsplan)

Offiziersskat. Das Grundspiel - für Anfänger. Das Spielziel. Die Vorbereitung. Das Spiel

Einführung in Heuristische Suche

Dieses Dokument enthält alle Teilaufgaben zur Java-Pflichtaufgabe für das Sommersemester Aufgabe 1 (Vier Gewinnt 1. Teil)

Validierung von System- Architekturen

Exkurs Modelle und Algorithmen

6. Komprimierung. (Text)komprimierung ist ein Wechsel der Repräsentation von Daten, so daß sie weniger

6 Produktqualität Systeme: Integrationstest [sehr stark gekürzt]

Entwurfsmuster und Softwarearchitekturen für sicherheitskritische Systeme

Spieltheorie. Fabian Schmidt Fabian Schmidt Spieltheorie / 46

Einführung von Indiaca in den Schulsport

Motivation. Themenblock: Klassifikation. Binäre Entscheidungsbäume. Ansätze. Praktikum: Data Warehousing und Data Mining.

Hackenbusch und Spieltheorie


Fakultät für Informatik, Universität Ulm

Computersimulation des Qualitätstests

Das Handbuch zu Kiriki. Albert Astals Cid Eugene Trounev Übersetzung: Burkhard Lück

Hypothesentest, ein einfacher Zugang mit Würfeln

Zeit- und Ressourcenplanung leicht gemacht - Unterstützung durch Simulation

Geodaten in Computerspielen. Von Teut Weidemann Vorstand CDV AG

Robuste Abstraktion für Heads Up No Limit Texas Hold em Poker

Neuronale Netze. Anna Wallner. 15. Mai 2007

Radikaler Umbruch in der Fahrzeug- und Systemabsicherung. Steffen Kuhn

2. Spielbäume und Intelligente Spiele

Spieltheorie mit. sozialwissenschaftlichen Anwendungen

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

Durch Zufall zum Dan? Die Monte-Carlo-Baumsuche

Auszug aus der Beschreibung des Swiss-Chess-Programms Buchholzwertung:

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

HP Service Virtualization. Bernd Schindelasch 19. Juni 2013

Modul 5: Service Transition Teil 1

Algorithmen für Computerspiele

Turnier-spielregeln. Ziel des turniers. Vor dem spiel. Eine duellrunde.

Kapitel MK:III. III. Begriffe der Modellierung

Transkript:

TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1

Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing Unberechenbarkeit Gegner-Modellierung 31. März 2008 The Challenge of Poker Björn Heidenreich 2

Pokis Architektur entwickelt an der University of Alberta 31. März 2008 The Challenge of Poker Björn Heidenreich 3

Spielstrategien Pre- und Post-Flop-Strategien unterscheiden sich stark: Vor dem Flop sind nur wenige Informationen bekannt. Post-Flop-Strategien werden durch mehr Faktoren determiniert. 31. März 2008 The Challenge of Poker Björn Heidenreich 4

Pre-Flop-Strategie 1326 Möglichkeiten für die private Hand Berechnung der income-rate mittels roll-out Simulation allways-call assumption Nur relative Gewichtung in der Pre-Flop-Phase kann für verschiedene Spielsituationen simuliert werden Iterierte roll-out Simulation Mehrmalige roll-out Simulation, wobei vorherige Ergebnisse die aktuelle Simulation beeinflussen Realistischere Ergebnisse, da Spieler aus dem Spiel ausscheiden können Simulation so lange, bis sie gegen ein Ergebnis konvergiert weitere Verbesserung durch Noise-Faktor 31. März 2008 The Challenge of Poker Björn Heidenreich 5

Post-Flop-Strategien mögliche simple Strategie: 1. Effective Hand Strength (EHS) von Pokis Hand berechnen 2. EHS in Wahrscheinlichkeitstripel übersetzen 3. Zufallszahl zwischen 0 und 1 generieren und mit ihr die Aktion auswählen EHS Zufallszahl 31. März 2008 The Challenge of Poker Björn Heidenreich 6

Hand Strength (HS) Wahrscheinlichkeit mit der eine Hand besser als die des Gegners ist Zählen der Kartenpaare die besser, gleich gut oder schlechter sind als die eigene Hand Gewichtung mit 1, falls die eigene Hand besser ist 0,5 falls beide gleich gut sind 0, falls die gegnerische Hand besser ist Bei mehreren Gegnern kann die einfache HS mit der Anzahl der Gegner potenziert werden, um die Mehrspieler-HS zu erhalten. 31. März 2008 The Challenge of Poker Björn Heidenreich 7

Hand Potential (HP) Potential der Hand Positive Potential (PPot): Wahrscheinlichkeit, dass eine Hand, welche momentan nicht vorne liegt, im Showdown gewinnt Negative Potential (NPot): Wahrscheinlichkeit, dass eine momentan führende Hand im Showdown verliert 31. März 2008 The Challenge of Poker Björn Heidenreich 8

Effective Hand Strength Kombiniert Hand Strength und Hand Potential P(Gewinn) = HS (1 - NPot) + (1 HS) PPot NPot = 0 EHS = HS + (1 HS) PPot Mehrere Gegner EHS i = HS i + (1 HS i ) PPot i 31. März 2008 The Challenge of Poker Björn Heidenreich 9

Weight Tables Bisherige Berechnung von HS und HP geht davon aus, dass Kombinationen von Kartenpaaren gleich wahrscheinlich sind. Die Wahrscheinlichkeit, dass ein Gegner nach dem Flop Ass und König auf der Hand hat, ist größer, als dass er eine sieben und eine zwei besitzt; da die meisten Spieler mit sieben und zwei vor dem Flop folden würden. Einführung von weight tables, welche die Wahrscheinlichkeiten der Kartenpaare zu einem Zeitpunkt des Spiels beinhalten: Gewicht zwischen 0 und 1 Gewichtung mit 1 am Anfang Werden die Kartenpaare im Laufe des Spiels unmöglich, wird das Gewicht auf 0 gesetzt. Laufende Anpassung der Gewichte 31. März 2008 The Challenge of Poker Björn Heidenreich 10

Wahrscheinlichkeits-Tripel Wahrscheinlichkeit für Fold, Call und Raise P = {P(fold), P(call), P(raise)} P(fold) + P(call) + P(raise) = 1 Tripel 31. März 2008 The Challenge of Poker Björn Heidenreich 11

Simulation Die Simulation ersetzt bei Poki den Action Selector Simulator 31. März 2008 The Challenge of Poker Björn Heidenreich 12

Simulations-basierte Strategien Poker ist sehr komplex und Entscheidungen müssen im jeweiligen Kontext getroffen werden. Man benötigt dynamische, adaptive Techniken. Verwendung eines Simulators jedesmal wenn eine Entscheidung getroffen werden muss. Simulation vieler Szenarien und Berechnung, wieviel Geld gewonnen oder verloren wird: Vom aktuellen Kontext ausgehend werden verschiedene Alternativen bis zum Ende simuliert. Jede Runde wird zwei Mal simuliert um die Konsequenzen von check oder call und bet oder raise zu simulieren. Die gegnerischen Karten werden hierbei entsprechend der weight table angenommen. 31. März 2008 The Challenge of Poker Björn Heidenreich 13

Simulations-basierte Strategien Aktuelle Implementierung von Poki wählt die Aktion mit der höchsten Gewinnerwartung aus. Bei gleicher Gewinnerwartung wird die aggressivere gewählt. Steigerung der Unvorhersehbarkeit des Programms bspw. durch zufällige Auswahl der Aktion bei ähnlich hohe Gewinnerwartungen. Problem: Aufgrund der Komplexität können nicht alle Kartenverteilungen und Aktionen der Gegner simuliert werden. Lösung: Verwendung einer Gegner-Modellierung, um dessen Aktionen vorhersagen zu können. 31. März 2008 The Challenge of Poker Björn Heidenreich 14

Gegner-Modellierung Gegner-Modellierung ist nötig, um dessen Schwächen identifizieren und ausnutzen zu können. Da jeder Gegner andere Strategien benutzt und diese gegebenenfalls im Laufe des Spiels wechselt, muss diese Modellierung adaptiv erfolgen. Gegner- Modellierung 31. März 2008 The Challenge of Poker Björn Heidenreich 15

Statistisch-basierte Gegner-Modellierung generic opponent modeling: Unterstellung der eigenen Spielstrategie specific opponent modeling: vergangenes Verhalten des Spielers wird unterstellt Beispiel: Gegner macht in 40% der Fälle direkt nach dem Flop seinen Einsatz. Es lässt sich annehmen, dass er in dieser Spielsituation mit den Top 40% der Kartenpaare einen Bet ausführt. Problematik: Wird der Kontext zu weit definiert, so lernt das System vielleicht nicht alle wichtigen Aspekte des Gegners. Wird er zu eng definiert, so lernt das System nur sehr langsam und manches vielleicht überhaupt nicht, da die zu lernenden Situationen zu selten auftreten. 31. März 2008 The Challenge of Poker Björn Heidenreich 16

Gegner-Modellierung mittels neuronalen Netzen Poki implementiert ein neuronales Netz zur Vorhersage der gegnerischen Aktionen. Input: Eigenschaften des Spiel-Kontexts, welche sich auf die Spieler- Entscheidungen auswirken können oder mit ihnen korreliert sind Output: drei Knoten, welche für fold, call und raise stehen Manche Input-Knoten sind dominant, andere spielen nur eine kleine Rolle. Messung der Vorhersagegenauigkeit mittels cross-validation der realen Spielzüge. Man erhält so eine relativ kleine Klasse an wichtigen Faktoren, welche die statistische Gegner-Modellierung signikant verbessert. 31. März 2008 The Challenge of Poker Björn Heidenreich 17

Performance Evaluation Poki ist ein komplexes System, wo kleine Änderungen große Auswirkungen haben können. Vergleich der Software schwer, da Glück eine große Rolle spielt. Adaptive Systeme, welche sich auf die Gegner einstellen. Neue Software-Features lassen sich testen, indem man die Software gegen ihre alte Version spielen lässt. Software kann verschiedenartigste Spielstile nicht abdecken, daher besser gegen menschliche Gegner spielen lassen. Ein gutes Resultat kann dann allerdings darin begründet liegen, dass nur gegen schwache Gegner gespielt wird. 31. März 2008 The Challenge of Poker Björn Heidenreich 18

Fazit Poker ist ein komplexes Spiel mit vielen Anforderungen. Um erfolgreich zu sein, müssen die Aktionen des Spielers einerseits unvorhersagbar sein, andererseits müssen die gegnerischen Aktionen jedoch bestmöglich vorhergesagt werden. Bei der Entwicklung von Poki wurde eine zyklische Vorgehensweise benutzt. Eine Komponente wurde so lange verbessert, bis eine andere den Performanzengpass darstellte. Es ist möglich umfangreiche Daten über seine Gegner zu sammeln. Das Problem besteht darin, diese auszuwerten und die nützlichen Features zu finden. Momentan besteht in diesem Bereich noch viel Forschungsbedarf. 31. März 2008 The Challenge of Poker Björn Heidenreich 19

Ende Für Fragen stehe ich gerne zur Verfügung. 31. März 2008 The Challenge of Poker Björn Heidenreich 20