Die Reiz-Phase im Bridge

Ähnliche Dokumente
Die Anschrift und das Prämiensystem

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

Gedanken zum ersten Ausspiel

AS Path-Prepending in the Internet And Its Impact on Routing Decisions

Challenges for the future between extern and intern evaluation

1 Grundlagen 1 GRUNDLAGEN

Notice: All mentioned inventors have to sign the Report of Invention (see page 3)!!!

Teamturnier. Kapitel 1: Was ist so schön am Teamspiel? Kapitel 2: Worauf muss man beim Teamspiel achten? Kapitel 3: Bewertung und Spielbeispiele.

F = Figurenpunkte. FL = Figurenlängenpunkte. FV = Figurenverteilungspunkte by Lorke DE Telgte Nachdruck verboten ZUR INHALTSÜBERSICHT 1

Produktinformation _182PNdeen

Die Regeln des Rok-Spiels

Nützliche Konventionen 1

ISO Reference Model

CABLE TESTER. Manual DN-14003

Einkommensaufbau mit FFI:

ETHISCHES ARGUMENTIEREN IN DER SCHULE: GESELLSCHAFTLICHE, PSYCHOLOGISCHE UND PHILOSOPHISCHE GRUNDLAGEN UND DIDAKTISCHE ANSTZE (GERMAN

Vermessene Wissenschaft. Etablierte und alternative Ansätze der Bibliometrie

WP2. Communication and Dissemination. Wirtschafts- und Wissenschaftsförderung im Freistaat Thüringen

Extended Ordered Paired Comparison Models An Application to the Data from Bundesliga Season 2013/14

Bridge Basiskurs Lektion 5:

Die wichtigsten Regeln

Critical Chain and Scrum

Geometrie und Bedeutung: Kap 5

Die Eröffnung 3 in Farbe

HIR Method & Tools for Fit Gap analysis

by

USBASIC SAFETY IN NUMBERS

Dialogue: Herr Kruse talks to Herr Meyer about his regular trips to Berlin: Das geht sehr schnell! Es dauert nur etwa 3 Stunden.

AutoSPARQL. Let Users Query Your Knowledge Base

p^db=`oj===pìééçêíáåñçêã~íáçå=

Listening Comprehension: Talking about language learning

19 Gegenreizung 1. Grundsätze der Gegenreizung 19 GEGENREIZUNG 1

B I N G O DIE SCHULE. Bingo card: Classroom Items abcteach.com

FORTUNA Bulb Pipettes Vollpipetten

GRIPS - GIS basiertes Risikoanalyse-, Informations- und Planungssystem

Inequality Utilitarian and Capabilities Perspectives (and what they may imply for public health)

Handlungsplanung und Allgemeines Spiel Ausblick: GDL-II. Peter Kissmann

Produktvielfalt Variety of Products

Which data and when?

Künstliche Intelligenz

Wie wird grenzüberschreitende Gesundheitsversorgung bezahlt?? Brigitte van der Zanden Healthacross, 14 Dezember 2010

Proseminar - Organisation und Personal Seminar Organisational Theory and Human Resource Management

TomTom WEBFLEET Tachograph

Description of version PASO MD2

CHAMPIONS Communication and Dissemination

facebook.com/asmadigames

Personalpronomen und das Verb to be

Klausur Verteilte Systeme

Statistische Verfahren in der Künstlichen Intelligenz, Bayesische Netze

Aufnahmeuntersuchung für Koi

11 EN Page 1 of 2 Standard: INTERPRETATION RELATED TO. Clause(s):

Mit Legacy-Systemen in die Zukunft. adviion. in die Zukunft. Dr. Roland Schätzle

Fluid-Particle Multiphase Flow Simulations for the Study of Sand Infiltration into Immobile Gravel-Beds

Bewertung des Blattes

Correspondence between initialisation table and Common Criteria Evaluation

Bilderschienen picture rails. Bilderschienen

2 und d > 1 Punkt im Kreis

Zertifikate: Nutzen für wen?

FORTUNA Burettes Büretten

Mathematics (M4) (English version) ORIENTIERUNGSARBEIT (OA 11) Gymnasium. Code-Nr.:

Eine Analyse des Effektes von Lernen auf Populationsfitness und Diversität in einer NK-Fitnesslandschaft. Lars Melchior

Fundamentals of Electrical Engineering 1 Grundlagen der Elektrotechnik 1

Test Report No.: Prüfbericht - Nr.: Client: Auftraggeber:

Darstellung und Anwendung der Assessmentergebnisse

Can a New Standardised Cost- Benefit-Analysis Tool Push Cycling Projects and Promotion of Cycling Projects to a new level?

HTW IMI-B Informatik 1 Kara Worksheet 2 Seite: 1. Variables to store a true/false state: boolean movingright = true;

Zubehör für mehrpolige Steckverbinder

Franke & Bornberg award AachenMünchener private annuity insurance schemes top grades

The English Tenses Die englischen Zeitformen

Field Librarianship in den USA

1 Nach den Buchern von Michel Lebel: Super Majeure Cinquieme, zusammengestellt von Paul Jourdy und Pascal

How does the Institute for quality and efficiency in health care work?

Lehrstuhl für Allgemeine BWL Strategisches und Internationales Management Prof. Dr. Mike Geppert Carl-Zeiß-Str Jena

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

l=var Einseitig Die Leuchte Void hat eine Lichtaustrittsfläche

Der Adapter Z250I / Z270I lässt sich auf folgenden Betriebssystemen installieren:

Software vergleichen. Andrea Herrmann Fachgruppentreffen RE

Correlational analysis

FIVNAT-CH. Annual report 2002

Restschmutzanalyse Residual Dirt Analysis

ISO Reference Model

1.9 Dynamic loading: τ ty : torsion yield stress (torsion) τ sy : shear yield stress (shear) In the last lectures only static loadings are considered

Level 1 German, 2012

Read Mapping Projektmanagement im So3warebereich SeqAn

Level 2 German, 2013

(Prüfungs-)Aufgaben zum Thema Scheduling

Algorithms & Datastructures Midterm Test 1

Christof Hertel & Merja Spott Pilot Project: Cycle Logistics at Big Events The German Protestant Churchday Hamburg 2013

Corporate Digital Learning, How to Get It Right. Learning Café

2 German sentence: write your English translation before looking at p. 3

The process runs automatically and the user is guided through it. Data acquisition and the evaluation are done automatically.

Die Datenmanipulationssprache SQL

Kurzanleitung um Transponder mit einem scemtec TT Reader und der Software UniDemo zu lesen

Theoretische Informatik 1

Infoblatt: Hochschulsport

Symbio system requirements. Version 5.1

WAS IST DER KOMPARATIV: = The comparative

The poetry of school.

Transkript:

Die Reiz-Phase im Bridge Learning to bid in bridge von Asaf Amit und Shaul Markovitch (2006) Vortrag von Patrick Metzler 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 1

Übersicht Bieten in Bridge Regeln Probleme für Algorithmen Algorithmus von Amit und Markovitch: BIDI Übersicht über die verwendeten Methoden Entscheidungsfindung zufällige Zustände generieren Strategie-Funktion Nutzen-Funktion Evaluation von BIDI 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 2

Reizung Ansage Gebot Kontra des letzten Gebots Rekontra des letzten Kontras Pass Bridge Base Online 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 3

Ansagen Gebot Anzahl der Stiche minus 6 und Trumpf oder ohne Trumpf (NT) Kontra Kann nur auf ein gegnerisches Gebot folgen. Erhöt die Punkte der Gegner (Gewinn) bzw. die Eigenen Punkte (Verlust). Rekontra Kann nur auf ein gegnerisches Kontra folgen. Pass Das letzte Gebot ändert sich nicht. 1 1 1 1 1NT 7 Stiche 2 2 2 2 2NT 8 Stiche 3 3 3 3 3NT 9 Stiche 4 4 4 4 4NT 10 Stiche 5 5 5 5 5NT 11 Stiche 6 6 6 6 6NT 12 Stiche 7 7 7 7 7NT 13 Stiche Wikipedia 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 4

Bietsysteme (Kommunikation über Ansagen) Jede Ansage gibt dem Mitspieler Informationen über die eigene Hand: Figurenpunkte (HCP) Losing-Trick-Count Längen der Farben Regeln (z.b. Eröffnungsgebote abhängig von Figurenpunkten): 13-14 HCP: biete 1 in einer Farbe, danach 1NT 18-19 HCP: biete 1 in einer Farbe, danach 2NT 22-24 HCP: biete 2, danach 2NT 28-30 HCP: biete 2, danach 3NT 31-32 HCP: biete 2, danach 4NT Wikipedia 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 5

Wertung Anzahl der gewonnenen Stiche entscheidet über Gewinn/Verlust. Punkte setzten sich zusammen aus: Stichpunkte Prämien Höhe ist abhängig von der Art des Kontrakts. Prämien nicht in Gefahr Gewinn eines Teilkontraktes 50 50 Gewinn eines Vollspiels 300 500 Gewinn eines Kleinschlemms 500 750 in Gefahr Gewinn eines Großschlemms 1000 1500 Gewinn eines beliebigen kontrierten Kontrakts Gewinn eines beliebigen rekontrierten Kontrakts für jeden Überstich in einem kontrierten Kontrakt für jeden Überstich in einem rekontrierten Kontrakt 50 50 100 100 100 200 200 400 Wikipedia 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 6

Komplexität ca. 20 bis 30 mögliche Ansagen (es gibt insgesamt 38 Ansagen) 52 13 6.35 1011 mögliche Hände 39 13 26 13 8.45 1016 Möglichkeiten, eine Hand zu vier Händen zu erweitern 52 13 39 13 26 13 5.36 1028 mögliche Kartenverteilungen 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 7

Wahl des nächsten Zuges Rückschlüsse auf die Karten der anderen Spieler nur durch Verlauf der Ansagen möglich Bietsysteme bieten eine gute Grundlage, um eine Entscheidung zu treffen. Aber: Bietsysteme sind mehrdeutig und unvollständig. Evaluation während der Reizung schwierig Versuch mit einem regelbasierten System in Kombination mit vorausschauender Suche 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 8

Übersicht Bieten in Bridge Regeln Probleme für Algorithmen Algorithmus von Amit und Markovitch: BIDI Übersicht über die verwendeten Methoden Entscheidungsfindung zufällige Zustände generieren Strategie-Funktion Nutzen-Funktion Evaluation von BIDI 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 9

BIDI: Übersicht Spieler A Unvollständige Information Monte Carlo Sampling Strategie-Funktion Nutzen-Funktion Gegner-Modellierung, Partner-Modellierung Jeder Spieler besitzt Modelle der anderen Spieler limitierte Ressourcen aufgeteilt in: Sampling Suche bei eigenen Entscheidungen Suche bei fremden Entscheidungen Spieler B Strategie-Funktion Nutzen-Funktion Spieler C Strategie-Funktion Nutzen-Funktion Spieler D Strategie-Funktion Nutzen-Funktion 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 10

BIDI: Entscheidungsfindung zufällige Zustände generieren zufällige Zustände generieren Strategie-Funktion Vorausschauende Suche Strategie-Funktion Nutzen-Funktion Amit / Markovitch (2006) Suche Nutzen-Funktion 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 11

BIDI: zufällige Zustände generieren feste Anzahl zufälliger Zustände wird generiert so lange noch Ressourcen: ersetzte schlechtesten Zustand durch besseren Bewertung der Zustände durch Strategie-Funktionen der Spieler Zustand Kartenverteilung Ansage Ansage Strategiefunktion Ansage Ansage Ansage Ansage Ansage? 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 12

BIDI: Strategie-Funktion Darstellung als Entscheidungsnetzwerk Liefert zu einem Zustand eine Menge an sinnvollen Ansagen Klassifizierung der Zustände durch ca. 250 Eigenschaften Knoten: Menge an Zuständen Menge an Ansage Kanten: Verfeinerung 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 13

BIDI: Lernen der Strategie- Funktion Ziel: jedem Zustand so wenig Ansagen wie möglich zuordnen Vorgehen: Offline-Lernen Basiswissen: (regelbasiertes) Bietsystem zufällige Zustände generieren optimale Ansagen finden Verfeinerung des Netzwerks Entscheidungsnetzwerk 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 14

BIDI: Entscheidungsnetzwerk verfeinern zufällige Zustände generieren Interessante Zustände priorisieren optimale Ansagen finden Entscheidungsfindung durch aktuelle Strategie-Funktion und Suche (Speedup-Lernen) Netzwerk verfeinern kleinere Zustands-Mengen kleinere Ansagen-Mengen 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 15

BIDI: kooperatives Lernen jeder Partner hat Modelle des anderen paralleles Lernen Nach jedem Schritt: Austausch der Modelle Amit / Markovitch (2006) 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 16

BIDI: Nutzen-Funktion gibt zu erwartende Punktezahl zurück Losing-Trick-Count- Methode: Abschätzung der gewonnenen Stiche Handkarten Anzahl zu erwartender Stiche Vergleich mit dem Kontrakt nur sinnvol nach abgeschlossener Reizung 18 (7 + 0 + 2 + 1 + 3) = 5 Bridge Base Online 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 17

Übersicht Bieten in Bridge Regeln Probleme für Algorithmen Algorithmus von Amit und Markovitch: BIDI Übersicht über die verwendeten Methoden Entscheidungsfindung zufällige Zustände generieren Strategie-Funktion Nutzen-Funktion Evaluation von BIDI 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 18

Evaluation: Verfahren IMP (International Match Points): Vergleich von Gegnern Referenz Punktzahl nötig bidding challenge Reizung ohne Spielphase ohne Gegner Referenz-Punktzahl approximiert (LTC) oder aus der Literatur Punktzahldifferenz IMPs von bis von bis von bis 0 10 0 370 420 9 1750 1990 18 20 40 1 430 490 10 2000 2240 19 50 80 2 500 590 11 2250 2490 20 90 120 3 600 740 12 2500 2990 21 130 160 4 750 890 13 3000 3490 22 170 210 5 900 1090 14 3500 3990 23 220 260 6 1100 1290 15 4000 or more 24 270 310 7 1300 1490 16 320 360 8 1500 1740 17 Wikipedia 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 19

Evaluation: Verfahren durchgeführte Tests: Lernen nach jedem Verfeinerungsschritt: bidding challenge (automatisch) nach dem Lernen: Spiele gegen GIB (manuell) Team BIDI/BIDI gegen Team GIB/GIB Lernen mit Test der Parameter 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 20

Evaluation: BIDI gegen GIB zwei Tische (mit den selben Karten): 1. Tisch: BIDI N/S, GIB W/O 2. Tisch: BIDI W/O, GIB N/S nach der Reizung: automatisches Spiel durch GIB (für alle vier Spieler) 48 Runden Ergebnis: BIDI: 103 IMP GIB: 84 IMP 0.4 IMP pro Runde 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 21

Evaluation: Lernen Lernen Pool an 2000 zufälligen Zuständen Priorisierung: Zustände, die viel Rechenzeit benötigen Referenz-Ansage finden 5 Sekunden Sample-Größe 10 bidding challenge nach jedem Schritt 100 zufällige Kartenverteilungen Kartenverteilungen aus der Literatur Amit / Markovitch (2006) 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 22

Evaluation: Lernen Amit / Markovitch (2006) weniger Aufrufe der Suche, dadurch: weniger Zustände mit maximaler Fehlerzahl weniger Zustände generiert: Einsparung von Ressourcen 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 23

Evaluation: Nutzen-Funktion gestrichelt: beide Partner mit LTC durchgezogen: eigene Nutzen-Funktion: LTC Partner-Nutzen-Funktion: vereinfachtes LTC (mit Figurenpunkten) kein Vergleich mit simulierter Spielphase Amit / Markovitch (2006) 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 24

Quellen Asaf Amit und Shaul Markovitch: Learning to bid in bridge (2006) Stuart Russel und Peter Norvig: Artificial Intelligence Wikipedia: Contract Bridge Bidding system 2/1 game forcing 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 25

Anhang: Evaluation Lernen verringert Aufrufe der Suche neue Knoten im Entscheidungsnetzwerk werden benutzt 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 26

Anhang: Evaluation 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 27

Anhang: Evaluation 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 28

Anhang: Evaluation 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 29

Anhang: Evaluation 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 30

Anhang: Entscheidungsnetzwerk (Attribute) A.1. Attribute Classes for Evaluating High Cards Attribute Description HCPA The weighted count of High Card Points where A = 4; K = 3; Q = 2 & J = 1. Range is [0, 10] for each suit and [0, 37] for the whole hand CONTROLSA The weighted count of aces and kings: A = 2 & K = 1. Range is [0, 3] for each suit and [0, 12] for the hand HCA The count of aces, kings and queens. Range is [0, 3] for a single suit and [0, 12] for the hand. HONORA The count of cards higher than 9. Range is [0, 5] for a single suit and [0, 13] for the hand. ACEA The count of aces. Ranges are [0, 1] and [0, 4]. KINGA The count of kings. Ranges are [0, 1] and [0, 4]. QUEENA The count of queens. Ranges are [0, 1] and [0, 4]. JACKA The count of jacks. Ranges are [0, 1] and [0, 4]. TENA The count of tens. Ranges are [0, 1] and [0, 4]. RKCBS The count of aces in the whole hand the count of kings in the suit. Range is [0, 5]. A.2. Attributes for Evaluating the Distribution of the Hand Attribute Description BAL How balanced is the hand? (0 = balanced-6 = freak) DPTA Points for short non-trump suits. 1 point for each doubleton, 2 points for each singleton and 3 points for void. Ranges are [0, 3] and [0, 9]. DIF2S The difference in length between 2 suits. Range is [ 13, 13]. SUITS The number of suits that are longer than 3. Range is [1, 3]. SUITLENS The length of the suit. [0, 13]. SUITLEN2S The total length of the two suits. [0, 13]. LMAJ The length of the longer major suit. [0, 13]. LMIN The length of the longer minor suit. [0, 13]. LONGESTS Is the suit the longest in the hand? [0, 1]. LONGS Is the suit not shortest in the hand? [0, 1]. FIRSTBIDS Is the suit appropriate for opening in 5M system? [0, 1]. UPLINE2S Is it appropriate to bid s1 when the last bid suit is s2? [0, 1]. A.3. Attributes for Evaluating the Quality of the Suits Attribute Description BIDDBLES The number of times we can bid the suit throughout the auction. [0, 8]. INTERA The weighted count of the intermediate cards (T = 2, 9 = 1, 8 = 0.5). Ranges are [0, 3.5] for a suit and [0, 14] for the hand. LOSERSTA Expected number of losers in s2 (a suit or the hand) when s1 is played as trump. Ranges: [0, 3] and [0, 12]. STOP-NTS Stopper quality of the suit when playing in NT. [0 = no stopper - 4 = double stopper]. STOP-TRUMPTS Stopper quality of the s2 when playing with trump s1. [0 = no stopper - 4 = double stopper]. QLTYS A general quality assessment of the suit [0 = bad - 9 = excellent]. A.4. Attributes for Evaluating the Quality of the Hand Attribute Description NTLP Lindelöf points (Lindelöf, 1983) for the purpose of NT playing. RATIO The ratio between the sum of HCP of the two longest suits and the total HCP of the whole hand. [0, 1]. POINTSTA HCPTA + DPTA. UNLOSS Estimated number of losers in the hand without partner support for the longest suit. A.5. Dynamic Attributes Attribute Description COVERTA Estimated number of cover cards in s2 when s1 is played as trump. [0-13]. FASTT* A Estimated number of fast losers (that can be cashed by the opponent) in s2 when s1 is played as trump. LP Lindelöf points. 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 31

Anhang: Entscheidungsnetzwerk Entscheidungsnetzwerk der Strategie-Funkiton 29.06.2010 Fachbereich Informatik Seminar Knowledge Engineering und Lernen in Spielen Patrick Metzler 32