Spieltheorie. Nash-Gleichgewichts-Berechnung. Bernhard Nebel und Robert Mattmüller. Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14.

Ähnliche Dokumente
Algorithmen. Spieltheorie. Nash-Gleichgewichte in endlichen Nullsummenspielen. Kodierung als Lineares Programm. Nash-Gleichgewichts-Berechnung

Spieltheorie. Prof. Dr. Bernhard Nebel

Kapitel 4: Gemischte Strategien. Literatur: Tadelis Chapter 6

Optimierung. Optimierung. Vorlesung 7 Lineare Programmierung II Thomas Brox, Fabian Kuhn

Algorithmische Spieltheorie. Martin Gairing

Spieltheorie. Prof. Dr. Bernhard Nebel. Sommersemester 2009

VORLESUNG 14 Lineare Optimierung, Dualität (Viele Folien nach Ulf Lorenz, jetzt TU Darmstadt)

Kapitel 4: Gemischte Strategien

Vorlesung: Nicht-kooperative Spieltheorie. Teil 2: Spiele in Normalform

2. Vorlesung. 1.3 Beste-Antwort Funktion. Vorlesung: Einführung in die Spieltheorie WS 2006/ Oktober 2006 Guido Schäfer

Das Lagrange-duale Problem

Grundlagen der Theoretischen Informatik

NICHTKOOPERATIVE SPIELTHEORIE EINFÜHRUNG. Minimaxlösungen & Gleichgewichte

Vorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele

Kapitel 5. Peter Becker (H-BRS) Operations Research I Sommersemester / 298

Vorlesung: Nicht-kooperative Spieltheorie. Teil 2: Spiele in Normalform

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Rational Choice Theory

Nicht-kooperative Spiele

Grundlagen der Theoretischen Informatik

Dualitätssätze der linearen Optimierung

2. Spezielle anwendungsrelevante Funktionen

Grundlagen und Nash Gleichgewichte in reinen Strategien

a 0, a 1, a 2, a 3,... Dabei stehen die drei Pünktchen für unendlich oft so weiter.

Spieltheorie. Vorlesung: Prof. Nebel Assistent: Malte Helmert L A TEX-Umsetzung: Ingo Thon {nebel helmert thon}(äffchen)informatik.uni-freiburg.

Graphische Spiele. M i (p) M i (p[i : p i]) M i (p) + ε M i (p[i : p i])

Spieltheorie. Gemischte, korrelierte und evolutionäre Gleichgewichte

5 Zwei spieltheoretische Aspekte

Einführung in die Spieltheorie

Wir wollen nun die Behauptung beweisen, dass die Laufzeit von SELECT linear ist, also dass T (n) = O(n) gilt.

Effiziente Algorithmen Lineares Programmieren 216. Schwache Dualität

Braess-Paradoxon und der Preis der Anarchie

Nash-Gleichgewichte in 2-Spieler Systemen. Katharina Klost Freie Universität Berlin

6 Korrektheit des Simplexalgorithmus

2 Die Dimension eines Vektorraums

Erfüllbarkeit und Allgemeingültigkeit

Invertieren von Potenzreihen

Lösung allgemeiner linearer Programme

Lösungsmenge L I = {x R 3x + 5 = 9} = L II = {x R 3x = 4} = L III = { }

VORLESUNG 12 Lineare Optimierung (Viele Folien nach Ulf Lorenz, jetzt TU Darmstadt)

Stackelberg Scheduling Strategien

Reguläre Sprachen. R. Stiebe: Theoretische Informatik für ING-IF und Lehrer,

4. ggt und kgv. Chr.Nelius: Zahlentheorie (SS 2007) 9

Übersicht: 6.1 Einleitung 6.2 Klassische Theorie nichtkooperativer Spiele 6.3 Egoistisches Routing 6.4 Mechanismen-Entwurf 6.

Vorlesung 2: Erwartungsnutzen

Optimierung für Wirtschaftsinformatiker: Lineare Programme

Übungsblatt 6. Vorlesung Theoretische Grundlagen der Informatik im WS 17/18

Spieltheorie Übungsblatt 5

Schnittebenenverfahren für das symmetrische

Seminar: Randomisierte Algorithmen Auswerten von Spielbäumen Nele Küsener

f(x) = x f 1 (x) = x. Aufgabe 2. Welche der folgenden Funktionen sind injektiv, surjektiv, bijektiv?

Kapitel 9: Lineare Programmierung Gliederung

4 Differenzierbarkeit einer konjugierten Funktion

5 Quadriken. K = { R 2 ax 2 + bxy + cy 2 + dx + ey + f = 0} wobei a, b, c, d, e, f reelle Zahlen sind mit (a, b, c) (0, 0, 0).

3. Grundlagen der Linearen Programmierung

Die Lagrange - duale Optimierungsaufgabe und ihre geometrische Interpretation

Kapitel 6: Das quadratische Reziprozitätsgesetz

Definition 77 Sei n N. Der Median (das mittlere Element) einer total geordneten Menge von n Elementen ist deren i-kleinstes Element, wobei n i =.

Zahlentheorie I. smo osm. Thomas Huber. Inhaltsverzeichnis. Aktualisiert: 1. August 2016 vers Teilbarkeit 2.

Lösungen zu Aufgabenblatt 6

Algorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck

Spieltheorie. Prof. Dr. Bernhard Nebel. Assistent: Dipl.-Inf. Malte Helmert L A TEX-Umsetzung: Ingo Thon

Musterlösung der Hauptklausur zur Vorlesung Theoretische Grundlagen der Informatik Wintersemester 2012/13

Wann sind Codes eindeutig entschlüsselbar?

Dynamische Spiele mit unvollständiger Information. Perfektes Bayesianisches Gleichgewicht

4 Der Gauß Algorithmus

Einführung in die Spieltheorie

1 Lineare Optimierung, Simplex-Verfahren

Theoretische Grundlagen der Informatik

Grundlagen der Theoretischen Informatik

Übungsblatt 6 Lösungsvorschläge

Lösungsvorschlag zur Modulprüfung Numerische Methoden Sommersemester 2016

Lineare Abbildungen und Orthonormalsysteme

Kapitel III Ringe und Körper

Optimierung. Optimierung. Vorlesung 8 Lineare Programmierung III: Simplex Algorithmus Fabian Kuhn

Musterlösung zur Hauptklausur Theoretische Grundlagen der Informatik Wintersemester 2013/14

7.1 Matrizen und Vektore

3.1 Sukzessive Minima und reduzierte Basen: Resultate

Symmetrische Polynome,Diskriminante und Resultante, Fermatscher Satz für Polynome

3.2 Lineare Optimierung (Entscheidungen unter Sicherheit)

Kapitel 7 : Lineare Programmierung Die Simplexmethode (G.B.Dantzig, 1947) Beispiel:

Operations Research kompakt

Kap. 4.3: Das Dualitätstheorem der linearen Optimierung

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Klausur zur Vorlesung Spieltheorie Musterlösung

3 Systeme linearer Gleichungen

Operations Research II: Fortgeschrittene Methoden der Wirtschaftsinformatik

Gerade, ungerade oder weder noch? Algebraische und graphische Beweise. 4-E1 Vorkurs, Mathematik

Überblick Kap. 5: Graph Coloring

Kap. 5: Graph Coloring

Lineare Gleichungssysteme

Eigenschaften von LPs

Satz von Riemann-Roch

Seminar Algorithmische Spieltheorie

Übungsblatt 7. Vorlesung Theoretische Grundlagen der Informatik im WS 16/17

Geometrische Interpretation

Probeklausur Optimierung

2 Euklidische Vektorräume

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

Formale Grundlagen der Informatik 1 Kapitel 16 Normalformen und Hornformeln

Transkript:

Spieltheorie Nash-Gleichgewichts-Berechnung Albert-Ludwigs-Universität Freiburg Bernhard Nebel und Robert Mattmüller Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14. Mai 2012

14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 2 / 19

Nash-Gleichgewichte in endlichen n Existenz nach Satz von Nash Nach Satz über Zusammenhang zwischen Nash-Gleichgewichten und Paaren von Maximinimierern: Es genügt, Paare von Maximinimierern zu suchen. Technik: Lineares Programm aufstellen und lösen 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 3 / 19

Kodierung als Lineares Programm Seien A 1 und A 2 endlich. Spieler 1 sucht gemischte Strategie α 1. Für jedes α 1 von Spieler 1: Bestimme Nutzen bei bester Antwort von Spieler 2, maximiere darüber. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 4 / 19

Kodierung als Lineares Programm Constraints: α 1 (a 1 ) 0 für alle a 1 A 1 α 1 (a 1 ) = 1 a 1 A 1 U 1 (α 1,a 2 ) = α 1 (a 1 ) u 1 (a 1,a 2 ) u für alle a 2 A 2 a 1 A 1 Maximiere u. Lösung dieses LPs ist Maximinimierer für Spieler 1. Lösung eines analogen LPs liefert Maximinimierer für Spieler 2. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 5 / 19

Kodierung als Lineares Programm Beispiel: Elfmeterspiel Schütze L R Torhüter L 1, 1 1, 1 R 1, 1 1, 1 LP für Spieler 1: Maximiere u unter den Bedingungen α 1 (L) 0 α 1 (R) 0 α 1 (L) + α 1 (R) = 1 α 1 (L) α 1 (R) u α 1 (L) + α 1 (R) u 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 6 / 19

Kodierung als Lineares Programm Alternative Kodierung möglich, da bei n, die ein Nash-Gleichgewicht besitzen, Maximinimierung und Minimaximierung das gleiche Ergebnis liefern. LP mit Ungleichungen U 1 (a 1,α 2 ) u für alle a 1 A 1 aufstellen und u minimieren. Für α 2 entsprechend. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 7 / 19

Allgemeine Zwei-Personen-Spiele Für allgemeine Spiele funktioniert LP-Methode nicht. Benutze stattdessen Instanzen des Linear Complementarity Problem (LCP): lineare (Un-)Gleichungen wie bei LPs zusätzliche Bedingungen der Form x i y i = 0 (oder äquiv. x i = 0 y i = 0) für Variablen X = {x 1,...,x k } und Y = {y 1,...,y k } und i {1,...,k} keine Optimierungsbedingung Mit LCPs sind Nash-Gleichgewichte für beliebige Zwei-Personen-Matrixspiele beschreibbar. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 8 / 19

Allgemeine Zwei-Personen-Spiele Seien A 1 und A 2 endlich und (α 1,α 2 ) ein Nash-Gleichgewicht mit Nutzenprofil (u, v). Dann: u U 1 (a 1,α 2 ) 0 für alle a 1 A 1 (1) v U 2 (α 1,a 2 ) 0 für alle a 2 A 2 (2) α 1 (a 1 ) (u U 1 (a 1,α 2 )) = 0 für alle a 1 A 1 (3) α 2 (a 2 ) (v U 2 (α 1,a 2 )) = 0 für alle a 2 A 2 (4) α 1 (a 1 ) 0 für alle a 1 A 1 (5) α 1 (a 1 ) = 1 (6) a 1 A 1 α 2 (a 2 ) 0 für alle a 2 A 2 (7) α 2 (a 2 ) = 1 (8) a 2 A 2 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 9 / 19

Allgemeine Zwei-Personen-Spiele Bemerkungen zur Kodierung: in (3) und (4): etwa α 1 (a 1 ) (u U 1 (a 1,α 2 )) = 0 gdw. α 1 (a 1 ) = 0 oder u U 1 (a 1,α 2 ) = 0. Das gilt in jedem Nash-Gleichgewicht, denn falls a 1 / supp(α 1 ), dann α 1 (a 1 ) = 0, und falls a 1 supp(α 1 ), dann a 1 B 1 (α 2 ), also U 1 (a 1,α 2 ) = u. Die obige LCP-Formulierung kann mit zusätzlichen Variablen in LCP-Normalform umgeformt werden. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 10 / 19

Allgemeine Zwei-Personen-Spiele Theorem Ein Strategieprofil (α 1,α 2 ) in gemischten Strategien mit Auszahlungsprofil (u, v) ist genau dann ein Nash-Gleichgewicht, wenn es eine Lösung der LCP-Kodierung über (α 1,α 2 ) und (u,v) ist. Beweis Nash-Gleichgewichte sind Lösungen des LCPs: klar wegen Support-Lemma. Lösungen des LCPs sind Nash-Gleichgewichte: Sei (α 1,α 2,u,v) eine Lösung des LCPs. Wegen (5) bis (8) sind α 1 und α 2 gemischte Strategien. (...) 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 11 / 19

Allgemeine Zwei-Personen-Spiele Beweis (Forts.) (...) Wegen (1) ist u mindestens die maximale Auszahlung über alle möglichen reinen Antworten, wegen (3) ist u genau die maximale Auszahlung. Ist α 1 (a 1 ) > 0, dann hat die Auszahlung für Spieler 1 als Reaktion auf α 2 wegen (3) den Wert u. Mit der Linearität des erwarteten Nutzens folgt, dass α 1 eine beste Antwort auf α 2 ist. Analog zeigt man, dass auch α 2 eine beste Antwort auf α 1 und somit (α 1,α 2 ) ein Nash-Gleichgewicht mit Auszahlung (u, v) ist. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 12 / 19

Lösungsalgorithmus für LCPs Naiver Algorithmus: Zähle alle (2 n 1) (2 m 1) möglichen Paare von Supportmengen auf. Für jedes solche Paar (supp(α 1 ),supp(α 2 )): Konvertiere das LCP in ein lineares Programm: Lineare (Un-)Gleichungen bleiben erhalten. Bedingungen der Form α 1 (a 1 ) (u U 1 (a 1,α 2 )) = 0 werden durch eine neue lineare Gleichung ersetzt: u U 1 (a 1,α 2 ) = 0, falls a 1 supp(α 1 ) und α 1 (a 1 ) = 0, sonst, Entsprechend für α 2 (a 2 ) (v U 2 (α 1,a 2 )) = 0. Zielfunktion: maximiere konstante Nullfunktion. Wende Lösungsalgorithmus für lineare Programme auf das transformierte Programm an. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 13 / 19

Lösungsalgorithmus für LCPs Laufzeit des naiven Algorithmus beträgt O(p(n + m) 2 n+m ), wobei p ein geeignetes Polynom ist. In der Praxis besser geeignet: Lemke-Howson-Algorithmus. : unbekannt, ob LCPSOLVE P. LCPSOLVE NP klar (naiver Algorithmus als nichtdeterministischer Polynomialzeitalgorithmus). 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 14 / 19

14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 15 / 19

der Nash-Gleichgewichts-Berechnung Theorem Zu entscheiden, ob ein Nash-Gleichgewicht existiert, bei dem Spieler 1 eine Auszahlung von mindestens k erhält, ist NP-schwer. Dies gilt sogar im Fall von symmetrischen Zwei-Personen-Spielen. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 16 / 19

der Nash-Gleichgewichts-Berechnung Def.: Pareto-Optimalität Ein Nash-Gleichgewicht hat ein Pareto-optimales Auszahlungsprofil (v 1,...,v n ), wenn es kein anderes Strategieprofil gibt, für dessen Auszahlungsprofil (v 1,...,v n) gilt, dass v i v i für alle i = 1,...,n und dass es ein i = 1,...,n mit v i > v i gibt. Theorem Zu entscheiden, ob es ein Nash-Gleichgewicht mit Pareto-optimalem Auszahlungsprofil gibt, ist NP-schwer. Dies gilt sogar im Fall von symmetrischen Zwei-Personen-Spielen. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 17 / 19

der Nash-Gleichgewichts-Berechnung Theorem Es ist NP-schwer zu entscheiden, ob es ein Nash-Gleichgewicht gibt, in dem ein Spieler eine bestimmte Aktion manchmal (bzw. nie) spielt. Dies gilt sogar im Fall von symmetrischen Zwei-Personen-Spielen. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 18 / 19

der Nash-Gleichgewichts-Berechnung Theorem Es ist NP-schwer zu entscheiden, ob ein Spiel mindestens zwei Nash-Gleichgewichte besitzt. 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie 19 / 19