Strategische Spiele und Nash-Gleichgewichte

Transkript

1 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Algorithmische Spieltheorie Sommer 2018

2 Spiele in Normalform Satz von Nash Komplexität gemischter Nash-Gleichgewichte Nullsummenspiele Auslastungsspiele Konvergenzzeit in Auslastungsspielen Komplexität von reinen Nash-Gleichgewichten Appendix: LP-Dualität

3 Gefangenendilemma S G S G Spieler: zwei Gefangene, werden separat befragt Strategien: (G)estehen, (S)chweigen Gestehen gibt eine geringere Strafe wenn der andere Spieler schweigt Wenn beide gestehen, dann ist die Strafe höher für beide (4 Jahre) als wenn sie beide schweigen (2 Jahre)

4 Gefangenendilemma S G S G Wenn beide (S)chweigen, sind die Gesamtkosten am kleinsten Wenn beide (G)estehen, sind die Kosten höher für jeden von beiden Dennoch hat jeder Spieler einen Anreiz zu gestehen, egal welche der beiden Strategien der andere wählt!

5 Spiele in Normalform Definition Ein strategisches Spiel in Normalform ist ein Tripel (N, (S i) i N, (c i) i N ) Dabei ist N die Menge der Spieler, n = N, S i die Menge der (reinen) Strategien von Spieler i, S = S 1 S n ist die Menge der Zustände, ein Zustand ist s = (s 1,, s n) S, c i : S R ist die Kostenfunktion von Spieler i N In Zustand s hat Spieler i die Kosten c i(s) Hier ist s i = (s 1,, s i 1, s i+1,, s n) der Zustand s ohne Strategie s i

6 Dominante Strategien Definition Eine reine Strategie s i ist eine dominante Strategie für Spieler i N wenn c i(s i, s i) c i(s i, s i) für jede Strategie s i S i und jedes s i Definition Ein Zustand s = (s 1,, s n) ist ein Gleichgewicht in dominanten Strategien wenn s i S i eine dominante Strategie ist, für jeden Spieler i N Hat jedes strategische Spiel ein Gleichgewicht in dominanten Strategien? Nein!

7 Pareto-Optimalität Definition Ein Zustand s Pareto-dominiert einen Zustand s (alternativ: s ist eine Pareto-Verbesserung verglichen mit s ) wenn c i(s) c i(s ) für jeden Spieler i N und c j(s) < c j(s ) für mindestens einen Spieler j N Definition Ein Zustand s heißt Pareto-Optimum oder Pareto-effizient wenn es keinen Zustand gibt, der s Pareto-dominiert In einem Pareto-Optimum kann kein Spieler seine Kosten strikt verringern ohne dass sich die Kosten eines anderen Spielers strikt erhöhen Hat jedes stategische Spiel ein Pareto-Optimum? Ja!

8 Kampf der Geschlechter Zeil Eintracht Zeil Eintracht In Zustand (Zeil,Zeil): Präferenz Zeil für jeden von beiden In Zustand (Eintracht,Eintracht): Präferenz Eintracht für jeden von beiden Keine globale Präferenz Was wäre ein plausibles Resultat in dieser Situation?

9 Reines Nash-Gleichgewicht Definition Eine Strategie s i heißt eine beste Antwort auf eine Kollektion von Strategien s i, wenn c i(s i, s i) c i(s i, s i) für alle s i S i Beachte: s i dominante Strategie s i beste Antwort auf alle s i Definition Ein Zustand s = (s 1,, s n) heißt Nash-Gleichgewicht in reinen Strategien (oder reines Nash-Gleichgewicht), wenn s i eine beste Antwort auf die anderen Strategien s i ist, für jeden Spieler 1 i n Ein Nash-Gleichgewicht ist eine Kollektion von lokalen Präferenzen im Spiel ist stabil gegen unilaterale Abweichungen Hat jedes Spiel in Normalform ein reines Nash-Gleichgewicht? Nein!

10 Stein-Papier-Schere (Rock-Paper-Scissors) R P S R P S

11 Stein-Papier-Schere (Rock-Paper-Scissors) R P S R P S 1-1 0

12 Gemischte Strategien Definition Eine gemischte Strategie x i für Spieler i ist eine Wahrscheinlichkeitsverteilung über die Menge der reinen Strategien S i In endlichen Spielen gilt für x i, dass x ij [0, 1] und j S i x ij = 1 Die Kosten eines gemischten Zustands für Spieler i sind c i(x) = s S p(s) c i(s), wobei p(s) = i N,j=s i x ij die Wahrscheinlichkeit ist, dass sich am Ende der (reine) Zustand s als Resultat ergibt

13 Gemischtes Nash-Gleichgewicht Definition Eine (gemischte) beste Antwort x i auf eine Kollektion von gemischten Strategien x i erfüllt c(x i, x i) c i(x i, x i) für jede andere gemischte Strategie x i Definition Ein gemischter Zustand x heißt Nash-Gleichgewicht in gemischten Strategien (oder gemischtes Nash-Gleichgewicht), wenn x i eine beste Antwort auf x i ist, für jeden Spieler 1 i n Bemerkung: Jede reine Strategie ist eine gemischte Strategie Jedes reine Nash-Gleichgewicht ist eine gemischtes Nash-Gleichgewicht

14 Beispiel = = = = = = = 36 = 22 c 1(x) = > 17 beste Antwort ist (1, 0) c 2(x) = > 22 beste Antwort ist (0, 1) Zustand x mit x 1 = (02, 08) und x 2 = (03, 07) ist kein gemischtes Nash-Gleichgewicht

15 Beobachtung Im obigen Beispiel ist x kein gemischtes Nash-Gleichgewicht, weil mindestens ein Spieler mit positiver Wahrscheinlichkeit eine suboptimale Strategie auswählt Fakt Wenn x ij > 0 in einer gemischten besten Antwort x i auf x i, dann ist j eine reine beste Antwort auf x i Die Kosten von x i sind ein gewichtetes Mittel von Kosten für die reinen Strategien Dies gewichtete Mittel ist minimal Es wird nur über reine Strategien mit minimalen Kosten gemittelt

16 Beispiel = = = 2 = 3 Zustand x mit x 1 = (1, 0) und x 2 = (1, 0) ist ein reines (und somit auch gemischtes) Nash-Gleichgewicht

17 Beispiel = = = 8 = Zustand x mit x 1 = ( 2, 1 ) und x2 = (1, 0) ist ein gemischtes 3 3 Nash-Gleichgewicht Für den Reihenspieler ist die obere Strategie eine dominante Strategie, aber in der ersten Spalte ist sie nicht strikt besser Wenn sie in jeder Spalte strikt besser wäre, dann würde die untere Strategie in keinem gemischten Nash-Gleichgewicht gespielt (Warum?)

19 Satz von Nash Satz (Satz von Nash) Jedes endliche strategische Spiel hat mindestens ein gemischtes Nash-Gleichgewicht Wir nutzen den Fixpunktsatz von Brouwer zum Beweis Satz (Fixpunktsatz von Brouwer) Jede stetige Funktion f : D D, die eine kompakte und konvexe Menge D R m auf sich selbst abbildet, hat mindestens einen Fixpunkt x D mit f(x ) = x

20 Brouwers Fixpunktsatz: Vorraussetzungen und Definitionen Eine Menge D R m ist konvex genau dann wenn für jedes x, y D und jedes λ [0, 1] gilt λx + (1 λ)y D Eine Menge D R m ist kompakt genau dann wenn sie abgeschlossen und beschränkt ist Eine Menge D R m ist beschränkt genau dann wenn es eine ganze Zahl M 0 gibt mit D [ M, M] m Betrachte eine Menge D R m und eine Folge x 0, x 1,, so dass für alle i 0 gilt x i D und x R m existiert mit x = lim i x i (dh, für alle ϵ > 0 gibt es eine ganze Zahl k > 0 mit x x j 2 < ϵ für alle j > k) Eine Menge D ist abgeschlossen wenn x D für jede solche Folge Eine Funktion f : D R m ist stetig am Punkt x D wenn für alle ϵ > 0 ein δ > 0 existiert, so dass für alle y D gilt: Wenn x y 2 < δ, dann f(x) f(y) 2 < ϵ f heißt stetig wenn sie an jedem Punkt x D stetig ist

21 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Brouwers Fixpunktsatz: Vorraussetzungen und Definitionen Konvex/Nicht Konvex: x y x y Abgeschlossen und Beschränkt: [0, 1] 2 ist abgeschlossen und beschränkt [0, 1) ist nicht abgeschlossen (und nicht offen), aber beschränkt [0, ) ist abgeschlossen und unbeschränkt Stetigkeit: Klar

22 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Brouwers Fixpunktsatz: Beispiel Jede stetige Funktion f : [0, 1] [0, 1] hat einen Fixpunkt: Für f : [0, 1] 2 [0, 1] 2 : Papierknäuel

23 Satz von Nash Satz (Satz von Nash) Jedes endliche strategische Spiel hat mindestens ein gemischtes Nash-Gleichgewicht Beweis: Zuerst prüfen wir die Bedingungen für den Fixpunktsatz Fakt Die Menge X der gemischten Zustände x = (x 1,, x n) in einem endlichen strategischen Spiel ist eine konvexe, kompakte Teilmenge von R m mit m = n i=1 mi und mi = Si Wir definieren eine stetige Funktion f : X X, die jeden gegebenen Zustand in einen anderen Zustand transformiert Die Fixpunkte von f werden genau die gemischten Nash-Gleichgewichte des Spiels sein

24 Eigenschaften von Nash-Gleichgewichten Zur Erinnerung: Ein gemischtes Nash-Gleichgewicht x ist eine Kollektion von gemischten besten Antworten x i Wenn x ij > 0 in einer besten Antwort x i auf x i, dann ist j S i eine reine beste Antwort auf x i Eine Kollektion von besten Antworten (also ein gemischtes Nash-Gleichgewicht) x = (x 1,, x n) erfüllt c i(x) c i(j, x i) 0 für jedes j S i und jedes i N

25 Satz von Nash: Definition Für einen gemischten Zustand x sei ϕ ij(x) = max{0, c i(x) c i(j, x i)} Sei f : X X mit f(x) = x = (x 1,, x n) gegeben durch x ij = für jedes i = 1,, n und j = 1,, m i xij + ϕij(x) 1 + m i k=1 ϕ ik(x) Fakt f erfüllt die Voraussetzungen von Brouwers Fixpunktsatz: f ist stetig und wenn x X, dann ist f(x) = x X ein gemischter Zustand (evtl als Übungsaufgabe)

26 Beispiel Spieler i hat 3 reine Strategien Momentane gemischte Strategie x i = (02, 05, 03) Momentane Kosten der Strategien c i(, x i) = (22, 42, 22) Momentane Kosten c(x i, x i) = 32 Unter diesen Umständen wird Strategie x i abgebildet auf x i: x ij c i(j, x i) ϕ ij(x) x ij =

27 Satz von Nash: Fixpunkte Mit Brouwers Satz wissen wir, dass ein x mit f(x ) = x existiert Wir müssen zwei Richtungen zeigen: f(x) = x x ist gemischtes Nash-Gleichgewicht Leicht: x ist gemischtes Nash-Gleichgewicht f(x) = x: Jedes ϕ ij(x) = 0 Bleibt: x = f(x ) x ist gemischtes Nash-Gleichgewicht

28 Fixpunkte als Nash-Gleichgewichte Für jedes i = 1,, n und j = 1,, m i gilt daher und x ij = x ij + ϕ ij(x ) 1 + m i k=1 ϕ ik(x ), ( ) m i x ij 1 + ϕ ik (x ) = x ij + ϕ ij(x ), k=1 x ij m i ϕ ik (x ) = ϕ ij(x ) k=1 Wir werden zeigen, dass m i k=1 ϕ ik(x ) = 0 Das heißt, dass in x i nur reine beste Antworten positive Wahrscheinlichkeit erhalten, also ist x i eine gemischte beste Antwort

29 Fixpunkte als Nash-Gleichgewichte Behauptung Für jeden gemischten Zustand x und jeden Spieler i N gibt es eine reine Strategie j S i mit x ij > 0 und ϕ ij(x) = 0 Beweis der Behauptung: c i(x) = m i j=1 xij ci(j, x i), daher muss es ein j geben mit xij > 0 und Kosten mindestens so hoch wie das gewichtete Mittel Formal gibt es j mit x ij > 0 und c i(x) c i(j, x i) 0 Daher gilt ϕ ij(x) = max{0, c i(x) c i(j, x i)} = 0

30 Fixpunkte als Nash-Gleichgewichte Für jeden Spieler i betrachten wir Strategie j aus der Behauptung Das bedeutet x ij > 0 und Da x ij > 0, ergibt sich m i x ij ϕ ik (x ) = ϕ ij(x ) = 0 k=1 m i ϕ ik (x ) = 0, k=1 und daher ϕ ik (x ) = 0 for all k = 1,, m i Daraus folgt c i(x ) c i(j, x i) for all j S i Das bedeutet, dass x i gezeigt eine beste Antwort ist, und der Satz von Nash ist

32 Berechnung von gemischten Nash-Gleichgewichten Wie können wir ein gemischtes Nash-Gleichgewicht berechnen? Was ist die Komplexität des Problems? Diese Problemstellung ist anders als die, die wir normalerweise betrachten: Keine Optimierung, Entscheidung trivial (da Existenz garantiert) Suchproblem, finde ein Nash-Gleichgewicht Andere Komplexitätsklasse: PPAD (polynomial parity argument, directed case) Konzept der PPAD-Vollständigkeit (ähnlich wie bei NP): Definiere PPAD-vollständiges Problem, konstruiere Reduktionen in Polynomialzeit Es gibt Spiele mit 3 Spielern und rationalen Kostenwerten, in denen alle gemischten Nash-Gleichgewichte irrationale Einträge haben Daher können wir numerisch immer nur Approximationen von gemischten Nash-Gleichgewichten oder Fixpunkten berechnen

33 Ein PPAD-vollständiges Problem x 1 y 1 y 1 x 1 x 2 S y 2 y 2 P x 2 x k y k y k x k Eine Instanz des END-OF-LINE Suchproblems: Zwei Schaltkreise S und P, gleiche Anzahl Input- und Output-Bits S und P definieren einen gerichteten Graphen: Knoten: k-bit-vektoren Kanten: Die gerichtete Kante (x, y) existiert wenn S(x) = y und P (y) = x Ausnahme: Der 0-Vektor hat keine eingehende Kante! Problem: Finde eine Quelle (keine eingehende Kante) oder Senke (keine ausgehende Kante) im Graphen, die nicht der 0-Vektor ist

34 END-OF-LINE 0 S(0) S(S(0)) mögliche Lösung Beobachtungen: Jeder Knoten hat Eingangsgrad und Ausgangsgrad 1 Durch Paritätsargument hat END-OF-LINE immer eine Lösung Nicht notwendigerweise das Ende des Pfades, der bei 0 startet Diese spezielle Senke zu finden ist PSPACE-vollständig Die END-OF-LINE Instanz ist nur durch die Schaltkreise S und P gegeben Der Graph ist exponentiell groß in der Eingabe Eine Lösung für END-OF-LINE zu finden ist PPAD-vollständig Es wird vermutet, dass kein effizienter Algorithmus für dieses Problem existiert

35 Finden von (approximativen) Brouwer-Fixpunkten Lemma Das Finden eines (approximaten) gemischten Nash-Gleichgewichts ist in PPAD Beweisskizze: Reduktion: Finden von Brouwer-Fixpunkten mit END-OF-LINE Aufteilung des Raumes in endliche Anzahl kleinerer Bereiche Finde einen Bereich der dem Fixpunkt ähnelt (Approximation) Stetigkeit: Feinere Aufteilung ergibt präzisere Approximation Teile den Raum in Simplizes ( multidimensionale Dreiecke ) und färbe Knoten aufgrund der Richtung der Fixpunkt-Funktion Wir beschränken uns hier zur einfachen Darstellung auf Probleme mit D R 2, zb, f : [0, 1] 2 [0, 1] 2

36 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Dreiecke Der Einfachheit halber transformieren wir die Representation von [0, 1] 2 in ein Dreieck T Äquivalentes Fixpunktproblem mit f : T T D T

37 Unterteilung und Färbung Das Dreieck T wird unterteilt in kleinere Dreiecke Mit steigender Granularität werden die dreifarbigen Dreiecke die Fixpunkte von f

38 Unterteilung und Färbung Das Dreieck T wird unterteilt in kleinere Dreiecke Für jeden Eckpunkt betrachte seine Abbildung unter f und die Richtung, in der diese Abbildung liegt Mit steigender Granularität werden die dreifarbigen Dreiecke die Fixpunkte von f

39 Unterteilung und Färbung Das Dreieck T wird unterteilt in kleinere Dreiecke Für jeden Eckpunkt betrachte seine Abbildung unter f und die Richtung, in der diese Abbildung liegt Abhängig von der Richtung erhält der Eckpunkt eine Farbe Mit steigender Granularität werden die dreifarbigen Dreiecke die Fixpunkte von f

40 Unterteilung und Färbung Das Dreieck T wird unterteilt in kleinere Dreiecke Für jeden Eckpunkt betrachte seine Abbildung unter f und die Richtung, in der diese Abbildung liegt Abhängig von der Richtung erhält der Eckpunkt eine Farbe Mit steigender Granularität werden die dreifarbigen Dreiecke die Fixpunkte von f

41 Sperner-Färbung Definition Ein unterteiltes Dreieck ist eine Unterteilung eines Dreiecks in kleinere Dreiecke Definition Eine Sperner-Färbung der Eckpunkte eines unterteilten Dreiecks erfüllt: Jeder extremale Eckpunkt erhält eine andere Farbe Ein Eckpunkt an einer Außenkante des großen Dreiecks erhält eine Farbe der zwei Eckpunkte der Außenkante Innere Eckpunkte können beliebig gefäbt sein Beachte: Die Färbung basierend auf den Richtungen der Fixpunktfunktion f ist eine Sperner-Färbung

42 Sperners Lemma Lemma (Sperners Lemma) Jede Sperner-Färbung eines unterteilten Dreiecks hat ein dreifarbiges Dreieck Beweis: Verbinde alle Eckpunkte auf der blau-roten Außenkante zum blauen extremalen Eckpunkt Starte auf der Außenseite und bewege Dich über Linien, die einen blauen und einen roten Punkt verbinden Es gibt maximal 2 dieser Linien in jedem kleinen Dreieck, wir besuchen kein Dreieck doppelt Das ergibt eine Instanz von END-OF-LINE: Knoten: Kleine Dreiecke Kanten: Es gibt eine gerichtete Kante wenn zwei kleine Dreiecke eine gemeinsame Linie zwischen einem roten und einem blauen Eckpunkt haben Durch die Konstruktion Eingangs- und Ausgangsgrad 1 Es gibt eine Quelle durch Konstruktion, andere Quellen/Senken sind dreifarbige Dreiecke

43 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Beweis durch END-OF-LINE

44 Konsequenzen und Resultate Sperners Lemma ist eine diskretisierte Version des Fixpunktsatzes von Brouwer Der Beweis des Lemmas zeigt, dass Sperner-Färbungen Instanzen von END-OF-LINE sind kann auf mehr Dimensionen und Simplizes verallgemeinert werden Hier werden dreifarbige Dreiecke zu Simplizes mit maximaler Anzahl an Farben mit unendlicher Granularität zeigt, dass maximal gefärbte Simplizes den Brouwer-Fixpunkten entsprechen Damit ist das Finden eines Fixpunktes, und somit auch eines gemischten Nash-Gleichgewichtes in einem endlichen Spiel, in der Klasse PPAD Ein fundamentales Resultat in der Literatur zeigt darüber hinaus: Theorem (Daskalakis/Papadimitriou und Chen/Deng/Teng) Das Finden eines gemischten Nash-Gleichgewichts in einem endlichen Spiel mit 2 Spielern ist PPAD-vollständig

46 Definition Um konsistent mit der Literatur zu bleiben, betrachten wir in diesem Abschnitt Nutzenfunktionen für Spieler anstelle von Kostenfunktionen Definition Der Nutzen oder die Utility von Spieler i im Zustand s eines Spiels in Normalform ist u i(s) = c i(s) Definition Ein Nullsummenspiel ist ein strategisches Spiel, bei dem für jeden Zustand s gilt i N ui(s) = 0 In einem Nullsummenspiel ist jeder Nutzenzuwachs für einen Spieler verbunden mit einem Nutzenverlust für einen anderen Spieler Spiele dieser Art ergeben sich zb wenn Spieler gegeneinander um einen Sieg kämpfen, oder wenn sie ein gemeinsames Gut unter sich aufteilen sollen

47 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Nullsummenspiele mit 2 Spielern Zwei Spieler, Spieler I (Reihenspieler), Spieler II (Spaltenspieler) Representation als Matrix A R k l mit k = S I Reihen und l = S II Spalten: a 11 a 12 a 1l a 21 a 22 a 2l a k1 a k2 a kl a ij ist der Nutzenwert für Spieler I a ij ist der Nutzenwert für Spieler II

48 Beispiele Matching Pennies ( ) Rock-Paper-Scissors Ein Spiel mit k l: ( )

49 Nutzenwert als Matrix-Multiplikation Wir bezeichnen gemischte Strategien mit x für I und y für II Berechnung des Nutzens u I(x, y): ( ) ( ) = 248 u I(x, y) = u II(x, y) = k i=1 j=1 l x ia ijy j = ( ( ) a11 a x 1 x 12 a 13 2 a 21 a 22 a 23 = x T Ay ) y 1 y 2 y 3

50 Öffentliche Stratgiewahl Wir nehmen an, I muss sich zuerst entscheiden Er wählt eine gemischte Strategie, die II sehen kann bevor er seine eigene Wahl trifft Wie sollte I diese öffentliche Strategie wählen? ( II wird I so stark wie möglich verletzen ) In diesem Spiel wird II immer mit Spalte 1 antworten Daher ist die optimale Wahl für I die reine Strategie 2 (bzw: x = (0, 1) T )

51 Maximin-Strategien I wählt x, dann wählt II y als beste Antwort auf x II löst also das Problem max y u II(x, y), oder in Matrixform max y x T Ay = min y x T Ay Folglich sucht I nach einer Strategie x, die min y x T Ay maximiert Definition Der Gain-Floor eines Nullsummenspiels mit 2 Spielern ist vi = max min x y xt Ay Eine Strategie x, die den Gain-Floor als Nutzen liefert, ist eine optimale Strategie (oder auch Maximin-Strategie) für I

52 Beispiel Maximin ( ) II wird I so stark wie möglich verletzen I wählt Reihe 1 II wählt Spalte 2 I hat Nutzen 1 I wählt Reihe 2 II wählt Spalte 1 I hat Nutzen 1 I wählt x = (05, 05), minimaler Verlust für II ist 25 in Spalten 2 und 3 I hat Nutzen 25 Wie sieht die optimale Strategie x aus, wie groß kann v I werden?

53 Duale Sichtweise: Minimax Nun nehmen wir an, II wählt zuerst y, dann wählt I x optimal mit max x u I(x, y) = max x x T Ay Folglich sucht II nach y, um max x x T Ay zu minimieren Definition Die Loss-Ceiling eines Nullsummenspiels mit 2 Spielern ist vii = min max y x xt Ay Eine Strategie y, die die Loss-Ceiling als Nutzen liefert, ist eine optimale Strategie (oder auch Minimax-Strategie) für II Wie sieht y aus, wie klein kann v II werden? Welche Beziehung haben v I und v II?

54 Minimax Theorem Wenn beide Spieler optimal spielen, dann sollte I mindestens vi II nicht mehr als vii verlieren Es ist einfach einzusehen, dass Lemma Es gilt v I v II erhalten und Überraschenderweise haben von Neumann and Morgenstern gezeigt Satz (Minimax Theorem) In jedem Nullsummenspiel mit 2 Spielern gilt v = v I = v II Der Wert v wird Wert des Spiels genannt

55 Minimax Theorem und Dualität in der Linearen Optimierung Betrachte das Optimierungsproblem, bei dem wir x und v I = max x min y x T Ay finden sollen Beobachtungen: II wählt eine beste Antwort y auf x Für ein gegebenes x wählt II y j > 0 nur dann wenn in Spalte j der erwartete Verlust k i=1 xiaij minimal ist Daher gilt v I = l j=1 i=1 k x ia ijy j = min j=1,,l i=1 k x ia ij Für jedes x und den resultierenden Nutzen v I von I wissen wir daher v I k x ia ij für alle j = 1,, l i=1

56 Gain-Floor Optimierung als ein Lineares Programm Maximiere so dass v I v I k x ia ij 0 für alle j = 1,, l i=1 k x i = 1 i=1 x i 0 für alla i = 1,, k v I R (1)

57 Loss-Ceiling Optimierung als ein Lineares Programm Die gleichen Argumente ergeben ein lineares Programm für die Minimierung der Loss-Ceiling Minimiere so dass v II v II l a ijy j 0 für alle i = 1,, k j=1 l y j = 1 j=1 y j 0 für alle j = 1,, l v II R (2) Im Appendix wird gezeigt, dass dies lineare Programm dual ist zum LP (1) für Gain-Floor-Maximierung

58 Folgerungen Das Finden optimaler Strategien für I und II kann durch duale lineare Programme formuliert werden Starke Dualität in der Linearen Optimierung: Betrachte ein lineares Programm mit einer gültigen Optimallösung Sei f der optimale Wert der Zielfunktion Dann hat das duale Programm eine gültige Optimallösung mit Zielfunktionswert g Starke Dualität: Es gilt f = g Starke Dualität liefert das Minimax-Theorem

59 Beispiel ( ) Max v I st v I 5x 1 1x 2 0 v I 1x 1 4x 2 0 v I 2x 1 3x 2 0 x 1 + x 2 = 1 x 1, x 2 0 x = (04, 06) v I = 26 v I R Min v II st v II 5y 1 1y 2 2y 3 0 v II 1y 1 4y 2 3y 3 0 y 1 + y 2 + y 3 = 1 y 1, y 2, y 3 0 y = (02, 0, 08) v II = 26 v II R Ist (x, y ) ein gemischtes Nash-Gleichgewicht?

60 Gemischtes Nash-Gleichgewicht Korollar (x, y) im Nullsummenspiel mit 2 Spielern ist gemischtes Nash-Gleichgewicht x und y sind optimale Strategien Beweis ( ): Betrachte (x, y) Sei x suboptimal (Beweis ähnlich für y suboptimal) Es gibt y mit u II(x, y ) > v, daher u I(x, y ) < v Für NG muss gelten u II(x, y) u II(x, y ), daher u I(x, y) < v Wenn u I(x, y) < v, dann I besser mit optimaler Strategie (x, y) kein gemischtes NG ( ): Seien beide Strategien optimal, aber I hat eine bessere beste Antwort x Das bedeutet u I(x, y) > v, aber dann ist y suboptimal für II Gleiches Argument wenn II eine bessere Strategie hat

61 Gemischtes Nash-Gleichgewicht Korollar Jedes gemischte Nash-Gleichgewicht in einem Nullsummenspiel mit 2 Spielern ergibt den gleichen erwarteten Nutzen von v ( v) für I (II) Es gibt effiziente Algorithmen zur Lösung von linearen Programmen Wenn wir damit die linearen Programme (1) und (2) lösen, erhalten wir optimale Strategien Damit ergibt sich folgendes Resultat: Satz In jedem Nullsummenspiel mit 2 Spielern kann ein gemischtes Nash-Gleichgewicht in polynomieller Zeit berechnet werden

63 Auslastungsspiele (Congestion Games) Ein Auslastungsspiel ist ein Tupel Γ = (N, R, (Σ i) i N, (d r) r R) mit N = {1,, n}, Menge der Spieler, R = {1,, m}, Menge der Ressourcen Σ i 2 R, Strategieraum von Spieler i d r : {1,, n} Z, Latenz- oder Verzögerungsfunktion von Ressource r Für jeden Zustand S = (S 1,, S n) Σ 1 Σ n sei n r = Anzahl der Spieler mit r S i d r(n r) = Latenz oder Verzögerung der Ressource r δ i(s) = r S i d r(n r) = Latenz oder Verzögerung von Spieler i Die Kosten von Spieler i in Zustand S sind c i(s) = δ i(s) Spieler wollen ihre Kosten verringern

64 Beispiel: Netzwerkauslasungsspiel (Network Congestion Game) Sei G = (V, E) ein gerichteter Graph, Jede Kante e E hat eine Latenzfunktion d e : {1,, n} Z Spieler i möchte einen Weg wählen mit kleinster Latenz zwischen seinem Startknoten s i und dem Endknoten t i 1,2,9 7,8,9 s 1,9,9 t 4,5,6 1,2,3 In diesem Beispiel ist N = {1, 2, 3}, R = E, Σ i = Menge der s-t-wege Dieses Spiel ist symmetrisch: Alle Spieler haben die gleiche Strategiemenge, und wenn wir in einem Zustand die Strategien der Spieler permutieren, dann ergeben sich die Kosten in ebenso permutierter Weise

65 Beispiel: Netzwerkauslastungsspiel Eine Folge von (beste-antwort) Verbesserungsschritten: Erster Schritt 0,99 s 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1

66 Beispiel: Netzwerkauslastungsspiel Eine Folge von (beste-antwort) Verbesserungsschritten: Erster Schritt 0,99 s 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1 s 0,99 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1

67 Beispiel: Netzwerkauslastungsspiel zweiter Schritt 0,99 s 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1

68 Beispiel: Netzwerkauslastungsspiel zweiter Schritt 0,99 s 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1 s 0,99 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1

69 Beispiel: Netzwerkauslastungsspiel dritter Schritt 0,99 s 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1

70 Beispiel: Netzwerkauslastungsspiel dritter Schritt 0,99 s 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1 s 0,99 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1

71 Beispiel: Netzwerkauslastungsspiel dritter Schritt 0,99 s 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1 s 0,99 1,1 3,3 1,1 0,0 t 0,3 6,6 1,1 Reines Nash-Gleichgewicht Stopp!

72 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Fragen Gibt es in jedem Auslastungsspiel ein reines Nash-Gleichgewicht? Ist jede Folge von Verbesserungsschritten endlich? Wieviele Schritte werden benötigt, um ein (reines) Nash-Gleichgewicht zu erreichen?

73 Endliche Verbesserungseigenschaft Satz (Rosenthal 1973) In einem Auslastungsspiel ist jede Folge von Verbesserungsschritten endlich Aus diesem Resultat folgt unmittelbar Korollar Jedes Auslastungsspiel hat ein reines Nash-Gleichgewicht Rosenthals Analyse basiert auf einer Potenzialfunktion Für jeden Zustand S sei Φ(S) = r R n r(s) k=1 d r(k) Diese Funktion heißt Rosenthals Potenzialfunktion

74 Satz von Rosenthal: Beweis Lemma Sei S ein beliebiger Zustand Wenn wir von S zu Zustand S wechseln mit einem Verbesserungsschritt von Spieler i, in dem seine Kosten um > 0 verringert werden, dann gilt Φ(S ) = Φ(S) d r(k) d r (k) Im Bild ist der Wert der Potenzialfunktion die blaue Fläche Wenn ein Spieler von r zu r wechselt, verändern sich seine Kosten genau wie der Wert der Potenzialfunktion

75 Satz von Rosenthal: Beweis Lemma Sei S ein beliebiger Zustand Wenn wir von S zu Zustand S wechseln mit einem Verbesserungsschritt von Spieler i, in dem seine Kosten um > 0 verringert werden, dann gilt Φ(S ) = Φ(S) d r(k) d r (k) Im Bild ist der Wert der Potenzialfunktion die blaue Fläche Wenn ein Spieler von r zu r wechselt, verändern sich seine Kosten genau wie der Wert der Potenzialfunktion

76 Satz von Rosenthal: Beweis Lemma Sei S ein beliebiger Zustand Wenn wir von S zu Zustand S wechseln mit einem Verbesserungsschritt von Spieler i, in dem seine Kosten um > 0 verringert werden, dann gilt Φ(S ) = Φ(S) Beweis: Das Potenzial Φ(S) kann berechnet werden, in dem Spieler nacheinander in beliebiger Ordnung in das Spiel eingefügt und die Latenzen zum Zeitpunkt des Einfügens summiert werden OBdA sei Spieler i der letzte Spieler, den wir einfügen wenn wir Φ(S) berechnen Für diesen Spieler addieren wir seine tatsächlichen Kosten in Zustand S zu Φ(S) Wenn wir uns von S zu S bewegen, dann sinken die Kosten von i um Folglich sinkt das Potenzial Φ auch genau um (Lemma)

77 Satz von Rosenthal: Beweis Das Lemma zeigt, dass Φ ein exaktes Potenzial ist, dh wenn ein einzelner Spieler seine Latenz um einen Wert > 0 verringert, dann sinkt Φ um genau den gleichen Wert Daneben stellen wir fest: i) Die Latenzwerte sind ganze Zahlen Bei jeder Verbesserung gilt 1 ii) Für jeden Zustand S gilt Φ(S) r R n i=1 dr(i) iii) Für jeden Zustand S gilt Φ(S) r R n i=1 dr(i) Daraus folgt, dass die Anzahl Verbesserungsschritte höchstens 2 r R n i=1 dr(i) beträgt und endlich ist (Theorem)

78 Potenzialspiele Definition (Potenzialspiel) Ein strategisches Spiel Γ = (N, (Σ i) i N, (c i) i N ) heißt exaktes Potenzialspiel wenn es eine Funktion Φ: Σ R gibt, so dass für jedes i N, für jedes S i Σ i, und für jede S i, S i Σ i gilt: c i(s i, S i) c i(s i, S i) = Φ(S i, S i) Φ(S i, S i) Beobachtung: Sei Γ = (N, (Σ i) i N, (c i) i N ) ein exaktes Potenzialspiel Dann hat Γ die endliche Verbesserungseigenschaft (Engl: finite improvement property), und daher existiert ein reines Nash-Gleichgewicht

79 Auslastungs- und Potenzialspiele Es folgt mit Rosenthals Potenzialfunktion: Corollary Jedes Auslastungsspiel ist ein (exaktes) Potenzialspiel In gewisser Weise gilt auch die andere Richtung: Satz (Monderer, Shapley, 1996) Jedes exakte Potenzialspiel ist isomorph zu einem Auslastungsspiel Für jedes exakte Potenzialspiel gibt es ein anderes Spiel mit den gleichen Spielern, Strategien und Kosten Dies andere Spiel basiert auf geschickt zusammengestellten Ressourcen und Latenzen, so dass die Strategien als Teilmengen von Ressourcen dargestellt werden können und die Kosten sich als Summe über deren Latenzen ergeben In diesem Sinne gibt es eine Representation des Potenzialspiels als isomorphes Auslastungsspiel

81 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Die zentrale Frage in diesem Kapitel Wie viele Verbesserungsschritte werden benötigt, um ein reines Nash-Gleichgewicht zu erreichen?

82 Übergangsgraph Der Übergangsgraph eines Auslastungsspiels Γ enthält einen Knoten für jeden Zustand S und eine gerichtete Kante (S, S ) wenn S von S mit einem Verbesserungsschritt eines einzelnen Spielers erreicht werden kann Der Beste-Antwort-Übergangsgraph enthält nur Kanten für Verbesserungsschritte, die besten Antworten entsprechen Eine Folge von Verbesserungsschritten (bzw besten Antworten) entspricht einem Weg im Übergangsgraphen (bzw Beste-Antwort-Übergangsgraphen) Die Senken dieses Graphen sind die Nash-Gleichgewichte von Γ Die Anzahl der Knoten (Zustände) kann bis zu 2 mn betragen Daher kann es Wege mit exponentieller Länge geben

83 Singleton-Auslastungsspiele Definition (Singleton-Auslastungsspiel) Ein Auslastungsspiel heißt singleton wenn für jeden Spieler i N und jede Stratgie R Σ i gilt R = 1 In Worten: Jeder Spieler möchte nur eine Ressource aus einer für ihn zulässigen Teilmenge von Ressourcen auswählen Obwohl dies eine relativ starke Einschränkung des Strategieraumes ist, gibt es immer noch bis zu m n unterschiedliche Zustände in einem Spiel dieser Art

84 Singleton-Auslastungsspiele Beispiel Betrachte eine Server-Farm mit drei Servern a, b, c (Ressourcen) und drei Spielern 1,2,3 Jeder der Spieler möchte einen Task auf genau einem Server berechnen lassen und wählt ihn strategisch nach der resultierenden Bearbeitungszeit

85 Singleton-Auslastungsspiele Beispiel Betrachte eine Server-Farm mit drei Servern a, b, c (Ressourcen) und drei Spielern 1,2,3 Jeder der Spieler möchte einen Task auf genau einem Server berechnen lassen und wählt ihn strategisch nach der resultierenden Bearbeitungszeit Nash-Gleichgewicht

86 Singleton-Auslastungsspiele Konvergenz Satz In Singleton-Auslastungsspielen hat jede Verbesserungsfolge eine Länge von O(n 2 m) Beweisidee: Ersetze Latenzwerte durch beschränkte, positive ganze Zahlen ohne die Präferenzen der Spieler zu verändern Damit ergibt sich eine obere Schranke auf den Maximalwert des Potenzials Durch ganzzahlige Latenzen sinkt das Potenzial im Verbesserungsschritt um mind 1 Daher ist die Länge jeder Verbesserungsfolge beschränkt durch maximalen Potenzialwert

87 Singleton-Spiele: Beweis Sortiere die Menge der Latenzwerte {d r(k) r R, 1 k n} in nicht-fallender Reihenfolge Wir definieren alternative, neue Latenzfunktionen: Beispiel: d r(k) := Position von d r(k) in Sortierung Die sortierte Menge von Latenzen aus dem obigen Beispiel ist 15, 16, 17, 20, 30, 50, 70, 90 Daher ergeben sich die alten und neuen Latenzfunktionen als d a(1, 2, 3) = (20, 30, 50) da(1, 2, 3) = (4, 5, 6) d b (1, 2, 3) = (30, 70, 90) db (1, 2, 3) = (5, 7, 8) d c(1, 2, 3) = (15, 16, 17) dc(1, 2, 3) = (1, 2, 3) Die neue Latenz von Spieler i auf Ressource r in Zustand S ist δ i(s) = d r(n r(s))

88 Singleton-Spiele: Beweis Beobachtung: Seien S und S zwei Zustände, so dass (S, S ) einen Verbesserungsschritt darstellt für einen Spieler i mit originalen Latenzen Dann ist (S, S ) auch ein Verbesserungsschritt für i mit neuen Latenzen Rosenthals Potenzialfunktion mit neuen Latenzen ist beschränkt durch: Φ(S) = n r(s) r R k=1 d r(k) n r(s) r R k=1 n m n 2 m Es gilt Φ 1 Daneben fällt Φ um mind 1 in jedem Schritt Daher beträgt die Länge jeder Verbesserungsfolge höchstens n 2 m (Satz)

89 Schnelle Konvergenz zum reinen Gleichgewicht? Für Singleton-Spiele konnten wir zeigen, dass jede Verbesserungsfolge eine Länge polynomiell in n und m hat Diese Schranke gilt für jede beliebige Folge von Strategiewechseln, bei denen der wechselnde Spieler sich strikt verbessert (nicht nur beste Antworten) Dieses Resultat läßt sich noch verallgemeinern auf sog Matroidspiele Hier besteht die Strategiemenge jedes Spielers aus den Basen eines Matroids über die Ressourcen In solchen Spielen kann man für Folgen von besten Antworten zeigen, dass sie eine Länge polynomiell in n und m haben Im Allgemeinen gibt es aber für jedes n N mindestens ein Spiel mit O(n) Spielern und O(n) Ressourcen, nicht-negativen und monotonen Latenzfunktionen, und einem ausgewiesenen Startzustand S, so dass jede Verbesserungsfolge von S zu einem reinen Nash-Gleichgewicht eine Länge exponentiell in n hat

90 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Approximative Gleichgewichte Wie verhält sich die Konvergenzzeit, wenn die Spieler auch mit einer Strategie zufrieden sind, die fast so gut ist wie die beste Antwort?

91 Approximative Gleichgewichte Wir nutzen 0 ε < 1 für eine Fehlertoleranz der Spieler Definition Eine beste Antwort s i heißt eine ε-verbesserung für Spieler i im Zustand s, wenn c i(s) c(s i, s i) > ε c i(s) Das Paar (s, (s i, s i)) heißt ε-verbesserungsschritt Definition Ein Zustand s heißt (reines) ε-approximatives Nash-Gleichgewicht, wenn kein Spieler i N eine ε-verbesserung hat Eine ε-verbesserung für Spieler i im Zustand s verringert die Kosten um mehr als einen ε-bruchteil seiner momentanen Kosten Im ε-approximativen Gleichgewicht s kann kein Spieler i seine Kosten c i(s) um mehr als ε c i(s) reduzieren, wenn er alleine zu einer anderen Strategie abweicht

92 Konvergenz zum approximativen Gleichgewicht Wir betrachten Folgen von ε-verbesserungsschritten in einer großen Klasse von Spielen mit einer natürlichen Bedingung auf die Kostenfunktionen Definition Ein Auslastungsspiel heißt symmetrisch wenn Σ i = Σ j für alle Spieler i, j N Definition Sei α 1 und d r eine positive, monoton steigende Latenzfunktion d r ist α-sprungbeschränkt, wenn für alle k 1 gilt d r(k) α d r(k + 1) Durch Hinzufügen eines weiteren Spielers auf Ressource r erhöhen sich die Kosten aller Spieler auf r nur um den Faktor α Damit gilt insbesondere d r(k) d r(1) α k 1

93 Konvergenz zum approximativen Gleichgewicht Wir bezeichnen mit Φ = min S Σ Φ(S) den kleinsten Wert von Rosenthals Potenzialfunktion für einen Zustand im Spiel Für positive Latenzfunktionen in natürlichen Zahlen gilt offensichtlich Φ n Satz (Chien, Sinclair, 2011) Sei Γ ein symmetrisches Auslastungsspiel mit α-sprungbeschränkten Latenzfunktionen in N Für jeden Zustand S gibt es eine Folge von ε-verbesserungsschritten mit der Länge O ( nα ε ( )) Φ(S) log = O Φ ( nα ε ) log(m max dr(n)) r R die in einem ε-approximativen Nash-Gleichgewicht endet,

94 Konvergenz zum approximativen Gleichgewicht Beweis: Wir konstruieren die Folge mit einer relativen ε-nash-dynamik: Sei I(S) die Menge der Spieler mit ε-verbesserungen in S, und sei S i eine ϵ-verbesserung für i I(S) Der abweichende Spieler i I(S) wird gewählt als ein Spieler mit maximaler relativer Kostenverbesserung: i c i(s) c i(s arg max i, S i) i I(S) c i(s) Betrachte nun einen beliebigen anderen Spieler j i im Zustand S: j hätte auch zu S i abweichen können (Spiel symmetrisch) Wenn j anstelle von i nach S i abweicht, wären seine Kosten höchstens: (Warum?) c j(s i, S j) α ci (S i, S i )

95 Konvergenz zum approximativen Gleichgewicht Relative ϵ-dynamik hat aber Spieler i gewählt, daher: c i (S) c i(s i, S i ) c i (S) cj(s) cj(s i, S j) c j(s) cj(s) αci(s i, S i ) c j(s) Umformung des ersten und dritten Bruchs ergibt: c i (S) c j(s)/α Der wechselnde Spieler i in S ist also bis auf einen Faktor α auch der Spieler mit maximalen Kosten: c i (S) max j c j(s)/α Damit wissen wir: Φ(S) Φ(S i, S i ) ε ci (S) ε α max c j j(s) ε α 1 n ε c j(s) nα Φ(S) j

96 Konvergenz zum approximativen Gleichgewicht Das Potenzial verringert sich also in jedem Verbesserungsschritt der relativen ε-dynamik um einen Faktor von ε/(nα) Seien S 0, S 1, S 2, die resultierende Folge von Zuständen (mit S = S 0 ), dann gilt ( Φ(S k ) Φ(S 0 ) 1 ε ) k nα Wenn k so groß wird, dass ( Φ(S) 1 ε ) k Φ, nα dann kann es keine Verbesserung mehr geben und wir sind im ε-approximativen Nash-Gleichgewicht angekommen

97 Konvergenz zum approximativen Gleichgewicht Wir teilen die Ungleichung durch Φ, wenden den Logarithmus auf beiden Seiten an und stellen die Ungleichtung nach k um Das ergibt k log(φ(s)/φ ) log (1 ε /nα) Zur Vereinfachung nutzen wir x log(1 x) für 0 x < 1 und erhalten: log(φ(s)/φ ) log(φ(s)/φ ) = nε ( ) Φ(S) log (1 ε /nα) ε/nα α log Φ Daher ist die Anzahl der Runden der relativen ε-dynamik bis zum ε-approximativen Nash-Gleichgewicht höchstens nαε 1 log(φ(s)/φ ) Dieses Resultat gilt nicht mehr in (1) asymmetrischen Spielen mit α-sprungbeschränkten Funktionen oder (2) symmetrischen Spielen, in denen die Latenzfunktionen nicht α-sprungbeschränkt sind

99 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Wir untersuchen die Komplexität des Auffindens von reinen Nash-Gleichgewichten in Klassen von Auslastungsspielen Wir beschränken uns auf Spiele mit nicht-fallenden Latenzfunktionen

100 Symmetrische Netzwerkspiele Sei G = (V, E) ein gerichteter Graph mit Latenzfunktionen d e : {1,, n} Z, e E Spieler i wählte einen Pfad mit kleinsten Kosten zwischen Startknoten s und Zielknoten t 1,2,9 7,8,9 s 1,9,9 t 4,5,6 1,2,3 In allgemeineren asymmetrischen Netzwerkspielen können die Spieler unterschiedliche Start- und Zielknoten haben

101 Symmetrische Netzwerkspiele Es gibt sogar symmetrische Netzwerkspiele mit Startzuständen, so dass jede Verbesserungsfolge zu einem reinen Nash-Gleichgewicht exponentielle Länge hat Daher sind Verbesserungsfolgen keine effizienten (dh Polynomzeit) Algorithmen zur Berechnung von reinen Nash-Gleichgewichten in diesen Spielen Es gibt allerdings andere Algorithmen, die ein Nash-Gleichgewicht in polynomieller Zeit finden

102 Komplexität in symmetrischen Netzwerkspielen Effizienter Algorithmus durch Reduktion auf Netzwerkfluß: Jede Kante wird ersetzt durch n parallele Kanten mit (jeweils) Kapazität 1 Die i-te Kopie von Kante e hat Kosten d e(i), 1 i n 1,2,9 7,8,9 s 1,9,9 t 4,5,6 1,2,3 Wir berechnen einen Min-Cost-Flow, dh einen Netzwerkfluß mit Wert n von s nach t, der die Kosten der benutzten Kantenkopien minimiert Die optimale Lösung minimiert Rosenthals Potenzialfunktion und liefert damit ein reines Nash-Gleichgewicht

103 Spiele in Normalform Satz von Nash PPAD Nullsummenspiele Auslastungsspiele Konvergenzzeit PLS Appendix: LP-Dualität Beziehung zur lokalen Suche Rosenthals Potenzialfunktion erlaubt eine Interpretation von Auslastungsspielen als lokales Sucheproblem: Nash-Gleichgewichte sind lokale Optima bzgl der Potenzialfunktion Wie schwierig ist die Berechnung von lokalen Optima?

104 Die Komplexitätsklasse PLS Definition (PLS (Polynomial Local Search)) PLSenthält Suchprobleme mit einer Zielfunktion und einer gegebenen Nachbarschaftsbeziehung Γ Es muss einen Polynomialzeit-Algorithmus geben, der für jede Lösung s, eine Lösung in Γ(s) mit besseren Zielfunktionswert berechnet, oder wenn s ein lokalen Optimum ist, dies korrekt ausgibt Beispiele für Probleme in PLS FLIP (Evaluation von Schaltkreisen mit Flip-Nachbarschaft) TSP with 2-Opt-Nachbarschaft Pos-NAE-k-SAT mit Flip-Nachbarschaft Max-Cut mit Flip-Nachbarschaft Auslastungsspiele bzgl Verbesserungsschritte

105 Positive Not-All-Equal k-sat (Pos-NAE-k-SAT) Definition Eingabe: Formel aus n binären Variablen x 1,, x n beschrieben durch m Klauseln c 1,, c m mit jeweils k positiven Literalen, und m Gewichte w 1,, w m Klausel c i ist erfüllt durch eine Zuweisung A {0, 1} n wenn ihre Literale nicht alle den gleichen Wert haben Der Wert einer Zuweisung ist die Summe der Gewichte der erfüllten Klauseln Zuweisungen A und A sind benachbart wenn sie sich in genau einer Position unterscheiden Aufgabe: Finde ein lokales Optimum, dh eine Zuweisung ohne benachbarte Zuweisung mit höherem Wert

106 Positive Not-All-Equal 3-SAT (Pos-NAE-3-SAT) Beispiel Beispiel für Pos-NAE-3SAT: c 1 = x 1x 2x 3; c 2 = x 1x 2x 4; c 3 = x 1x 2x 5; c 4 = x 3x 4x 5 w 1 = 100; w 2 = 110; w 3 = 120; w 4 = 100 Ein Beispiel für ein lokales Optimum ist die Zuweisung x 1 = 0; x 2 = 0; x 3 = 1; x 4 = 1; x 5 = 1 mit Wert 330 Jede der fünf benachbarten Zuweisungen hat einen Wert von höchstens 330

107 Max-Cut Definition Eingabe: Ein ungerichteter Graph G = (V, E) mit Kantengewichten w : E N Ein Schnitt zerteilt V in zwei Mengen Links and Rechts Zwei Schnitte sind benachbart: Der eine Schnitt entsteht aus dem anderen Schnitt durch Verschieben genau eines Knotens von Links nach Rechts oder umgekehrt Der Wert eines Schnittes ist das Gesamtgewicht aller Kanten mit einem Endpunkt in Links und einem Endpunkt in Rechts Aufgabe: Finde ein lokales Optimum, dh einen Schnitt ohne benachbarten Schnitt mit höherem Wert

108 Die Komplexitätsklasse PLS Definition (PLS-Reduktion) Gegeben zwei PLS-Probleme Π 1 und Π 2, finde eine Abbildung der Instanzen von Π 1 auf die Instanzen von Π 2, so dass die Abbildung in polynomieller Zeit berechnet werden kann, die lokalen Optima von Π 1 auf die lokalen Optima von Π 2 abgebildet werden und aus jedem lokalen Optimum von Π 2 kann man ein lokales Optimum von Π 1 in polynomieller Zeit errechnen

109 Erstes Beispiel einer PLS-Reduktion Satz Pos-NAE-3-SAT PLS Pos-NAE-2-SAT Beweis: Für jede 3-Klausel (x 1, x 2, x 3) mit Gewicht w erstelle die drei 2-Klauseln (x 1, x 2), (x 1, x 3), (x 2, x 3), jede mit Wert w/2 Der Wert einer Zuweisung in der 2-SAT Instanz ist identisch zum Wert in der 3-SAT Instanz, da eine 3-Klausel erfüllt ist genau dann wenn exakt zwei der drei 2-Klauseln erfüllt sind Daher sind die lokalen Optima in beiden Instanzen genau gleich Die Vorraussetzungen an eine PLS-Reduktion sind erfüllt

110 Noch ein Beispiel einer PLS-reduction Satz Pos-NAE-2-SAT PLS Max-Cut Beweis: Jede Variable wird durch einen Knoten repräsentiert Jede Klausel und ihr Gewicht werden durch eine Kante repräsentiert Mehrfachkanten werden in eine einzelne Kante zusammengefügt Bei einer Zuweisung für die Variablen interpretieren wir 0 als Links und 1 als Rechts Auf diese Weise sind die lokalen Optima in beiden Instanzen genau gleich Die Vorraussetzungen an eine PLS-Reduktion sind erfüllt

111 Die Komplexitätsklasse PLS Definition (PLS-Vollständigkeit) Ein Problem Π in PLS heißt PLS-vollständig wenn für jedes Problem Π in PLS gilt Π PLS Π Beipsiele für PLS-vollständige Probleme: Eine Masterreduktion zeigt PLS-Vollständigkeit von FLIP Eine PLS-Reduktion von FLIP zu Pos-NAE-3-SAT zeigt, dass das letztere Problem auch PLS-vollständig ist Also sind Pos-NAE-2-SAT und Max-Cut ebenfalls PLS-vollständig

112 Reine Nash-Gleichgewichte in Auslastungsspielen Satz (Fabrikant, Papadimitriou, Talwar 2004) Für die Komplexität von reinen Nash-Gleichgewichten in Auslastungsspielen gilt: Netzwerkspiele allgemeine Auslastungsspiele symmetrisch Poly-Zeit Algo PLS-vollständig asymmetrisch PLS-vollständig PLS-vollständig Wir zeigen nur einen der PLS-Vollständigkeitsbeweise, den für allgemeine, asymmetrische Auslastungsspiele

113 PLS-Härte in allgemeinen Auslastungsspielen Wir zeigen eine PLS-Reduktion von Max-Cut zu Auslastungsspielen Zuerst interpretieren wir Max-Cut als ein Spiel: Max-Cut-Spiel Spieler sind Knoten in einem gewichteten Graphen G = (V, E) Jeder Spieler hat 2 Strategien: Links or Rechts Ein Zustand des Spiels erzeugt einen Schnitt, dh eine Aufteilung von V in linke und rechte Knoten Kantengewichte erfassen die Antipathie zwischen den Spielern Spieler wählen eine Strategie, so dass die Summe der Gewichte der inzidenten Kanten zur anderen Knotenmenge am höchsten ist Reine Nash-Gleichgewichte sind genau lokale Optima von Max-Cut

114 PLS-Härte in allgemeinen Auslastungsspielen Minimierungsvariante des Max-Cut-Spiels Die Strategien eines Knotens sind links: wähle linke Seite des Schnittes rechts: wähle rechte Seite des Schnittes Die Kosten dieser Strategien sind links: Summe der Gewichte der inzidenten Kanten zu linken Spielern rechts: Summe der Gewichte der inzidenten Kanten zu rechten Spielern Beide Spiele haben den gleichen Übergangsgraphen: Ein Spieler minimiert die Gewichte der inzidenten Kanten zu Spielern auf seiner Seite Er maximiert die Gewichte der inzidenten Kanten zu Spielern auf der anderen Seite

115 PLS-Härte in allgemeinen Auslastungsspielen Die Minimierungsvariante ist ein Auslastungsspiel Max-Cut Auslastungsspiel: Repräsentiere jede Kante e durch zwei Ressourcen e links, e rechts mit Latenzfunktionen d(1) = 0 and d(2) = w e Für jeden Spieler enthält die Strategy S links die Ressourcen e left aller inzidenten Kanten; Strategie S right enthält die Ressourcen r right aller inzidenten Kanten Die Spieler in diesem Auslastungsspiel haben genau die gleichen Kosten wie die Spieler in der Minimierungsvariante des Max-Cut-Spiels Daher sind die reinen Nash-Gleichgewichte dieses Auslastungsspiels genau die lokalen Optima der Max-Cut Instanz Damit haben wir eine PLS-Reduktion von Max-Cut zu Auslastungssspielen gezeigt

116 Literatur G Owen Game Theory Academic Press, 2001 (Kapitel 1 + 2) Nisan et al Algorithmic Game Theory Cambridge University Press, 2007 (Kapitel 1 + 2) J Nash Non-cooperative Games Annals of Mathematics 54, pp , 1951 P Goldberg, C Daskalakis, C Papadimitriou The Complexity of Computing a Nash Equilibrium SIAM Journal on Computing, 39(1), pp , 2009 X Chen, X Deng, S-H Teng Settling the Complexity of Computing Two-Player Nash Equilibria Journal of the ACM, 56(3), 2009 Hintergrund zu Linearer Optimierung, Dualität, und Algorithmen: Cormen, Leiserson, Rivest, Stein Introduction to Algorithms, 3rd edition MIT Press, 2009 (Kapitel 29)

117 Mehr Literatur D Monderer, L Shapley Potential Games Games and Economic Behavior 14: , 1996 A Fabrikant, C Papadimitriou, K Talwar The Complexity of Pure Nash Equilibria STOC 2004 S Ieong, R McGrew, E Nudelman, Y Shoham, Q Sun Fast and Compact: A Simple Class of Congestion Games AAAI 2005 (Singletonspiele) H Ackermann, H Röglin, B Vöcking On the Impact of Combinatorial Structure on Congestion Games Journal of the ACM 55(6), 2008 (Matroidspiele, PLS) S Chien, A Sinclair Convergence to Approximate Nash Equilibria in Congestion Games Games and Economic Behavior 71(2): , 2011

119 Konstruktion des Dualen Wir leiten eine obere Schranke auf v I her für jede Lösung von (1) Sei (v I, x) eine Lösung von (1) Wir nutzen eine lineare Kombination der Constraints für die obere Schranke Mit Faktoren z j und w I ergibt sich: ( z j v I ) k i=1 xiaij z j 0 für jedes j und w I k i=1 xi = wi 1 Wir nehmen z j 0, um die richtige Richtung der Ungleichung einzuhalten

120 Konstruktion des Dualen Jetzt leiten wir obere Schranke her mit einer Linearkombination: v I = ) l k z j (v I x ia ij + w I j=1 i=1 ( l ) z j v I + ( k w I j=1 i=1 j=1 l z j 0 + w I 1 = w I j=1 k i=1 x i ) l a ijz j x i Das klappt nur, wenn die erste Ungleichung erfüllt ist, und das ist der Fall, wenn die folgenden Bedingungen für die Koeffzienten der v I und x i auf der linken und rechten Seite gelten: 1 = l j=1 zj (Gleich da vi R) 0 w I l j=1 aijzj (Evtl größer da xi 0) Was ist die beste obere Schranke w I, die wir so erreichen können?

121 Finde die beste obere Schranke Minimize subject to w I w I l a ijz j 0 for all i = 1,, k j=1 l z j = 1 j=1 z j 0 for all j = 1,, l w I R (3) Dieses lineare Programm wird das duale Programm von (1) genannt, w I und z j sind die dualen Variablen Beachte: Dies repräsentiert genau das Optimierungsproblem (2), die Loss-Ceiling und eine optimale Strategie für II zu finden (mit w I = v II and z j = y j)!