Spieldynamik Josef Hofbauer and Karl Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Kap. 8 Simon Maurer Saarbrücken, den 13.12.2011 1 / 26
Ablauf 1 Imitationsdynamik 2 Monotone Auszahlung 3 Entscheidung gegen iterativ dominierte Strategien 4 Beste-Antwort-Dynamik 2 / 26
Imitationsdynamik Voraussetzungen: Symmetrische Spiele mit (n x n) - Auszahlungsmatrix eine (große) Population von Spielern reine Strategien R 1 bis R n werden mit einer Wiederholungsrate x i (t) gewählt 3 / 26
Imitationsdynamik Voraussetzungen: Symmetrische Spiele mit (n x n) - Auszahlungsmatrix eine (große) Population von Spielern reine Strategien R 1 bis R n werden mit einer Wiederholungsrate x i (t) gewählt Zustand ist zu jedem Zeitpunkt durch einen Punkt x S n gegeben 3 / 26
Imitationsdynamik Voraussetzungen: Symmetrische Spiele mit (n x n) - Auszahlungsmatrix eine (große) Population von Spielern reine Strategien R 1 bis R n werden mit einer Wiederholungsrate x i (t) gewählt Zustand ist zu jedem Zeitpunkt durch einen Punkt x S n gegeben Auszahlung: Strategie R i erhält dann (Ax) i = a ij x j pro Spiel die durchschnittliche Auszahlung der Population ist x A x 3 / 26
Imitationsdynamik Gelegentliche Auswahl eines Spielers der Population, Möglichkeit, die Strategie zu wechseln, Wahlprozess zufällig, übernimmt mit einer gewissen Wahrscheinlichkeit dessen Strategie. 4 / 26
Imitationsdynamik Gelegentliche Auswahl eines Spielers der Population, Möglichkeit, die Strategie zu wechseln, Wahlprozess zufällig, übernimmt mit einer gewissen Wahrscheinlichkeit dessen Strategie. Ein genereller Ansatz wird durch das Input-Output-Modell repräsentiert: Input-Output-Modell ẋ i = x i ( fij (x) f ji (x) ) x j. j 4 / 26
Imitationsdynamik Gelegentliche Auswahl eines Spielers der Population, Möglichkeit, die Strategie zu wechseln, Wahlprozess zufällig, übernimmt mit einer gewissen Wahrscheinlichkeit dessen Strategie. Ein genereller Ansatz wird durch das Input-Output-Modell repräsentiert: Input-Output-Modell ẋ i = x i ( fij (x) f ji (x) ) x j. j Klar: Ist ẋ i = 0, so ist S n invariant unter obiger Formel. 4 / 26
Imitationsdynamik Die Änderungsrate von R j zu R i ist gegeben durch x i x j f ij t mit x i x j = Wahrscheinlichkeit für das Auswählen eines Spielers mit Strategie R j bzw. R i, f ij = Rate mit der ein R j -Spieler zu R i umschwenkt 5 / 26
Imitationsdynamik Die Änderungsrate von R j zu R i ist gegeben durch x i x j f ij t mit x i x j = Wahrscheinlichkeit für das Auswählen eines Spielers mit Strategie R j bzw. R i, f ij = Rate mit der ein R j -Spieler zu R i umschwenkt Diese Rate hängt natürlich von der momentanen Auszahlung (Ax) i und (Ax) j ab. f ij (x) = f ( (Ax) i, Ax) j ) mit f = f(u, v) Funktion, welche die Imitationsvorschrift angibt. 5 / 26
Imitationsdynamik Imitiere den Besseren Erste Idee: 0, wenn u < v f(u, v) = 1, wenn u > v 6 / 26
Imitationsdynamik Imitiere den Besseren Erste Idee: 0, wenn u < v f(u, v) = 1, wenn u > v Problem: Diese Funktion ist unstetig. 6 / 26
Imitationsdynamik Imitiere den Besseren Erste Idee: 0, wenn u < v f(u, v) = 1, wenn u > v Problem: Diese Funktion ist unstetig. Ausweg: Man definiert sich eine Funktion, die von der Auszahlungsdifferenz abhängig ist. 6 / 26
Imitationsdynamik Definiere z.b. f(u, v) als f(u, v) = φ(u v) mit φ monoton wachsend. 7 / 26
Imitationsdynamik Definiere z.b. f(u, v) als f(u, v) = φ(u v) mit φ monoton wachsend. Das Input-Output-Modell kann dann mit ψ(u) = φ(u) φ( u) (ungerade, monoton wachsend) geschrieben werden als: ẋ i = x i x j ψ ( ) (Ax) i Ax) j j 7 / 26
Imitationsdynamik Beispiel Setze φ(u) u α +, α 0 und ψ(u) u α + sgn(u). Für α = 1 ergibt sich ψ(u) = u. Diese Imitationsvorschrift ist proportional und bedeutet im Endeffekt imitiere Verhalten mit höherem Profit, gewichtet mit einer Wahrscheinlichkeit, die proportional zum erwarteten Gewinn ist. Das Input-Output-Modell reduziert sich dann zur gewohnten Replikatordynamik: ẋ i = x i ( (Ax)i x Ax ). Im Grenzfall α 0 entsteht nun aus dem Input-Output-Modell die zuvor angesprochene Imitiere den Besseren-Strategie. 8 / 26
Imitationsdynamik Das Input-Output-Modell lässt sich auch wie folgt darstellen: ( ( ) ) ẋ i = x i f (Ax)i f mit f = ( ) x i f (Ax) i Dieser Fall tritt dann auf, wenn ein Spieler zu einer besseren Strategie wechselt, die proportional zur Differenz [f((ax) i ) f((ax) j )] + ist, wenn f ij = f((ax) i ), d.h. der Wechsel ist nur vom imitierten Spieler abhängig, wenn f ij = f((ax) j ), d.h. der Wechsel ist nur von der Auszahlung an der imitierenden Spieler abhängig (Imitation aufgrund Unzufriedenheit, mit der Annahme, dass unerfolgreiche Spieler öfters und blind imitieren). 9 / 26
Monotone Auszahlung Nun interessieren uns Spieldynamiken der Form ẋ i = x i g i (x) mit g i C 1 und x i g i (x) = 0 x S n. 10 / 26
Monotone Auszahlung Nun interessieren uns Spieldynamiken der Form ẋ i = x i g i (x) mit g i C 1 und x i g i (x) = 0 x S n. Definition: Auszahlungsmonoton Eine Spieldynamik wird als auszahlungsmonoton bezeichent, falls sich die Wachstumsrate der verschiedenen Strategien direkt proportional zur erwarteten Auszahlung verhält: g i (x) > g j (x) (Ax) i > (Ax) j 10 / 26
Monotone Auszahlung Informationen zur monotonen Auszahlung: Die Replikatordynamik ist auszahlungsmonoton. Auszahlungsmonotone Spiele haben die gleichen stationären Punkte, wie die Replikatordynamik. Für auszahlungsmonotone Spiele sind die Lyapunov-stabilen Gleichgewichte Nash-Gleichgewichte. Die strikten Nash-Gleichgewichte sind asymptotisch stabil. 11 / 26
Monotone Auszahlung Schwach auszahlungspositiv: Reine Strategie mit einer höheren Auszahlung als der Durchschnitt der Population. Die Strategie hat eine streng monoton wachsende Wachstumsrate. B(x) ( i : (Ax) i > x Ax ) g i (x) > 0 12 / 26
Entscheidung gegen iterativ dominierte Strategien Definition: strikt dominiert Die reine Strategie R i wird als strikt dominiert bezeichnet, wenn es eine Strategie y S n gibt, sodass x S n gilt: (Ax) i < y Ax. 13 / 26
Entscheidung gegen iterativ dominierte Strategien Spiel wird von rational denkenden Menschen gespielt, die Strategie R i wird nicht benutzt, alle strikt dominierten Strategien verschwinden aus dem Spiel, es bleiben reine Strategien übrig, die im nächsten Spiel strikt dominiert werden. 14 / 26
Entscheidung gegen iterativ dominierte Strategien Beispiel Es sei die Auszahlungsmatrix A gegeben durch 5 2 7 A = 0 0 4 1 5 5 R 2 ist strikt dominiert, im nächsten Spiel ist R 3 strikt dominiert, man erhält also eine nichtleere Menge von reinen Strategien, diese Menge hängt nicht vom Eliminationsprozess selbst ab. 15 / 26
Entscheidung gegen iterativ dominierte Strategien Definition: konvex monoton Eine auszahlungsmonotone Spieldynamik wird als konvex monoton bezeichnet, falls i und y, x S n gilt: y Ax > (Ax) i y i g j (x) > g i (x) 16 / 26
Entscheidung gegen iterativ dominierte Strategien Definition: konvex monoton Eine auszahlungsmonotone Spieldynamik wird als konvex monoton bezeichnet, falls i und y, x S n gilt: y Ax > (Ax) i y i g j (x) > g i (x) Satz 1 Ist eine monotone Spieldynamik konvex monoton und ist die reine Strategie R i iterativ strikt dominiert, so konvergiert die Frequenz x i (t) gegen 0. (Beweis siehe Anhang.) 16 / 26
Entscheidung gegen iterativ dominierte Strategien Beispiel Folgende Auszahlungsmatrix soll betrachtet werden: a c b γ b a c γ A = c b a γ α + β α + β α + β 0 mit c < a < b, 0 < β < b a und γ > 0. 17 / 26
Entscheidung gegen iterativ dominierte Strategien J. Hofbauer, K. Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Seite 90 18 / 26
Beste-Antwort-Dynamik d.h. Diskrete Generationen von Spielern, in jeder Runde soll ein Spieler zur Generation hinzustoßen, dieser Spieler nimmt eine Strategie der besten Antwort auf den bestehenden Strategien-Mix ein, dieser Spieler muss seine Strategie für das gesamte Spiel beibehalten, in der Generation k + 1 nimmt dieser Spieler eine Strategie r k+1 {R 1,..., R n } ein r k+1 maximiert die erwartete Auszahlung gegenüber s k = 1 k k r k i=1 19 / 26
Beste-Antwort-Dynamik Die Änderung in der Durchschnittsstrategie kann mit Hilfe der Differenzengleichung s k+1 s k = r k+1 s k k+1 berechnet werden. Dabei ist r k+1 β(s k ), wobei β(s k ) die Menge der besten Antworten auf x S n repräsentiert. 20 / 26
Beste-Antwort-Dynamik Übergang zu einer kontinuierlichen Betrachtungsweise: ( ) ṡ(t) = 1 t r(t) s(t) mit r(t) β(s(t)) bzw. in integraler Form: t s(t) = t 1 r(τ) dτ. Die Betrachtung von stückweise linearen Lösungen führt zur Beste-Antwort-Dynamik: 0 ẋ = β(x) x 21 / 26
Beste-Antwort-Dynamik Beispiel Folgende Auszahlungsmatrix soll betrachtet werden: 0 1 1 A = 1 0 1 1 1 0 J. Hofbauer, K. Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Seite 92 22 / 26
Beste-Antwort-Dynamik Allgemeine Konstruktion der stückweise linearen Lösungen der Beste-Antwort-Dynamik Anfangspunkt x, die Strategie b β((1 ɛ)x ɛb) fungiert als beste Antwort (ɛ 0), Iteration führt auf eine stückweise lineare Lösung für alle Zeiten t > 0. 23 / 26
Beste-Antwort-Dynamik Allgemeine Konstruktion der stückweise linearen Lösungen der Beste-Antwort-Dynamik Anfangspunkt x, die Strategie b β((1 ɛ)x ɛb) fungiert als beste Antwort (ɛ 0), Iteration führt auf eine stückweise lineare Lösung für alle Zeiten t > 0. Satz 2 Sei p eine innere ESS für ein Spiel mit Auszahlungsmatrix A. Dann ist p für die Beste-Antwort-Dynamik global asymptotisch stabil. Alle stückweise linearen Pfade erreichen p in einer endlichen Zeit. (Beweis siehe Anhang.) 23 / 26
Fazit Wir haben: 24 / 26
Fazit Wir haben: gelernt den Imitationsprozess mathematisch zu modellieren, 24 / 26
Fazit Wir haben: gelernt den Imitationsprozess mathematisch zu modellieren, die Auswirkungen der Dominanz auf statische Spiele untersucht, 24 / 26
Fazit Wir haben: gelernt den Imitationsprozess mathematisch zu modellieren, die Auswirkungen der Dominanz auf statische Spiele untersucht, die Möglichkeit einer besten Antwort auf bestehende Strategien besprochen. 24 / 26
Anhang Beweis zu Satz 1 Sei R i strikt dominiert von einem y S n. Aufgrund der Stetigkeit existiert ein δ > 0, sodass g i (x) y i g j (x) < δ x S n. Mit P(x) x i erreichen wir für jede innere Lösung mit t x(t), dass j x y j j Ṗ(x) = P(x) x j ẋ j = P(x) ( g i (x) y i g j (x) ). Daher ist Ṗ(x) < δ P(x). Daraus folgt, dass x i (t), welches kleiner als P(x(t)) ist, exponentiell abnimmt. Es reicht nun, dieses Argument zu wiederholen: ist das x i klein genug, so gibt es eine Ungleichung, die analog zur konvexen Monotonität für alle Strategien gilt, die in der nächsten Runde eliminiert werden, usw.. Also konvergiert die Frequenz x i (t) für die reinen Strategien R i, welche strikt dominiert sind, gegen 0. 25 / 26
Anhang Beweis zu Satz 2 Betrachte die Funktion V(x) = max i (Ax) i x Ax mit V(x) 0 und V(x) = 0, falls x = p. Entlang eines geraden Stückes ẋ = b-x ist dann V = (b-x) x Ax und V = ẋ Ax + (b-x) Aẋ = (b-x) Ax + (b-x) A(b-x). Für x p ist der erste Term nach Def. negativ und der zweite Term ist aufgrund Gleichung (6.19) und sogar nach unten durch 0 begrenzt. Also fällt V(x(t)) und erreichet den Wert 0 in einer endlichen Zeit. 26 / 26