Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem

Ähnliche Dokumente
Reasoning and decision-making under uncertainty

3. Das Reinforcement Lernproblem

Übersicht. 16. Treffen einfacher Entscheidungen

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Einfacher Problemlösungsagent. Übersicht. Begriffsdefinitionen für Einfach-Probleme

8. Reinforcement Learning

Reinforcement Learning

Reinforcement Learning

Spieltheorie Gemischte Strategien

Operations Research II: Fortgeschrittene Methoden der Wirtschaftsinformatik

Seminar Algorithmische Spieltheorie

12. Vorlesung. 19. Dezember 2006 Guido Schäfer

Dominanzüberlegungen in einfachen Matrix Spielen (Reine Strategien)

Ablauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Spieltheorie. Nash-Gleichgewichts-Berechnung. Bernhard Nebel und Robert Mattmüller. Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14.

Spieltheorie mit. sozialwissenschaftlichen Anwendungen

Algorithmen. Spieltheorie. Nash-Gleichgewichte in endlichen Nullsummenspielen. Kodierung als Lineares Programm. Nash-Gleichgewichts-Berechnung

Übersicht. 20. Verstärkungslernen

Grundlagen der KI. 15. Handeln unter Unsicherheit

Übersicht. 7. Prädikatenlogik 1. Stufe

Kapitel 4: Gemischte Strategien. Literatur: Tadelis Chapter 6

2. Beispiel: n-armiger Bandit

Übersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit)

Bayesianische Netzwerke - Lernen und Inferenz

Mikroökonomische Theorie

Strategische Spiele in Normalform; Schwache Dominanz. Strategienprofil der Gegenspieler (s i ) Kapitel 3: Spiele in Normalform

Bisher angenommen: jeder Spieler kennt alle Teile des Spiels. - Diskontfaktor des Verhandlungspartners

Dynamische Spiele mit unvollständiger Information. Perfektes Bayesianisches Gleichgewicht

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

2. Vorlesung. 1.3 Beste-Antwort Funktion. Vorlesung: Einführung in die Spieltheorie WS 2006/ Oktober 2006 Guido Schäfer

Verfeinerungen des Bayesianischen Nash Gleichgewichts

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Teil 2: Dynamische Spiele mit vollständigen Informationen

13. Handeln unter Unsicherheit

13. Handeln unter Unsicherheit

Lösungen Aufgabenblatt 5 zur Spieltheorie SS 2017

Seminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen

Künstliche Intelligenz

Wir verallgemeinern Bi Matrix Spiele auf beliebig viele Spieler

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Spieltheorie Teil 4. Tone Arnold. Universität des Saarlandes. 20. März 2008

Intelligente Agenten

Theoretische Grundlagen der Informatik

Das Gefangenendilemma (Prisoner s Dilemma)

bzw. die Entscheidugen anderer Spieler (teilweise) beobachten Erweitert das Analysespektrum erheblich Beschreibung des Spiels (extensive Form)

Multiagent Interactions

2. Spezielle anwendungsrelevante Funktionen

Wiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität.

Künstliche Intelligenz

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr

Einführung in die Spieltheorie

Wie verhalte ich mich bei einem Verhör und einer Mutprobe richtig?

Grundlagen der Objektmodellierung

Nash-Gleichgewichte in 2-Spieler Systemen. Katharina Klost Freie Universität Berlin

Grundlagen und Nash Gleichgewichte in reinen Strategien

Skript zur Vorlesung Mikroökonomik II (WS 2009) Teil 4

Vorlesung 1: Einleitung

D Spieltheorie und oligopolistische Märkte

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen

Graphische Spiele. M i (p) M i (p[i : p i]) M i (p) + ε M i (p[i : p i])

Bayes sche und probabilistische Netze

Anwendungen der Spieltheorie

Spieltheorie. Winter 2013/14. Professor Dezsö Szalay. Dynamische Spiele werden sehr schnell zu komplex um sie zu analysieren.

Der Bestimmtheitssatz

VWL Grundzüge Mikroökonomie

Hidden Markov Models

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Statische Spiele mit unvollständiger Information: Bayesianische-Spiele

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

Definition: Die Menge der Imputationen ist die Menge I aller Nutzenallokationen, die erreichbar und individuell rational sind.

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes

FACHCURRICULUM KL. 9. Raum und Form Figuren zentrisch strecken Üben und Festigen. Strahlensätze. Rechtwinklige Dreiecke.

Künstliche Intelligenz Maschinelles Lernen

Vorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Probleme bei reinen Strategien. Nash Gleichgewichte in gemischten Strategien Kopf 1, 1 1, 1 Zahl 1, 1 1, 1. Gemischte Strategien

Überblick. Mathematik und Spiel. Ohne Glück zum Sieg. Bedeutung der Strategie. Zwei Hauptaspekte

Clusteranalyse: Gauß sche Mischmodelle

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums

NICHTRESTRINGIERTE OPTIMIERUNG

3 Wahrscheinlichkeitstheorie

Mikroökonomik B Teil II: Spieltheorie

Nichtlineare Gleichungssysteme

In Spielen unter unvollkommener Information... Wir werden deshalb ein neues GG-Konzept einführen. Pefektes Bayesianisches Nash-Gleichgewicht

Stimmt das immer und in welchem Sinne?

Rational Choice Theory

VERHALTENSORIENTIERTE SPIELTHEORIE SS 2012

Künstliche Intelligenz

Spieltheorie. Winter 2013/14. Professor Dezsö Szalay. 2. Dynamische Spiele mit vollständiger Information

Algorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität)

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren

Aufgabenstellung: Finden von Übereinkünften. 3. Verteilte Entscheidungsfindung. Stabilität. Erwünschte Eigenschaften

Übersicht. Künstliche Intelligenz: 6. Spiele Frank Puppe 1

Transkript:

Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 13. Unsicherheiten 14. Probabilistisches Schließen 15. Probabilistisches zeitliches Schließen 16. Treffen einfacher Entscheidungen 17. Treffen komplexer Entscheidungen VI Lernen VII Kommunizieren, Wahrnehmen und Handeln Sequentielle Entscheidungsprobleme Problem: Häufig kann ein Agent sein Ziel nicht in einem Schritt, sondern nur durch viele Schritte erreichen. Wie kann man ein solches Planungssystem in einer indeterministischen Welt optimal lösen? Der Indeterminismus drückt sich in einem Übergangsmodell (transition model) aus, das angibt, welche Nachfolgezustände man bei einer gegebenen Aktion mit welcher Wahrscheinlichkeit erhält. Die bisherigen Techniken (bedingtes Planen, Umplanen) berücksichtigen keine Nützlichkeitsfunktionen. Lösungsidee: Man berechnet für jeden (relevanten) Zustand eine Regelmenge, die abhängig von der verfügbaren Evidenz und den bisherigen Aktionen angibt, wie der Agent sich verhalten soll ("Politik"; policy). Die Herleitung der Regeln basiert auf einer Berechnung der Nützlichkeit von jedem Zustand. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 1 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 2 MDP und POMDP Berechnung einer optimalen Politik in einer zugänglichen, indeterministischen Umgebung: Markov-Decision-Problem (MDP). Voraussetzung (Markov-Eigenschaft): die probabilistische Übergangsfunktion zwischen Zuständen hängt nur von dem Ausgangszustand und nicht von der Vergangenheit ab. Berechnung einer optimalen Politik in einer teilweise unzugänglichen, indeterministischen Umgebung: partially observable Markov-Decision-Problem (POMDP). MDP (Markov Decision Process) Spezifikation eines sequentiellen Entscheidungsproblems mit vollständig beobachtbarer Umgebung, Markovschem Übergangsmodell und additiver Belohnungsfunktion Startzustand: S 0 Übergangsmodell (Transition der Aktion a von Zustand (state) s nach Zustand s') : T (s, a, s') Belohnungsfunktion (reward): R (s) Der einfache Ansatz zur Übertragung von MDP-Algorithmen auf POMDP-Probleme (Agent berechnet Wahrscheinlichkeitswerte für die möglichen Zustände, in denen er sich befinden könnte und berechnet daraus den Wert seiner möglichen Aktionen) funktioniert nicht, da er nicht berücksichtigt, dass Aktionen auch neue Informationen über den Zustand liefern können. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 3 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 4 Beispiel für sequentielles Planungsproblem Lösungen zum Beispiel R(s) = -0.04 - - - Belohnungsfunktion: variabel, z.b. -0.04 pro Zug Übergangsmodell: 80% wie erwartet z.b. Bewegung nach Nord, je 10% in benachbarten Feldern, z.b. West oder Ost - Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 5 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 6

Optimalität in sequentiellen Entscheidungsproblemen Abhängig von endlichem oder unendlichem Horizont endlich: nach N Schritten ist das Spiel vorbei Problem: die Politik ändert sich mit der Zeit: nahe am Ende sind andere Politiken optimal als am Anfang (z.b. N = 3 in Feld (3,1) ) unendlich: es gibt keine vorgegebene Zeitbegrenzung optimale Politik bleibt konstant ("stationär") Art der Berechnung der Nützlichkeit von Zustandsfolgen Annahme: stationäre Präferenzen, d.h. die Präferenzen bleiben in verschiedenen Zuständen gleich; der Agent hat in der Zukunft die gleichen Präferenzen wie in der Gegenwart; Konsequenzen: additive Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+R(s 1 )+R(s 2 )+ oder abnehmende Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+γr(s 1 )+ γ 2 R(s 2 )+ mit γ = Discount-Faktor zwischen 0 und 1. Typisch z.b. für Investionsrechnungen von Firmen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 7 Konsequenzen Bei abnehmenden Belohnungen ist die Nützlichkeit auch von unendlichen Folgen endlich (geometrische Folge!) Wenn die Umgebung Endzustände enthält, in denen der Agent letztlich landen muss, braucht man unendliche Sequenzen nicht vergleichen. Eine Politik, die garantiert einen Endzustand erreicht, heisst "saubere" Politik (proper policy) und ermöglicht die Benutzung von additiven Belohnungen (d.h. γ = 1) Wenn es unsaubere Politiken gibt (z.b. bei R(s) > 0), dann funktionieren Standardalgorithmen für MDP nicht mit additiven Belohnungen. Unendliche Sequenzen kann man auch mit durchschnittlichen Belohnungen pro Zeit vergleichen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 8 "Value Iteration" zur Lösung von MDP's (1) Idee: Berechne zunächst die Nützlichkeiten aller Zustände und daraus die optimale Aktion in jedem Zustand (d.h. die Politik). Bsp.: Berechnung U(1,1) mit Nützlichkeiten aller Zustände (γ=1) Berechnung der Nützlichkeit eines Zustandes: Mittelwert entsprechend der Wahrscheinlichkeit und Nützlichkeit aller möglichen Zustandspfade, die sich aus der Anwendung der optimalen Politik ergeben. Die Nützlichkeit eines Zustandes ergibt sich aus der Belohnung in diesem Zustand plus die erwartete abnehmende Nützlichkeit des Folgezustandes unter der Annahme, das der Agent die optimale Aktion wählt (Bellmann-Gleichung): U(s) = R(s) + γ max a s' T(s,a,s') U (s') Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 9 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 10 "Value Iteration" zur Lösung von MDP's (2) Bsp. für Anwendung des Value-Iteration-Algorithmus Algorithmus-Skizze: Zwar weiß man zum Anfang noch nicht die Nützlichkeiten aller Zustände, aber wenn man sie anfangs zufällig initialisiert (z.b. alle unbekannten Zustände auf 0 setzen) und für jeden Zustand die Bellmann-Gleichung sehr oft iteriert, dann nähert man sich den tatsächlichen Nützlichkeiten aller Zustände beliebig genau an. Terminierung: Man gibt eine Genauigkeitsgrenze ε vor. Wenn sich kein Zustand in einer Iteration um mehr als ε verändert, bricht man den Value Iteration Algorithmus ab. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 11 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 12

Verbesserung Problem: wie genau müssen die Werte für jeden Zustand approximiert werden, um die optimale Politik zu finden? Verbesserung: Iteriere solange, bis sich die Politik nicht mehr ändert "Politik-Iteration" Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 13 Politik-Iteration Bei der Politik-Iteration wird eine Politik gewählt und daraus die Nützlichkeiten von jedem Zustand berechnet, was bei bekannter Politik einfach ist. Anschließend wird eine neue Politik aus den Nützlichkeitswerten der letzten Iteration hergeleitet (Wert- Bestimmung; value determination) und dieser Zyklus solange wiederholt, bis sich eine Politik stabilisiert. Es gibt zwei Methoden zur Nützlichkeitswert-Bestimmung: 1. Iterative Version: Die Nützlichkeit eines Zustandes ist die Belohnungsfunktion des Zustandes + die Summe über dem Produkt der Wahrscheinlichkeit und der Nützlichkeit aller möglichen Nachfolgezustände der von der Politik vorgeschlagenen Aktion. 2. Analytische Version: Lösung eines linearen Gleichungssystems mit Anzahl der Zustände Gleichungen und Unbekannten. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 14 Bsp.: Analytische Version der Politik-Iteration U i (s) = R(s) + γ s' T(s,π i (s),s') U i (s') Vergleich von Value- und Policy-Iteration 1 Beispiel: Sei π i folgende Politik: Dann gilt: π i (1,1) = Up π i (1,2) = Up π i (1,3) = Right usw. Daraus folgt: U i (1,1) = 0,8 U i (1,2) + 0,1 U i (1,1) + 0,1 U i (2,1) U i (1,2) = 0,8 U i (1,3) + 0,2 U i (1,2) Aufwand: bei n Zuständen O(n 3 ) für exakte Lösung Verbesserungen für approximierte Lösungen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 15 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 16 Partial Observable MDPs (POMDPs) Umgebung nur teilweise beobachtbar Agent weiß nicht in welchem Zustand er ist Lösungsansatz: Transfer von MDP auf POMDP Ersatz des Zustandes (state) durch "belief state": Ein belief state ist eine Wahrscheinlichkeitsverteilung über alle möglichen Zustände Erweiterung von MDPs durch ein Beobachtungsmodell, das die Wahrscheinlichkeit angibt, eine Beobachtung in einem Zustand zu machen. Probleme: kontinuierlicher und hochdimensionaler Zustandsraum Algorithmen für MDPs zu ineffizient Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 17 Beispiel Naive Lösung für sensorlose 4*3 Welt 5 * Left, dann 5* Up, dann 5 * Right: Erwartete Nützlichkeit: 0,08 Optimale Lösung für sensorlose 4*3 Welt Left, Up, Up, Right, Up, Up, Right, Up, Up, Right, Up, Right, Up, Erwartete Nützlichkeit: 0,38 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 18

Entscheidungstheoretische Agenten Alternativer Ansatz zur Lösung von POMDPs Transitions- und Beobachtungsmodelle werden als dynamische Bayessche Netze repräsentiert, die um Entscheidungs- und Nützlichkeitsknoten erweitert werden Bewertung dynamischer Entscheidungsnetze + Behandlung von Unsicherheiten + Behandlung von kontinuierlichem Sensor-Input + Behandlung unerwarteter Ereignisse wegen Fehlen eines festen Planes + Behandlung von verrauschten und falschen Sensordaten + Handlungsoptionen zur Informationsgewinnung + Aufteilung von Zuständen in Zustandsvariablen + "Graceful degradation" durch Approximationstechniken - Blinde Forwärtssuche wie bei Suchalgorithmen im Gegensatz zur zielgerichteten Suche wie bei Planungsalgorithmen. - Beschränkung auf aussagenlogische Sprache wegen Unsicherheiten (z.b. sind Zusammenhänge wie, "Wenn ein Auto mit mehr als 70 km/h gehen eine unnachgiebige Wand fährt, sterben die Insassen mit Wahrscheinlichkeit 0,9" in probabilistischer Logik nicht ausdrückbar). Ersatz durch Vorverarbeitungsprogramme zur Instantiierung der Variablen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 19 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 20 Entscheidungen mit mehreren Agenten: Spieltheorie Spiele, in denen Agenten gleichzeitig handeln (zunächst nur einen Zug) Zwei Ziele: Entwurf von Agenten, die sich optimal verhalten; Beispiel: 2-Finger-Morra: 2 Spieler zeigen gleichzeitig 1 oder 2 Finger, wobei einer bei gerader, der andere bei ungerader Summe die Anzahl der Finger in Euro gewinnt Entwurf von Umgebungen, die trotz egoistischem Verhalten der Agenten zum Gemeinwohl führen ("Mechanism Design"); Beispiele: Protokoll für Router für Internet-Verkehr oder Entwurf von Agenten, die komplexe Probleme ohne genaue Problemkenntnis lösen (z.b. soziale Insekten) Definition eines Spiels in der Spieltheorie Spieler (Agenten), die Entscheidungen treffen meist Spiele mit 2 oder mit n Spielern Aktionen, aus denen die Spieler wählen können es müssen nicht alle Spieler die gleiche Auswahl haben Payoff-Matrix: Liefert die Nützlichkeit für jeden Spieler bei allen Kombinationen von Aktionen aller Spieler Beispiel für 2-Finger-Morra Spieler: O ("odd") und E ("even") Aktionen: one und two Payoff-Matrix: Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 21 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 22 Strategien Jeder Spieler wählt eine Strategie (Politik) Reine Strategie: Auswahl einer bestimmten Aktion in jeder Situation Gemischte Strategie: Gewichtete Zufallsauswahl nach Wahrscheinlichkeitsverteilung über Aktionen, z.b. für 2- Finger-Morra: (0,5: one, 0,5: two) Analyse Strategie-Profil: Zuweisung von Strategien für jeden Spieler Ergebnis: Numerischer Wert für jeden Spieler Lösung: Strategie-Profil, in der jeder Spieler eine rationale Strategie wählt Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 23 2. Beispiel: Prisoner's Dilemma 2 Spieler (Verdächtige; Bob und Alice), die getrennt verhört werden und jeweils den anderen beschuldigen können, um ihre eigene Strafe zu verringern. Aktionen: testify (den anderen beschuldigen), refuse (nichts tun) Payoff-Matrix: Dominante Strategie für beide Spieler: "Testify" Können beide Spieler bei rationalem Verhalten auf "refuse" kommen? nur bei geänderten Regeln, z.b. mehrfache Begegnungen (aber nicht vorherbar oft) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 24

Strategietypen Dominante Strategie Starke [schwache] Dominanz: Eine Strategie s dominiert eine andere Strategie s' eines Spielers stark [schwach], wenn sie für jede [mindestens eine] Strategie der anderen Spieler bessere Ergebnisse liefert [und ansonsten keine schlechteren] (z.b. "testify" für Alice) Pareto-Optimalität: Ein Ergebnis ist pareto-optimal, wenn kein anderes Ergebnis von allen Spielern bevorzugt wird. Dominantes Strategie-Gleichgewicht: Jeder Spieler hat eine dominante Strategie (lokales Optimum) z.b. ist (testify, testify) ein lokales Optimum, obwohl (refuse, refuse) besser ist (pareto-optimal); allerdings kein Gleichgewicht Nash-Gleichgewicht: Jedes Spiel hat ein Gleichgewicht, auch wenn es kein dominantes Strategie-Gleichgewicht gibt. Dominante Strategie bei 2-Finger-Morra für beide Spieler Odd und Even: (7/12: one, 5/12: two) Ergebnis: für Odd: 1/12; für Even: -1/12 Im allgemeinen (in partiell beobachtbaren Umgebungen) kaum zu berechen (z.b. für Spiele wie Poker oder Bridge) Analysen zeigen aber, das gemischte Strategien am besten sind (machen eigenes Verhalten unvorhersehbar und erschweren dem Gegner die Analyse der eigenen Strategie) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 25 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 26 Mechanism Design: Umgekehrte Spieltheorie Anwendungsbereiche: allgemein: Politik und Wirtschaft speziell: Auktionen, Internetverkehr-Lastverteilung, Kooperation von Fußballspielern, Formale Beschreibung: Sprache zur Beschreibung aller Strategien, die Spieler wählen dürfen Ergebnis sind Regeln, die die Payoffs für die Spieler definieren. Typisches Problem: Wenn jeder Spieler sein Ergebnis optimiert, kann der globale Nutzen sinken, wenn dabei Gemeingut verbraucht wird (z.b. Umweltverschmutzung) Standardlösung: Kosten für Gemeingüter einbeziehen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 27 Beispiel: Auktionen Spezifikation: Es gibt nur einen Gegenstand. Jeder Bieter hat einen individuellen Nützlichkeitswert dafür. Dieser ist nur ihm bekannt. Englische Auktion Auktionärsverwalter erhöht den Preis des Gegenstandes schrittweise, bis nur ein Bieter übrig bleibt. Bieter haben einfache dominante Strategien Problem: Viel Kommunikationsaufwand Versiegelte-Angebots-Auktion Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt (wenig Kommunikationsaufwand) Problem: Bieter kann seinen Preis reduzieren, wenn er mehr als der Zweithöchste Bieter bietet (keine dominante Strategie) Vickrey Auktion (vermeidet beide obigen Probleme) Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt, aber nur der zweithöchste Preis gezahlt wird. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 28