Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem

Größe: px
Ab Seite anzeigen:

Download "Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem"

Transkript

1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 13. Unsicherheiten 14. Probabilistisches Schließen 15. Probabilistisches zeitliches Schließen 16. Treffen einfacher Entscheidungen 17. Treffen komplexer Entscheidungen VI Lernen VII Kommunizieren, Wahrnehmen und Handeln Sequentielle Entscheidungsprobleme Problem: Häufig kann ein Agent sein Ziel nicht in einem Schritt, sondern nur durch viele Schritte erreichen. Wie kann man ein solches Planungssystem in einer indeterministischen Welt optimal lösen? Der Indeterminismus drückt sich in einem Übergangsmodell (transition model) aus, das angibt, welche Nachfolgezustände man bei einer gegebenen Aktion mit welcher Wahrscheinlichkeit erhält. Die bisherigen Techniken (bedingtes Planen, Umplanen) berücksichtigen keine Nützlichkeitsfunktionen. Lösungsidee: Man berechnet für jeden (relevanten) Zustand eine Regelmenge, die abhängig von der verfügbaren Evidenz und den bisherigen Aktionen angibt, wie der Agent sich verhalten soll ("Politik"; policy). Die Herleitung der Regeln basiert auf einer Berechnung der Nützlichkeit von jedem Zustand. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 1 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 2 MDP und POMDP Berechnung einer optimalen Politik in einer zugänglichen, indeterministischen Umgebung: Markov-Decision-Problem (MDP). Voraussetzung (Markov-Eigenschaft): die probabilistische Übergangsfunktion zwischen Zuständen hängt nur von dem Ausgangszustand und nicht von der Vergangenheit ab. Berechnung einer optimalen Politik in einer teilweise unzugänglichen, indeterministischen Umgebung: partially observable Markov-Decision-Problem (POMDP). MDP (Markov Decision Process) Spezifikation eines sequentiellen Entscheidungsproblems mit vollständig beobachtbarer Umgebung, Markovschem Übergangsmodell und additiver Belohnungsfunktion Startzustand: S 0 Übergangsmodell (Transition der Aktion a von Zustand (state) s nach Zustand s') : T (s, a, s') Belohnungsfunktion (reward): R (s) Der einfache Ansatz zur Übertragung von MDP-Algorithmen auf POMDP-Probleme (Agent berechnet Wahrscheinlichkeitswerte für die möglichen Zustände, in denen er sich befinden könnte und berechnet daraus den Wert seiner möglichen Aktionen) funktioniert nicht, da er nicht berücksichtigt, dass Aktionen auch neue Informationen über den Zustand liefern können. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 3 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 4 Beispiel für sequentielles Planungsproblem Lösungen zum Beispiel R(s) = Belohnungsfunktion: variabel, z.b pro Zug Übergangsmodell: 80% wie erwartet z.b. Bewegung nach Nord, je 10% in benachbarten Feldern, z.b. West oder Ost - Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 5 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 6

2 Optimalität in sequentiellen Entscheidungsproblemen Abhängig von endlichem oder unendlichem Horizont endlich: nach N Schritten ist das Spiel vorbei Problem: die Politik ändert sich mit der Zeit: nahe am Ende sind andere Politiken optimal als am Anfang (z.b. N = 3 in Feld (3,1) ) unendlich: es gibt keine vorgegebene Zeitbegrenzung optimale Politik bleibt konstant ("stationär") Art der Berechnung der Nützlichkeit von Zustandsfolgen Annahme: stationäre Präferenzen, d.h. die Präferenzen bleiben in verschiedenen Zuständen gleich; der Agent hat in der Zukunft die gleichen Präferenzen wie in der Gegenwart; Konsequenzen: additive Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+R(s 1 )+R(s 2 )+ oder abnehmende Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+γr(s 1 )+ γ 2 R(s 2 )+ mit γ = Discount-Faktor zwischen 0 und 1. Typisch z.b. für Investionsrechnungen von Firmen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 7 Konsequenzen Bei abnehmenden Belohnungen ist die Nützlichkeit auch von unendlichen Folgen endlich (geometrische Folge!) Wenn die Umgebung Endzustände enthält, in denen der Agent letztlich landen muss, braucht man unendliche Sequenzen nicht vergleichen. Eine Politik, die garantiert einen Endzustand erreicht, heisst "saubere" Politik (proper policy) und ermöglicht die Benutzung von additiven Belohnungen (d.h. γ = 1) Wenn es unsaubere Politiken gibt (z.b. bei R(s) > 0), dann funktionieren Standardalgorithmen für MDP nicht mit additiven Belohnungen. Unendliche Sequenzen kann man auch mit durchschnittlichen Belohnungen pro Zeit vergleichen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 8 "Value Iteration" zur Lösung von MDP's (1) Idee: Berechne zunächst die Nützlichkeiten aller Zustände und daraus die optimale Aktion in jedem Zustand (d.h. die Politik). Bsp.: Berechnung U(1,1) mit Nützlichkeiten aller Zustände (γ=1) Berechnung der Nützlichkeit eines Zustandes: Mittelwert entsprechend der Wahrscheinlichkeit und Nützlichkeit aller möglichen Zustandspfade, die sich aus der Anwendung der optimalen Politik ergeben. Die Nützlichkeit eines Zustandes ergibt sich aus der Belohnung in diesem Zustand plus die erwartete abnehmende Nützlichkeit des Folgezustandes unter der Annahme, das der Agent die optimale Aktion wählt (Bellmann-Gleichung): U(s) = R(s) + γ max a s' T(s,a,s') U (s') Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 9 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 10 "Value Iteration" zur Lösung von MDP's (2) Bsp. für Anwendung des Value-Iteration-Algorithmus Algorithmus-Skizze: Zwar weiß man zum Anfang noch nicht die Nützlichkeiten aller Zustände, aber wenn man sie anfangs zufällig initialisiert (z.b. alle unbekannten Zustände auf 0 setzen) und für jeden Zustand die Bellmann-Gleichung sehr oft iteriert, dann nähert man sich den tatsächlichen Nützlichkeiten aller Zustände beliebig genau an. Terminierung: Man gibt eine Genauigkeitsgrenze ε vor. Wenn sich kein Zustand in einer Iteration um mehr als ε verändert, bricht man den Value Iteration Algorithmus ab. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 11 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 12

3 Verbesserung Problem: wie genau müssen die Werte für jeden Zustand approximiert werden, um die optimale Politik zu finden? Verbesserung: Iteriere solange, bis sich die Politik nicht mehr ändert "Politik-Iteration" Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 13 Politik-Iteration Bei der Politik-Iteration wird eine Politik gewählt und daraus die Nützlichkeiten von jedem Zustand berechnet, was bei bekannter Politik einfach ist. Anschließend wird eine neue Politik aus den Nützlichkeitswerten der letzten Iteration hergeleitet (Wert- Bestimmung; value determination) und dieser Zyklus solange wiederholt, bis sich eine Politik stabilisiert. Es gibt zwei Methoden zur Nützlichkeitswert-Bestimmung: 1. Iterative Version: Die Nützlichkeit eines Zustandes ist die Belohnungsfunktion des Zustandes + die Summe über dem Produkt der Wahrscheinlichkeit und der Nützlichkeit aller möglichen Nachfolgezustände der von der Politik vorgeschlagenen Aktion. 2. Analytische Version: Lösung eines linearen Gleichungssystems mit Anzahl der Zustände Gleichungen und Unbekannten. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 14 Bsp.: Analytische Version der Politik-Iteration U i (s) = R(s) + γ s' T(s,π i (s),s') U i (s') Vergleich von Value- und Policy-Iteration 1 Beispiel: Sei π i folgende Politik: Dann gilt: π i (1,1) = Up π i (1,2) = Up π i (1,3) = Right usw. Daraus folgt: U i (1,1) = 0,8 U i (1,2) + 0,1 U i (1,1) + 0,1 U i (2,1) U i (1,2) = 0,8 U i (1,3) + 0,2 U i (1,2) Aufwand: bei n Zuständen O(n 3 ) für exakte Lösung Verbesserungen für approximierte Lösungen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 15 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 16 Partial Observable MDPs (POMDPs) Umgebung nur teilweise beobachtbar Agent weiß nicht in welchem Zustand er ist Lösungsansatz: Transfer von MDP auf POMDP Ersatz des Zustandes (state) durch "belief state": Ein belief state ist eine Wahrscheinlichkeitsverteilung über alle möglichen Zustände Erweiterung von MDPs durch ein Beobachtungsmodell, das die Wahrscheinlichkeit angibt, eine Beobachtung in einem Zustand zu machen. Probleme: kontinuierlicher und hochdimensionaler Zustandsraum Algorithmen für MDPs zu ineffizient Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 17 Beispiel Naive Lösung für sensorlose 4*3 Welt 5 * Left, dann 5* Up, dann 5 * Right: Erwartete Nützlichkeit: 0,08 Optimale Lösung für sensorlose 4*3 Welt Left, Up, Up, Right, Up, Up, Right, Up, Up, Right, Up, Right, Up, Erwartete Nützlichkeit: 0,38 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 18

4 Entscheidungstheoretische Agenten Alternativer Ansatz zur Lösung von POMDPs Transitions- und Beobachtungsmodelle werden als dynamische Bayessche Netze repräsentiert, die um Entscheidungs- und Nützlichkeitsknoten erweitert werden Bewertung dynamischer Entscheidungsnetze + Behandlung von Unsicherheiten + Behandlung von kontinuierlichem Sensor-Input + Behandlung unerwarteter Ereignisse wegen Fehlen eines festen Planes + Behandlung von verrauschten und falschen Sensordaten + Handlungsoptionen zur Informationsgewinnung + Aufteilung von Zuständen in Zustandsvariablen + "Graceful degradation" durch Approximationstechniken - Blinde Forwärtssuche wie bei Suchalgorithmen im Gegensatz zur zielgerichteten Suche wie bei Planungsalgorithmen. - Beschränkung auf aussagenlogische Sprache wegen Unsicherheiten (z.b. sind Zusammenhänge wie, "Wenn ein Auto mit mehr als 70 km/h gehen eine unnachgiebige Wand fährt, sterben die Insassen mit Wahrscheinlichkeit 0,9" in probabilistischer Logik nicht ausdrückbar). Ersatz durch Vorverarbeitungsprogramme zur Instantiierung der Variablen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 19 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 20 Entscheidungen mit mehreren Agenten: Spieltheorie Spiele, in denen Agenten gleichzeitig handeln (zunächst nur einen Zug) Zwei Ziele: Entwurf von Agenten, die sich optimal verhalten; Beispiel: 2-Finger-Morra: 2 Spieler zeigen gleichzeitig 1 oder 2 Finger, wobei einer bei gerader, der andere bei ungerader Summe die Anzahl der Finger in Euro gewinnt Entwurf von Umgebungen, die trotz egoistischem Verhalten der Agenten zum Gemeinwohl führen ("Mechanism Design"); Beispiele: Protokoll für Router für Internet-Verkehr oder Entwurf von Agenten, die komplexe Probleme ohne genaue Problemkenntnis lösen (z.b. soziale Insekten) Definition eines Spiels in der Spieltheorie Spieler (Agenten), die Entscheidungen treffen meist Spiele mit 2 oder mit n Spielern Aktionen, aus denen die Spieler wählen können es müssen nicht alle Spieler die gleiche Auswahl haben Payoff-Matrix: Liefert die Nützlichkeit für jeden Spieler bei allen Kombinationen von Aktionen aller Spieler Beispiel für 2-Finger-Morra Spieler: O ("odd") und E ("even") Aktionen: one und two Payoff-Matrix: Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 21 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 22 Strategien Jeder Spieler wählt eine Strategie (Politik) Reine Strategie: Auswahl einer bestimmten Aktion in jeder Situation Gemischte Strategie: Gewichtete Zufallsauswahl nach Wahrscheinlichkeitsverteilung über Aktionen, z.b. für 2- Finger-Morra: (0,5: one, 0,5: two) Analyse Strategie-Profil: Zuweisung von Strategien für jeden Spieler Ergebnis: Numerischer Wert für jeden Spieler Lösung: Strategie-Profil, in der jeder Spieler eine rationale Strategie wählt Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe Beispiel: Prisoner's Dilemma 2 Spieler (Verdächtige; Bob und Alice), die getrennt verhört werden und jeweils den anderen beschuldigen können, um ihre eigene Strafe zu verringern. Aktionen: testify (den anderen beschuldigen), refuse (nichts tun) Payoff-Matrix: Dominante Strategie für beide Spieler: "Testify" Können beide Spieler bei rationalem Verhalten auf "refuse" kommen? nur bei geänderten Regeln, z.b. mehrfache Begegnungen (aber nicht vorherbar oft) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 24

5 Strategietypen Dominante Strategie Starke [schwache] Dominanz: Eine Strategie s dominiert eine andere Strategie s' eines Spielers stark [schwach], wenn sie für jede [mindestens eine] Strategie der anderen Spieler bessere Ergebnisse liefert [und ansonsten keine schlechteren] (z.b. "testify" für Alice) Pareto-Optimalität: Ein Ergebnis ist pareto-optimal, wenn kein anderes Ergebnis von allen Spielern bevorzugt wird. Dominantes Strategie-Gleichgewicht: Jeder Spieler hat eine dominante Strategie (lokales Optimum) z.b. ist (testify, testify) ein lokales Optimum, obwohl (refuse, refuse) besser ist (pareto-optimal); allerdings kein Gleichgewicht Nash-Gleichgewicht: Jedes Spiel hat ein Gleichgewicht, auch wenn es kein dominantes Strategie-Gleichgewicht gibt. Dominante Strategie bei 2-Finger-Morra für beide Spieler Odd und Even: (7/12: one, 5/12: two) Ergebnis: für Odd: 1/12; für Even: -1/12 Im allgemeinen (in partiell beobachtbaren Umgebungen) kaum zu berechen (z.b. für Spiele wie Poker oder Bridge) Analysen zeigen aber, das gemischte Strategien am besten sind (machen eigenes Verhalten unvorhersehbar und erschweren dem Gegner die Analyse der eigenen Strategie) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 25 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 26 Mechanism Design: Umgekehrte Spieltheorie Anwendungsbereiche: allgemein: Politik und Wirtschaft speziell: Auktionen, Internetverkehr-Lastverteilung, Kooperation von Fußballspielern, Formale Beschreibung: Sprache zur Beschreibung aller Strategien, die Spieler wählen dürfen Ergebnis sind Regeln, die die Payoffs für die Spieler definieren. Typisches Problem: Wenn jeder Spieler sein Ergebnis optimiert, kann der globale Nutzen sinken, wenn dabei Gemeingut verbraucht wird (z.b. Umweltverschmutzung) Standardlösung: Kosten für Gemeingüter einbeziehen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 27 Beispiel: Auktionen Spezifikation: Es gibt nur einen Gegenstand. Jeder Bieter hat einen individuellen Nützlichkeitswert dafür. Dieser ist nur ihm bekannt. Englische Auktion Auktionärsverwalter erhöht den Preis des Gegenstandes schrittweise, bis nur ein Bieter übrig bleibt. Bieter haben einfache dominante Strategien Problem: Viel Kommunikationsaufwand Versiegelte-Angebots-Auktion Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt (wenig Kommunikationsaufwand) Problem: Bieter kann seinen Preis reduzieren, wenn er mehr als der Zweithöchste Bieter bietet (keine dominante Strategie) Vickrey Auktion (vermeidet beide obigen Probleme) Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt, aber nur der zweithöchste Preis gezahlt wird. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 28

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

3. Das Reinforcement Lernproblem

3. Das Reinforcement Lernproblem 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität

Mehr

Übersicht. 16. Treffen einfacher Entscheidungen

Übersicht. 16. Treffen einfacher Entscheidungen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 14. Unsicherheiten 15. Probabilistische Inferenzsysteme 16. Treffen

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Einfacher Problemlösungsagent. Übersicht. Begriffsdefinitionen für Einfach-Probleme

Einfacher Problemlösungsagent. Übersicht. Begriffsdefinitionen für Einfach-Probleme Übersicht I Künstliche Intelligenz II Problemlösen 3. Problemlösen durch Suche 4. Informierte Suchmethoden 5. Constraint-Probleme 6. Spiele III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Spieltheorie Gemischte Strategien

Spieltheorie Gemischte Strategien Spieltheorie Gemischte Strategien Emanuel Kitzelmann Kognitive Systeme Universität Bamberg Übung KogSys I, WS 06/07 E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 1 /

Mehr

Operations Research II: Fortgeschrittene Methoden der Wirtschaftsinformatik

Operations Research II: Fortgeschrittene Methoden der Wirtschaftsinformatik Operations Research II: Fortgeschrittene Methoden der Wirtschaftsinformatik Michael H. Breitner, Frank Köller und Hans-Jörg v. Mettenheim 18. Juli 2007 Hans-Jörg von Mettenheim Operations Research II 1

Mehr

Seminar Algorithmische Spieltheorie

Seminar Algorithmische Spieltheorie Seminar Algorithmische Spieltheorie Einführung in die klassische Spiel- und Mechanismentheorie Hagen Völzer Universität zu Lübeck 10. November 2004 0 Überblick 1. Spiele 2. Auktionen 3. Mechanismen 1 Gefangenendilemma

Mehr

12. Vorlesung. 19. Dezember 2006 Guido Schäfer

12. Vorlesung. 19. Dezember 2006 Guido Schäfer LETZTE ÄNDERUNG: 6. JANUAR 007 Vorlesung: Einführung in die Spieltheorie WS 006/007. Vorlesung 9. Dezember 006 Guido Schäfer 4 Bayesian Games Wir haben bisher immer angenommen, dass jeder Spieler vollständige

Mehr

Dominanzüberlegungen in einfachen Matrix Spielen (Reine Strategien)

Dominanzüberlegungen in einfachen Matrix Spielen (Reine Strategien) Dominanzüberlegungen in einfachen Matrix Spielen (Reine Strategien) Dominanzüberlegungen können beim Auffinden von Nash Gleichgewichten helfen Ein durch Dominanzüberlegungen ermitteltes Gleichgewicht ist

Mehr

Ablauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26

Ablauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26 Spieldynamik Josef Hofbauer and Karl Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Kap. 8 Simon Maurer Saarbrücken, den 13.12.2011 1 / 26 Ablauf 1 Imitationsdynamik 2 Monotone Auszahlung

Mehr

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen

Mehr

Spieltheorie. Nash-Gleichgewichts-Berechnung. Bernhard Nebel und Robert Mattmüller. Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14.

Spieltheorie. Nash-Gleichgewichts-Berechnung. Bernhard Nebel und Robert Mattmüller. Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14. Spieltheorie Nash-Gleichgewichts-Berechnung Albert-Ludwigs-Universität Freiburg Bernhard Nebel und Robert Mattmüller Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14. Mai 2012 14. Mai 2012 B. Nebel,

Mehr

Spieltheorie mit. sozialwissenschaftlichen Anwendungen

Spieltheorie mit. sozialwissenschaftlichen Anwendungen Friedel Bolle, Claudia Vogel Spieltheorie mit sozialwissenschaftlichen Anwendungen SS 2010 Simultane Spiele 1. Einführung: Spiele in Normalform Nash-Gleichgewicht Dominanz 2. Typen von Spielen Gefangenendilemma

Mehr

Algorithmen. Spieltheorie. Nash-Gleichgewichte in endlichen Nullsummenspielen. Kodierung als Lineares Programm. Nash-Gleichgewichts-Berechnung

Algorithmen. Spieltheorie. Nash-Gleichgewichte in endlichen Nullsummenspielen. Kodierung als Lineares Programm. Nash-Gleichgewichts-Berechnung Spieltheorie Albert-Ludwigs-Universität Freiburg Bernhard Nebel und Robert Mattmüller Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14. Mai 2012 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Grundlagen der KI. 15. Handeln unter Unsicherheit

Grundlagen der KI. 15. Handeln unter Unsicherheit Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen

Mehr

Übersicht. 7. Prädikatenlogik 1. Stufe

Übersicht. 7. Prädikatenlogik 1. Stufe Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern 6. Logisch schließende Agenten 7. Prädikatenlogik 1. Stufe 8. Entwicklung einer Wissensbasis 9. Schließen in der Prädikatenlogik

Mehr

Kapitel 4: Gemischte Strategien. Literatur: Tadelis Chapter 6

Kapitel 4: Gemischte Strategien. Literatur: Tadelis Chapter 6 Kapitel 4: Gemischte Strategien Literatur: Tadelis Chapter 6 Idee In vielen Spielen gibt es kein Nash Gleichgewicht in reinen Strategien (und auch kein Gleichgewicht in dominanten Strategien) Darüber hinaus

Mehr

2. Beispiel: n-armiger Bandit

2. Beispiel: n-armiger Bandit 2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger

Mehr

Übersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit)

Übersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit) Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern 7. Logische Agenten 8. Prädikatenlogik 1. Stufe 9. Schließen in der Prädikatenlogik 1. Stufe 10. Wissensrepräsentation IV

Mehr

Bayesianische Netzwerke - Lernen und Inferenz

Bayesianische Netzwerke - Lernen und Inferenz Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel

Mehr

Mikroökonomische Theorie

Mikroökonomische Theorie David M. Kreps Mikroökonomische Theorie aus dem Englischen von Prof. Dr. Ulrich K. Schittko vertag moderne Industrie HARVESTER WHEATSHEAF Inhaltsverzeichnis 1 Ein Überblick 1 1.1 Die grundlegenden Bausteine:

Mehr

Strategische Spiele in Normalform; Schwache Dominanz. Strategienprofil der Gegenspieler (s i ) Kapitel 3: Spiele in Normalform

Strategische Spiele in Normalform; Schwache Dominanz. Strategienprofil der Gegenspieler (s i ) Kapitel 3: Spiele in Normalform Strategische Spiele in Normalform; Schwache Dominanz 3. Spiele in Normalform Definition Strategienprofil der Gegenspieler Anwendung: Soziales Dilemma (verallgemeinertes GD) Definition: Spiele in Normalform

Mehr

Bisher angenommen: jeder Spieler kennt alle Teile des Spiels. - Diskontfaktor des Verhandlungspartners

Bisher angenommen: jeder Spieler kennt alle Teile des Spiels. - Diskontfaktor des Verhandlungspartners 1 KAP 15. Spiele unter unvollständiger Information Bisher angenommen: jeder Spieler kennt alle Teile des Spiels seine Gegenspieler, deren Aktionen, deren Nutzen, seinen eigenen Nutzen etc. Oft kennt man

Mehr

Dynamische Spiele mit unvollständiger Information. Perfektes Bayesianisches Gleichgewicht

Dynamische Spiele mit unvollständiger Information. Perfektes Bayesianisches Gleichgewicht Dynamische Spiele mit unvollständiger Information Perfektes Bayesianisches Gleichgewicht Spieltheorie University of Bonn Dezsö Szalay Dieser Teil basiert auf Kapitel 4 "Gibbons (1992), A primer in Game

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank

5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.

Mehr

2. Vorlesung. 1.3 Beste-Antwort Funktion. Vorlesung: Einführung in die Spieltheorie WS 2006/ Oktober 2006 Guido Schäfer

2. Vorlesung. 1.3 Beste-Antwort Funktion. Vorlesung: Einführung in die Spieltheorie WS 2006/ Oktober 2006 Guido Schäfer LETZTE ÄNDERUNG: 15. NOVEMBER 2006 Vorlesung: Einführung in die Spieltheorie WS 2006/2007 2. Vorlesung 24. Oktober 2006 Guido Schäfer 1.3 Beste-Antwort Funktion Notation: Definiere A i := j N\{i} A j.

Mehr

Verfeinerungen des Bayesianischen Nash Gleichgewichts

Verfeinerungen des Bayesianischen Nash Gleichgewichts Spieltheorie Sommersemester 007 Verfeinerungen des Bayesianischen Nash Gleichgewichts Das Bayesianische Nash Gleichgewicht für Spiele mit unvollständiger Information ist das Analogon zum Nash Gleichgewicht

Mehr

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Teil 2: Dynamische Spiele mit vollständigen Informationen

Teil 2: Dynamische Spiele mit vollständigen Informationen Teil : Dynamische Spiele mit vollständigen Informationen Kapitel 5: Grundsätzliches Literatur: Tadelis Chapter 7 Prof. Dr. Philipp Weinschenk, Lehrstuhl für Mikroökonomik, TU Kaiserslautern Kapitel 5.:

Mehr

13. Handeln unter Unsicherheit

13. Handeln unter Unsicherheit 13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration 1 S Grundlagen der utzentheorie

Mehr

13. Handeln unter Unsicherheit

13. Handeln unter Unsicherheit 13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration (basierend auf Folien von Volker

Mehr

Lösungen Aufgabenblatt 5 zur Spieltheorie SS 2017

Lösungen Aufgabenblatt 5 zur Spieltheorie SS 2017 Lösungen Aufgabenblatt 5 zur Spieltheorie SS 017 Aufgabe 5.1: Bestimmen Sie sämtliche Nash-Gleichgewichte in reinen und gemischten Strategien der Spiele: Spiel 1 x y a, 1 1, 1 b 0, 1 3, 5 Spiel 1: Spiel

Mehr

Seminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen

Seminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen Seminararbeit zur Spieltheorie Thema: Rationalisierbarkeit und Wissen Westfälische-Wilhelms-Universität Münster Mathematisches Institut Dozent: Prof. Dr. Löwe Verfasst von: Maximilian Mümken Sommersemester

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Übungsblatt #1 Modellierung & Suche Prof. Dr. J. Fürnkranz, Dr. G. Grieser Aufgabe 1.1 Wir betrachten folgende Welt: Welt: Die Welt der Staubsauger-Akteure besteht aus Räumen, die

Mehr

Wir verallgemeinern Bi Matrix Spiele auf beliebig viele Spieler

Wir verallgemeinern Bi Matrix Spiele auf beliebig viele Spieler 1 KAP 3. Spiele mit mehr als zwei Spielern Wir verallgemeinern Bi Matrix Spiele auf beliebig viele Spieler Es gibt nun n Spieler i = 1,..., n Eine typische Strategie für SPi bezeichnen wir mit s i... S

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

Spieltheorie Teil 4. Tone Arnold. Universität des Saarlandes. 20. März 2008

Spieltheorie Teil 4. Tone Arnold. Universität des Saarlandes. 20. März 2008 Spieltheorie Teil 4 Tone Arnold Universität des Saarlandes 20. März 2008 Tone Arnold (Universität des Saarlandes) Spieltheorie Teil 4 20. März 2008 1 / 64 Verfeinerungen des Nash GGs Das Perfekte Bayesianische

Mehr

Intelligente Agenten

Intelligente Agenten KI Wintersemester 2013/2014 Intelligente Agenten Grundlagen der Künstlichen Intelligenz Wintersemester 2014/2015 Marc Toussaint 2006-2014 Heidemann, Bruhn, Toussaint Überblick Überblick Agentenbegriff,

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Vorlesung am 20. November 2014 INSTITUT FÜR THEORETISCHE 0 KIT 20.11.2014 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der

Mehr

Das Gefangenendilemma (Prisoner s Dilemma)

Das Gefangenendilemma (Prisoner s Dilemma) SPIELTHEORIE Das Gefangenendilemma (Prisoner s Dilemma) 2 Zwei Herren (Braun und Blau) haben eine Bank überfallen. Der Sheriff hat sie gefasst, kann aber nur ein minder schweres Verbrechen nachweisen (unerlaubter

Mehr

bzw. die Entscheidugen anderer Spieler (teilweise) beobachten Erweitert das Analysespektrum erheblich Beschreibung des Spiels (extensive Form)

bzw. die Entscheidugen anderer Spieler (teilweise) beobachten Erweitert das Analysespektrum erheblich Beschreibung des Spiels (extensive Form) 1 KAP 9. Dynamische Spiele Bisher: alle Spieler ziehen simultan bzw. können Aktionen der Gegenspieler nicht beobachten Nun: Dynamische Spiele Spieler können nacheinander ziehen bzw. die Entscheidugen anderer

Mehr

Multiagent Interactions

Multiagent Interactions Multiagent Interactions Ein Vortrag von: Rhena Möller und Svenja Heitländer Für das Seminar Multiagentensysteme SS09 Inhalt Einleitung Was ist Interaktion und wie funktioniert sie? Anwendungen Utility

Mehr

2. Spezielle anwendungsrelevante Funktionen

2. Spezielle anwendungsrelevante Funktionen 2. Spezielle anwendungsrelevante Funktionen (1) Affin-lineare Funktionen Eine Funktion f : R R heißt konstant, wenn ein c R mit f (x) = c für alle x R existiert linear, wenn es ein a R mit f (x) = ax für

Mehr

Wiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität.

Wiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität. Spieltheorie Sommersemester 2007 1 Wiederholte Spiele Grundlegende Konzepte Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität. 2. Wichtige Phänomene sind

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten

Mehr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr 2. Ankunftswahrscheinlichkeiten und Übergangszeiten Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustände i und j beziehen: Wie wahrscheinlich ist es,

Mehr

Einführung in die Spieltheorie

Einführung in die Spieltheorie Seminar über Algorithmen - Einführung in die Spieltheorie Nadja Scharf Institut für Informatik Einführung in die Spieltheorie nach Nisan, Roughgarden, Tardos, Vazirani: Algorithmic Game Theory, Kapitel

Mehr

Wie verhalte ich mich bei einem Verhör und einer Mutprobe richtig?

Wie verhalte ich mich bei einem Verhör und einer Mutprobe richtig? Wie verhalte ich mich bei einem Verhör und einer Mutprobe richtig? Ringvorlesung Technische Mathematik 10. November 2009 Inhaltsverzeichnis Das Gefangenendilemma 1 Das Gefangenendilemma 2 Situationsanalyse

Mehr

Grundlagen der Objektmodellierung

Grundlagen der Objektmodellierung Grundlagen der Objektmodellierung Daniel Göhring 30.10.2006 Gliederung Grundlagen der Wahrscheinlichkeitsrechnung Begriffe zur Umweltmodellierung Bayesfilter Zusammenfassung Grundlagen der Wahrscheinlichkeitsrechnung

Mehr

Nash-Gleichgewichte in 2-Spieler Systemen. Katharina Klost Freie Universität Berlin

Nash-Gleichgewichte in 2-Spieler Systemen. Katharina Klost Freie Universität Berlin Nash-Gleichgewichte in 2-Spieler Systemen Katharina Klost Freie Universität Berlin Seminar über Algorithmen, 29.10.2013 Grundlegende Definitionen A Gewinnmatrix für Spieler 1, B Gewinnmatrix für Spieler

Mehr

Grundlagen und Nash Gleichgewichte in reinen Strategien

Grundlagen und Nash Gleichgewichte in reinen Strategien Grundlagen und Nash Gleichgewichte in reinen Strategien Yves Breitmoser, EUV Frankfurt (Oder) Zahlen und Vektoren IR ist die Menge der reellen Zahlen IR + = r IR r 0 IR n ist die Menge aller Vektoren von

Mehr

Skript zur Vorlesung Mikroökonomik II (WS 2009) Teil 4

Skript zur Vorlesung Mikroökonomik II (WS 2009) Teil 4 Skript zur Vorlesung Mikroökonomik II (WS 09) Teil 4 PR 13: Spieltheorie Weiterentwicklung der ökonomischen Theorie untersucht Situationen strategischen Verhaltens John von Neumann und Oskar Morgenstern

Mehr

Vorlesung 1: Einleitung

Vorlesung 1: Einleitung Vorlesung 1: Einleitung Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Entscheidung VL 1, FS 12 Einleitung 1/17 1.1 Motivation In der Vorlesung Intermediate Microecoomics haben

Mehr

D Spieltheorie und oligopolistische Märkte

D Spieltheorie und oligopolistische Märkte D Spieltheorie und oligopolistische Märkte Verhaltensannahmen in der Markttheorie, die bisher analysiert wurden Konkurrenz: viele sehr kleine Wirtschaftssubjekte, die für sich genommen keinen Einfluss

Mehr

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten

Mehr

Graphische Spiele. M i (p) M i (p[i : p i]) M i (p) + ε M i (p[i : p i])

Graphische Spiele. M i (p) M i (p[i : p i]) M i (p) + ε M i (p[i : p i]) Seminar über Algorithmen 19. November 2013 Michael Brückner Graphische Spiele Wolfgang Mulzer, Yannik Stein 1 Einführung Da in Mehrspielerspielen mit einer hohen Anzahl n N an Spielern die Auszahlungsdarstellungen

Mehr

Bayes sche und probabilistische Netze

Bayes sche und probabilistische Netze Bayes sche und probabilistische Netze Gliederung Wahrscheinlichkeiten Bedingte Unabhängigkeit, Deduktion und Induktion Satz von Bayes Bayes sche Netze D-Separierung Probabilistische Inferenz Beispielanwendung

Mehr

Anwendungen der Spieltheorie

Anwendungen der Spieltheorie Mikroökonomie I Einführung in die Spieltheorie Universität Erfurt Wintersemester 08/09 Prof. Dr. Dittrich (Universität Erfurt) Spieltheorie Winter 1 / 28 Spieltheorie Die Spieltheorie modelliert strategisches

Mehr

Spieltheorie. Winter 2013/14. Professor Dezsö Szalay. Dynamische Spiele werden sehr schnell zu komplex um sie zu analysieren.

Spieltheorie. Winter 2013/14. Professor Dezsö Szalay. Dynamische Spiele werden sehr schnell zu komplex um sie zu analysieren. Spieltheorie Winter 2013/14 Professor Dezsö Szalay 3. Wiederholte Spiele Dynamische Spiele werden sehr schnell zu komplex um sie zu analysieren. Eine Klasse von Spielen, die man jedoch relativ gut versteht

Mehr

Der Bestimmtheitssatz

Der Bestimmtheitssatz 2. Spielbäume und Intelligente Spiele Der Minimax-Algorithmus Der Bestimmtheitssatz Satz 2.1. Gegeben sei ein Spiel, das die folgenden Eigenschaften hat: 1. Das Spiel wird von zwei Personen gespielt. 2.

Mehr

VWL Grundzüge Mikroökonomie

VWL Grundzüge Mikroökonomie VWL Grundzüge Mikroökonomie Wintersemester 2011/12 Christian Bauer Christian Bauer WS 11/12 Grundzüge: Mikroökonomie 1 Süßigkeiten Spiele Christian Bauer WS 11/12 Grundzüge: Mikroökonomie 2 John Forbes

Mehr

Hidden Markov Models

Hidden Markov Models Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung

Mehr

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P. 2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet

Mehr

Statische Spiele mit unvollständiger Information: Bayesianische-Spiele

Statische Spiele mit unvollständiger Information: Bayesianische-Spiele Statische Spiele mit unvollständiger Information: Bayesianische-Spiele In einigen Situationen verfügen Spieler (nur) über unvollständige Information. Möglicherweise kennen sie die relevanten Charakteristika

Mehr

Einführung in die Theorie der Markov-Ketten. Jens Schomaker

Einführung in die Theorie der Markov-Ketten. Jens Schomaker Einführung in die Theorie der Markov-Ketten Jens Schomaker Markov-Ketten Zur Motivation der Einführung von Markov-Ketten betrachte folgendes Beispiel: 1.1 Beispiel Wir wollen die folgende Situation mathematisch

Mehr

Definition: Die Menge der Imputationen ist die Menge I aller Nutzenallokationen, die erreichbar und individuell rational sind.

Definition: Die Menge der Imputationen ist die Menge I aller Nutzenallokationen, die erreichbar und individuell rational sind. Spieltheorie Sommersemester 2007 1 Der Kern Sei I = {1, 2,...,n} und Γ = (I, v). Definition: Die Menge der Imputationen ist die Menge I aller Nutzenallokationen, die erreichbar und individuell rational

Mehr

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes Markov-Prozesse Franziskus Diwo Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes 8.0.20 Gliederung Was ist ein Markov-Prozess? 2 Zustandswahrscheinlichkeiten 3 Z-Transformation 4 Übergangs-,

Mehr

FACHCURRICULUM KL. 9. Raum und Form Figuren zentrisch strecken Üben und Festigen. Strahlensätze. Rechtwinklige Dreiecke.

FACHCURRICULUM KL. 9. Raum und Form Figuren zentrisch strecken Üben und Festigen. Strahlensätze. Rechtwinklige Dreiecke. MATHEMATIK Schönbuch-Gymnasium Holzgerlingen Seite 1/5 Ähnliche Figuren - Strahlensätze Figuren zentrisch strecken Eigenschaften der zentrischen Streckung kennen und Zentrische Streckung anwenden Strahlensätze

Mehr

Künstliche Intelligenz Maschinelles Lernen

Künstliche Intelligenz Maschinelles Lernen Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes

Mehr

Vorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele

Vorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele Vorlesung: Nicht-kooperative Spieltheorie Teil 4: 2-Personen-Nullsummenspiele Dr. Thomas Krieger Wintertrimester 2009 Dr. Thomas Krieger Vorlesung: Nicht-kooperative Spieltheorie 1 Definition 2-Personen-Nullsummenspiele

Mehr

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen

Mehr

Probleme bei reinen Strategien. Nash Gleichgewichte in gemischten Strategien Kopf 1, 1 1, 1 Zahl 1, 1 1, 1. Gemischte Strategien

Probleme bei reinen Strategien. Nash Gleichgewichte in gemischten Strategien Kopf 1, 1 1, 1 Zahl 1, 1 1, 1. Gemischte Strategien Probleme bei reinen Strategien Bisher hatten wir angenommen, daß sich jeder Spieler b auf genau eine Strategie S b S b festlegt. Das ist nicht immer plausibel. Nash Gleichgewichte in gemischten Strategien

Mehr

Überblick. Mathematik und Spiel. Ohne Glück zum Sieg. Bedeutung der Strategie. Zwei Hauptaspekte

Überblick. Mathematik und Spiel. Ohne Glück zum Sieg. Bedeutung der Strategie. Zwei Hauptaspekte Überblick Ohne Glück zum Sieg R. Verfürth Fakultät für Mathematik Ruhr-Universität Bochum Bochum / 8. Oktober 2009 Kategorisierung Strategische Spiele Bewertung einer Stellung Aufwand Epilog Literatur

Mehr

Clusteranalyse: Gauß sche Mischmodelle

Clusteranalyse: Gauß sche Mischmodelle Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer

Mehr

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17

Bildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Bildverarbeitung: Filterung D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Allgemeines Klassische Anwendung: Entrauschung (Fast) jeder Filter basiert auf einem Modell (Annahme): Signal + Rauschen

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren

Mehr

6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums

6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums 6. Spiele Arten von Spielen 6. Spiele Kombinatorische Spiele als Suchproblem Wie berechnet man eine gute Entscheidung? Effizienzverbesserung durch Beschneidung des Suchraums Spiele mit Zufallselement Maschinelles

Mehr

NICHTRESTRINGIERTE OPTIMIERUNG

NICHTRESTRINGIERTE OPTIMIERUNG 3 NICHTRESTRINGIERTE OPTIMIERUNG Die Aufgabe, mit der wir uns im Folgen beschäftigen werden, ist die Lösung von Minimierungsproblemen der Form minimiere f(x) in R n, (3.1) wobei f : R n R eine gegebene

Mehr

3 Wahrscheinlichkeitstheorie

3 Wahrscheinlichkeitstheorie Einige mathematische Konzepte 3 Wahrscheinlichkeitstheorie 3.1 Wahrscheinlichkeit Die Wahrscheinlichkeitstheorie modelliert Situationen, in denen Unsicherheit über bestimmte Aspekte der Umwelt vorherrscht.

Mehr

Mikroökonomik B Teil II: Spieltheorie

Mikroökonomik B Teil II: Spieltheorie Mikroökonomik B Teil II: Spieltheorie Dennis L. Gärtner 19. Mai 2011 Motivation Ein Spiel Jeder von Ihnen schreibt eine ganze Zahl zwischen 0 und 100 auf. Ziel ist, 2/3 des Durchschnitts der angegebenen

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

In Spielen unter unvollkommener Information... Wir werden deshalb ein neues GG-Konzept einführen. Pefektes Bayesianisches Nash-Gleichgewicht

In Spielen unter unvollkommener Information... Wir werden deshalb ein neues GG-Konzept einführen. Pefektes Bayesianisches Nash-Gleichgewicht 1 KAP 14. Probleme mit Teilspielperfektheit Wir hatten TPNG eingeführt, weil N-GG in dynamischen Spielen...... unplausibel erschien (unglaubwürdige Drohungen) TPNG schliesst unglaubwürdige Drohungen aus......

Mehr

Stimmt das immer und in welchem Sinne?

Stimmt das immer und in welchem Sinne? 1 KAP 6. Dominanz und Nash-GG Nash-GG (teilweise) dadurch motiviert: schränkt Menge möglicher Spielausgänge stärker ein als Dominanz Stimmt das immer und in welchem Sinne? Gibt s stets weniger Nash-GGe

Mehr

Rational Choice Theory

Rational Choice Theory Rational Choice Theory Rational Choice and Rationale Entscheidung ist eine Sammelbezeichnung für verschiedene Ansätze in den Wirtschafts- und Sozialwissenschaften. Generell schreiben diese Ansätze handelnden

Mehr

VERHALTENSORIENTIERTE SPIELTHEORIE SS 2012

VERHALTENSORIENTIERTE SPIELTHEORIE SS 2012 Fakultät Wirtschaftswissenschaften Professur für Volkswirtschaftslehre, insb. Managerial Economics VERHALTENSORIENTIERTE SPIELTHEORIE SS 2012 Übung 1 Mark Kirstein mark.kirstein@tu-dresden.de Dresden,

Mehr

Künstliche Intelligenz

Künstliche Intelligenz Stuart Russell, Peter Norvig Künstliche Intelligenz Ein moderner Ansatz 2. Auflage Mit Beiträgen von: John F. Canny Douglas D. Edwards Jitendra M. Malik Sebastian Thrun ein Imprint von Pearson Education

Mehr

Spieltheorie. Winter 2013/14. Professor Dezsö Szalay. 2. Dynamische Spiele mit vollständiger Information

Spieltheorie. Winter 2013/14. Professor Dezsö Szalay. 2. Dynamische Spiele mit vollständiger Information Spieltheorie Winter 2013/14 Professor Dezsö Szalay 2. Dynamische Spiele mit vollständiger Information In Teil I haben wir Spiele betrachtet, in denen die Spieler gleichzeitig (oder zumindest in Unkenntnis

Mehr

Algorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität)

Algorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität) Über-/Rückblick Algorithmenbegriff: Berechenbarkeit Turing-Maschine RAM µ-rekursive Funktionen Zeit Platz Komplexität Algorithmentechniken Algorithmenanalyse (Berechnung der Komplexität) Rekursion Iteration

Mehr

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren

Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Eine kurze Einführung in Quasi Newton Verfahren

Mehr

Aufgabenstellung: Finden von Übereinkünften. 3. Verteilte Entscheidungsfindung. Stabilität. Erwünschte Eigenschaften

Aufgabenstellung: Finden von Übereinkünften. 3. Verteilte Entscheidungsfindung. Stabilität. Erwünschte Eigenschaften 3. Verteilte Entscheidungsfindung. Aufgabenstellung und Aspekte des Mechanism Design 2. Voting 3. Auktionen 4. Verhandlungen Aufgabenstellung: Finden von Übereinkünften Wie geht das bei egoistischen Agenten?

Mehr

Übersicht. Künstliche Intelligenz: 6. Spiele Frank Puppe 1

Übersicht. Künstliche Intelligenz: 6. Spiele Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen 3. Problemlösen durch Suche 4. Informierte Suchmethoden 5. Constraint-Probleme 6. Spiele III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres

Mehr