Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem
|
|
- Hans Geiger
- vor 6 Jahren
- Abrufe
Transkript
1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 13. Unsicherheiten 14. Probabilistisches Schließen 15. Probabilistisches zeitliches Schließen 16. Treffen einfacher Entscheidungen 17. Treffen komplexer Entscheidungen VI Lernen VII Kommunizieren, Wahrnehmen und Handeln Sequentielle Entscheidungsprobleme Problem: Häufig kann ein Agent sein Ziel nicht in einem Schritt, sondern nur durch viele Schritte erreichen. Wie kann man ein solches Planungssystem in einer indeterministischen Welt optimal lösen? Der Indeterminismus drückt sich in einem Übergangsmodell (transition model) aus, das angibt, welche Nachfolgezustände man bei einer gegebenen Aktion mit welcher Wahrscheinlichkeit erhält. Die bisherigen Techniken (bedingtes Planen, Umplanen) berücksichtigen keine Nützlichkeitsfunktionen. Lösungsidee: Man berechnet für jeden (relevanten) Zustand eine Regelmenge, die abhängig von der verfügbaren Evidenz und den bisherigen Aktionen angibt, wie der Agent sich verhalten soll ("Politik"; policy). Die Herleitung der Regeln basiert auf einer Berechnung der Nützlichkeit von jedem Zustand. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 1 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 2 MDP und POMDP Berechnung einer optimalen Politik in einer zugänglichen, indeterministischen Umgebung: Markov-Decision-Problem (MDP). Voraussetzung (Markov-Eigenschaft): die probabilistische Übergangsfunktion zwischen Zuständen hängt nur von dem Ausgangszustand und nicht von der Vergangenheit ab. Berechnung einer optimalen Politik in einer teilweise unzugänglichen, indeterministischen Umgebung: partially observable Markov-Decision-Problem (POMDP). MDP (Markov Decision Process) Spezifikation eines sequentiellen Entscheidungsproblems mit vollständig beobachtbarer Umgebung, Markovschem Übergangsmodell und additiver Belohnungsfunktion Startzustand: S 0 Übergangsmodell (Transition der Aktion a von Zustand (state) s nach Zustand s') : T (s, a, s') Belohnungsfunktion (reward): R (s) Der einfache Ansatz zur Übertragung von MDP-Algorithmen auf POMDP-Probleme (Agent berechnet Wahrscheinlichkeitswerte für die möglichen Zustände, in denen er sich befinden könnte und berechnet daraus den Wert seiner möglichen Aktionen) funktioniert nicht, da er nicht berücksichtigt, dass Aktionen auch neue Informationen über den Zustand liefern können. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 3 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 4 Beispiel für sequentielles Planungsproblem Lösungen zum Beispiel R(s) = Belohnungsfunktion: variabel, z.b pro Zug Übergangsmodell: 80% wie erwartet z.b. Bewegung nach Nord, je 10% in benachbarten Feldern, z.b. West oder Ost - Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 5 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 6
2 Optimalität in sequentiellen Entscheidungsproblemen Abhängig von endlichem oder unendlichem Horizont endlich: nach N Schritten ist das Spiel vorbei Problem: die Politik ändert sich mit der Zeit: nahe am Ende sind andere Politiken optimal als am Anfang (z.b. N = 3 in Feld (3,1) ) unendlich: es gibt keine vorgegebene Zeitbegrenzung optimale Politik bleibt konstant ("stationär") Art der Berechnung der Nützlichkeit von Zustandsfolgen Annahme: stationäre Präferenzen, d.h. die Präferenzen bleiben in verschiedenen Zuständen gleich; der Agent hat in der Zukunft die gleichen Präferenzen wie in der Gegenwart; Konsequenzen: additive Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+R(s 1 )+R(s 2 )+ oder abnehmende Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+γr(s 1 )+ γ 2 R(s 2 )+ mit γ = Discount-Faktor zwischen 0 und 1. Typisch z.b. für Investionsrechnungen von Firmen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 7 Konsequenzen Bei abnehmenden Belohnungen ist die Nützlichkeit auch von unendlichen Folgen endlich (geometrische Folge!) Wenn die Umgebung Endzustände enthält, in denen der Agent letztlich landen muss, braucht man unendliche Sequenzen nicht vergleichen. Eine Politik, die garantiert einen Endzustand erreicht, heisst "saubere" Politik (proper policy) und ermöglicht die Benutzung von additiven Belohnungen (d.h. γ = 1) Wenn es unsaubere Politiken gibt (z.b. bei R(s) > 0), dann funktionieren Standardalgorithmen für MDP nicht mit additiven Belohnungen. Unendliche Sequenzen kann man auch mit durchschnittlichen Belohnungen pro Zeit vergleichen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 8 "Value Iteration" zur Lösung von MDP's (1) Idee: Berechne zunächst die Nützlichkeiten aller Zustände und daraus die optimale Aktion in jedem Zustand (d.h. die Politik). Bsp.: Berechnung U(1,1) mit Nützlichkeiten aller Zustände (γ=1) Berechnung der Nützlichkeit eines Zustandes: Mittelwert entsprechend der Wahrscheinlichkeit und Nützlichkeit aller möglichen Zustandspfade, die sich aus der Anwendung der optimalen Politik ergeben. Die Nützlichkeit eines Zustandes ergibt sich aus der Belohnung in diesem Zustand plus die erwartete abnehmende Nützlichkeit des Folgezustandes unter der Annahme, das der Agent die optimale Aktion wählt (Bellmann-Gleichung): U(s) = R(s) + γ max a s' T(s,a,s') U (s') Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 9 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 10 "Value Iteration" zur Lösung von MDP's (2) Bsp. für Anwendung des Value-Iteration-Algorithmus Algorithmus-Skizze: Zwar weiß man zum Anfang noch nicht die Nützlichkeiten aller Zustände, aber wenn man sie anfangs zufällig initialisiert (z.b. alle unbekannten Zustände auf 0 setzen) und für jeden Zustand die Bellmann-Gleichung sehr oft iteriert, dann nähert man sich den tatsächlichen Nützlichkeiten aller Zustände beliebig genau an. Terminierung: Man gibt eine Genauigkeitsgrenze ε vor. Wenn sich kein Zustand in einer Iteration um mehr als ε verändert, bricht man den Value Iteration Algorithmus ab. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 11 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 12
3 Verbesserung Problem: wie genau müssen die Werte für jeden Zustand approximiert werden, um die optimale Politik zu finden? Verbesserung: Iteriere solange, bis sich die Politik nicht mehr ändert "Politik-Iteration" Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 13 Politik-Iteration Bei der Politik-Iteration wird eine Politik gewählt und daraus die Nützlichkeiten von jedem Zustand berechnet, was bei bekannter Politik einfach ist. Anschließend wird eine neue Politik aus den Nützlichkeitswerten der letzten Iteration hergeleitet (Wert- Bestimmung; value determination) und dieser Zyklus solange wiederholt, bis sich eine Politik stabilisiert. Es gibt zwei Methoden zur Nützlichkeitswert-Bestimmung: 1. Iterative Version: Die Nützlichkeit eines Zustandes ist die Belohnungsfunktion des Zustandes + die Summe über dem Produkt der Wahrscheinlichkeit und der Nützlichkeit aller möglichen Nachfolgezustände der von der Politik vorgeschlagenen Aktion. 2. Analytische Version: Lösung eines linearen Gleichungssystems mit Anzahl der Zustände Gleichungen und Unbekannten. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 14 Bsp.: Analytische Version der Politik-Iteration U i (s) = R(s) + γ s' T(s,π i (s),s') U i (s') Vergleich von Value- und Policy-Iteration 1 Beispiel: Sei π i folgende Politik: Dann gilt: π i (1,1) = Up π i (1,2) = Up π i (1,3) = Right usw. Daraus folgt: U i (1,1) = 0,8 U i (1,2) + 0,1 U i (1,1) + 0,1 U i (2,1) U i (1,2) = 0,8 U i (1,3) + 0,2 U i (1,2) Aufwand: bei n Zuständen O(n 3 ) für exakte Lösung Verbesserungen für approximierte Lösungen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 15 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 16 Partial Observable MDPs (POMDPs) Umgebung nur teilweise beobachtbar Agent weiß nicht in welchem Zustand er ist Lösungsansatz: Transfer von MDP auf POMDP Ersatz des Zustandes (state) durch "belief state": Ein belief state ist eine Wahrscheinlichkeitsverteilung über alle möglichen Zustände Erweiterung von MDPs durch ein Beobachtungsmodell, das die Wahrscheinlichkeit angibt, eine Beobachtung in einem Zustand zu machen. Probleme: kontinuierlicher und hochdimensionaler Zustandsraum Algorithmen für MDPs zu ineffizient Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 17 Beispiel Naive Lösung für sensorlose 4*3 Welt 5 * Left, dann 5* Up, dann 5 * Right: Erwartete Nützlichkeit: 0,08 Optimale Lösung für sensorlose 4*3 Welt Left, Up, Up, Right, Up, Up, Right, Up, Up, Right, Up, Right, Up, Erwartete Nützlichkeit: 0,38 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 18
4 Entscheidungstheoretische Agenten Alternativer Ansatz zur Lösung von POMDPs Transitions- und Beobachtungsmodelle werden als dynamische Bayessche Netze repräsentiert, die um Entscheidungs- und Nützlichkeitsknoten erweitert werden Bewertung dynamischer Entscheidungsnetze + Behandlung von Unsicherheiten + Behandlung von kontinuierlichem Sensor-Input + Behandlung unerwarteter Ereignisse wegen Fehlen eines festen Planes + Behandlung von verrauschten und falschen Sensordaten + Handlungsoptionen zur Informationsgewinnung + Aufteilung von Zuständen in Zustandsvariablen + "Graceful degradation" durch Approximationstechniken - Blinde Forwärtssuche wie bei Suchalgorithmen im Gegensatz zur zielgerichteten Suche wie bei Planungsalgorithmen. - Beschränkung auf aussagenlogische Sprache wegen Unsicherheiten (z.b. sind Zusammenhänge wie, "Wenn ein Auto mit mehr als 70 km/h gehen eine unnachgiebige Wand fährt, sterben die Insassen mit Wahrscheinlichkeit 0,9" in probabilistischer Logik nicht ausdrückbar). Ersatz durch Vorverarbeitungsprogramme zur Instantiierung der Variablen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 19 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 20 Entscheidungen mit mehreren Agenten: Spieltheorie Spiele, in denen Agenten gleichzeitig handeln (zunächst nur einen Zug) Zwei Ziele: Entwurf von Agenten, die sich optimal verhalten; Beispiel: 2-Finger-Morra: 2 Spieler zeigen gleichzeitig 1 oder 2 Finger, wobei einer bei gerader, der andere bei ungerader Summe die Anzahl der Finger in Euro gewinnt Entwurf von Umgebungen, die trotz egoistischem Verhalten der Agenten zum Gemeinwohl führen ("Mechanism Design"); Beispiele: Protokoll für Router für Internet-Verkehr oder Entwurf von Agenten, die komplexe Probleme ohne genaue Problemkenntnis lösen (z.b. soziale Insekten) Definition eines Spiels in der Spieltheorie Spieler (Agenten), die Entscheidungen treffen meist Spiele mit 2 oder mit n Spielern Aktionen, aus denen die Spieler wählen können es müssen nicht alle Spieler die gleiche Auswahl haben Payoff-Matrix: Liefert die Nützlichkeit für jeden Spieler bei allen Kombinationen von Aktionen aller Spieler Beispiel für 2-Finger-Morra Spieler: O ("odd") und E ("even") Aktionen: one und two Payoff-Matrix: Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 21 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 22 Strategien Jeder Spieler wählt eine Strategie (Politik) Reine Strategie: Auswahl einer bestimmten Aktion in jeder Situation Gemischte Strategie: Gewichtete Zufallsauswahl nach Wahrscheinlichkeitsverteilung über Aktionen, z.b. für 2- Finger-Morra: (0,5: one, 0,5: two) Analyse Strategie-Profil: Zuweisung von Strategien für jeden Spieler Ergebnis: Numerischer Wert für jeden Spieler Lösung: Strategie-Profil, in der jeder Spieler eine rationale Strategie wählt Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe Beispiel: Prisoner's Dilemma 2 Spieler (Verdächtige; Bob und Alice), die getrennt verhört werden und jeweils den anderen beschuldigen können, um ihre eigene Strafe zu verringern. Aktionen: testify (den anderen beschuldigen), refuse (nichts tun) Payoff-Matrix: Dominante Strategie für beide Spieler: "Testify" Können beide Spieler bei rationalem Verhalten auf "refuse" kommen? nur bei geänderten Regeln, z.b. mehrfache Begegnungen (aber nicht vorherbar oft) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 24
5 Strategietypen Dominante Strategie Starke [schwache] Dominanz: Eine Strategie s dominiert eine andere Strategie s' eines Spielers stark [schwach], wenn sie für jede [mindestens eine] Strategie der anderen Spieler bessere Ergebnisse liefert [und ansonsten keine schlechteren] (z.b. "testify" für Alice) Pareto-Optimalität: Ein Ergebnis ist pareto-optimal, wenn kein anderes Ergebnis von allen Spielern bevorzugt wird. Dominantes Strategie-Gleichgewicht: Jeder Spieler hat eine dominante Strategie (lokales Optimum) z.b. ist (testify, testify) ein lokales Optimum, obwohl (refuse, refuse) besser ist (pareto-optimal); allerdings kein Gleichgewicht Nash-Gleichgewicht: Jedes Spiel hat ein Gleichgewicht, auch wenn es kein dominantes Strategie-Gleichgewicht gibt. Dominante Strategie bei 2-Finger-Morra für beide Spieler Odd und Even: (7/12: one, 5/12: two) Ergebnis: für Odd: 1/12; für Even: -1/12 Im allgemeinen (in partiell beobachtbaren Umgebungen) kaum zu berechen (z.b. für Spiele wie Poker oder Bridge) Analysen zeigen aber, das gemischte Strategien am besten sind (machen eigenes Verhalten unvorhersehbar und erschweren dem Gegner die Analyse der eigenen Strategie) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 25 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 26 Mechanism Design: Umgekehrte Spieltheorie Anwendungsbereiche: allgemein: Politik und Wirtschaft speziell: Auktionen, Internetverkehr-Lastverteilung, Kooperation von Fußballspielern, Formale Beschreibung: Sprache zur Beschreibung aller Strategien, die Spieler wählen dürfen Ergebnis sind Regeln, die die Payoffs für die Spieler definieren. Typisches Problem: Wenn jeder Spieler sein Ergebnis optimiert, kann der globale Nutzen sinken, wenn dabei Gemeingut verbraucht wird (z.b. Umweltverschmutzung) Standardlösung: Kosten für Gemeingüter einbeziehen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 27 Beispiel: Auktionen Spezifikation: Es gibt nur einen Gegenstand. Jeder Bieter hat einen individuellen Nützlichkeitswert dafür. Dieser ist nur ihm bekannt. Englische Auktion Auktionärsverwalter erhöht den Preis des Gegenstandes schrittweise, bis nur ein Bieter übrig bleibt. Bieter haben einfache dominante Strategien Problem: Viel Kommunikationsaufwand Versiegelte-Angebots-Auktion Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt (wenig Kommunikationsaufwand) Problem: Bieter kann seinen Preis reduzieren, wenn er mehr als der Zweithöchste Bieter bietet (keine dominante Strategie) Vickrey Auktion (vermeidet beide obigen Probleme) Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt, aber nur der zweithöchste Preis gezahlt wird. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 28
Reasoning and decision-making under uncertainty
Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,
Mehr3. Das Reinforcement Lernproblem
3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität
MehrÜbersicht. 16. Treffen einfacher Entscheidungen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 14. Unsicherheiten 15. Probabilistische Inferenzsysteme 16. Treffen
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrEinfacher Problemlösungsagent. Übersicht. Begriffsdefinitionen für Einfach-Probleme
Übersicht I Künstliche Intelligenz II Problemlösen 3. Problemlösen durch Suche 4. Informierte Suchmethoden 5. Constraint-Probleme 6. Spiele III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrSpieltheorie Gemischte Strategien
Spieltheorie Gemischte Strategien Emanuel Kitzelmann Kognitive Systeme Universität Bamberg Übung KogSys I, WS 06/07 E. Kitzelmann (Universität Bamberg) Gemischte Strategien Übung KogSys I, WS 06/07 1 /
MehrOperations Research II: Fortgeschrittene Methoden der Wirtschaftsinformatik
Operations Research II: Fortgeschrittene Methoden der Wirtschaftsinformatik Michael H. Breitner, Frank Köller und Hans-Jörg v. Mettenheim 18. Juli 2007 Hans-Jörg von Mettenheim Operations Research II 1
MehrSeminar Algorithmische Spieltheorie
Seminar Algorithmische Spieltheorie Einführung in die klassische Spiel- und Mechanismentheorie Hagen Völzer Universität zu Lübeck 10. November 2004 0 Überblick 1. Spiele 2. Auktionen 3. Mechanismen 1 Gefangenendilemma
Mehr12. Vorlesung. 19. Dezember 2006 Guido Schäfer
LETZTE ÄNDERUNG: 6. JANUAR 007 Vorlesung: Einführung in die Spieltheorie WS 006/007. Vorlesung 9. Dezember 006 Guido Schäfer 4 Bayesian Games Wir haben bisher immer angenommen, dass jeder Spieler vollständige
MehrDominanzüberlegungen in einfachen Matrix Spielen (Reine Strategien)
Dominanzüberlegungen in einfachen Matrix Spielen (Reine Strategien) Dominanzüberlegungen können beim Auffinden von Nash Gleichgewichten helfen Ein durch Dominanzüberlegungen ermitteltes Gleichgewicht ist
MehrAblauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26
Spieldynamik Josef Hofbauer and Karl Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Kap. 8 Simon Maurer Saarbrücken, den 13.12.2011 1 / 26 Ablauf 1 Imitationsdynamik 2 Monotone Auszahlung
MehrBayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (1) 1 / 22 Gliederung 1 Unsicheres Wissen 2 Schließen
MehrSpieltheorie. Nash-Gleichgewichts-Berechnung. Bernhard Nebel und Robert Mattmüller. Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14.
Spieltheorie Nash-Gleichgewichts-Berechnung Albert-Ludwigs-Universität Freiburg Bernhard Nebel und Robert Mattmüller Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14. Mai 2012 14. Mai 2012 B. Nebel,
MehrSpieltheorie mit. sozialwissenschaftlichen Anwendungen
Friedel Bolle, Claudia Vogel Spieltheorie mit sozialwissenschaftlichen Anwendungen SS 2010 Simultane Spiele 1. Einführung: Spiele in Normalform Nash-Gleichgewicht Dominanz 2. Typen von Spielen Gefangenendilemma
MehrAlgorithmen. Spieltheorie. Nash-Gleichgewichte in endlichen Nullsummenspielen. Kodierung als Lineares Programm. Nash-Gleichgewichts-Berechnung
Spieltheorie Albert-Ludwigs-Universität Freiburg Bernhard Nebel und Robert Mattmüller Arbeitsgruppe Grundlagen der Künstlichen Intelligenz 14. Mai 2012 14. Mai 2012 B. Nebel, R. Mattmüller Spieltheorie
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
MehrGrundlagen der KI. 15. Handeln unter Unsicherheit
Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen
MehrÜbersicht. 7. Prädikatenlogik 1. Stufe
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern 6. Logisch schließende Agenten 7. Prädikatenlogik 1. Stufe 8. Entwicklung einer Wissensbasis 9. Schließen in der Prädikatenlogik
MehrKapitel 4: Gemischte Strategien. Literatur: Tadelis Chapter 6
Kapitel 4: Gemischte Strategien Literatur: Tadelis Chapter 6 Idee In vielen Spielen gibt es kein Nash Gleichgewicht in reinen Strategien (und auch kein Gleichgewicht in dominanten Strategien) Darüber hinaus
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrÜbersicht. Prädikatenlogik höherer Stufe. Syntax der Prädikatenlogik 1. Stufe (mit Gleichheit)
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern 7. Logische Agenten 8. Prädikatenlogik 1. Stufe 9. Schließen in der Prädikatenlogik 1. Stufe 10. Wissensrepräsentation IV
MehrBayesianische Netzwerke - Lernen und Inferenz
Bayesianische Netzwerke - Lernen und Inferenz Manuela Hummel 9. Mai 2003 Gliederung 1. Allgemeines 2. Bayesianische Netzwerke zur Auswertung von Genexpressionsdaten 3. Automatische Modellselektion 4. Beispiel
MehrMikroökonomische Theorie
David M. Kreps Mikroökonomische Theorie aus dem Englischen von Prof. Dr. Ulrich K. Schittko vertag moderne Industrie HARVESTER WHEATSHEAF Inhaltsverzeichnis 1 Ein Überblick 1 1.1 Die grundlegenden Bausteine:
MehrStrategische Spiele in Normalform; Schwache Dominanz. Strategienprofil der Gegenspieler (s i ) Kapitel 3: Spiele in Normalform
Strategische Spiele in Normalform; Schwache Dominanz 3. Spiele in Normalform Definition Strategienprofil der Gegenspieler Anwendung: Soziales Dilemma (verallgemeinertes GD) Definition: Spiele in Normalform
MehrBisher angenommen: jeder Spieler kennt alle Teile des Spiels. - Diskontfaktor des Verhandlungspartners
1 KAP 15. Spiele unter unvollständiger Information Bisher angenommen: jeder Spieler kennt alle Teile des Spiels seine Gegenspieler, deren Aktionen, deren Nutzen, seinen eigenen Nutzen etc. Oft kennt man
MehrDynamische Spiele mit unvollständiger Information. Perfektes Bayesianisches Gleichgewicht
Dynamische Spiele mit unvollständiger Information Perfektes Bayesianisches Gleichgewicht Spieltheorie University of Bonn Dezsö Szalay Dieser Teil basiert auf Kapitel 4 "Gibbons (1992), A primer in Game
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
Mehr5 Suchmaschinen Page Rank. Page Rank. Information Retrieval und Text Mining FH Bonn-Rhein-Sieg, SS Suchmaschinen Page Rank
Page Rank Google versucht die Bedeutung von Seiten durch den sogenannten Page Rank zu ermitteln. A C Page Rank basiert auf der Verweisstruktur des Webs. Das Web wird als großer gerichteter Graph betrachtet.
Mehr2. Vorlesung. 1.3 Beste-Antwort Funktion. Vorlesung: Einführung in die Spieltheorie WS 2006/ Oktober 2006 Guido Schäfer
LETZTE ÄNDERUNG: 15. NOVEMBER 2006 Vorlesung: Einführung in die Spieltheorie WS 2006/2007 2. Vorlesung 24. Oktober 2006 Guido Schäfer 1.3 Beste-Antwort Funktion Notation: Definiere A i := j N\{i} A j.
MehrVerfeinerungen des Bayesianischen Nash Gleichgewichts
Spieltheorie Sommersemester 007 Verfeinerungen des Bayesianischen Nash Gleichgewichts Das Bayesianische Nash Gleichgewicht für Spiele mit unvollständiger Information ist das Analogon zum Nash Gleichgewicht
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse Tobias Scheffer Thomas Vanck Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrTeil 2: Dynamische Spiele mit vollständigen Informationen
Teil : Dynamische Spiele mit vollständigen Informationen Kapitel 5: Grundsätzliches Literatur: Tadelis Chapter 7 Prof. Dr. Philipp Weinschenk, Lehrstuhl für Mikroökonomik, TU Kaiserslautern Kapitel 5.:
Mehr13. Handeln unter Unsicherheit
13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration 1 S Grundlagen der utzentheorie
Mehr13. Handeln unter Unsicherheit
13. Handeln unter Unsicherheit Inhalt: Einführung in utzentheorie Auswahl einzelner Aktionen Sequentielle Entscheidungsprobleme Markov Entscheidungsprozesse Value Iteration (basierend auf Folien von Volker
MehrLösungen Aufgabenblatt 5 zur Spieltheorie SS 2017
Lösungen Aufgabenblatt 5 zur Spieltheorie SS 017 Aufgabe 5.1: Bestimmen Sie sämtliche Nash-Gleichgewichte in reinen und gemischten Strategien der Spiele: Spiel 1 x y a, 1 1, 1 b 0, 1 3, 5 Spiel 1: Spiel
MehrSeminararbeit zur Spieltheorie. Thema: Rationalisierbarkeit und Wissen
Seminararbeit zur Spieltheorie Thema: Rationalisierbarkeit und Wissen Westfälische-Wilhelms-Universität Münster Mathematisches Institut Dozent: Prof. Dr. Löwe Verfasst von: Maximilian Mümken Sommersemester
MehrKünstliche Intelligenz
Künstliche Intelligenz Übungsblatt #1 Modellierung & Suche Prof. Dr. J. Fürnkranz, Dr. G. Grieser Aufgabe 1.1 Wir betrachten folgende Welt: Welt: Die Welt der Staubsauger-Akteure besteht aus Räumen, die
MehrWir verallgemeinern Bi Matrix Spiele auf beliebig viele Spieler
1 KAP 3. Spiele mit mehr als zwei Spielern Wir verallgemeinern Bi Matrix Spiele auf beliebig viele Spieler Es gibt nun n Spieler i = 1,..., n Eine typische Strategie für SPi bezeichnen wir mit s i... S
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
MehrSpieltheorie Teil 4. Tone Arnold. Universität des Saarlandes. 20. März 2008
Spieltheorie Teil 4 Tone Arnold Universität des Saarlandes 20. März 2008 Tone Arnold (Universität des Saarlandes) Spieltheorie Teil 4 20. März 2008 1 / 64 Verfeinerungen des Nash GGs Das Perfekte Bayesianische
MehrIntelligente Agenten
KI Wintersemester 2013/2014 Intelligente Agenten Grundlagen der Künstlichen Intelligenz Wintersemester 2014/2015 Marc Toussaint 2006-2014 Heidemann, Bruhn, Toussaint Überblick Überblick Agentenbegriff,
MehrTheoretische Grundlagen der Informatik
Theoretische Grundlagen der Informatik Vorlesung am 20. November 2014 INSTITUT FÜR THEORETISCHE 0 KIT 20.11.2014 Universität des Dorothea Landes Baden-Württemberg Wagner - Theoretische und Grundlagen der
MehrDas Gefangenendilemma (Prisoner s Dilemma)
SPIELTHEORIE Das Gefangenendilemma (Prisoner s Dilemma) 2 Zwei Herren (Braun und Blau) haben eine Bank überfallen. Der Sheriff hat sie gefasst, kann aber nur ein minder schweres Verbrechen nachweisen (unerlaubter
Mehrbzw. die Entscheidugen anderer Spieler (teilweise) beobachten Erweitert das Analysespektrum erheblich Beschreibung des Spiels (extensive Form)
1 KAP 9. Dynamische Spiele Bisher: alle Spieler ziehen simultan bzw. können Aktionen der Gegenspieler nicht beobachten Nun: Dynamische Spiele Spieler können nacheinander ziehen bzw. die Entscheidugen anderer
MehrMultiagent Interactions
Multiagent Interactions Ein Vortrag von: Rhena Möller und Svenja Heitländer Für das Seminar Multiagentensysteme SS09 Inhalt Einleitung Was ist Interaktion und wie funktioniert sie? Anwendungen Utility
Mehr2. Spezielle anwendungsrelevante Funktionen
2. Spezielle anwendungsrelevante Funktionen (1) Affin-lineare Funktionen Eine Funktion f : R R heißt konstant, wenn ein c R mit f (x) = c für alle x R existiert linear, wenn es ein a R mit f (x) = ax für
MehrWiederholte Spiele. Grundlegende Konzepte. Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität.
Spieltheorie Sommersemester 2007 1 Wiederholte Spiele Grundlegende Konzepte Zwei wichtige Gründe, wiederholte Spiele zu betrachten: 1. Wiederholte Interaktionen in der Realität. 2. Wichtige Phänomene sind
MehrKünstliche Intelligenz
Künstliche Intelligenz Intelligente Agenten Claes Neuefeind Sprachliche Informationsverarbeitung Universität zu Köln 26. Oktober 2011 Agenten Konzept des Agenten Rationalität Umgebungen Struktur von Agenten
MehrDWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr
2. Ankunftswahrscheinlichkeiten und Übergangszeiten Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustände i und j beziehen: Wie wahrscheinlich ist es,
MehrEinführung in die Spieltheorie
Seminar über Algorithmen - Einführung in die Spieltheorie Nadja Scharf Institut für Informatik Einführung in die Spieltheorie nach Nisan, Roughgarden, Tardos, Vazirani: Algorithmic Game Theory, Kapitel
MehrWie verhalte ich mich bei einem Verhör und einer Mutprobe richtig?
Wie verhalte ich mich bei einem Verhör und einer Mutprobe richtig? Ringvorlesung Technische Mathematik 10. November 2009 Inhaltsverzeichnis Das Gefangenendilemma 1 Das Gefangenendilemma 2 Situationsanalyse
MehrGrundlagen der Objektmodellierung
Grundlagen der Objektmodellierung Daniel Göhring 30.10.2006 Gliederung Grundlagen der Wahrscheinlichkeitsrechnung Begriffe zur Umweltmodellierung Bayesfilter Zusammenfassung Grundlagen der Wahrscheinlichkeitsrechnung
MehrNash-Gleichgewichte in 2-Spieler Systemen. Katharina Klost Freie Universität Berlin
Nash-Gleichgewichte in 2-Spieler Systemen Katharina Klost Freie Universität Berlin Seminar über Algorithmen, 29.10.2013 Grundlegende Definitionen A Gewinnmatrix für Spieler 1, B Gewinnmatrix für Spieler
MehrGrundlagen und Nash Gleichgewichte in reinen Strategien
Grundlagen und Nash Gleichgewichte in reinen Strategien Yves Breitmoser, EUV Frankfurt (Oder) Zahlen und Vektoren IR ist die Menge der reellen Zahlen IR + = r IR r 0 IR n ist die Menge aller Vektoren von
MehrSkript zur Vorlesung Mikroökonomik II (WS 2009) Teil 4
Skript zur Vorlesung Mikroökonomik II (WS 09) Teil 4 PR 13: Spieltheorie Weiterentwicklung der ökonomischen Theorie untersucht Situationen strategischen Verhaltens John von Neumann und Oskar Morgenstern
MehrVorlesung 1: Einleitung
Vorlesung 1: Einleitung Georg Nöldeke Wirtschaftswissenschaftliche Fakultät, Universität Basel Entscheidung VL 1, FS 12 Einleitung 1/17 1.1 Motivation In der Vorlesung Intermediate Microecoomics haben
MehrD Spieltheorie und oligopolistische Märkte
D Spieltheorie und oligopolistische Märkte Verhaltensannahmen in der Markttheorie, die bisher analysiert wurden Konkurrenz: viele sehr kleine Wirtschaftssubjekte, die für sich genommen keinen Einfluss
MehrMarkovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen
Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten
MehrGraphische Spiele. M i (p) M i (p[i : p i]) M i (p) + ε M i (p[i : p i])
Seminar über Algorithmen 19. November 2013 Michael Brückner Graphische Spiele Wolfgang Mulzer, Yannik Stein 1 Einführung Da in Mehrspielerspielen mit einer hohen Anzahl n N an Spielern die Auszahlungsdarstellungen
MehrBayes sche und probabilistische Netze
Bayes sche und probabilistische Netze Gliederung Wahrscheinlichkeiten Bedingte Unabhängigkeit, Deduktion und Induktion Satz von Bayes Bayes sche Netze D-Separierung Probabilistische Inferenz Beispielanwendung
MehrAnwendungen der Spieltheorie
Mikroökonomie I Einführung in die Spieltheorie Universität Erfurt Wintersemester 08/09 Prof. Dr. Dittrich (Universität Erfurt) Spieltheorie Winter 1 / 28 Spieltheorie Die Spieltheorie modelliert strategisches
MehrSpieltheorie. Winter 2013/14. Professor Dezsö Szalay. Dynamische Spiele werden sehr schnell zu komplex um sie zu analysieren.
Spieltheorie Winter 2013/14 Professor Dezsö Szalay 3. Wiederholte Spiele Dynamische Spiele werden sehr schnell zu komplex um sie zu analysieren. Eine Klasse von Spielen, die man jedoch relativ gut versteht
MehrDer Bestimmtheitssatz
2. Spielbäume und Intelligente Spiele Der Minimax-Algorithmus Der Bestimmtheitssatz Satz 2.1. Gegeben sei ein Spiel, das die folgenden Eigenschaften hat: 1. Das Spiel wird von zwei Personen gespielt. 2.
MehrVWL Grundzüge Mikroökonomie
VWL Grundzüge Mikroökonomie Wintersemester 2011/12 Christian Bauer Christian Bauer WS 11/12 Grundzüge: Mikroökonomie 1 Süßigkeiten Spiele Christian Bauer WS 11/12 Grundzüge: Mikroökonomie 2 John Forbes
MehrHidden Markov Models
Hidden Markov Models Kursfolien Karin Haenelt 09.05002 1 Letzte Änderung 18.07002 Hidden Markov Models Besondere Form eines probabilistischen endlichen Automaten Weit verbreitet in der statistischen Sprachverarbeitung
MehrPr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.
2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet
MehrStatische Spiele mit unvollständiger Information: Bayesianische-Spiele
Statische Spiele mit unvollständiger Information: Bayesianische-Spiele In einigen Situationen verfügen Spieler (nur) über unvollständige Information. Möglicherweise kennen sie die relevanten Charakteristika
MehrEinführung in die Theorie der Markov-Ketten. Jens Schomaker
Einführung in die Theorie der Markov-Ketten Jens Schomaker Markov-Ketten Zur Motivation der Einführung von Markov-Ketten betrachte folgendes Beispiel: 1.1 Beispiel Wir wollen die folgende Situation mathematisch
MehrDefinition: Die Menge der Imputationen ist die Menge I aller Nutzenallokationen, die erreichbar und individuell rational sind.
Spieltheorie Sommersemester 2007 1 Der Kern Sei I = {1, 2,...,n} und Γ = (I, v). Definition: Die Menge der Imputationen ist die Menge I aller Nutzenallokationen, die erreichbar und individuell rational
MehrMarkov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes
Markov-Prozesse Franziskus Diwo Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes 8.0.20 Gliederung Was ist ein Markov-Prozess? 2 Zustandswahrscheinlichkeiten 3 Z-Transformation 4 Übergangs-,
MehrFACHCURRICULUM KL. 9. Raum und Form Figuren zentrisch strecken Üben und Festigen. Strahlensätze. Rechtwinklige Dreiecke.
MATHEMATIK Schönbuch-Gymnasium Holzgerlingen Seite 1/5 Ähnliche Figuren - Strahlensätze Figuren zentrisch strecken Eigenschaften der zentrischen Streckung kennen und Zentrische Streckung anwenden Strahlensätze
MehrKünstliche Intelligenz Maschinelles Lernen
Künstliche Intelligenz Maschinelles Lernen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Maschinelles Lernen Überwachtes Lernen Unüberwachtes
MehrVorlesung: Nicht-kooperative Spieltheorie. Teil 4: 2-Personen-Nullsummenspiele
Vorlesung: Nicht-kooperative Spieltheorie Teil 4: 2-Personen-Nullsummenspiele Dr. Thomas Krieger Wintertrimester 2009 Dr. Thomas Krieger Vorlesung: Nicht-kooperative Spieltheorie 1 Definition 2-Personen-Nullsummenspiele
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen
MehrProbleme bei reinen Strategien. Nash Gleichgewichte in gemischten Strategien Kopf 1, 1 1, 1 Zahl 1, 1 1, 1. Gemischte Strategien
Probleme bei reinen Strategien Bisher hatten wir angenommen, daß sich jeder Spieler b auf genau eine Strategie S b S b festlegt. Das ist nicht immer plausibel. Nash Gleichgewichte in gemischten Strategien
MehrÜberblick. Mathematik und Spiel. Ohne Glück zum Sieg. Bedeutung der Strategie. Zwei Hauptaspekte
Überblick Ohne Glück zum Sieg R. Verfürth Fakultät für Mathematik Ruhr-Universität Bochum Bochum / 8. Oktober 2009 Kategorisierung Strategische Spiele Bewertung einer Stellung Aufwand Epilog Literatur
MehrClusteranalyse: Gauß sche Mischmodelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Clusteranalyse: Gauß sche Mischmodelle iels Landwehr Überblick Problemstellung/Motivation Deterministischer Ansatz: K-Means Probabilistischer
MehrBildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17
Bildverarbeitung: Filterung D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Allgemeines Klassische Anwendung: Entrauschung (Fast) jeder Filter basiert auf einem Modell (Annahme): Signal + Rauschen
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrGibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells
Gibbs sampling Sebastian Pado October 30, 2012 1 Bayessche Vorhersage Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells Uns interessiert P (y X), wobei wir über das Modell marginalisieren
Mehr6. Spiele Arten von Spielen. 6. Spiele. Effizienzverbesserung durch Beschneidung des Suchraums
6. Spiele Arten von Spielen 6. Spiele Kombinatorische Spiele als Suchproblem Wie berechnet man eine gute Entscheidung? Effizienzverbesserung durch Beschneidung des Suchraums Spiele mit Zufallselement Maschinelles
MehrNICHTRESTRINGIERTE OPTIMIERUNG
3 NICHTRESTRINGIERTE OPTIMIERUNG Die Aufgabe, mit der wir uns im Folgen beschäftigen werden, ist die Lösung von Minimierungsproblemen der Form minimiere f(x) in R n, (3.1) wobei f : R n R eine gegebene
Mehr3 Wahrscheinlichkeitstheorie
Einige mathematische Konzepte 3 Wahrscheinlichkeitstheorie 3.1 Wahrscheinlichkeit Die Wahrscheinlichkeitstheorie modelliert Situationen, in denen Unsicherheit über bestimmte Aspekte der Umwelt vorherrscht.
MehrMikroökonomik B Teil II: Spieltheorie
Mikroökonomik B Teil II: Spieltheorie Dennis L. Gärtner 19. Mai 2011 Motivation Ein Spiel Jeder von Ihnen schreibt eine ganze Zahl zwischen 0 und 100 auf. Ziel ist, 2/3 des Durchschnitts der angegebenen
MehrNichtlineare Gleichungssysteme
Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung
MehrIn Spielen unter unvollkommener Information... Wir werden deshalb ein neues GG-Konzept einführen. Pefektes Bayesianisches Nash-Gleichgewicht
1 KAP 14. Probleme mit Teilspielperfektheit Wir hatten TPNG eingeführt, weil N-GG in dynamischen Spielen...... unplausibel erschien (unglaubwürdige Drohungen) TPNG schliesst unglaubwürdige Drohungen aus......
MehrStimmt das immer und in welchem Sinne?
1 KAP 6. Dominanz und Nash-GG Nash-GG (teilweise) dadurch motiviert: schränkt Menge möglicher Spielausgänge stärker ein als Dominanz Stimmt das immer und in welchem Sinne? Gibt s stets weniger Nash-GGe
MehrRational Choice Theory
Rational Choice Theory Rational Choice and Rationale Entscheidung ist eine Sammelbezeichnung für verschiedene Ansätze in den Wirtschafts- und Sozialwissenschaften. Generell schreiben diese Ansätze handelnden
MehrVERHALTENSORIENTIERTE SPIELTHEORIE SS 2012
Fakultät Wirtschaftswissenschaften Professur für Volkswirtschaftslehre, insb. Managerial Economics VERHALTENSORIENTIERTE SPIELTHEORIE SS 2012 Übung 1 Mark Kirstein mark.kirstein@tu-dresden.de Dresden,
MehrKünstliche Intelligenz
Stuart Russell, Peter Norvig Künstliche Intelligenz Ein moderner Ansatz 2. Auflage Mit Beiträgen von: John F. Canny Douglas D. Edwards Jitendra M. Malik Sebastian Thrun ein Imprint von Pearson Education
MehrSpieltheorie. Winter 2013/14. Professor Dezsö Szalay. 2. Dynamische Spiele mit vollständiger Information
Spieltheorie Winter 2013/14 Professor Dezsö Szalay 2. Dynamische Spiele mit vollständiger Information In Teil I haben wir Spiele betrachtet, in denen die Spieler gleichzeitig (oder zumindest in Unkenntnis
MehrAlgorithmenbegriff: Berechenbarkeit. Algorithmenanalyse. (Berechnung der Komplexität)
Über-/Rückblick Algorithmenbegriff: Berechenbarkeit Turing-Maschine RAM µ-rekursive Funktionen Zeit Platz Komplexität Algorithmentechniken Algorithmenanalyse (Berechnung der Komplexität) Rekursion Iteration
MehrNumerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren
Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Eine kurze Einführung in Quasi Newton Verfahren
MehrAufgabenstellung: Finden von Übereinkünften. 3. Verteilte Entscheidungsfindung. Stabilität. Erwünschte Eigenschaften
3. Verteilte Entscheidungsfindung. Aufgabenstellung und Aspekte des Mechanism Design 2. Voting 3. Auktionen 4. Verhandlungen Aufgabenstellung: Finden von Übereinkünften Wie geht das bei egoistischen Agenten?
MehrÜbersicht. Künstliche Intelligenz: 6. Spiele Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen 3. Problemlösen durch Suche 4. Informierte Suchmethoden 5. Constraint-Probleme 6. Spiele III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres
Mehr