Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem

Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 13. Unsicherheiten 14. Probabilistisches Schließen 15. Probabilistisches zeitliches Schließen 16. Treffen einfacher Entscheidungen 17. Treffen komplexer Entscheidungen VI Lernen VII Kommunizieren, Wahrnehmen und Handeln Sequentielle Entscheidungsprobleme Problem: Häufig kann ein Agent sein Ziel nicht in einem Schritt, sondern nur durch viele Schritte erreichen. Wie kann man ein solches Planungssystem in einer indeterministischen Welt optimal lösen? Der Indeterminismus drückt sich in einem Übergangsmodell (transition model) aus, das angibt, welche Nachfolgezustände man bei einer gegebenen Aktion mit welcher Wahrscheinlichkeit erhält. Die bisherigen Techniken (bedingtes Planen, Umplanen) berücksichtigen keine Nützlichkeitsfunktionen. Lösungsidee: Man berechnet für jeden (relevanten) Zustand eine Regelmenge, die abhängig von der verfügbaren Evidenz und den bisherigen Aktionen angibt, wie der Agent sich verhalten soll ("Politik"; policy). Die Herleitung der Regeln basiert auf einer Berechnung der Nützlichkeit von jedem Zustand. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 1 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 2 MDP und POMDP Berechnung einer optimalen Politik in einer zugänglichen, indeterministischen Umgebung: Markov-Decision-Problem (MDP). Voraussetzung (Markov-Eigenschaft): die probabilistische Übergangsfunktion zwischen Zuständen hängt nur von dem Ausgangszustand und nicht von der Vergangenheit ab. Berechnung einer optimalen Politik in einer teilweise unzugänglichen, indeterministischen Umgebung: partially observable Markov-Decision-Problem (POMDP). MDP (Markov Decision Process) Spezifikation eines sequentiellen Entscheidungsproblems mit vollständig beobachtbarer Umgebung, Markovschem Übergangsmodell und additiver Belohnungsfunktion Startzustand: S 0 Übergangsmodell (Transition der Aktion a von Zustand (state) s nach Zustand s') : T (s, a, s') Belohnungsfunktion (reward): R (s) Der einfache Ansatz zur Übertragung von MDP-Algorithmen auf POMDP-Probleme (Agent berechnet Wahrscheinlichkeitswerte für die möglichen Zustände, in denen er sich befinden könnte und berechnet daraus den Wert seiner möglichen Aktionen) funktioniert nicht, da er nicht berücksichtigt, dass Aktionen auch neue Informationen über den Zustand liefern können. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 3 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 4 Beispiel für sequentielles Planungsproblem Lösungen zum Beispiel R(s) = -0.04 - - - Belohnungsfunktion: variabel, z.b. -0.04 pro Zug Übergangsmodell: 80% wie erwartet z.b. Bewegung nach Nord, je 10% in benachbarten Feldern, z.b. West oder Ost - Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 5 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 6

Optimalität in sequentiellen Entscheidungsproblemen Abhängig von endlichem oder unendlichem Horizont endlich: nach N Schritten ist das Spiel vorbei Problem: die Politik ändert sich mit der Zeit: nahe am Ende sind andere Politiken optimal als am Anfang (z.b. N = 3 in Feld (3,1) ) unendlich: es gibt keine vorgegebene Zeitbegrenzung optimale Politik bleibt konstant ("stationär") Art der Berechnung der Nützlichkeit von Zustandsfolgen Annahme: stationäre Präferenzen, d.h. die Präferenzen bleiben in verschiedenen Zuständen gleich; der Agent hat in der Zukunft die gleichen Präferenzen wie in der Gegenwart; Konsequenzen: additive Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+R(s 1 )+R(s 2 )+ oder abnehmende Belohnungen: U h ([s 0, s 1, s 2, ]) = R(s 0 )+γr(s 1 )+ γ 2 R(s 2 )+ mit γ = Discount-Faktor zwischen 0 und 1. Typisch z.b. für Investionsrechnungen von Firmen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 7 Konsequenzen Bei abnehmenden Belohnungen ist die Nützlichkeit auch von unendlichen Folgen endlich (geometrische Folge!) Wenn die Umgebung Endzustände enthält, in denen der Agent letztlich landen muss, braucht man unendliche Sequenzen nicht vergleichen. Eine Politik, die garantiert einen Endzustand erreicht, heisst "saubere" Politik (proper policy) und ermöglicht die Benutzung von additiven Belohnungen (d.h. γ = 1) Wenn es unsaubere Politiken gibt (z.b. bei R(s) > 0), dann funktionieren Standardalgorithmen für MDP nicht mit additiven Belohnungen. Unendliche Sequenzen kann man auch mit durchschnittlichen Belohnungen pro Zeit vergleichen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 8 "Value Iteration" zur Lösung von MDP's (1) Idee: Berechne zunächst die Nützlichkeiten aller Zustände und daraus die optimale Aktion in jedem Zustand (d.h. die Politik). Bsp.: Berechnung U(1,1) mit Nützlichkeiten aller Zustände (γ=1) Berechnung der Nützlichkeit eines Zustandes: Mittelwert entsprechend der Wahrscheinlichkeit und Nützlichkeit aller möglichen Zustandspfade, die sich aus der Anwendung der optimalen Politik ergeben. Die Nützlichkeit eines Zustandes ergibt sich aus der Belohnung in diesem Zustand plus die erwartete abnehmende Nützlichkeit des Folgezustandes unter der Annahme, das der Agent die optimale Aktion wählt (Bellmann-Gleichung): U(s) = R(s) + γ max a s' T(s,a,s') U (s') Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 9 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 10 "Value Iteration" zur Lösung von MDP's (2) Bsp. für Anwendung des Value-Iteration-Algorithmus Algorithmus-Skizze: Zwar weiß man zum Anfang noch nicht die Nützlichkeiten aller Zustände, aber wenn man sie anfangs zufällig initialisiert (z.b. alle unbekannten Zustände auf 0 setzen) und für jeden Zustand die Bellmann-Gleichung sehr oft iteriert, dann nähert man sich den tatsächlichen Nützlichkeiten aller Zustände beliebig genau an. Terminierung: Man gibt eine Genauigkeitsgrenze ε vor. Wenn sich kein Zustand in einer Iteration um mehr als ε verändert, bricht man den Value Iteration Algorithmus ab. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 11 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 12

Verbesserung Problem: wie genau müssen die Werte für jeden Zustand approximiert werden, um die optimale Politik zu finden? Verbesserung: Iteriere solange, bis sich die Politik nicht mehr ändert "Politik-Iteration" Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 13 Politik-Iteration Bei der Politik-Iteration wird eine Politik gewählt und daraus die Nützlichkeiten von jedem Zustand berechnet, was bei bekannter Politik einfach ist. Anschließend wird eine neue Politik aus den Nützlichkeitswerten der letzten Iteration hergeleitet (Wert- Bestimmung; value determination) und dieser Zyklus solange wiederholt, bis sich eine Politik stabilisiert. Es gibt zwei Methoden zur Nützlichkeitswert-Bestimmung: 1. Iterative Version: Die Nützlichkeit eines Zustandes ist die Belohnungsfunktion des Zustandes + die Summe über dem Produkt der Wahrscheinlichkeit und der Nützlichkeit aller möglichen Nachfolgezustände der von der Politik vorgeschlagenen Aktion. 2. Analytische Version: Lösung eines linearen Gleichungssystems mit Anzahl der Zustände Gleichungen und Unbekannten. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 14 Bsp.: Analytische Version der Politik-Iteration U i (s) = R(s) + γ s' T(s,π i (s),s') U i (s') Vergleich von Value- und Policy-Iteration 1 Beispiel: Sei π i folgende Politik: Dann gilt: π i (1,1) = Up π i (1,2) = Up π i (1,3) = Right usw. Daraus folgt: U i (1,1) = 0,8 U i (1,2) + 0,1 U i (1,1) + 0,1 U i (2,1) U i (1,2) = 0,8 U i (1,3) + 0,2 U i (1,2) Aufwand: bei n Zuständen O(n 3 ) für exakte Lösung Verbesserungen für approximierte Lösungen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 15 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 16 Partial Observable MDPs (POMDPs) Umgebung nur teilweise beobachtbar Agent weiß nicht in welchem Zustand er ist Lösungsansatz: Transfer von MDP auf POMDP Ersatz des Zustandes (state) durch "belief state": Ein belief state ist eine Wahrscheinlichkeitsverteilung über alle möglichen Zustände Erweiterung von MDPs durch ein Beobachtungsmodell, das die Wahrscheinlichkeit angibt, eine Beobachtung in einem Zustand zu machen. Probleme: kontinuierlicher und hochdimensionaler Zustandsraum Algorithmen für MDPs zu ineffizient Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 17 Beispiel Naive Lösung für sensorlose 4*3 Welt 5 * Left, dann 5* Up, dann 5 * Right: Erwartete Nützlichkeit: 0,08 Optimale Lösung für sensorlose 4*3 Welt Left, Up, Up, Right, Up, Up, Right, Up, Up, Right, Up, Right, Up, Erwartete Nützlichkeit: 0,38 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 18

Entscheidungstheoretische Agenten Alternativer Ansatz zur Lösung von POMDPs Transitions- und Beobachtungsmodelle werden als dynamische Bayessche Netze repräsentiert, die um Entscheidungs- und Nützlichkeitsknoten erweitert werden Bewertung dynamischer Entscheidungsnetze + Behandlung von Unsicherheiten + Behandlung von kontinuierlichem Sensor-Input + Behandlung unerwarteter Ereignisse wegen Fehlen eines festen Planes + Behandlung von verrauschten und falschen Sensordaten + Handlungsoptionen zur Informationsgewinnung + Aufteilung von Zuständen in Zustandsvariablen + "Graceful degradation" durch Approximationstechniken - Blinde Forwärtssuche wie bei Suchalgorithmen im Gegensatz zur zielgerichteten Suche wie bei Planungsalgorithmen. - Beschränkung auf aussagenlogische Sprache wegen Unsicherheiten (z.b. sind Zusammenhänge wie, "Wenn ein Auto mit mehr als 70 km/h gehen eine unnachgiebige Wand fährt, sterben die Insassen mit Wahrscheinlichkeit 0,9" in probabilistischer Logik nicht ausdrückbar). Ersatz durch Vorverarbeitungsprogramme zur Instantiierung der Variablen. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 19 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 20 Entscheidungen mit mehreren Agenten: Spieltheorie Spiele, in denen Agenten gleichzeitig handeln (zunächst nur einen Zug) Zwei Ziele: Entwurf von Agenten, die sich optimal verhalten; Beispiel: 2-Finger-Morra: 2 Spieler zeigen gleichzeitig 1 oder 2 Finger, wobei einer bei gerader, der andere bei ungerader Summe die Anzahl der Finger in Euro gewinnt Entwurf von Umgebungen, die trotz egoistischem Verhalten der Agenten zum Gemeinwohl führen ("Mechanism Design"); Beispiele: Protokoll für Router für Internet-Verkehr oder Entwurf von Agenten, die komplexe Probleme ohne genaue Problemkenntnis lösen (z.b. soziale Insekten) Definition eines Spiels in der Spieltheorie Spieler (Agenten), die Entscheidungen treffen meist Spiele mit 2 oder mit n Spielern Aktionen, aus denen die Spieler wählen können es müssen nicht alle Spieler die gleiche Auswahl haben Payoff-Matrix: Liefert die Nützlichkeit für jeden Spieler bei allen Kombinationen von Aktionen aller Spieler Beispiel für 2-Finger-Morra Spieler: O ("odd") und E ("even") Aktionen: one und two Payoff-Matrix: Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 21 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 22 Strategien Jeder Spieler wählt eine Strategie (Politik) Reine Strategie: Auswahl einer bestimmten Aktion in jeder Situation Gemischte Strategie: Gewichtete Zufallsauswahl nach Wahrscheinlichkeitsverteilung über Aktionen, z.b. für 2- Finger-Morra: (0,5: one, 0,5: two) Analyse Strategie-Profil: Zuweisung von Strategien für jeden Spieler Ergebnis: Numerischer Wert für jeden Spieler Lösung: Strategie-Profil, in der jeder Spieler eine rationale Strategie wählt Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 23 2. Beispiel: Prisoner's Dilemma 2 Spieler (Verdächtige; Bob und Alice), die getrennt verhört werden und jeweils den anderen beschuldigen können, um ihre eigene Strafe zu verringern. Aktionen: testify (den anderen beschuldigen), refuse (nichts tun) Payoff-Matrix: Dominante Strategie für beide Spieler: "Testify" Können beide Spieler bei rationalem Verhalten auf "refuse" kommen? nur bei geänderten Regeln, z.b. mehrfache Begegnungen (aber nicht vorherbar oft) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 24

Strategietypen Dominante Strategie Starke [schwache] Dominanz: Eine Strategie s dominiert eine andere Strategie s' eines Spielers stark [schwach], wenn sie für jede [mindestens eine] Strategie der anderen Spieler bessere Ergebnisse liefert [und ansonsten keine schlechteren] (z.b. "testify" für Alice) Pareto-Optimalität: Ein Ergebnis ist pareto-optimal, wenn kein anderes Ergebnis von allen Spielern bevorzugt wird. Dominantes Strategie-Gleichgewicht: Jeder Spieler hat eine dominante Strategie (lokales Optimum) z.b. ist (testify, testify) ein lokales Optimum, obwohl (refuse, refuse) besser ist (pareto-optimal); allerdings kein Gleichgewicht Nash-Gleichgewicht: Jedes Spiel hat ein Gleichgewicht, auch wenn es kein dominantes Strategie-Gleichgewicht gibt. Dominante Strategie bei 2-Finger-Morra für beide Spieler Odd und Even: (7/12: one, 5/12: two) Ergebnis: für Odd: 1/12; für Even: -1/12 Im allgemeinen (in partiell beobachtbaren Umgebungen) kaum zu berechen (z.b. für Spiele wie Poker oder Bridge) Analysen zeigen aber, das gemischte Strategien am besten sind (machen eigenes Verhalten unvorhersehbar und erschweren dem Gegner die Analyse der eigenen Strategie) Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 25 Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 26 Mechanism Design: Umgekehrte Spieltheorie Anwendungsbereiche: allgemein: Politik und Wirtschaft speziell: Auktionen, Internetverkehr-Lastverteilung, Kooperation von Fußballspielern, Formale Beschreibung: Sprache zur Beschreibung aller Strategien, die Spieler wählen dürfen Ergebnis sind Regeln, die die Payoffs für die Spieler definieren. Typisches Problem: Wenn jeder Spieler sein Ergebnis optimiert, kann der globale Nutzen sinken, wenn dabei Gemeingut verbraucht wird (z.b. Umweltverschmutzung) Standardlösung: Kosten für Gemeingüter einbeziehen Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 27 Beispiel: Auktionen Spezifikation: Es gibt nur einen Gegenstand. Jeder Bieter hat einen individuellen Nützlichkeitswert dafür. Dieser ist nur ihm bekannt. Englische Auktion Auktionärsverwalter erhöht den Preis des Gegenstandes schrittweise, bis nur ein Bieter übrig bleibt. Bieter haben einfache dominante Strategien Problem: Viel Kommunikationsaufwand Versiegelte-Angebots-Auktion Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt (wenig Kommunikationsaufwand) Problem: Bieter kann seinen Preis reduzieren, wenn er mehr als der Zweithöchste Bieter bietet (keine dominante Strategie) Vickrey Auktion (vermeidet beide obigen Probleme) Jeder Bieter gibt dem Auktionärsverwalter ein Angebot, wovon das höchste gewinnt, aber nur der zweithöchste Preis gezahlt wird. Künstliche Intelligenz: 17. Treffen komplexer Entscheidungen Frank Puppe 28