Aufgabe 2 - Spiele mit Zyklen Gegeben sei folgendes einfache Spiel:

Theoretischer Teil Aufgabe 1 - Spielbaume Gegeben sei folgender Spielbaum: - Spiele und Lokale Suche Die Spielzustande sind mit Kreisen dargestellt und zu ihrer Unterscheidung mit Buchstaben markiert. Endzustande sind zusatzlich mit einem Quadrat umfasst und unter ihnen ist ihre Bewertung angegeben. 1. Bestimmen Sie mittels Minimax die optimale Spielsequenz, sowie die Bewertung des erreichten Endzustandes. 2. Welche Knoten kann Alpha-Beta-Prunning abschneiden? 3. Abweichend sei nun folgendes 3-Personen-Spiel gegeben. Es spielen reihum A, B und C. Die Auszahlung bei Spielende sei in Vektorform gegeben: (Auszahlung A ; Auszahlung B ; Auszahlung C ) Losen sie folgenden Spielbaum: Aufgabe 2 - Spiele mit Zyklen Gegeben sei folgendes einfache Spiel: 1

Theoretischer Teil A beginnt, jeder zieht abwechselnd. Gezogen werden muss genau ein Feld { entweder nach links oder nach rechts. Steht dort der Gegner, so darf uber ihn zum nachsten freien Feld gesprungen werden. Gewonnen hat, wer zuerst das gegenuberliegende Feld erreicht. Gewinnt A, so ist die Bewertung +1, gewinnt B, so ist die Bewertung 1. Ein Zustand sei gegeben durch das Paar (s A ; s B ), wobei s A die aktuelle Position von A und s B die Position von B ist. 1. Malen Sie den kompletten Spielbaum auf und kreisen Sie Terminalzustande ein. Schreiben Sie die zutreende Bewertung daran! Rahmen Sie Wiederholungen von Zustanden ein! Da nicht klar ist, wie solche Knoten bei Minimax behandelt werden, beschriften Sie diese Knoten mit \?". 2. Jetzt beschriften Sie jeden Knoten mit seinem Minimax-Wert. Erklaren Sie, wie Sie die \?"-Werte behandelt haben und warum! 3. Erklaren Sie, warum der Standard-Minimax-Algorithmus fehlschlagen wurde. Wie wurden Sie das Problem losen? (In Anlehnung an Ihre Antwort aus der letzten Teilaufgabe.) Lost das von Ihnen vorgeschlagene Verfahren alle Spiele mit Wiederholungen von Zustanden? 4. Dieses 4-Felder-Spiel kann fur den N-Felder-Fall (N > 2) verallgemeinert werden. Beweisen Sie: A gewinnt (bei optimalem Spiel seinerseits), wenn N gerade ist, A verliert (bei optimalem Spiel von B), wenn N ungerade ist. Aufgabe 3 - Gefangenendilemma Zwei Tater haben gemeinsam einen Bankraub begangen. Die Staatsanwaltschaft weiss, dass sie schuldig sind, kann es ihnen aber nicht beweisen. Es musste mindestens einer von ihnen die Tat gestehen. Zweifelsfrei ertappt wurden sie aber bei einem geringeren Verbrechen: illegaler Waenbesitz. Um die Tater zu einem Gestandnis zu bewegen, schlagt der Staatsanwalt folgendes Vorgehen vor: { Die Tater werden von einander (und der restlichen Welt) isoliert. { Weiterhin wird ihnen ehrlich die Beweis- und Verdachtslage geschildert. { Sie mussen sich unabhangig von einander entscheiden, ob sie gestehen wollen oder nicht. Das Strafmass wird wie folgt festgesetzt: { Gesteht nur ein Tater, so wird er aufgrund der Kronzeugenregelung freigelassen, der andere muss aufgrund seiner geringen Kooperationsbereitschaft volle 10 Jahre ins Gefangnis. { Gestehen beide Tater, gibt es keine Kronzeugenregelung. Das Gestandnis wird jedoch beiden positiv angerechnet, so dass beide fur jeweils 8 Jahre hinter Gitter mussen. 2

Theoretischer Teil { Gesteht kein Tater, mussen beide nur die Strafe fur illegalen Waenbesitz absitzen { 1 Jahr. Ist die Strategie des Staatsanwalts erfolgreich? Aufgabe 4 - Spiele mit Zufallskomponenten Gegeben sei das simple Spiel \3 gewinnt". Die Spieler O und X setzen abwechselnd ihr Symbol in ein 3x3-Feld, falls es einem Spieler gelingt eine Reihe, Spalte oder Diagonale vollstandig zu besetzen, so gewinnt er. Gegeben sei nun folgender Startzustand:. Am Zug sei der Spieler O. 1. Losen Sie den Spielbaum. 2. Abweichend von den obigen Regeln muss nun ein Spieler wurfeln, bevor er an der Reihe ist. Nur, wenn er eine 6 wurfelt, darf er seinen Zug machen, sonst muss er aussetzen, und der Gegenspieler ist an der Reihe. Wie wurden Sie nun den Spielbaum losen? 3

Praktischer Teil Aufgabe 5 - Simulated Annealing in der Staubsaugerwelt Motivation In Ubung 1 wurde als praktische Aufgabe eine Umgebungs- und Agentensimulation der Staubsaugerwelt durchgefuhrt. Damals wurde die Performance von Agenten in unterschiedlichen Umgebungen getestet. Leider konnte die erreichte Performance nicht vernunftig beurteilt werden, weil { die Umgebung jedesmal zufallig neu generiert wurde, { kein \optimaler" Agent gegeben war, der die maximal erreichbare Performance bestimmt. Dies soll nun nachgeholt werden. Zusatzliche Features des Simulationsprogramms Dazu muss zunachst auf ein paar Features der Staubsaugersimulation hingewiesen werden, die das letzte mal nicht benutzt wurden: { Im Menu \Performanceschatzung" konnen Heuristiken hinterlegt werden, die abschatzen, welche Performance bei optimaler Strategie und vollstandigem Wissen uber die Umgebung maximal moglich ware. { So kann bspw. festgestellt werden, dass ein optimal agierender Agent 1012 Punkte erreichen konnte, wahrend der eigene Agent nur 800 Punkte erreicht. Man klickt dazu im Menu \Performanceschatzung" auf die gewunschte Heuristik und bekommt die Abschatzung direkt in einer MessageBox angezeigt. Manche Heuristiken zeigen auch einen groben Pfad an, auf welchem das Ergebnis erreichbar ist. Dieser wird dann in der Umgebungssimulation eingemalt. { Solche Heuristiken implementieren \IEnvironmentEvaluator" { eine simple Beispielimplementierung ist \OptimisticEnvironmentEvaluator". Die anzuzeigenden Evaluatoren konnen in den Start-Methoden von VacuumCleaner- Controler ubergeben werden. Wird keiner ubergeben, wird nur der einfache \OptimisticEnvironmentEvaluator" angezeigt. 4

Praktischer Teil Weiterhin ist es bei der Implementierung von Heuristiken hilfreich, immer wieder an der selben denierten Umgebung testen zu konnen. Aus diesem Grund konnen Umgebungen nun geladen und gespeichert werden: { Das statische Aussehen einer Umgebung (d.h. nicht Boswilligkeiten, wie das zufallige Verteilen von Dreck wahrend des Simulationslaufes) kann mittels des Menus \Datei - Save Environment..." gespeichert werden. { Die Umgebung kann man entweder mittels \EnvironmentBase.load(File)" selbst wieder laden, oder alternativ wird dies im Auswahldialog fur Umgebungen als \Load"-Knopf angeboten, dann wird die geladenen Umgebung in die Auswahlliste eingefugt und selektiert. Aufgabe Implementieren Sie eine solche Performance-Schatz-Heuristik mit Hilfe von Simulated Annealing. Geben Sie neben der dabei erreichten Performance die durchfahrenen, relevanten Punkte zuruck: { Die Startposition des Agenten. { Alle durchfahrenen Dreckpositionen in der Reihenfolge des Durchfahrens. { Falls der Agent es fur sinnvoll halt, am Ende die Home-Position anzufahren, die letztere. Implementieren Sie dazu die Schnittstelle IEnvironmentEvaluator in einer oentlichen Klasse mit oentlichem, parameterlosen Konstruktor! Hinweise Im Ubungsmaterial steht Ihnen ein neues Gerust fur die Main-Klasse und ein Gerust des Agenten zur Verfugung, sowie eine neue VacuumCleaner.Base-Klassenbibliothek mit Anpassungen im Hinblick auf diese Aufgabe. Weiterhin gibt es 3 Beispiel- Hindernissumgebungen als gespeicherte Datei: { eine kleine (problem klein.env) { eine erreichbare Performance scheint hier 1012 zu sein, { eine mittelgroe (problem.env) { sowie eine groe (problem gross.env). Ein sinnvolles Vorgehen konnte das folgende sein: 1. Bestimmen Sie den Abstand in Zugen zwischen dem Startpunkt des Agenten, dem Heimatpunkt des Agenten sowie allen erreichbaren Positionen, wo sich Dreck bendet. Beachten Sie, dass es fur jede Position vier Zustande gibt, da der Agent in vier verschiedene Richtungen blicken kann, und somit im Zweifel noch zwei Drehbewegungen ausfuhren muss, bis er in Richtung seines nachsten Zwischenziels starten kann. 2. Schreiben Sie einen IEnvironmentEvaluator, der fur die gegebenen Probleme (und beliebige andere) die erreichbare Performance mittels Simulated- Annealing abschatzt. 5

Praktischer Teil Zusatzaufgabe - A in der Staubsaugerwelt Bestimmen Sie die wirklich erreichbare maximale Performance mittels A zumindest fur das kleine Problem und vergleichen Sie der ermittelten Wert mit dem aus Aufgabe 4. Versuchen Sie sich auch am mittleren Problem. 6