3. Das Reinforcement Lernproblem
|
|
- Kristina Stieber
- vor 7 Jahren
- Abrufe
Transkript
1 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität F. Schwenker Reinforcement Learning 29
2 Agent und Umgebung - das Bild Agent State Reward Action s t r t a t r t+1 Environment s t+1 F. Schwenker Reinforcement Learning 30
3 Aktion-Zustand-Reward Agent führt eine Aktion a t aus. Umwelt ändert hierdurch ihren Zustand s t und erteilt dem Agenten einen Reward r t R, s t und r t werden vom Agenten wahrgenommen. Agent führt nächste Aktion a t+1 aus. S die Menge der Zustände (diskret/endlich) A die Menge der Aktionen (diskret/endlich) A(s t ) Menge der Aktion die im Zustand s t möglich sind. Zeit ist diskret, d.h. t = 1, 2, 3,.... F. Schwenker Reinforcement Learning 31
4 Der Agent führt die Aktion gemäß einer Strategie/Taktik/Vorgehensweise (policy) aus, bezeichnet mit π t. π t (s, a) ist hier die Wahrscheinlichkeit, dass die Aktion a t = a ausgeführt wird, falls der Zustand s t = s war. Reinforcement Lernverfahren adaptieren direkt oder indirekt die policy π t des Agenten. Agent soll die in der Zukunft zu erwartenden Rewards maximieren, also den mittleren Reward 1 T T i=t+1 r i maximieren. Problem: T = ist möglich F. Schwenker Reinforcement Learning 32
5 Discounted Rewards Wie könnnen die (in der Zukunft) zu erwartenden Rewards maximiert werden? In einigen Anwendungen ist ein endlicher Zeithorizont T bekannt (z.b. beim Tic-Tac-Toe). In diesen Fällen sind die Rewards bis zur Zeit T zu berücksichtigen. Also einfach den Mitterlwert berechnen. In vielen Fällen ist T a priori unbekannt (auch im Verlauf der Zeit nicht), sondern es ist möglicherweise erst kurz vor Schluss T zu schätzen (kontinuierlich durchgeführte Aufgaben). Für diese Aufgabe nehmen wir T = an. Dann kann aber kein Erwartungswert berechnet werden. F. Schwenker Reinforcement Learning 33
6 Ausweg: Rewards in der weiteren Zukunft abschwächen mit Konstante γ [0, 1] und dann R t = γ i r t+1+i i=0 γ < 1, so konvergiert R t bei beschränkten Rewards (geometrische Reihe anwenden). γ = 0, so wird nur r t+1 berücksichtigt. γ = 1, so muss T < sein. Je näher γ bei 1, desto stärker werden die weit in der Zukunft liegenden Rewards berücksichtigt. F. Schwenker Reinforcement Learning 34
7 Wir betrachten also die Summe der discounted Rewards R t = T γ i r t+1+i i=0 Also Grenzfälle können T = oder γ = 1 auftreten, aber nicht beide zusammen. F. Schwenker Reinforcement Learning 35
8 Markov Eigenschaft Als Zustand der Umgebung kann natürlich alles aufgefasst werden, was der Agent wahrnehmen kann. Dies können einfache Sensorwerte sein oder irgendeine symbolische Repräsentation einer Belegtheitskarte eines Raumes oder Gebäudes. Für den Aufbau einer solchen Karte sind umfangreiche sensorische Eingaben zuverarbeiten. Wir nehmen an, dass der Zustand den der Agent wahrnehmen kann, alle für die Aufgabe relevanten Ereignisse der Vergangenheit enthält. Beispiel: Die Positionen der Figuren zu einem Zeitpunkt t geben die vollständige Information über den bisherigen Spielverlauf. Wie diese Stellung zustande kam, kann natürlich nützlich sein, für die Berechnung des optimalen nächsten Zuges ist diese Information nicht nötig. Der aktuelle Zustand wird betrachtet, nicht der Weg dort hin! F. Schwenker Reinforcement Learning 36
9 Im Allgemeinen basiert die Bestimmung von Zustand und Reward auf Wahrscheinlichkeiten der Form prob{s t+1 = s, r t+1 = r s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, a 0 } (1) Markov Eigenschaft: Die Ausgabe der Umgebung hängt nur ab von a t, der letzten Aktion des Agent, sowie von s t, dem letzten Zustand der Umgebenung: prob{s t+1 = s, r t+1 = r s t, a t } (2) Wir sagen das Zustandssignal hat die Markov-Eigenschaft, gdw. (1) gleich (2) ist für alle s und r und für alle Vergangenheiten s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, a 0. Wir nehmen diese Markov-Eigenschaft des Zustandssignals immer an, in diesem Fall sagen wir auch, das Umgebung und RL-Aufgabe die Markov- Eigenschaft erfüllen. F. Schwenker Reinforcement Learning 37
10 Markov sche Entscheidung Reinforcement-Aufgabe mit der Markov-Eigenschaft wird auch als Markovscher Entscheidungsprozess (MDP=Markov decision process) bezeichnet. Falls A und S endlich sind, auch als finiter MDP. Hiermit beschäftigen wir uns. Ein endlicher MDP ist definiert durch A und S und die Dynamik der Umgebung. Gegeben a A und s S, die Wahrscheinlichkeit des nächsten Zustands s ist P a s s = prob{s t+1 = s s t = s, a t = a} Dieses sind die Übergangswahrscheinlichkeiten. F. Schwenker Reinforcement Learning 38
11 Gegeben a A und s S, sowie der nächste Zustand s S der Erwartungswert für den nächsten Reward ist R a s s = E{r t+1 s t = s, a t = a, s t+1 = s } Durch P a s s und R a s s sind die wichtigsten Größen in einem endlichen MDP repräsentiert. Die präzise Verteilung der Rewards um die Erwartungswerte geht allerdings verloren. F. Schwenker Reinforcement Learning 39
12 Werte-Funktionen Policy des Agenten wird bezeichnet mit π t. Es ist π t (s, a) die Wahrscheinlichkeit, dass die Aktion a t = a ausgeführt wird, falls der Zustand s t = s vorlag. Der Wert eines Zustands s bzgl. der Policy π, bezeichnet mit V π (s), ist der Erwartungswert von R t = γ i r t+1+i, mit γ (0, 1] i=0 falls der Agent die Aktionen gemäß π ausführt, wobei er im Zustand s beginnt, also { V π (s) = E π Rt s t = s } { = E π γ i r t+1+i s t = s } i=0 F. Schwenker Reinforcement Learning 40
13 V π Wertfunktion der Zustände (state-value function for policy) π. Der Wert der Aktion a im Zustand s bzgl. Strategie π ist der Erwartungswert von R t falls der Agent im Zustand s die Aktion a ausführt und dann gemäß der Strategie π vorgeht, also { Q π (s, a) = E π {R t s t = a, a t = a} = E π γ i r t+1+i s t = s, a t = a } Q π Wertfunktion der Aktionen (action-value function for policy) π. V π und Q π können gelernt werden, beispielsweise durch Mittelwertbildung über die gesammelten Rewards. Dabei werden im Fall der Schätzung von V π Mittelwerte für jeden Zustand s gebildet (S endlich) und im Fall von Q π Mittelwerte für jede einzelne Aktionen a (A endlich). Für viele Zustände und/oder Aktionen müssen V π und Q π durch adaptive Abbildungen (z.b. neuronale Netze) gelernt. i=0 F. Schwenker Reinforcement Learning 41
14 Bellman Gleichung Die Wertfunktion V π erfüllen rekursive Bedingungen zwischen den Zuständen s und den Folgezuständen: V π (s) = E π {R t s t = s} } = E π {r t+1 + γ γ i r t+2+i s t = s = a i=0 π(s, a) s P a ss ( { }) R a ss + γe π γ k r t+2+k s t+1 = s k=0 = a π(s, a) s P a ss (R a ss + γv π (s )) V π ist eindeutige Lösung der Bellman Gleichung, sie ist Grundlage für Algorithmen zum Lernen von V π (entsprechende Gleichung gilt für Q π ). F. Schwenker Reinforcement Learning 42
15 Backup Diagramme (a) s (b) s,a a r s' r s' a' (a) die Situation für V π ; (b) die Situation für Q π Ausgehend von Zustand s kann der Agent Aktionen a ausführen (hier 3) Hierauf geht die Umgebung in Folgezustände über (hier 2), gleichzeitig wird ein Reward r erteilt. V π (s) durch Mittelung über alle möglichen Aktionen a und alle möglichen Folgezustände s. Über die Pfade in diesen Bäumen werden die Werte von Zuständen zur Aktualisierung der Werte vorherige Zustände propagiert. F. Schwenker Reinforcement Learning 43
16 Beispiel Gridworld A A' +10 (a) B +5 B' Actions (b) Agent bewegt sich im 2D-Gitter. Mögliche Aktionen sind Bewegungen nach Nord, Süd, West, Ost. F. Schwenker Reinforcement Learning 44
17 Aktionen werden zufällig und mit gleicher Wahrscheinlichkeit gewählt (random policy π). Reward ist 1, falls der Agent eine Aktion ausführt, die ihn hinaus befördern würde. In diesem Fall bleibt der Agent allerdings auf seiner Position im Grid. In den Zuständen (Zellen im Grid) A und B. Hier wird ein Reward von 10 bzw. 5 erteilt und zwar für alle Aktionen. Diese bringen den Agenten in den Zustand A bzw. B. Alle anderen Aktion erzielen Reward 0. Für γ = 0.9 ist V π in (b) dargestellt. Im unteren Bereich haben die Zustände negative Werte V (s). V π (A) ist das Maximum, allerdings V π (A) < 10, dagegen V π (B) > 5. Warum? F. Schwenker Reinforcement Learning 45
18 Optimale Wertfunktionen Für ein RL Problem suchen wir nach einer Strategie π für die der erwartete Reward (Return) möglichst groß ist. Die Menge der Strategien Π = {π π policy auf S A} ist teilweise geordnet durch π π gdw V π (s) V π (s) für alle s S Es gibt mindestens eine optimale policy π, möglicherweise gibt es mehrere optimale policies, diese haben aber alle die gleiche Zustandswertfunktion, nämlich die optimale Zustandswertefunktion V. Diese ist definiert durch V (s) = max π V π (s) F. Schwenker Reinforcement Learning 46
19 Alle optimalen policies π haben auch gleiche optimale Aktionswertefunktion Q, definiert durch Q (s, a) = max π Qπ (s, a) Für ein Paar aus Zustand und Aktion (s, a) gibt die Funktion Q (s, a) den erwarteten Return für die Aktion a im Zustand s an und nachfolgend die optimale policy angewendet wird, somit besteht der Zusammenhang zwischen Q und V : Q (s, a) = E {r t+1 + γv (s t+1 ) s t = s, a t = a} V ist die Wertefunktion einer optimalen policy π, somit erfüllt V die Bellman-Gleichung. F. Schwenker Reinforcement Learning 47
20 Die Bellman-Gleichung für V : V (s) = max a = max a = max a = max a = max a = max a Q π (s, a) E π {R t s t = s, a t = a} E π E π { } γ k r t+k+1 s t = s, a t = a { k=0 r t + γ } γ k r t+k+2 s t = s, a t = a k=0 E {r t + γv (s t+1 ) s t = s, a t = a} s P a ss (R a ss + γv (s )) F. Schwenker Reinforcement Learning 48
21 Die Bellman-Gleichung für Q : { } Q (s, a) = E r t+1 + γ max Q (s t+1, a ) s t = a, a t = a a = ) Pss (R a a ss + γ max Q (s, a ) s a (a) s (b) s,a max a r s' max r s' a' F. Schwenker Reinforcement Learning 49
22 Falls die Dynamik der Umgebung bekannt ist, dh. falls P a ss und R a ss bekannt sind, so besteht das Gleichungssystem für V aus S (nichtlinearen) Gleichungen mit S Unbekannten. Dieses kann prinzipiell auch gelöst werden. Falls V bekannt ist, so folgt daraus sehr einfach eine optimale policy. Im Zustand s ist π (s, a ) mit a = arg max s P a ss (R a ss + γv (s )) A B B' A' a) gridworld b) V* c) π* F. Schwenker Reinforcement Learning 50
Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
MehrReinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
MehrMonte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
MehrReinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Mehr2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
MehrTemporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
Mehr8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
MehrPlanung von Handlungen bei unsicherer Information
Planung von Handlungen bei unsicherer Information Dr.-Ing. Bernd Ludwig Lehrstuhl für Künstliche Intelligenz Friedrich-Alexander-Universität Erlangen-Nürnberg 20.01.2010 Dr.-Ing. Bernd Ludwig (FAU ER)
MehrRL und Funktionsapproximation
RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht
MehrReinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
MehrInstitut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReasoning and decision-making under uncertainty
Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,
MehrUniversität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti
Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
MehrReinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
MehrCombining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone
Combining Manual Feedback with Subsequent MDP Reward Signals for Reinforcement Learning W. Bradley Knox und Peter Stone 14.12.2012 Informatik FB 20 Knowlegde Engineering Yasmin Krahofer 1 Inhalt Problemstellung
MehrEinsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
MehrV π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:
Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement
MehrReinforcement learning
Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3
MehrHidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
MehrSEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG
SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning Vorstellung der
MehrÜbersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
MehrStochastische dynamische Optimierung
Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,
MehrReinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
MehrReinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
MehrReal-time reinforcement learning von Handlungsstrategien für humanoide Roboter
Real-time reinforcement learning von Handlungsstrategien für humanoide Roboter von Colin Christ 1 Aufgabenstellung Entwicklung einer Applikation zur Demonstration von RL für humanoide Roboter Demonstration:
MehrAngewandte Stochastik
Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel
MehrReinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
MehrÜbungsblatt 6 Lösungen
Grundlagen der Künstlichen Intelligenz Prof. Dr. J. Boedecker, Prof. Dr. W. Burgard, Prof. Dr. F. Hutter, Prof. Dr. B. Nebel M. Krawez, T. Schulte Sommersemester 2018 Universität Freiburg Institut für
MehrKapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
MehrReinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
MehrKapitel 12: Markov-Ketten
Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse 21.01.2016 Kapitel 12: Markov-Ketten Ab jetzt betrachten wir stochastische Prozesse (X n ) n N0 mit 1. diskreter Zeit N 0 = {0,1,2,...},
MehrDer Alpha-Beta-Algorithmus
Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler
MehrBearbeiten Sie 6 der 8 Aufgaben nach Ihrer Wahl.
Kursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL (Prof. Dr. Lutz Arnold) Sommersemester 2010 10.8.2010 Bitte gut leserlich ausfüllen: Name: Vorname: Matr.-nr.: Wird vom Prüfer ausgefüllt:
MehrFolie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse
Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse Zu Markov-Prozessen: Bemerkungen: 17.01.2013 Wir betrachten im Folgenden eine Markovkette (X n ) n N0, wobei jedes X n Werte in Z = {0,1,2,...,s}
MehrKniffel-Agenten. Von Alexander Holtkamp
Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln
Mehr15. September 2010 Prof. Dr. W. Bley. Universität Kassel Klausur SS 2010 Diskrete Strukturen I (Informatik) Name:... Matr.-Nr.:... Viel Erfolg!
15. September 010 Prof. Dr. W. Bley Universität Kassel Klausur SS 010 Diskrete Strukturen I (Informatik) 1 3 4 5 6 Name:................................................ Matr.-Nr.:............................................
MehrBayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur
MehrVisuell geführtes Greifen mittels selbstbewertendem Lernen
Visuell geführtes Greifen mittels selbstbewertendem Lernen Griff ist optimal bzgl. lokaler Kriterien: Die Finger des Greifers können das Objekt am Greifpunkt umschließen Keine Reibung tritt zwischen Fingern
MehrÜbungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression
Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen
Mehr3. Prozesse mit kontinuierlicher Zeit
3. Prozesse mit kontinuierlicher Zeit 3.1 Einführung Wir betrachten nun Markov-Ketten (X(t)) t R +. 0 Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir uns auch hier einen Grenzprozess
MehrDefinition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion
Kapitel 2 Erwartungswert 2.1 Erwartungswert einer Zufallsvariablen Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion È ist definiert als Ü ÜÈ Üµ Für spätere
MehrDiskontierte Markovsche Entscheidungsprozesse
Ausarbeitung zum Seminarvortrag Diskontierte Markovsche Entscheidungsprozesse aus der Seminarreihe Spieltheorie und Glücksspiele von Prof. Dr. Alfred Müller vorgelegt von Alexander Müller Sommersemester
MehrLösungen zu Übungsblatt 10 Höhere Mathematik Master KI Diskrete Zufallsgrößen/Markov-Ketten
Lösungen zu Übungsblatt 0 Höhere Mathematik Master KI Hinweise: Die Aufgaben - beziehen sich auf das Thema Diskrete Zufallsgrößen, Ihre Verteilungen und Erwartungswerte. Siehe dazu auch das auf der Homepage
MehrTUD Computer Poker Challenge
TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing
MehrEinleitung und Intelligente Agenten MAS-Seminar - SS2008
Einleitung und Intelligente Agenten MAS-Seminar - SS2008 Daniel Kühn Dorothe Schneider Tessa-Karina Tews 17. April 2008 1 Einführung 1.1 Trends in der Geschichte der Berechnung Die Geschichte von Berechnung
MehrWahrscheinlichkeitstheorie und Statistik
Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter
MehrDiskrete Ereignissysteme
Distributed Computing HS 22 Prof. C. Stamm / K.-T. Förster T. Langner J. Seidel Prof. R. Wattenhofer Diskrete Ereignissysteme Prüfung Donnerstag 3. Januar 23 9: 2: Uhr Nicht öffnen oder umdrehen bevor
MehrAblauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26
Spieldynamik Josef Hofbauer and Karl Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Kap. 8 Simon Maurer Saarbrücken, den 13.12.2011 1 / 26 Ablauf 1 Imitationsdynamik 2 Monotone Auszahlung
MehrZentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza)
SS 2013 Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza) Dr. Werner Meixner Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2013ss/dwt/uebung/ 10. Mai 2013
Mehr7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten Da G X (s) := Pr[X = k] s k = E[s X ], k Pr[X = k] = E[X].
7.1.1 Zusammenhang zwischen der w.e. Funktion und den Momenten Da G X (s) := gilt G X(1) = Pr[X = k] s k = E[s X ], k=0 k Pr[X = k] = E[X]. k=1 DWT 7.1 Einführung 182/476 Beispiel 73 Sei X binomialverteilt
MehrReinforcement Learning
Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:
MehrPROSEMINAR ROBOTIK OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG
PROSEMINAR ROBOTIK SEMINAR REINFORCEMENT LEARNING OBERSEMINAR ADAPTIVE ROBOTERSTEUERUNG Organisation, Überblick, Themen Überblick heutige Veranstaltung Organisatorisches Einführung in Reinforcement Learning
Mehr1. Anhang: Spline-Funktionen
C:\D\DOKU\NUM KURS\SPLINE.TEX C:\UG\.AI 20. Juli 1998 Vorbemerkung: Wenn der Satz stimmt, daß jede Formel eines Textes die Leserzahl halbiert, dann brauche ich bei grob geschätzt 40 Formeln etwa 2 40 =
Mehr5 Erwartungswerte, Varianzen und Kovarianzen
47 5 Erwartungswerte, Varianzen und Kovarianzen Zur Charakterisierung von Verteilungen unterscheidet man Lageparameter, wie z. B. Erwartungswert ( mittlerer Wert ) Modus (Maximum der Wahrscheinlichkeitsfunktion,
MehrFolien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr
Folien zu Data Mining von I. H. Witten und E. Frank übersetzt von N. Fuhr Von Naivem Bayes zu Bayes'schen Netzwerken Naiver Bayes Annahme: Attribute bedingt unabhängig bei gegebener Klasse Stimmt in der
MehrSequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 13. Unsicherheiten 14. Probabilistisches Schließen 15. Probabilistisches
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
MehrStatistik, Datenanalyse und Simulation
Dr. Michael O. Distler distler@kph.uni-mainz.de Mainz, 29. Oktober 2007 1. Statistik 1.1 Wahrscheinlichkeit Pragmatisch: p(e) = n(e) N für N sehr groß Kombination von Wahrscheinlichkeiten p(a oder B) =
MehrGrundlagen der KI. 15. Handeln unter Unsicherheit
Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen
MehrLineare (Un-)Gleichungen und lineare Optimierung
Lineare (Un-)Gleichungen und lineare Optimierung Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-6020 Innsbruck, Österreich franz.pauer@uibk.ac.at 1 Einleitung In der linearen
MehrRandomisierte Algorithmen
Randomisierte Algorithmen Randomisierte Algorithmen Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2018/2019 1 / 40 Überblick Überblick Grundlegendes zu Markov-Ketten
MehrRekursionen (Teschl/Teschl 8.1/8.2)
Rekursionen (Teschl/Teschl 8.1/8.2) treten in vielen Algorithmen auf: Eine Rekursion ist eine Folge von Zahlen a 0, a 1, a 2,.., bei der jedes a n aus seinen Vorgängern berechnet wird: Beispiele a n =
Mehr3. Diskrete Fourier-Transformation
Vorüberlegung: Die Gleichung λ =0 hat die N verschiedenen Lösungen λ k =e 2 π i k / N,,, Aus λ = (λ λ k ) k =0 folgt durch Koeffizientenvergleich e 2 π i k/ N = λ k =0 Für jede ganze Zahl m gilt m d. h.
MehrKonvergenz von Hopfield-Netzen
Matthias Jauernig 1. August 2006 Zusammenfassung Die nachfolgende Betrachtung bezieht sich auf das diskrete Hopfield-Netz und hat das Ziel, die Konvergenz des Verfahrens zu zeigen. Leider wird dieser Beweis
MehrBeschleunigung von kräftebasierten Graphzeichenalgorithmen mittels wohlseparierten Paardekompositionen
Bachelorkolloquium Beschleunigung von kräftebasierten Graphzeichenalgorithmen mittels wohlseparierten Paardekompositionen von Johannes Zink Übersicht 1. Grundlagen 1.1 Kräftebasierte Graphzeichenalgorithmen
MehrStatistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
MehrSerie 8. D-BAUG Analysis II FS 2015 Dr. Meike Akveld. 1. Berechnen Sie für das Vektorfeld (siehe Abbildung 1) Abbildung 1: Aufgabe 1
D-BAUG Analsis II FS 5 Dr. Meike Akveld Serie 8. Berechnen Sie für das Vektorfeld (siehe Abbildung ) 3 - -3 3 3 Abbildung : Aufgabe F : (, ) ( +, ) die Arbeit entlang der folgenden Wege C, wobei P = (,
MehrMathematische Grundlagen der dynamischen Simulation
Mathematische Grundlagen der dynamischen Simulation Dynamische Systeme sind Systeme, die sich verändern. Es geht dabei um eine zeitliche Entwicklung und wie immer in der Informatik betrachten wir dabei
MehrPr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.
2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet
MehrBearbeiten Sie 6 der 8 Aufgaben nach Ihrer Wahl.
Kursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL (Prof. Dr. Lutz Arnold) Wintersemester 2011/12 28.2.2012 Bitte gut leserlich ausfüllen: Name: Vorname: Matr.-nr.: Wird vom Prüfer ausgefüllt:
MehrDr. Michael Thess. prudsys AG. Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom Juni 2006)
Dr. Michael Thess prudsys AG Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom 27.-29. Juni 2006) Copyright-Hinweis: Das Urheberrecht des folgenden Vortrags liegt beim Autor. Verbreitung,
MehrDie partielle Likelihood-Funktion
Die partielle Likelihood-Funktion Roger Züst 12. Juni 26 1 Repetition: Maximum-Likelihood-Methode Hat man n unabhängige Beobachtungen x 1, x 2,..., x n einer Zufallsvariablen X und eine Familie von möglichen
MehrEinführung Intelligente Agenten
Einführung Intelligente Agenten Sara Winter, Kai Mismahl, Anja Philippsen Seminar Multiagentensysteme Universität Bielefeld 23. April 2009 Übersicht Einführung Intelligente Agenten Definition eines Agenten
MehrEinführung in die medizinische Bildverarbeitung WS 12/13
Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von
MehrLineare Gleichungssysteme
Christian Serpé Universität Münster 14. September 2011 Christian Serpé (Universität Münster) 14. September 2011 1 / 56 Gliederung 1 Motivation Beispiele Allgemeines Vorgehen 2 Der Vektorraum R n 3 Lineare
MehrSchriftliche Ausarbeitung zum Seminarvortrag: Einführung in die Perfekte Simulation. Propp-Wilson-Algorithmus
Technische Universität Berlin Schriftliche Ausarbeitung zum Seminarvortrag: Einführung in die Perfekte Simulation Propp-Wilson-Algorithmus Lisa Brust Matrikelnummer: 330793 Master Mathematik 30. Juni 2016
MehrTrennende Markov Ketten
Trennende Markov Ketten (in Zusammenarbeit mit A. Martinsson) Timo Hirscher Chalmers Tekniska Högskola Seminarvortrag KIT 8. Mai 206 Übersicht Der Seminarvortrag ist wie folgt gegliedert: Einleitung Denitionen
MehrMarkov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes
Markov-Prozesse Franziskus Diwo Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes 8.0.20 Gliederung Was ist ein Markov-Prozess? 2 Zustandswahrscheinlichkeiten 3 Z-Transformation 4 Übergangs-,
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
MehrInhalt. 1. Einführung in die Informatik. 2. Algorithmen Definition, Eigenschaften, Entwurf Darstellung von Algorithmen Beispiele.
1. Einführung in die Informatik Inhalt 2. Algorithmen Definition, Eigenschaften, Entwurf Darstellung von Algorithmen Beispiele Peter Sobe 1 Einführende Beispiele 2. Algorithmen Täglich werden Verarbeitungsvorschriften
MehrAnpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood
Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood Hauptseminar - Methoden der experimentellen Teilchenphysik WS 2011/2012 Fabian Hoffmann 2. Dezember 2011 Inhaltsverzeichnis 1 Einleitung
Mehr3.1 Agenten. Grundlagen der Künstlichen Intelligenz. 3.1 Agenten. 3.2 Rationalität. 3.3 Zusammenfassung. Einführung: Überblick
Grundlagen der Künstlichen Intelligenz 2. März 2015 3. Einführung: Rationale Agenten Grundlagen der Künstlichen Intelligenz 3. Einführung: Rationale Agenten 3.1 Agenten Malte Helmert Universität Basel
Mehr(a) Welche der folgenden Funktionen ist injektiv, surjektiv beziehungsweise bijektiv? x 1 + x
Aufgabe Injektiv und Surjektiv) a) Welche der folgenden Funktionen ist injektiv, surjektiv beziehungsweise bijektiv?. f : Z N; x x 2. 2. f : R R; x x x.. f : R [, ]; x sin x. 4. f : C C; z z 4. b) Zeigen
MehrReinforcement Learning
Reinforcement Learning (2) Reinforcement Learning VL Algorithmisches Lernen, Teil 3e Jianwei Zhang University of Hamburg MIN Faculty, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de
MehrDefinition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch
Kapitel 4 Diskrete Verteilungen 4.1 Bernoulli-Verteilung Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch È Üµ ½ für Ü ¼ für Ü ½ ¼ sonst Die Bernoulli-Verteilung
MehrGrundseminar SoSe 2017
Grundseminar SoSe 2017 Fabien Lapok Reinforcement-Learning Fakultechnik und Informatik Studiendepartment Informatik Faculty of Engineering and Computer Science Department of Computer Science Fabien Lapok
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
MehrQuantenalgorithmus für die Faktorisierung ganzer Zahlen
Quantenalgorithmus für die Faktorisierung ganzer Zahlen Ausgehend von dem allgemeinen Algorithmus für das Hidden Subgroup Problem behandlen wir in diesem Abschnitt den Quantenalgorithmus für die Faktorisierung
MehrHöhere Mathematik II für die Fachrichtung Informatik. Lösungsvorschläge zum 6. Übungsblatt
KARLSRUHER INSTITUT FÜR TECHNOLOGIE INSTITUT FÜR ANALYSIS Dr. Christoph Schmoeger Heiko Hoffmann SS 2 Höhere Mathematik II für die Fachrichtung Informatik Lösungsvorschläge zum 6. Übungsblatt Aufgabe 2
Mehr5 Zwei spieltheoretische Aspekte
5 Zwei spieltheoretische Aspekte In diesem Kapitel wollen wir uns mit dem algorithmischen Problem beschäftigen, sogenannte Und-Oder-Bäume (kurz UOB) auszuwerten. Sie sind ein Spezialfall von Spielbäumen,
MehrDisMod-Repetitorium Tag 3
DisMod-Repetitorium Tag 3 Markov-Ketten 21. März 2018 1 Markov-Ketten Was ist eine Markov-Kette? Was gehört alles dazu? Darstellung als Graph und als Matrix Stationäre Verteilung und Grenzverteilung Ergodizität
MehrÜbersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
Mehr1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position. Die Folge 2,1,4,3,... ist eine andere als 1,2,3,4,...
9 Folgen Eine (unendliche) Folge im herkömmlichen Sinn entsteht durch Hintereinanderschreiben von Zahlen, z.b.: 1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position.
MehrAlois Fichtl, Julius Vogelbacher 10. Juni Voronoi und Johnson-Mehl Mosaike
Alois Fichtl, Julius Vogelbacher 10. Juni 2008 Voronoi und Johnson-Mehl Mosaike Seite 2 Voronoi- und Johnson-Mehl-Mosaike Alois Fichtl, Julius Vogelbacher 10. Juni 2008 Inhaltsverzeichnis Einführung Mosaike
MehrStatistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Übung 7 1 Inhalt der heutigen Übung Statistik und Wahrscheinlichkeitsrechnung Vorrechnen der Hausübung D.9 Gemeinsames Lösen der Übungsaufgaben D.10: Poissonprozess
Mehr