3. Das Reinforcement Lernproblem
|
|
|
- Kristina Stieber
- vor 9 Jahren
- Abrufe
Transkript
1 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität F. Schwenker Reinforcement Learning 29
2 Agent und Umgebung - das Bild Agent State Reward Action s t r t a t r t+1 Environment s t+1 F. Schwenker Reinforcement Learning 30
3 Aktion-Zustand-Reward Agent führt eine Aktion a t aus. Umwelt ändert hierdurch ihren Zustand s t und erteilt dem Agenten einen Reward r t R, s t und r t werden vom Agenten wahrgenommen. Agent führt nächste Aktion a t+1 aus. S die Menge der Zustände (diskret/endlich) A die Menge der Aktionen (diskret/endlich) A(s t ) Menge der Aktion die im Zustand s t möglich sind. Zeit ist diskret, d.h. t = 1, 2, 3,.... F. Schwenker Reinforcement Learning 31
4 Der Agent führt die Aktion gemäß einer Strategie/Taktik/Vorgehensweise (policy) aus, bezeichnet mit π t. π t (s, a) ist hier die Wahrscheinlichkeit, dass die Aktion a t = a ausgeführt wird, falls der Zustand s t = s war. Reinforcement Lernverfahren adaptieren direkt oder indirekt die policy π t des Agenten. Agent soll die in der Zukunft zu erwartenden Rewards maximieren, also den mittleren Reward 1 T T i=t+1 r i maximieren. Problem: T = ist möglich F. Schwenker Reinforcement Learning 32
5 Discounted Rewards Wie könnnen die (in der Zukunft) zu erwartenden Rewards maximiert werden? In einigen Anwendungen ist ein endlicher Zeithorizont T bekannt (z.b. beim Tic-Tac-Toe). In diesen Fällen sind die Rewards bis zur Zeit T zu berücksichtigen. Also einfach den Mitterlwert berechnen. In vielen Fällen ist T a priori unbekannt (auch im Verlauf der Zeit nicht), sondern es ist möglicherweise erst kurz vor Schluss T zu schätzen (kontinuierlich durchgeführte Aufgaben). Für diese Aufgabe nehmen wir T = an. Dann kann aber kein Erwartungswert berechnet werden. F. Schwenker Reinforcement Learning 33
6 Ausweg: Rewards in der weiteren Zukunft abschwächen mit Konstante γ [0, 1] und dann R t = γ i r t+1+i i=0 γ < 1, so konvergiert R t bei beschränkten Rewards (geometrische Reihe anwenden). γ = 0, so wird nur r t+1 berücksichtigt. γ = 1, so muss T < sein. Je näher γ bei 1, desto stärker werden die weit in der Zukunft liegenden Rewards berücksichtigt. F. Schwenker Reinforcement Learning 34
7 Wir betrachten also die Summe der discounted Rewards R t = T γ i r t+1+i i=0 Also Grenzfälle können T = oder γ = 1 auftreten, aber nicht beide zusammen. F. Schwenker Reinforcement Learning 35
8 Markov Eigenschaft Als Zustand der Umgebung kann natürlich alles aufgefasst werden, was der Agent wahrnehmen kann. Dies können einfache Sensorwerte sein oder irgendeine symbolische Repräsentation einer Belegtheitskarte eines Raumes oder Gebäudes. Für den Aufbau einer solchen Karte sind umfangreiche sensorische Eingaben zuverarbeiten. Wir nehmen an, dass der Zustand den der Agent wahrnehmen kann, alle für die Aufgabe relevanten Ereignisse der Vergangenheit enthält. Beispiel: Die Positionen der Figuren zu einem Zeitpunkt t geben die vollständige Information über den bisherigen Spielverlauf. Wie diese Stellung zustande kam, kann natürlich nützlich sein, für die Berechnung des optimalen nächsten Zuges ist diese Information nicht nötig. Der aktuelle Zustand wird betrachtet, nicht der Weg dort hin! F. Schwenker Reinforcement Learning 36
9 Im Allgemeinen basiert die Bestimmung von Zustand und Reward auf Wahrscheinlichkeiten der Form prob{s t+1 = s, r t+1 = r s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, a 0 } (1) Markov Eigenschaft: Die Ausgabe der Umgebung hängt nur ab von a t, der letzten Aktion des Agent, sowie von s t, dem letzten Zustand der Umgebenung: prob{s t+1 = s, r t+1 = r s t, a t } (2) Wir sagen das Zustandssignal hat die Markov-Eigenschaft, gdw. (1) gleich (2) ist für alle s und r und für alle Vergangenheiten s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, a 0. Wir nehmen diese Markov-Eigenschaft des Zustandssignals immer an, in diesem Fall sagen wir auch, das Umgebung und RL-Aufgabe die Markov- Eigenschaft erfüllen. F. Schwenker Reinforcement Learning 37
10 Markov sche Entscheidung Reinforcement-Aufgabe mit der Markov-Eigenschaft wird auch als Markovscher Entscheidungsprozess (MDP=Markov decision process) bezeichnet. Falls A und S endlich sind, auch als finiter MDP. Hiermit beschäftigen wir uns. Ein endlicher MDP ist definiert durch A und S und die Dynamik der Umgebung. Gegeben a A und s S, die Wahrscheinlichkeit des nächsten Zustands s ist P a s s = prob{s t+1 = s s t = s, a t = a} Dieses sind die Übergangswahrscheinlichkeiten. F. Schwenker Reinforcement Learning 38
11 Gegeben a A und s S, sowie der nächste Zustand s S der Erwartungswert für den nächsten Reward ist R a s s = E{r t+1 s t = s, a t = a, s t+1 = s } Durch P a s s und R a s s sind die wichtigsten Größen in einem endlichen MDP repräsentiert. Die präzise Verteilung der Rewards um die Erwartungswerte geht allerdings verloren. F. Schwenker Reinforcement Learning 39
12 Werte-Funktionen Policy des Agenten wird bezeichnet mit π t. Es ist π t (s, a) die Wahrscheinlichkeit, dass die Aktion a t = a ausgeführt wird, falls der Zustand s t = s vorlag. Der Wert eines Zustands s bzgl. der Policy π, bezeichnet mit V π (s), ist der Erwartungswert von R t = γ i r t+1+i, mit γ (0, 1] i=0 falls der Agent die Aktionen gemäß π ausführt, wobei er im Zustand s beginnt, also { V π (s) = E π Rt s t = s } { = E π γ i r t+1+i s t = s } i=0 F. Schwenker Reinforcement Learning 40
13 V π Wertfunktion der Zustände (state-value function for policy) π. Der Wert der Aktion a im Zustand s bzgl. Strategie π ist der Erwartungswert von R t falls der Agent im Zustand s die Aktion a ausführt und dann gemäß der Strategie π vorgeht, also { Q π (s, a) = E π {R t s t = a, a t = a} = E π γ i r t+1+i s t = s, a t = a } Q π Wertfunktion der Aktionen (action-value function for policy) π. V π und Q π können gelernt werden, beispielsweise durch Mittelwertbildung über die gesammelten Rewards. Dabei werden im Fall der Schätzung von V π Mittelwerte für jeden Zustand s gebildet (S endlich) und im Fall von Q π Mittelwerte für jede einzelne Aktionen a (A endlich). Für viele Zustände und/oder Aktionen müssen V π und Q π durch adaptive Abbildungen (z.b. neuronale Netze) gelernt. i=0 F. Schwenker Reinforcement Learning 41
14 Bellman Gleichung Die Wertfunktion V π erfüllen rekursive Bedingungen zwischen den Zuständen s und den Folgezuständen: V π (s) = E π {R t s t = s} } = E π {r t+1 + γ γ i r t+2+i s t = s = a i=0 π(s, a) s P a ss ( { }) R a ss + γe π γ k r t+2+k s t+1 = s k=0 = a π(s, a) s P a ss (R a ss + γv π (s )) V π ist eindeutige Lösung der Bellman Gleichung, sie ist Grundlage für Algorithmen zum Lernen von V π (entsprechende Gleichung gilt für Q π ). F. Schwenker Reinforcement Learning 42
15 Backup Diagramme (a) s (b) s,a a r s' r s' a' (a) die Situation für V π ; (b) die Situation für Q π Ausgehend von Zustand s kann der Agent Aktionen a ausführen (hier 3) Hierauf geht die Umgebung in Folgezustände über (hier 2), gleichzeitig wird ein Reward r erteilt. V π (s) durch Mittelung über alle möglichen Aktionen a und alle möglichen Folgezustände s. Über die Pfade in diesen Bäumen werden die Werte von Zuständen zur Aktualisierung der Werte vorherige Zustände propagiert. F. Schwenker Reinforcement Learning 43
16 Beispiel Gridworld A A' +10 (a) B +5 B' Actions (b) Agent bewegt sich im 2D-Gitter. Mögliche Aktionen sind Bewegungen nach Nord, Süd, West, Ost. F. Schwenker Reinforcement Learning 44
17 Aktionen werden zufällig und mit gleicher Wahrscheinlichkeit gewählt (random policy π). Reward ist 1, falls der Agent eine Aktion ausführt, die ihn hinaus befördern würde. In diesem Fall bleibt der Agent allerdings auf seiner Position im Grid. In den Zuständen (Zellen im Grid) A und B. Hier wird ein Reward von 10 bzw. 5 erteilt und zwar für alle Aktionen. Diese bringen den Agenten in den Zustand A bzw. B. Alle anderen Aktion erzielen Reward 0. Für γ = 0.9 ist V π in (b) dargestellt. Im unteren Bereich haben die Zustände negative Werte V (s). V π (A) ist das Maximum, allerdings V π (A) < 10, dagegen V π (B) > 5. Warum? F. Schwenker Reinforcement Learning 45
18 Optimale Wertfunktionen Für ein RL Problem suchen wir nach einer Strategie π für die der erwartete Reward (Return) möglichst groß ist. Die Menge der Strategien Π = {π π policy auf S A} ist teilweise geordnet durch π π gdw V π (s) V π (s) für alle s S Es gibt mindestens eine optimale policy π, möglicherweise gibt es mehrere optimale policies, diese haben aber alle die gleiche Zustandswertfunktion, nämlich die optimale Zustandswertefunktion V. Diese ist definiert durch V (s) = max π V π (s) F. Schwenker Reinforcement Learning 46
19 Alle optimalen policies π haben auch gleiche optimale Aktionswertefunktion Q, definiert durch Q (s, a) = max π Qπ (s, a) Für ein Paar aus Zustand und Aktion (s, a) gibt die Funktion Q (s, a) den erwarteten Return für die Aktion a im Zustand s an und nachfolgend die optimale policy angewendet wird, somit besteht der Zusammenhang zwischen Q und V : Q (s, a) = E {r t+1 + γv (s t+1 ) s t = s, a t = a} V ist die Wertefunktion einer optimalen policy π, somit erfüllt V die Bellman-Gleichung. F. Schwenker Reinforcement Learning 47
20 Die Bellman-Gleichung für V : V (s) = max a = max a = max a = max a = max a = max a Q π (s, a) E π {R t s t = s, a t = a} E π E π { } γ k r t+k+1 s t = s, a t = a { k=0 r t + γ } γ k r t+k+2 s t = s, a t = a k=0 E {r t + γv (s t+1 ) s t = s, a t = a} s P a ss (R a ss + γv (s )) F. Schwenker Reinforcement Learning 48
21 Die Bellman-Gleichung für Q : { } Q (s, a) = E r t+1 + γ max Q (s t+1, a ) s t = a, a t = a a = ) Pss (R a a ss + γ max Q (s, a ) s a (a) s (b) s,a max a r s' max r s' a' F. Schwenker Reinforcement Learning 49
22 Falls die Dynamik der Umgebung bekannt ist, dh. falls P a ss und R a ss bekannt sind, so besteht das Gleichungssystem für V aus S (nichtlinearen) Gleichungen mit S Unbekannten. Dieses kann prinzipiell auch gelöst werden. Falls V bekannt ist, so folgt daraus sehr einfach eine optimale policy. Im Zustand s ist π (s, a ) mit a = arg max s P a ss (R a ss + γv (s )) A B B' A' a) gridworld b) V* c) π* F. Schwenker Reinforcement Learning 50
Dynamic Programming. To compute optimal policies in a perfect model of the environment as a Markov decision process.
Dynamic Programming To compute optimal policies in a perfect model of the environment as a Markov decision process. 1. Dynamic Programming Algorithmen die Teilergebnisse speichern und zur Lösung des Problems
Reinforcement Learning
Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied
Reinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Reinforcement Learning
Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein
Monte Carlo Methoden
Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).
Reinforcement Learning
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
2. Beispiel: n-armiger Bandit
2. Beispiel: n-armiger Bandit 1. Das Problem des n-armigen Banditen 2. Methoden zur Berechung von Wert-Funktionen 3. Softmax-Auswahl von Aktionen 4. Inkrementelle Schätzverfahren 5. Nichtstationärer n-armiger
Temporal Difference Learning
Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)
8. Reinforcement Learning
8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält
Reinforcement Learning. Volker Tresp
Reinforcement Learning Volker Tresp 1 Überwachtes und unüberwachtes Lernen Überwachtes Lernen: Zielgrößen sind im Trainingsdatensatz bekannt; Ziel ist die Verallgemeinerung auf neue Daten Unüberwachtes
Universität Ulm CS5900 Hauptseminar Neuroinformatik Dozenten: Palm, Schwenker, Oubatti
Verfasst von Nenad Marjanovic Betreut von Dr. Friedhelm Schwenker Universität Ulm - CS5900 Hauptseminar Neuroinformatik 1. Einleitung Dieses Arbeit befasst sich mit dem Maschinellen Lernen eines Agenten
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Uwe Dick
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte
Reinforcement Learning
VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg [email protected] 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation
Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung
Reinforcement learning
Reinforcement learning Erfolgsgeschichten... Quelle: twitter.com/ai memes Q-Learning als Art von Reinforcement learning Paul Kahlmeyer February 5, 2019 1 Einführung 2 Q-Learning Begriffe Algorithmus 3
Hidden-Markov-Modelle
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hidden-Markov-Modelle Tobias Scheffer Thomas Vanck Hidden-Markov-Modelle: Wozu? Spracherkennung: Akustisches Modell. Geschriebene
Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische
Stochastische dynamische Optimierung
Bisher: Neuer Zustand s 0 auf Stufe n +1istdurchaltenZustands auf Stufe n und Aktion a eindeutig bestimmt. s 0 = z n (s, a) Jetzt: Neuer Zustand s 0 ist zusätzlich vom Zufall abhängig. Genauer: Zufallsvariable,
Reinforcement Learning
Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration
Reinforcement Learning
Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning
Angewandte Stochastik
Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel
Reinforcement Learning 2
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche
Übungsblatt 6 Lösungen
Grundlagen der Künstlichen Intelligenz Prof. Dr. J. Boedecker, Prof. Dr. W. Burgard, Prof. Dr. F. Hutter, Prof. Dr. B. Nebel M. Krawez, T. Schulte Sommersemester 2018 Universität Freiburg Institut für
Kapitel 10. Lernen durch Verstärkung (Reinforcement Learning) Einführung. Robotik. Aufgaben sind oft sehr komplex. nicht programmierbar
Vielleicht sollte ich beim nächsten mal den Schwung etwas früher einleiten oder langsamer fahren? Lernen durch negative Verstärkung. Kapitel Lernen durch Verstärkung (Reinforcement Learning) Copyright
Reinforcement Learning
Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning
Kapitel 12: Markov-Ketten
Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse 21.01.2016 Kapitel 12: Markov-Ketten Ab jetzt betrachten wir stochastische Prozesse (X n ) n N0 mit 1. diskreter Zeit N 0 = {0,1,2,...},
Der Alpha-Beta-Algorithmus
Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler
Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse
Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse Zu Markov-Prozessen: Bemerkungen: 17.01.2013 Wir betrachten im Folgenden eine Markovkette (X n ) n N0, wobei jedes X n Werte in Z = {0,1,2,...,s}
Kniffel-Agenten. Von Alexander Holtkamp
Kniffel-Agenten Von Alexander Holtkamp Übersicht Grundregeln Vorteil der Monte Carlo -Methode Gliederung des Projekts Aufbau State - Action Kodierung von State - Action Optimierung Aussicht Grundregeln
15. September 2010 Prof. Dr. W. Bley. Universität Kassel Klausur SS 2010 Diskrete Strukturen I (Informatik) Name:... Matr.-Nr.:... Viel Erfolg!
15. September 010 Prof. Dr. W. Bley Universität Kassel Klausur SS 010 Diskrete Strukturen I (Informatik) 1 3 4 5 6 Name:................................................ Matr.-Nr.:............................................
Übungsklausur zur Vorlesung Wahrscheinlichkeit und Regression Thema: Wahrscheinlichkeit. Übungsklausur Wahrscheinlichkeit und Regression
Übungsklausur Wahrscheinlichkeit und Regression 1. Welche der folgenden Aussagen treffen auf ein Zufallsexperiment zu? a) Ein Zufallsexperiment ist ein empirisches Phänomen, das in stochastischen Modellen
3. Prozesse mit kontinuierlicher Zeit
3. Prozesse mit kontinuierlicher Zeit 3.1 Einführung Wir betrachten nun Markov-Ketten (X(t)) t R +. 0 Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir uns auch hier einen Grenzprozess
Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion
Kapitel 2 Erwartungswert 2.1 Erwartungswert einer Zufallsvariablen Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion È ist definiert als Ü ÜÈ Üµ Für spätere
Diskontierte Markovsche Entscheidungsprozesse
Ausarbeitung zum Seminarvortrag Diskontierte Markovsche Entscheidungsprozesse aus der Seminarreihe Spieltheorie und Glücksspiele von Prof. Dr. Alfred Müller vorgelegt von Alexander Müller Sommersemester
Lösungen zu Übungsblatt 10 Höhere Mathematik Master KI Diskrete Zufallsgrößen/Markov-Ketten
Lösungen zu Übungsblatt 0 Höhere Mathematik Master KI Hinweise: Die Aufgaben - beziehen sich auf das Thema Diskrete Zufallsgrößen, Ihre Verteilungen und Erwartungswerte. Siehe dazu auch das auf der Homepage
TUD Computer Poker Challenge
TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing
Einleitung und Intelligente Agenten MAS-Seminar - SS2008
Einleitung und Intelligente Agenten MAS-Seminar - SS2008 Daniel Kühn Dorothe Schneider Tessa-Karina Tews 17. April 2008 1 Einführung 1.1 Trends in der Geschichte der Berechnung Die Geschichte von Berechnung
Wahrscheinlichkeitstheorie und Statistik
Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter
Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza)
SS 2013 Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza) Dr. Werner Meixner Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2013ss/dwt/uebung/ 10. Mai 2013
1. Anhang: Spline-Funktionen
C:\D\DOKU\NUM KURS\SPLINE.TEX C:\UG\.AI 20. Juli 1998 Vorbemerkung: Wenn der Satz stimmt, daß jede Formel eines Textes die Leserzahl halbiert, dann brauche ich bei grob geschätzt 40 Formeln etwa 2 40 =
5 Erwartungswerte, Varianzen und Kovarianzen
47 5 Erwartungswerte, Varianzen und Kovarianzen Zur Charakterisierung von Verteilungen unterscheidet man Lageparameter, wie z. B. Erwartungswert ( mittlerer Wert ) Modus (Maximum der Wahrscheinlichkeitsfunktion,
Sequentielle Entscheidungsprobleme. Übersicht. MDP (Markov Decision Process) MDP und POMDP. Beispiel für sequentielles Planungsproblem
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen 13. Unsicherheiten 14. Probabilistisches Schließen 15. Probabilistisches
2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
Statistik, Datenanalyse und Simulation
Dr. Michael O. Distler [email protected] Mainz, 29. Oktober 2007 1. Statistik 1.1 Wahrscheinlichkeit Pragmatisch: p(e) = n(e) N für N sehr groß Kombination von Wahrscheinlichkeiten p(a oder B) =
Grundlagen der KI. 15. Handeln unter Unsicherheit
Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen
Lineare (Un-)Gleichungen und lineare Optimierung
Lineare (Un-)Gleichungen und lineare Optimierung Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-6020 Innsbruck, Österreich [email protected] 1 Einleitung In der linearen
Rekursionen (Teschl/Teschl 8.1/8.2)
Rekursionen (Teschl/Teschl 8.1/8.2) treten in vielen Algorithmen auf: Eine Rekursion ist eine Folge von Zahlen a 0, a 1, a 2,.., bei der jedes a n aus seinen Vorgängern berechnet wird: Beispiele a n =
3. Diskrete Fourier-Transformation
Vorüberlegung: Die Gleichung λ =0 hat die N verschiedenen Lösungen λ k =e 2 π i k / N,,, Aus λ = (λ λ k ) k =0 folgt durch Koeffizientenvergleich e 2 π i k/ N = λ k =0 Für jede ganze Zahl m gilt m d. h.
Konvergenz von Hopfield-Netzen
Matthias Jauernig 1. August 2006 Zusammenfassung Die nachfolgende Betrachtung bezieht sich auf das diskrete Hopfield-Netz und hat das Ziel, die Konvergenz des Verfahrens zu zeigen. Leider wird dieser Beweis
Statistik III. Walter Zucchini Fred Böker Andreas Stadie
Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................
Serie 8. D-BAUG Analysis II FS 2015 Dr. Meike Akveld. 1. Berechnen Sie für das Vektorfeld (siehe Abbildung 1) Abbildung 1: Aufgabe 1
D-BAUG Analsis II FS 5 Dr. Meike Akveld Serie 8. Berechnen Sie für das Vektorfeld (siehe Abbildung ) 3 - -3 3 3 Abbildung : Aufgabe F : (, ) ( +, ) die Arbeit entlang der folgenden Wege C, wobei P = (,
Mathematische Grundlagen der dynamischen Simulation
Mathematische Grundlagen der dynamischen Simulation Dynamische Systeme sind Systeme, die sich verändern. Es geht dabei um eine zeitliche Entwicklung und wie immer in der Informatik betrachten wir dabei
Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.
2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet
Dr. Michael Thess. prudsys AG. Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom Juni 2006)
Dr. Michael Thess prudsys AG Vortrag auf den 7. DATA-MINING-CUP Anwendertagen (Chemnitz vom 27.-29. Juni 2006) Copyright-Hinweis: Das Urheberrecht des folgenden Vortrags liegt beim Autor. Verbreitung,
Die partielle Likelihood-Funktion
Die partielle Likelihood-Funktion Roger Züst 12. Juni 26 1 Repetition: Maximum-Likelihood-Methode Hat man n unabhängige Beobachtungen x 1, x 2,..., x n einer Zufallsvariablen X und eine Familie von möglichen
Einführung Intelligente Agenten
Einführung Intelligente Agenten Sara Winter, Kai Mismahl, Anja Philippsen Seminar Multiagentensysteme Universität Bielefeld 23. April 2009 Übersicht Einführung Intelligente Agenten Definition eines Agenten
Einführung in die medizinische Bildverarbeitung WS 12/13
Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von
Lineare Gleichungssysteme
Christian Serpé Universität Münster 14. September 2011 Christian Serpé (Universität Münster) 14. September 2011 1 / 56 Gliederung 1 Motivation Beispiele Allgemeines Vorgehen 2 Der Vektorraum R n 3 Lineare
Schriftliche Ausarbeitung zum Seminarvortrag: Einführung in die Perfekte Simulation. Propp-Wilson-Algorithmus
Technische Universität Berlin Schriftliche Ausarbeitung zum Seminarvortrag: Einführung in die Perfekte Simulation Propp-Wilson-Algorithmus Lisa Brust Matrikelnummer: 330793 Master Mathematik 30. Juni 2016
Trennende Markov Ketten
Trennende Markov Ketten (in Zusammenarbeit mit A. Martinsson) Timo Hirscher Chalmers Tekniska Högskola Seminarvortrag KIT 8. Mai 206 Übersicht Der Seminarvortrag ist wie folgt gegliedert: Einleitung Denitionen
Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes
Markov-Prozesse Franziskus Diwo Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes 8.0.20 Gliederung Was ist ein Markov-Prozess? 2 Zustandswahrscheinlichkeiten 3 Z-Transformation 4 Übergangs-,
2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
Inhalt. 1. Einführung in die Informatik. 2. Algorithmen Definition, Eigenschaften, Entwurf Darstellung von Algorithmen Beispiele.
1. Einführung in die Informatik Inhalt 2. Algorithmen Definition, Eigenschaften, Entwurf Darstellung von Algorithmen Beispiele Peter Sobe 1 Einführende Beispiele 2. Algorithmen Täglich werden Verarbeitungsvorschriften
Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood
Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood Hauptseminar - Methoden der experimentellen Teilchenphysik WS 2011/2012 Fabian Hoffmann 2. Dezember 2011 Inhaltsverzeichnis 1 Einleitung
3.1 Agenten. Grundlagen der Künstlichen Intelligenz. 3.1 Agenten. 3.2 Rationalität. 3.3 Zusammenfassung. Einführung: Überblick
Grundlagen der Künstlichen Intelligenz 2. März 2015 3. Einführung: Rationale Agenten Grundlagen der Künstlichen Intelligenz 3. Einführung: Rationale Agenten 3.1 Agenten Malte Helmert Universität Basel
(a) Welche der folgenden Funktionen ist injektiv, surjektiv beziehungsweise bijektiv? x 1 + x
Aufgabe Injektiv und Surjektiv) a) Welche der folgenden Funktionen ist injektiv, surjektiv beziehungsweise bijektiv?. f : Z N; x x 2. 2. f : R R; x x x.. f : R [, ]; x sin x. 4. f : C C; z z 4. b) Zeigen
Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch
Kapitel 4 Diskrete Verteilungen 4.1 Bernoulli-Verteilung Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch È Üµ ½ für Ü ¼ für Ü ½ ¼ sonst Die Bernoulli-Verteilung
Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
DisMod-Repetitorium Tag 3
DisMod-Repetitorium Tag 3 Markov-Ketten 21. März 2018 1 Markov-Ketten Was ist eine Markov-Kette? Was gehört alles dazu? Darstellung als Graph und als Matrix Stationäre Verteilung und Grenzverteilung Ergodizität
Übersicht. 20. Verstärkungslernen
Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes
1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position. Die Folge 2,1,4,3,... ist eine andere als 1,2,3,4,...
9 Folgen Eine (unendliche) Folge im herkömmlichen Sinn entsteht durch Hintereinanderschreiben von Zahlen, z.b.: 1,2,3,4,5,... Dabei ist die Reihenfolge wichtig, jede Zahl hat also ihre feste Position.
Alois Fichtl, Julius Vogelbacher 10. Juni Voronoi und Johnson-Mehl Mosaike
Alois Fichtl, Julius Vogelbacher 10. Juni 2008 Voronoi und Johnson-Mehl Mosaike Seite 2 Voronoi- und Johnson-Mehl-Mosaike Alois Fichtl, Julius Vogelbacher 10. Juni 2008 Inhaltsverzeichnis Einführung Mosaike
Statistik und Wahrscheinlichkeitsrechnung
Statistik und Wahrscheinlichkeitsrechnung Übung 7 1 Inhalt der heutigen Übung Statistik und Wahrscheinlichkeitsrechnung Vorrechnen der Hausübung D.9 Gemeinsames Lösen der Übungsaufgaben D.10: Poissonprozess
