3. Das Reinforcement Lernproblem

Save this PDF as:
 WORD  PNG  TXT  JPG

Größe: px
Ab Seite anzeigen:

Download "3. Das Reinforcement Lernproblem"

Transkript

1 3. Das Reinforcement Lernproblem 1. Agierender Agent in der Umgebung 2. Discounted Rewards 3. Markov Eigenschaft des Zustandssignals 4. Markov sche Entscheidung 5. Werte-Funktionen und Bellman sche Optimalität F. Schwenker Reinforcement Learning 29

2 Agent und Umgebung - das Bild Agent State Reward Action s t r t a t r t+1 Environment s t+1 F. Schwenker Reinforcement Learning 30

3 Aktion-Zustand-Reward Agent führt eine Aktion a t aus. Umwelt ändert hierdurch ihren Zustand s t und erteilt dem Agenten einen Reward r t R, s t und r t werden vom Agenten wahrgenommen. Agent führt nächste Aktion a t+1 aus. S die Menge der Zustände (diskret/endlich) A die Menge der Aktionen (diskret/endlich) A(s t ) Menge der Aktion die im Zustand s t möglich sind. Zeit ist diskret, d.h. t = 1, 2, 3,.... F. Schwenker Reinforcement Learning 31

4 Der Agent führt die Aktion gemäß einer Strategie/Taktik/Vorgehensweise (policy) aus, bezeichnet mit π t. π t (s, a) ist hier die Wahrscheinlichkeit, dass die Aktion a t = a ausgeführt wird, falls der Zustand s t = s war. Reinforcement Lernverfahren adaptieren direkt oder indirekt die policy π t des Agenten. Agent soll die in der Zukunft zu erwartenden Rewards maximieren, also den mittleren Reward 1 T T i=t+1 r i maximieren. Problem: T = ist möglich F. Schwenker Reinforcement Learning 32

5 Discounted Rewards Wie könnnen die (in der Zukunft) zu erwartenden Rewards maximiert werden? In einigen Anwendungen ist ein endlicher Zeithorizont T bekannt (z.b. beim Tic-Tac-Toe). In diesen Fällen sind die Rewards bis zur Zeit T zu berücksichtigen. Also einfach den Mitterlwert berechnen. In vielen Fällen ist T a priori unbekannt (auch im Verlauf der Zeit nicht), sondern es ist möglicherweise erst kurz vor Schluss T zu schätzen (kontinuierlich durchgeführte Aufgaben). Für diese Aufgabe nehmen wir T = an. Dann kann aber kein Erwartungswert berechnet werden. F. Schwenker Reinforcement Learning 33

6 Ausweg: Rewards in der weiteren Zukunft abschwächen mit Konstante γ [0, 1] und dann R t = γ i r t+1+i i=0 γ < 1, so konvergiert R t bei beschränkten Rewards (geometrische Reihe anwenden). γ = 0, so wird nur r t+1 berücksichtigt. γ = 1, so muss T < sein. Je näher γ bei 1, desto stärker werden die weit in der Zukunft liegenden Rewards berücksichtigt. F. Schwenker Reinforcement Learning 34

7 Wir betrachten also die Summe der discounted Rewards R t = T γ i r t+1+i i=0 Also Grenzfälle können T = oder γ = 1 auftreten, aber nicht beide zusammen. F. Schwenker Reinforcement Learning 35

8 Markov Eigenschaft Als Zustand der Umgebung kann natürlich alles aufgefasst werden, was der Agent wahrnehmen kann. Dies können einfache Sensorwerte sein oder irgendeine symbolische Repräsentation einer Belegtheitskarte eines Raumes oder Gebäudes. Für den Aufbau einer solchen Karte sind umfangreiche sensorische Eingaben zuverarbeiten. Wir nehmen an, dass der Zustand den der Agent wahrnehmen kann, alle für die Aufgabe relevanten Ereignisse der Vergangenheit enthält. Beispiel: Die Positionen der Figuren zu einem Zeitpunkt t geben die vollständige Information über den bisherigen Spielverlauf. Wie diese Stellung zustande kam, kann natürlich nützlich sein, für die Berechnung des optimalen nächsten Zuges ist diese Information nicht nötig. Der aktuelle Zustand wird betrachtet, nicht der Weg dort hin! F. Schwenker Reinforcement Learning 36

9 Im Allgemeinen basiert die Bestimmung von Zustand und Reward auf Wahrscheinlichkeiten der Form prob{s t+1 = s, r t+1 = r s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, a 0 } (1) Markov Eigenschaft: Die Ausgabe der Umgebung hängt nur ab von a t, der letzten Aktion des Agent, sowie von s t, dem letzten Zustand der Umgebenung: prob{s t+1 = s, r t+1 = r s t, a t } (2) Wir sagen das Zustandssignal hat die Markov-Eigenschaft, gdw. (1) gleich (2) ist für alle s und r und für alle Vergangenheiten s t, a t, r t, s t 1, a t 1, r t 1,..., s 0, a 0. Wir nehmen diese Markov-Eigenschaft des Zustandssignals immer an, in diesem Fall sagen wir auch, das Umgebung und RL-Aufgabe die Markov- Eigenschaft erfüllen. F. Schwenker Reinforcement Learning 37

10 Markov sche Entscheidung Reinforcement-Aufgabe mit der Markov-Eigenschaft wird auch als Markovscher Entscheidungsprozess (MDP=Markov decision process) bezeichnet. Falls A und S endlich sind, auch als finiter MDP. Hiermit beschäftigen wir uns. Ein endlicher MDP ist definiert durch A und S und die Dynamik der Umgebung. Gegeben a A und s S, die Wahrscheinlichkeit des nächsten Zustands s ist P a s s = prob{s t+1 = s s t = s, a t = a} Dieses sind die Übergangswahrscheinlichkeiten. F. Schwenker Reinforcement Learning 38

11 Gegeben a A und s S, sowie der nächste Zustand s S der Erwartungswert für den nächsten Reward ist R a s s = E{r t+1 s t = s, a t = a, s t+1 = s } Durch P a s s und R a s s sind die wichtigsten Größen in einem endlichen MDP repräsentiert. Die präzise Verteilung der Rewards um die Erwartungswerte geht allerdings verloren. F. Schwenker Reinforcement Learning 39

12 Werte-Funktionen Policy des Agenten wird bezeichnet mit π t. Es ist π t (s, a) die Wahrscheinlichkeit, dass die Aktion a t = a ausgeführt wird, falls der Zustand s t = s vorlag. Der Wert eines Zustands s bzgl. der Policy π, bezeichnet mit V π (s), ist der Erwartungswert von R t = γ i r t+1+i, mit γ (0, 1] i=0 falls der Agent die Aktionen gemäß π ausführt, wobei er im Zustand s beginnt, also { V π (s) = E π Rt s t = s } { = E π γ i r t+1+i s t = s } i=0 F. Schwenker Reinforcement Learning 40

13 V π Wertfunktion der Zustände (state-value function for policy) π. Der Wert der Aktion a im Zustand s bzgl. Strategie π ist der Erwartungswert von R t falls der Agent im Zustand s die Aktion a ausführt und dann gemäß der Strategie π vorgeht, also { Q π (s, a) = E π {R t s t = a, a t = a} = E π γ i r t+1+i s t = s, a t = a } Q π Wertfunktion der Aktionen (action-value function for policy) π. V π und Q π können gelernt werden, beispielsweise durch Mittelwertbildung über die gesammelten Rewards. Dabei werden im Fall der Schätzung von V π Mittelwerte für jeden Zustand s gebildet (S endlich) und im Fall von Q π Mittelwerte für jede einzelne Aktionen a (A endlich). Für viele Zustände und/oder Aktionen müssen V π und Q π durch adaptive Abbildungen (z.b. neuronale Netze) gelernt. i=0 F. Schwenker Reinforcement Learning 41

14 Bellman Gleichung Die Wertfunktion V π erfüllen rekursive Bedingungen zwischen den Zuständen s und den Folgezuständen: V π (s) = E π {R t s t = s} } = E π {r t+1 + γ γ i r t+2+i s t = s = a i=0 π(s, a) s P a ss ( { }) R a ss + γe π γ k r t+2+k s t+1 = s k=0 = a π(s, a) s P a ss (R a ss + γv π (s )) V π ist eindeutige Lösung der Bellman Gleichung, sie ist Grundlage für Algorithmen zum Lernen von V π (entsprechende Gleichung gilt für Q π ). F. Schwenker Reinforcement Learning 42

15 Backup Diagramme (a) s (b) s,a a r s' r s' a' (a) die Situation für V π ; (b) die Situation für Q π Ausgehend von Zustand s kann der Agent Aktionen a ausführen (hier 3) Hierauf geht die Umgebung in Folgezustände über (hier 2), gleichzeitig wird ein Reward r erteilt. V π (s) durch Mittelung über alle möglichen Aktionen a und alle möglichen Folgezustände s. Über die Pfade in diesen Bäumen werden die Werte von Zuständen zur Aktualisierung der Werte vorherige Zustände propagiert. F. Schwenker Reinforcement Learning 43

16 Beispiel Gridworld A A' +10 (a) B +5 B' Actions (b) Agent bewegt sich im 2D-Gitter. Mögliche Aktionen sind Bewegungen nach Nord, Süd, West, Ost. F. Schwenker Reinforcement Learning 44

17 Aktionen werden zufällig und mit gleicher Wahrscheinlichkeit gewählt (random policy π). Reward ist 1, falls der Agent eine Aktion ausführt, die ihn hinaus befördern würde. In diesem Fall bleibt der Agent allerdings auf seiner Position im Grid. In den Zuständen (Zellen im Grid) A und B. Hier wird ein Reward von 10 bzw. 5 erteilt und zwar für alle Aktionen. Diese bringen den Agenten in den Zustand A bzw. B. Alle anderen Aktion erzielen Reward 0. Für γ = 0.9 ist V π in (b) dargestellt. Im unteren Bereich haben die Zustände negative Werte V (s). V π (A) ist das Maximum, allerdings V π (A) < 10, dagegen V π (B) > 5. Warum? F. Schwenker Reinforcement Learning 45

18 Optimale Wertfunktionen Für ein RL Problem suchen wir nach einer Strategie π für die der erwartete Reward (Return) möglichst groß ist. Die Menge der Strategien Π = {π π policy auf S A} ist teilweise geordnet durch π π gdw V π (s) V π (s) für alle s S Es gibt mindestens eine optimale policy π, möglicherweise gibt es mehrere optimale policies, diese haben aber alle die gleiche Zustandswertfunktion, nämlich die optimale Zustandswertefunktion V. Diese ist definiert durch V (s) = max π V π (s) F. Schwenker Reinforcement Learning 46

19 Alle optimalen policies π haben auch gleiche optimale Aktionswertefunktion Q, definiert durch Q (s, a) = max π Qπ (s, a) Für ein Paar aus Zustand und Aktion (s, a) gibt die Funktion Q (s, a) den erwarteten Return für die Aktion a im Zustand s an und nachfolgend die optimale policy angewendet wird, somit besteht der Zusammenhang zwischen Q und V : Q (s, a) = E {r t+1 + γv (s t+1 ) s t = s, a t = a} V ist die Wertefunktion einer optimalen policy π, somit erfüllt V die Bellman-Gleichung. F. Schwenker Reinforcement Learning 47

20 Die Bellman-Gleichung für V : V (s) = max a = max a = max a = max a = max a = max a Q π (s, a) E π {R t s t = s, a t = a} E π E π { } γ k r t+k+1 s t = s, a t = a { k=0 r t + γ } γ k r t+k+2 s t = s, a t = a k=0 E {r t + γv (s t+1 ) s t = s, a t = a} s P a ss (R a ss + γv (s )) F. Schwenker Reinforcement Learning 48

21 Die Bellman-Gleichung für Q : { } Q (s, a) = E r t+1 + γ max Q (s t+1, a ) s t = a, a t = a a = ) Pss (R a a ss + γ max Q (s, a ) s a (a) s (b) s,a max a r s' max r s' a' F. Schwenker Reinforcement Learning 49

22 Falls die Dynamik der Umgebung bekannt ist, dh. falls P a ss und R a ss bekannt sind, so besteht das Gleichungssystem für V aus S (nichtlinearen) Gleichungen mit S Unbekannten. Dieses kann prinzipiell auch gelöst werden. Falls V bekannt ist, so folgt daraus sehr einfach eine optimale policy. Im Zustand s ist π (s, a ) mit a = arg max s P a ss (R a ss + γv (s )) A B B' A' a) gridworld b) V* c) π* F. Schwenker Reinforcement Learning 50

Reinforcement Learning

Reinforcement Learning Reinforcement Learning 1. Allgemein Reinforcement Learning 2. Neuronales Netz als Bewertungsfunktion 3. Neuronales Netz als Reinforcement Learning Nils-Olaf Bösch 1 Allgemein Reinforcement Learning Unterschied

Mehr

Reinforcement Learning

Reinforcement Learning Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning Uwe Dick Inhalt Problemstellungen Beispiele Markov Decision Processes Planen vollständige MDPs Lernen unbekannte

Mehr

Monte Carlo Methoden

Monte Carlo Methoden Monte Carlo Methoden Lernverfahren zur Berechnung von Wertefunktionen und Policies werden vorgestellt. Vollständige Kenntnis der Dynamik wird nicht vorausgesetzt (im Gegensatz zu den Verfahren der DP).

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Friedhelm Schwenker Institut für Neuroinformatik Vorlesung/Übung: (V) Di 14-16 Uhr, (Ü) Do 12.30-14.00 jeweils im Raum O27/121 Übungsaufgaben sind schriftlich zu bearbeiten (Schein

Mehr

Temporal Difference Learning

Temporal Difference Learning Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD Lernen werden Ideen der Monte Carlo (MC) und dynamische Programmierung (DP)

Mehr

8. Reinforcement Learning

8. Reinforcement Learning 8. Reinforcement Learning Einführung 8. Reinforcement Learning Wie können Agenten ohne Trainingsbeispiele lernen? Auch kennt der Agent zu Beginn nicht die Auswirkungen seiner Handlungen. Stattdessen erhält

Mehr

RL und Funktionsapproximation

RL und Funktionsapproximation RL und Funktionsapproximation Bisher sind haben wir die Funktionen V oder Q als Tabellen gespeichert. Im Allgemeinen sind die Zustandsräume und die Zahl der möglichen Aktionen sehr groß. Deshalb besteht

Mehr

Reasoning and decision-making under uncertainty

Reasoning and decision-making under uncertainty Reasoning and decision-making under uncertainty 9. Vorlesung Actions, interventions and complex decisions Sebastian Ptock AG Sociable Agents Rückblick: Decision-Making A decision leads to states with values,

Mehr

Reinforcement Learning

Reinforcement Learning VL Algorithmisches Lernen, Teil 3d Jianwei Zhang, Dept. of Informatics Vogt-Kölln-Str. 30, D-22527 Hamburg zhang@informatik.uni-hamburg.de 08/07/2009 Zhang 1 Terminübersicht: Part 3 17/06/2009 Dimensionsproblem,

Mehr

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation

Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation Einsatz von Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW1 im Masterstudiengang, 02.12.2008 der Anwendung Themeneinordnung

Mehr

Reinforcement Learning

Reinforcement Learning Effiziente Darstellung von Daten Reinforcement Learning 02. Juli 2004 Jan Schlößin Einordnung Was ist Reinforcement Learning? Einführung - Prinzip der Agent Eigenschaften das Ziel Q-Learning warum Q-Learning

Mehr

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird:

V π (s) ist der Erwartungswert, der bei Start in s und Arbeit gemäß π insgesamt erreicht wird: Moderne Methoden der KI: Maschinelles Lernen Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung Sommer-Semester 2007 Verstärkungs-Lernen (Reinforcement Learning) Literatur: R.S.Sutton, A.G.Barto Reinforcement

Mehr

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1

Übersicht. Künstliche Intelligenz: 21. Verstärkungslernen Frank Puppe 1 Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlussfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Wissen beim Lernen 20. Statistische

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Valentin Hermann 25. Juli 2014 Inhaltsverzeichnis 1 Einführung 3 2 Wie funktioniert Reinforcement Learning? 3 2.1 Das Modell................................... 3 2.2 Exploration

Mehr

Angewandte Stochastik

Angewandte Stochastik Angewandte Stochastik Dr. C.J. Luchsinger 13 Allgemeine Theorie zu Markov-Prozessen (stetige Zeit, diskreter Zustandsraum) Literatur Kapitel 13 * Grimmett & Stirzaker: Kapitel 6.9 Wie am Schluss von Kapitel

Mehr

Der Alpha-Beta-Algorithmus

Der Alpha-Beta-Algorithmus Der Alpha-Beta-Algorithmus Maria Hartmann 19. Mai 2017 1 Einführung Wir wollen für bestimmte Spiele algorithmisch die optimale Spielstrategie finden, also die Strategie, die für den betrachteten Spieler

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Viktor Seifert Seminar: Knowledge Engineering und Lernen in Spielen SS06 Prof. Johannes Fürnkranz Übersicht 1. Definition 2. Allgemeiner Lösungsansatz 3. Temporal Difference Learning

Mehr

Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse

Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse Zu Markov-Prozessen: Bemerkungen: 17.01.2013 Wir betrachten im Folgenden eine Markovkette (X n ) n N0, wobei jedes X n Werte in Z = {0,1,2,...,s}

Mehr

3. Prozesse mit kontinuierlicher Zeit

3. Prozesse mit kontinuierlicher Zeit 3. Prozesse mit kontinuierlicher Zeit 3.1 Einführung Wir betrachten nun Markov-Ketten (X(t)) t R +. 0 Wie beim Übergang von der geometrischen zur Exponentialverteilung können wir uns auch hier einen Grenzprozess

Mehr

15. September 2010 Prof. Dr. W. Bley. Universität Kassel Klausur SS 2010 Diskrete Strukturen I (Informatik) Name:... Matr.-Nr.:... Viel Erfolg!

15. September 2010 Prof. Dr. W. Bley. Universität Kassel Klausur SS 2010 Diskrete Strukturen I (Informatik) Name:... Matr.-Nr.:... Viel Erfolg! 15. September 010 Prof. Dr. W. Bley Universität Kassel Klausur SS 010 Diskrete Strukturen I (Informatik) 1 3 4 5 6 Name:................................................ Matr.-Nr.:............................................

Mehr

Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza)

Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza) SS 2013 Zentralübung Diskrete Wahrscheinlichkeitstheorie (zur Vorlesung Prof. Esparza) Dr. Werner Meixner Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2013ss/dwt/uebung/ 10. Mai 2013

Mehr

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P. 2.2 Berechnung von Übergangswahrscheinlichkeiten Wir beschreiben die Situation zum Zeitpunkt t durch einen Zustandsvektor q t (den wir als Zeilenvektor schreiben). Die i-te Komponente (q t ) i bezeichnet

Mehr

Einführung in die medizinische Bildverarbeitung WS 12/13

Einführung in die medizinische Bildverarbeitung WS 12/13 Einführung in die medizinische Bildverarbeitung WS 12/13 Stephan Gimbel Kurze Wiederholung Landmarkenbasierte anhand anatomischer Punkte interaktiv algorithmisch z.b. zur Navigation im OP Markierung von

Mehr

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Bayes-Netze (2) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl KI) Bayes-Netze (2) 1 / 23 Gliederung 1 Zusammenhang zwischen Graphenstruktur

Mehr

Übersicht. 20. Verstärkungslernen

Übersicht. 20. Verstärkungslernen Übersicht I Künstliche Intelligenz II Problemlösen III Wissen und Schlußfolgern IV Logisch Handeln V Unsicheres Wissen und Schließen VI Lernen 18. Lernen aus Beobachtungen 19. Lernen in neuronalen & Bayes

Mehr

Lösungen zu Übungsblatt 10 Höhere Mathematik Master KI Diskrete Zufallsgrößen/Markov-Ketten

Lösungen zu Übungsblatt 10 Höhere Mathematik Master KI Diskrete Zufallsgrößen/Markov-Ketten Lösungen zu Übungsblatt 0 Höhere Mathematik Master KI Hinweise: Die Aufgaben - beziehen sich auf das Thema Diskrete Zufallsgrößen, Ihre Verteilungen und Erwartungswerte. Siehe dazu auch das auf der Homepage

Mehr

Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion

Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion Kapitel 2 Erwartungswert 2.1 Erwartungswert einer Zufallsvariablen Definition 2.1 Der Erwartungswert einer diskreten Zufallsvariablen mit Wahrscheinlichkeitsfunktion È ist definiert als Ü ÜÈ Üµ Für spätere

Mehr

Reinforcement Learning

Reinforcement Learning Reinforcement Learning Ziel: Lernen von Bewertungsfunktionen durch Feedback (Reinforcement) der Umwelt (z.b. Spiel gewonnen/verloren). Anwendungen: Spiele: Tic-Tac-Toe: MENACE (Michie 1963) Backgammon:

Mehr

TUD Computer Poker Challenge

TUD Computer Poker Challenge TUD Computer Poker Challenge The Challenge of Poker Björn Heidenreich 31. März 2008 The Challenge of Poker Björn Heidenreich 1 Anforderungen an einen guten Poker-Spieler Hand Strength Hand Potential Bluffing

Mehr

Lineare Gleichungssysteme

Lineare Gleichungssysteme Christian Serpé Universität Münster 14. September 2011 Christian Serpé (Universität Münster) 14. September 2011 1 / 56 Gliederung 1 Motivation Beispiele Allgemeines Vorgehen 2 Der Vektorraum R n 3 Lineare

Mehr

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen

Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Seminar A - Spieltheorie und Multiagent Reinforcement Learning in Team Spielen Michael Groß mdgrosse@sbox.tugraz.at 20. Januar 2003 0-0 Matrixspiel Matrix Game, Strategic Game, Spiel in strategischer Form.

Mehr

2.3 Intervallschätzung

2.3 Intervallschätzung 2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau

Mehr

Grundlagen der KI. 15. Handeln unter Unsicherheit

Grundlagen der KI. 15. Handeln unter Unsicherheit Grundlagen der KI 15. Handeln unter Unsicherheit Maximieren des erwarteten Nutzens Michael Beetz 427 Viele Abbildungen sind dem Buch Artificial Intelligence: A Modern Approach entnommen. Viele Folien beruhen

Mehr

Ablauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26

Ablauf. 1 Imitationsdynamik. 2 Monotone Auszahlung. 3 Entscheidung gegen iterativ dominierte Strategien. 4 Beste-Antwort-Dynamik 2 / 26 Spieldynamik Josef Hofbauer and Karl Sigmund: Evolutionary Games and Population Dynamics, Cambridge, Kap. 8 Simon Maurer Saarbrücken, den 13.12.2011 1 / 26 Ablauf 1 Imitationsdynamik 2 Monotone Auszahlung

Mehr

Rekursionen (Teschl/Teschl 8.1/8.2)

Rekursionen (Teschl/Teschl 8.1/8.2) Rekursionen (Teschl/Teschl 8.1/8.2) treten in vielen Algorithmen auf: Eine Rekursion ist eine Folge von Zahlen a 0, a 1, a 2,.., bei der jedes a n aus seinen Vorgängern berechnet wird: Beispiele a n =

Mehr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr

DWT 2.3 Ankunftswahrscheinlichkeiten und Übergangszeiten 400/467 Ernst W. Mayr 2. Ankunftswahrscheinlichkeiten und Übergangszeiten Bei der Analyse von Markov-Ketten treten oftmals Fragestellungen auf, die sich auf zwei bestimmte Zustände i und j beziehen: Wie wahrscheinlich ist es,

Mehr

Mathematische Grundlagen der dynamischen Simulation

Mathematische Grundlagen der dynamischen Simulation Mathematische Grundlagen der dynamischen Simulation Dynamische Systeme sind Systeme, die sich verändern. Es geht dabei um eine zeitliche Entwicklung und wie immer in der Informatik betrachten wir dabei

Mehr

Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning

Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning Eine Modulare Lösung zur Kombinatorischen Explosion in Multiagent Reinforcement Learning Universität Paderborn Fakultät für Elektrotechnik, Informatik und Mathematik Institut für Informatik 33095 Paderborn

Mehr

Serie 8. D-BAUG Analysis II FS 2015 Dr. Meike Akveld. 1. Berechnen Sie für das Vektorfeld (siehe Abbildung 1) Abbildung 1: Aufgabe 1

Serie 8. D-BAUG Analysis II FS 2015 Dr. Meike Akveld. 1. Berechnen Sie für das Vektorfeld (siehe Abbildung 1) Abbildung 1: Aufgabe 1 D-BAUG Analsis II FS 5 Dr. Meike Akveld Serie 8. Berechnen Sie für das Vektorfeld (siehe Abbildung ) 3 - -3 3 3 Abbildung : Aufgabe F : (, ) ( +, ) die Arbeit entlang der folgenden Wege C, wobei P = (,

Mehr

Trennende Markov Ketten

Trennende Markov Ketten Trennende Markov Ketten (in Zusammenarbeit mit A. Martinsson) Timo Hirscher Chalmers Tekniska Högskola Seminarvortrag KIT 8. Mai 206 Übersicht Der Seminarvortrag ist wie folgt gegliedert: Einleitung Denitionen

Mehr

Notgepäck Genauigkeit

Notgepäck Genauigkeit Notgepäck Genauigkeit Beat Hulliger Dienst Statistische Methoden, Bundesamt für Statistik 20.4.2006 1 Was ist Genauigkeit genau? Um zu beschreiben, was Genauigkeit in der Statistik ist, müssen wir untersuchen,

Mehr

Inhalt. 1. Einführung in die Informatik. 2. Algorithmen Definition, Eigenschaften, Entwurf Darstellung von Algorithmen Beispiele.

Inhalt. 1. Einführung in die Informatik. 2. Algorithmen Definition, Eigenschaften, Entwurf Darstellung von Algorithmen Beispiele. 1. Einführung in die Informatik Inhalt 2. Algorithmen Definition, Eigenschaften, Entwurf Darstellung von Algorithmen Beispiele Peter Sobe 1 Einführende Beispiele 2. Algorithmen Täglich werden Verarbeitungsvorschriften

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Übung 7 1 Inhalt der heutigen Übung Statistik und Wahrscheinlichkeitsrechnung Vorrechnen der Hausübung D.9 Gemeinsames Lösen der Übungsaufgaben D.10: Poissonprozess

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 7 11. Mai 2010 Kapitel 8. Vektoren Definition 76. Betrachten wir eine beliebige endliche Anzahl von Vektoren v 1, v 2,..., v m des R n, so können

Mehr

Das Black-Scholes Modell

Das Black-Scholes Modell Vathani Arumugathas Das Black-Scholes Modell 1 Das Black-Scholes Modell Vathani Arumugathas Seminar zu Finanzmarktmodellen in der Lebensversicherung, Universität zu Köln 10. Juni 016 Inhaltsverzeichnis

Mehr

für eine rote Kugel denn von auf den 100% (da rot, rot rot, blau blau, rot blau, blau

für eine rote Kugel denn von auf den 100% (da rot, rot rot, blau blau, rot blau, blau Berechnung von Wahrscheinlichkeiten beim Ziehen mit und ohne Zurücklegenn Ziehen mit Zurücklegenn Wir betrachten folgendes Beispiel: In einer Urne sind 2 rote und 3 blaue Kugeln.. Wenn man hier eine Kugel

Mehr

5 Erwartungswerte, Varianzen und Kovarianzen

5 Erwartungswerte, Varianzen und Kovarianzen 47 5 Erwartungswerte, Varianzen und Kovarianzen Zur Charakterisierung von Verteilungen unterscheidet man Lageparameter, wie z. B. Erwartungswert ( mittlerer Wert ) Modus (Maximum der Wahrscheinlichkeitsfunktion,

Mehr

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik Institut für Stochastik 18. Juni 2013 Inhalt 1 2 3 4 5 Nach ZGWS konvergiert für n F n (x) = P{ X 1+...+X n np npq x} gegen F(x) = 1 2π x e 1 2 u2 du, wenn die X i unabhängig und bernoulliverteilt sind

Mehr

6.6 Poisson-Verteilung

6.6 Poisson-Verteilung 6.6 Poisson-Verteilung Die Poisson-Verteilung ist eine Wahrscheinlichkeitsverteilung, die zur Modellierung der Anzahl von zufälligen Vorkommnissen in einem bestimmten räumlichen oder zeitlichen Abschnitt

Mehr

Lineare (Un-)Gleichungen und lineare Optimierung

Lineare (Un-)Gleichungen und lineare Optimierung Lineare (Un-)Gleichungen und lineare Optimierung Franz Pauer Institut für Mathematik, Universität Innsbruck Technikerstr. 13/7, A-6020 Innsbruck, Österreich franz.pauer@uibk.ac.at 1 Einleitung In der linearen

Mehr

Kennwerte zur Charakterisierung von Datenreihen. Mittelwerte

Kennwerte zur Charakterisierung von Datenreihen. Mittelwerte Kennwerte zur Charakterisierung von Datenreihen Um die häufig großen Datenmengen von Stichproben übersichtlich zu machen, lassen sich Kennwerte berechnen, welche diese Daten repräsentieren und charakterisieren.

Mehr

Reinforcement Learning 2

Reinforcement Learning 2 Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick Inhalt Erinnerung: Bellman-Gleichungen, Bellman-Operatoren Policy Iteration Sehr große oder kontinuierliche

Mehr

Intelligente Systeme

Intelligente Systeme Intelligente Systeme Spiele Prof. Dr. R. Kruse C. Braune {rudolf.kruse,christian,braune}@ovgu.de Institut für Intelligente Kooperierende Systeme Fakultät für Informatik Otto-von-Guericke Universität Magdeburg

Mehr

Vorhersage von Protein-Funktionen. Patrick Pfeffer

Vorhersage von Protein-Funktionen. Patrick Pfeffer Vorhersage von Protein-Funktionen Patrick Pfeffer Überblick Motivation Einleitung Methode Markov Random Fields Der Gibbs Sampler Parameter-Schätzung Bayes sche Analyse Resultate Pfeffer 2 Motivation Es

Mehr

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Statistik III. Walter Zucchini Fred Böker Andreas Stadie Statistik III Walter Zucchini Fred Böker Andreas Stadie Inhaltsverzeichnis 1 Zufallsvariablen und ihre Verteilung 1 1.1 Diskrete Zufallsvariablen........................... 1 1.2 Stetige Zufallsvariablen............................

Mehr

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes

Markov-Prozesse. Markov-Prozesse. Franziskus Diwo. Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes Markov-Prozesse Franziskus Diwo Literatur: Ronald A. Howard: Dynamic Programming and Markov Processes 8.0.20 Gliederung Was ist ein Markov-Prozess? 2 Zustandswahrscheinlichkeiten 3 Z-Transformation 4 Übergangs-,

Mehr

Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen

Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen Künstliche Intelligenz - Optimierungsprobleme - Suche in Spielbäumen Stephan Schwiebert WS 2009/2010 Sprachliche Informationsverarbeitung Institut für Linguistik Universität zu Köln Optimierungsprobleme

Mehr

Die partielle Likelihood-Funktion

Die partielle Likelihood-Funktion Die partielle Likelihood-Funktion Roger Züst 12. Juni 26 1 Repetition: Maximum-Likelihood-Methode Hat man n unabhängige Beobachtungen x 1, x 2,..., x n einer Zufallsvariablen X und eine Familie von möglichen

Mehr

Modellgestützte Analyse und Optimierung Übungsblatt 8

Modellgestützte Analyse und Optimierung Übungsblatt 8 Fakultät für Informatik Lehrstuhl 4 Peter Buchholz, Jan Kriege Sommersemester 2015 Modellgestützte Analyse und Optimierung Übungsblatt 8 Ausgabe: 25.05.2015, Abgabe: 01.06.2015 (12 Uhr) Aufgabe 8.1: Berechnung

Mehr

Simultane Mehrgleichungssysteme: Parameterschätzung

Simultane Mehrgleichungssysteme: Parameterschätzung Simultane Mehrgleichungssysteme: Parameterschätzung Stichwörter: Eigenschaften des OLS-Schätzers Hilfsvariablenschätzer 2SLS limited information Methoden 3SLS FIML full information Methoden o1-21.tex/0

Mehr

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS Stochastic Processes Summer Semester 2008 Final Exam Friday June 4, 2008, 12:30, Magnus-HS Name: Matrikelnummer: Vorname: Studienrichtung: Whenever appropriate give short arguments for your results. In

Mehr

Bayes sches Lernen: Übersicht

Bayes sches Lernen: Übersicht Bayes sches Lernen: Übersicht Bayes sches Theorem MAP, ML Hypothesen MAP Lernen Minimum Description Length Principle Bayes sche Klassifikation Naive Bayes Lernalgorithmus Teil 10: Naive Bayes (V. 1.0)

Mehr

Teil III. Komplexitätstheorie

Teil III. Komplexitätstheorie Teil III Komplexitätstheorie 125 / 160 Übersicht Die Klassen P und NP Die Klasse P Die Klassen NP NP-Vollständigkeit NP-Vollständige Probleme Weitere NP-vollständige Probleme 127 / 160 Die Klasse P Ein

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische

Mehr

Randomisierte Algorithmen

Randomisierte Algorithmen Randomisierte Algorithmen Randomisierte Algorithmen 5. Zwei spieltheoretische Aspekte Thomas Worsch Fakultät für Informatik Karlsruher Institut für Technologie Wintersemester 2015/2016 1 / 36 Überblick

Mehr

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung 0 Einführung 1 Wahrscheinlichkeitsrechnung Zufallsvariablen und ihre Verteilung 3 Statistische Inferenz 4 Intervallschätzung Motivation und Hinführung Der wahre Anteil der rot-grün Wähler 009 war genau

Mehr

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Biometrie und klinische Forschung. WiSe 2012/2013 Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie (3) Überblick. Deskriptive Statistik I 2. Deskriptive

Mehr

Der Bestimmtheitssatz

Der Bestimmtheitssatz 2. Spielbäume und Intelligente Spiele Der Minimax-Algorithmus Der Bestimmtheitssatz Satz 2.1. Gegeben sei ein Spiel, das die folgenden Eigenschaften hat: 1. Das Spiel wird von zwei Personen gespielt. 2.

Mehr

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen Kapitel 8 Schätzung von Parametern 8.1 Schätzmethoden Gegeben seien Beobachtungen Ü Ü ¾ Ü Ò die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen ¾ Ò auffassen. Die Verteilung

Mehr

Woche 2: Zufallsvariablen

Woche 2: Zufallsvariablen Woche 2: Zufallsvariablen Patric Müller ETHZ WBL 17/19, 24.04.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Teil III Zufallsvariablen Wahrscheinlichkeit

Mehr

1. Anfangswertprobleme 1. Ordnung

1. Anfangswertprobleme 1. Ordnung 1. Anfangswertprobleme 1. Ordnung 1.1 Grundlagen 1.2 Euler-Vorwärts-Verfahren 1.3 Runge-Kutta-Verfahren 1.4 Stabilität 1.5 Euler-Rückwärts-Verfahren 1.6 Differentialgleichungssysteme Prof. Dr. Wandinger

Mehr

= (n 2 ) 1 (Kurzschreibweise: a n = n 2 ) ergibt die Zahlenfolge 1, 4, 9, 16, 25, 36,.

= (n 2 ) 1 (Kurzschreibweise: a n = n 2 ) ergibt die Zahlenfolge 1, 4, 9, 16, 25, 36,. 2 Folgen, Reihen, Grenzwerte 2.1 Zahlenfolgen Definition: Eine Folge ist eine geordnete Menge von Elementen an (den sogenannten Gliedern ), die eindeutig den natürlichen Zahlen zugeordnet sind (n N; auch

Mehr

Die Höhe von binären Suchbäumen Ausarbeitung zum Seminar zu Stochastischen Rekursionsgleichungen im WS 2011/2012

Die Höhe von binären Suchbäumen Ausarbeitung zum Seminar zu Stochastischen Rekursionsgleichungen im WS 2011/2012 Die Höhe von binären Suchbäumen Ausarbeitung zum Seminar zu Stochastischen Rekursionsgleichungen im WS 011/01 Sandra Uhlenbrock 03.11.011 Die folgende Ausarbeitung wird, basierend auf Branching Processes

Mehr

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98

Inhaltsverzeichnis. 4 Statistik Einleitung Wahrscheinlichkeit Verteilungen Grundbegriffe 98 Inhaltsverzeichnis 1 Datenbehandlung und Programmierung 11 1.1 Information 11 1.2 Codierung 13 1.3 Informationsübertragung 17 1.4 Analogsignale - Abtasttheorem 18 1.5 Repräsentation numerischer Daten 20

Mehr

Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch

Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch Kapitel 4 Diskrete Verteilungen 4.1 Bernoulli-Verteilung Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch È Üµ ½ für Ü ¼ für Ü ½ ¼ sonst Die Bernoulli-Verteilung

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Diskrete Strukturen Kapitel 4: Graphentheorie (Grundlagen)

Diskrete Strukturen Kapitel 4: Graphentheorie (Grundlagen) WS 2015/16 Diskrete Strukturen Kapitel 4: Graphentheorie (Grundlagen) Hans-Joachim Bungartz Lehrstuhl für wissenschaftliches Rechnen Fakultät für Informatik Technische Universität München http://www5.in.tum.de/wiki/index.php/diskrete_strukturen_-_winter_15

Mehr

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung

2. Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 2 Woche: Eindeutige Entschlüsselbarleit, Sätze von Kraft und McMillan, Huffmancodierung 24/ 44 Zwei Beispiele a 0

Mehr

Konstruktion der reellen Zahlen

Konstruktion der reellen Zahlen Konstruktion der reellen Zahlen Zur Wiederholung: Eine Menge K (mit mindestens zwei Elementen) heißt Körper, wenn für beliebige Elemente x, y K eindeutig eine Summe x+y K und ein Produkt x y K definiert

Mehr

γ(a, γ(b, c)) = γ(γ(a, b), c)). γ(e, x) = γ(x, e) = x.

γ(a, γ(b, c)) = γ(γ(a, b), c)). γ(e, x) = γ(x, e) = x. Algebraische Strukturen, insbesondere Gruppen 1 Verknüpfungen M sei eine Menge. Dann heißt jede Abbildung γ : M M M eine Verknüpfung (jedem Paar von Elementen aus M wird auf eindeutige Weise ein Element

Mehr

Mathematik für Naturwissenschaftler II SS 2010

Mathematik für Naturwissenschaftler II SS 2010 Mathematik für Naturwissenschaftler II SS 2010 Lektion 13 10. Juni 2010 Kapitel 10. Lineare Gleichungssysteme In diesem Abschnitt untersuchen wir, welche Struktur die Gesamtheit aller Lösungen eines linearen

Mehr

5 Zwei spieltheoretische Aspekte

5 Zwei spieltheoretische Aspekte 5 Zwei spieltheoretische Aspekte In diesem Kapitel wollen wir uns mit dem algorithmischen Problem beschäftigen, sogenannte Und-Oder-Bäume (kurz UOB) auszuwerten. Sie sind ein Spezialfall von Spielbäumen,

Mehr

Grundlegende Eigenschaften von Punktschätzern

Grundlegende Eigenschaften von Punktschätzern Grundlegende Eigenschaften von Punktschätzern Worum geht es in diesem Modul? Schätzer als Zufallsvariablen Vorbereitung einer Simulation Verteilung von P-Dach Empirische Lage- und Streuungsparameter zur

Mehr

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt Statistik I 1. Klausur Wintersemester 2010/2011 Hamburg, 11.02.2011 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN! Nachname:............................................................................ Vorname:.............................................................................

Mehr

Statistik und Wahrscheinlichkeitsrechnung

Statistik und Wahrscheinlichkeitsrechnung Statistik und Wahrscheinlichkeitsrechnung Dr. Jochen Köhler 1 Inhalt der heutigen Vorlesung Statistik und Wahrscheinlichkeitsrechnung Zusammenfassung der vorherigen Vorlesung Übersicht über Schätzung und

Mehr

Folgen und Reihen Folgen

Folgen und Reihen Folgen Folgen und Reihen 30307 Folgen Einstieg: Wir beginnen mit einigen Beispielen für reelle Folgen: (i),, 4, 8, 6, (ii) 4,, 6, 3, 7, (iii) 0,,,, 3,, (iv), 3, 7,,, Aufgabe : Setzt die Zahlenfolgen logisch fort

Mehr

Grundgesamtheit und Stichprobe

Grundgesamtheit und Stichprobe Grundgesamtheit und Stichprobe Definition 1 Die Menge der Untersuchungseinheiten {U 1,U 2,...,U N } heißt Grundgesamtheit. Die Anzahl N der Einheiten ist der Umfang der Grundgesamtheit. Jeder Einheit U

Mehr

Kapitel ML:IV (Fortsetzung)

Kapitel ML:IV (Fortsetzung) Kapitel ML:IV (Fortsetzung) IV. Statistische Lernverfahren Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen ML:IV-18 Statistical Learning c STEIN 2005-2011 Satz 3 (Bayes)

Mehr

Unendliche Potenzen. Thomas Peters Thomas Mathe-Seiten 7. August 2010

Unendliche Potenzen. Thomas Peters Thomas Mathe-Seiten  7. August 2010 Unendliche Potenzen Thomas Peters Thomas Mathe-Seiten www.mathe-seiten.de 7. August 00 In diesem Artikel werden wir uns einem zunächst bizarr anmutenden Thema widmen, nämlich den unendlichen Kettenbrüchen,

Mehr

Hauptachsentransformation: Eigenwerte und Eigenvektoren

Hauptachsentransformation: Eigenwerte und Eigenvektoren Hauptachsentransformation: Eigenwerte und Eigenvektoren die bisherigen Betrachtungen beziehen sich im Wesentlichen auf die Standardbasis des R n Nun soll aufgezeigt werden, wie man sich von dieser Einschränkung

Mehr

p k (1 p) n k s k = (1 p + ps) n. k p(1 p) k 1 s k ((1 p)s) k 1 =

p k (1 p) n k s k = (1 p + ps) n. k p(1 p) k 1 s k ((1 p)s) k 1 = Binomialverteilung Für X Bin(n, p) gilt nach der binomischen Formel G X (s) = E[s X ] = n ( ) n p k (1 p) n k s k = (1 p + ps) n. k Geometrische Verteilung Sei X eine geometrisch verteilte Zufallsvariable

Mehr

2.1 Importance sampling: Metropolis-Algorithmus

2.1 Importance sampling: Metropolis-Algorithmus Kapitel 2 Simulationstechniken 2.1 Importance sampling: Metropolis-Algorithmus Eine zentrale Fragestellung in der statistischen Physik ist die Bestimmung von Erwartungswerten einer Observablen O in einem

Mehr

Endliche Markov-Ketten - eine Übersicht

Endliche Markov-Ketten - eine Übersicht Endliche Markov-Ketten - eine Übersicht Diese Übersicht über endliche Markov-Ketten basiert auf dem Buch Monte Carlo- Algorithmen von Müller-Gronbach et. al. und dient als Sammlung von Definitionen und

Mehr

7. Die Brownsche Bewegung

7. Die Brownsche Bewegung 7. DIE BROWNSCHE BEWEGUNG 7 5 5 50 00 50 200 250 0 5 20 Abbildung 7.: Pfad einer Brownschen Bewegung 7. Die Brownsche Bewegung Definition 7.. Ein cadlag stochastischer Prozess {W t } mit W 0 = 0, unabhängigen

Mehr

Einführung in die Maximum Likelihood Methodik

Einführung in die Maximum Likelihood Methodik in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg Gliederung 1 2 3 4 2 / 31 Maximum Likelihood

Mehr

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen

Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn. Universität Siegen Markovsche Entscheidungsprozesse - Teil III Der erwartete Gesamtgewinn Jan Müller Universität Siegen Sommersemester 2009 Inhaltsverzeichnis 1 Das Gesamtgewinn-Kriterium 1 1.1 Die Existenz des erwarteten

Mehr

Kapitel 6 Martingale

Kapitel 6 Martingale Kapitel 6 Martingale Martingale spielen eine große Rolle in der Finanzmathematik, und sind zudem ein wichtiges Hilfsmittel für die statistische Inferenz stochastischer Prozesse, insbesondere auch für Zählprozesse

Mehr

Grundbegriffe der Wahrscheinlichkeitsrechnung

Grundbegriffe der Wahrscheinlichkeitsrechnung Algorithmen und Datenstrukturen 349 A Grundbegriffe der Wahrscheinlichkeitsrechnung Für Entwurf und Analyse randomisierter Algorithmen sind Hilfsmittel aus der Wahrscheinlichkeitsrechnung erforderlich.

Mehr

Die Fakultät. Thomas Peters Thomas Mathe-Seiten 13. September 2003

Die Fakultät. Thomas Peters Thomas Mathe-Seiten  13. September 2003 Die Fakultät Thomas Peters Thomas Mathe-Seiten www.mathe-seiten.de 3. September 2003 Dieser Artikel gibt die Definition der klassischen Fakultät und führt von dort aus zunächst zu der Anwendung in Taylor-Reihen

Mehr

Exkurs: Dynamische Optimierung

Exkurs: Dynamische Optimierung Exkurs: Dynamische Optimierung Kapitel 4 Literatur Optimierung Mathematical Methods and Models for Economists, Angel de la Fuente, Cambridge University Press Bibliothekssignatur: QH 000FUE Seite 549 580

Mehr