Statistics, Data Analysis, and Simulation SS 2015

Ähnliche Dokumente
Statistik, Datenanalyse und Simulation

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2017

Stochastic Processes SS 2010 Prof. Anton Wakolbinger. Klausur am 16. Juli 2010

W-Rechnung und Statistik für Ingenieure Übung 8

Final Exam. Friday June 4, 2008, 12:30, Magnus-HS

Stetige Verteilungen Rechteckverteilung

Statistik I für Betriebswirte Vorlesung 4

BZQ II: Stochastikpraktikum

Stochastik-Praktikum

Statistik, Datenanalyse und Simulation

Einführung in die Simulation. Dr. Christoph Laroque Wintersemester 11/12. Dresden,

Statistik für Informatiker, SS Verteilungen mit Dichte

5. Spezielle stetige Verteilungen

7 Zufallszahlen, Simulation

Simulation von Zufallszahlen. Grundlage: zufällige Quelle von Zufallszahlen, durch einfachen rekursiven Algorithmus am Computer erzeugt

Der Metropolis-Hastings Algorithmus

Übersicht. 1 Einführung in Markov-Chain Monte-Carlo Verfahren. 2 Kurze Wiederholung von Markov-Ketten

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Modellierung- und Simulation Mathis Plewa ( )

7.2 Moment und Varianz

Wirtschaftsmathematik

Statistische Methoden in den Umweltwissenschaften

Eine Einführung in R: Dichten und Verteilungsfunktionen

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Bayesian Networks. Syntax Semantics Parametrized Distributions Inference in Bayesian Networks. Exact Inference. Approximate Inference

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Computer in der Wissenschaft

Biostatistik, Sommer 2017

Zufallsvariablen [random variable]

Statistik für Ingenieure Vorlesung 6

BZQ II: Stochastikpraktikum

Institut für Statistik der LMU. FORMELSAMMLUNG 2003 zur STOCHASTIK FÜR BIOINFORMATIKER

Wahrscheinlichkeitsrechnung und Statistik

Simulation von Zufallsvariablen und Punktprozessen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Vorlesung: Statistik II für Wirtschaftswissenschaft

Willkommen zur Vorlesung Statistik (Master)

Wahrscheinlichkeitstheorie und Statistik

Normalverteilung. 1 2πσ. Gauß. 2 e 1 2 ((x µ)2 σ 2 ) Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Pseudozufallsgeneratoren

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

8. Stetige Zufallsvariablen

Wahrscheinlichkeitsverteilungen und ihre Implementierung in Root. Eric Volkmann

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Biostatistik, Winter 2011/12

2 Aufgaben aus [Teschl, Band 2]

Datenanalyse für Naturwissenschaftler und Ingenieure

Unit 4. The Extension Principle. Fuzzy Logic I 123

Stochastik Praktikum Markov Chain Monte Carlo Methoden

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Mathematik für Naturwissenschaften, Teil 2

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

SozialwissenschaftlerInnen II

Serie 9, Musterlösung

Wichtige Definitionen und Aussagen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.

Statistik für Ingenieure Vorlesung 3

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Wahrscheinlichkeitsrechnung und Statistik

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Transkript:

Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler <distler@uni-mainz.de> Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 1 / 20

2. Monte Carlo-Methoden 2.1 Zufallszahlen - Warum? 2.2 Zahlendarstellung im Rechner 2.3 Generatoren 2.3.1 Linear kongruente Generatoren (LCG) 2.3.2 Multiplikativ linear kongruente Generatoren (MLCG) Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 2 / 20

Techniques for producing numbers from various distributions The inverse transform sampling method: Let X be a random variable whose distribution can be described by the cumulative distribution function F. We want to generate values of X which are distributed according to this distribution. The inverse transform sampling method works as follows: 1 Generate a random number u from the standard uniform distribution in the interval [0, 1]. 2 Compute the value x such that F(x) = u. 3 Take x to be the random number drawn from the distribution described by F. Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 3 / 20

Inverse transform sampling Generator gives: 0 X n < m 0 X n m < 1 Uniform distribution: U(0, 1) Transformation: f (x) dx = U(0, 1) du CDF: x f (t) dt = F(x) = u x = F ( 1) (u) Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 4 / 20

2.4. Qualität von Generatoren 2.4.1 Spektraltest Bilde Paare aus benachbarten Zahlen (x j, x j+1 ) j = 0, 1,..., n 1 Darstellung als Punkte in einem 2dim kartesischen Koordinatensystem: a = 3, m = 7 : 1, 3, 2, 6, 4, 5, 1,... (1, 3), (3, 2), (2, 6), (6, 4), (4, 5), (5, 1) Punkte eines MLCG bilden regelmäßiges Gitter. Warum? Im Wertebereich 0 x j < m gibt es m 2 Zahlenpaare. MLCG liefert aber nur m 1 Zahlenpaare Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 5 / 20

Beispiele: Spektraltest 6 a=3 m=7 5 4 x i+1 3 2 1 0 0 1 2 3 4 5 6 x i Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 6 / 20

Beispiele: Spektraltest 90 a=29 m=97 80 70 60 x i+1 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 x i Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 7 / 20

Beispiele: Spektraltest 90 a=23 m=97 80 70 60 x i+1 50 40 30 20 10 0 0 10 20 30 40 50 60 70 80 90 x i Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 8 / 20

Beispiele: 1 Spektraltest a=29 m=97 0.8 0.6 x i+1 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 x i Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 9 / 20

Beispiele: 1 Spektraltest a=23 m=97 0.8 0.6 x i+1 0.4 0.2 0 0 0.2 0.4 0.6 0.8 1 x i Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 10 / 20

Umrechnung auf Gitter 0 x j m < 1. Voll besetztes Gitter hat Linienabstand d = 1 m Unser Gitter hat bei gleichmäßiger Verteilung bestenfalls: d m 1/2 für 2 Dimensionen Ungleichmäßige Abstände: d m 1/2 Theoretische Überlegungen liefern obere Grenzen für die kleinstmöglichen Gitterabstände in t Dimensionen: d t d t = c t m 1/t c 2 = 4 3/4, c 3 = 6 1/2, c 4 = 4 1/2, c 5 = 2 0.3 Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 11 / 20

2.4.2 Test auf gleichmäßige Verteilung Das Intervall [0, 1] wird in k gleiche Unterintervalle der Länge 1/k unterteilt. N Zufallszahlen werden erzeugt. N i fallen in das Unterintervall i. k Ni = N, N i = N k, (N i N/k) 2 = χ 2 N/k i=1 sollte einer χ 2 -Verteilung mit (k 1) Freiheitsgraden folgen. Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 12 / 20

2.4.3 Sequenz-(up-down-)Test Vergleiche x i und x i+1 { 1 für xi < x Erzeuge Bitfolge mit i+1 0 für x i > x i+1 Zähle die Folgen von Nullen und Einser der Länge k: N(k) N k N(k) = N für N + 1 Zufallszahlen k=1 Für unkorrelierte Zufallszahlen erwartet man: N(1) = 5N+1 12 N(2) = 11N 14 60 N(3) = 19N 47 360 N(k) = (k 2 +3k+1)N (k 3 +3k 2 k 4) (k+3)!/2 0 3 2 13 4 7 6 1 8 11 10 5 12 15 14 9 0 1 0 1 0 1 0 0 1 1 0 0 1 1 0 0 0 1 1 1 1 1 2 2 2 2 3 N(1) = 5 (6.75) N(2) = 4 (2.75) N(3) = 1 (0.58) Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 13 / 20

2.4.4 Random Walk-Test Wähle ein kleine Zahl 0 < α 1. Bilde eine große Zahl von Zufallszahlen und registriere die Zahl r der Fälle, in denen eine Zufallszahl kleiner α erscheint. Man erwartet eine Binomialverteilung für r mit p = α. Diese Test sollte auch gemacht werden für Zufallszahlen, die größer als (1 α) sind. Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 14 / 20

2.4.5 Lücken-(gap)Test Wähle zwei Zahlen 0 α < β 1. Erzeuge (r + 1) Zufallszahlen im Intervall [0, 1]. Die Wahrscheinlichkeit, dass die ersten r Zahlen ausserhalb des Intervalls (α, β) liegen und die (r + 1)ste innerhalb, sollte sein: P r = p (1 p) r Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 15 / 20

2.4.6 Collision-Test Teile das Intervall [0, 1) in d gleiche Segmente. Teile entsprechend [0, 1) t in k = d t Hyperkuben. Erzeuge n zufällige Punkte in [0, 1) t. Wir definieren eine neue Zufallsvariable C, in dem wir zählen, wie oft wir eine Zahl in eine Hyperkubus füllen, der schon besetzt ist. Wir erwarten für C eine Poisson-Verteilung um den Mittelwert: λ C = n2 (k groß) 2k Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 16 / 20

2.4.7 Birthday-Spacing-Test Teile den Wertebereich in k gleich Intervalle (Hyperkuben). Definiere eine Ordnungsfunktion für die Zellen, damit für die gefüllten Zellen gilt: I (1) I (2)... I (n) Definiere den Abstand S j = I (j+1) I (j) j = 1,..., n 1. Die neue Zufallsvariable Y zählt die Fälle (Kollisionen), für die gilt: S (j+1) = S (j). Wir erwarten für Y eine Poisson-Verteilung um den Mittelwert: λ Y = n3 (k groß) 4k Der Name stammt von dem Geburtstagsparadoxon (n Personen, das Jahr hat k Tage). http://www.iro.umontreal.ca/~lecuyer/myftp/ papers/wsc01rng.pdf Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 17 / 20

Markov chain Monte Carlo Metropolis-Hastings Algorithmus Aufgabe: Bestimmen Sie Mittelwert, Varianz und Schiefe der Wahrscheinlichkeitsdichte ( p(x) = C exp 1 ) (x 3.2)(x 2)(x 1.1)(x + 0.9)(x + 2)(x + 3.3) 50 mit einer MCMC Methode (Metropolis-Hastings Algorithmus). 0.4 0.3 0.2 Dazu erzeugen Sie eine Folge von Zahlen x t, t = 1,..., N (Markov chain), die der Dichte p(x) folgen. Nach den Regeln der MC Integration gilt dann für den Erwartungswert 0.1 A 1 N N A(x t ). t=1 Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 18 / 20

Metropolis-Hastings Algorithmus 1 Wählen Sie einen Startwert und legen Sie die Kettenlänge fest, z.b. x 1 = 1 und N = 10000. 2 Wählen Sie eine Vorschlagsdichte q(x x), z.b. die Normalverteilung N (µ, σ 2 ). Setzen Sie σ 2 = 2. Je ähnlicher die Vorschlagsdichte der Dichte p(x) ist, desto besser funktioniert der Algorithmus. 3 Generieren Sie zufällig einen Vorschlag x für x t+1 aus der Vorschlagsdichte N (x t, σ 2 ). 4 Generieren Sie eine gleichverteilte Zufallszahl u aus U(0, 1). 5 Der Vorschlag x wird akzeptiert, falls: p(x ) p(x t ) q(x t x ) q(x x t ) u Für den Fall einer symmetrischen Vorschlagsdichte (hier Normalverteilung) gilt q(x t x )/q(x x t ) = 1. 6 Wird der Vorschlag nicht akzeptiert, setzen Sie x t+1 = x t. 7 Fahren Sie mit Punkt 3. fort, bis die gewünschte Kettenlänge N erreicht ist. Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 19 / 20

Metropolis-Hastings Algorithmus Mögliche Optimierungen: Wenn der Startwert ungünstig gewählt wurde, dann benötigt der Algorithmus einige Zeit um einzuschwingen (sog. burn-in). In der Praxis werden die ersten 100 oder 1000 Werte verworfen und so das " Gedächtnis" (d.h. die Abhängigkeit vom Startwert) gelöscht. Variieren Sie die Varianz der Vorschlagsdichte, z.b. σ 2 = 0.1, 2, 10 und betrachten Sie jeweils den Anteil der akzeptierten Vorschläge und plotten einen Ausschnitt von 1000 Werten der Kette. In der Praxis bewährt sich ein Anteil von 50%. Wählen Sie eine ganz andere Vorschlagsdichte, z.b. U( 2 + x t, 2 + x t ). Funktioniert der Algorithmus damit? (siehe auch http://de.wikipedia.org/wiki/metropolisalgorithmus) Dr. Michael O. Distler <distler@uni-mainz.de> Statistics, Data Analysis, and Simulation SS 2015 20 / 20