Die Monte Carlo (MC) Methode

Ähnliche Dokumente
13.5 Der zentrale Grenzwertsatz

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

9. Schätzen und Testen bei unbekannter Varianz

Statistische Auswertung der Daten von Blatt 13

Monte Carlo Methoden in Kreditrisiko-Management

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat KFZ Unfall Reiserücktritt n j

Klausur Statistik Lösungshinweise

Forschungsstatistik I

Stochastische Eingangsprüfung,

5. Schließende Statistik Einführung

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Statistik im Versicherungs- und Finanzwesen

Überblick über die Tests

Genexpression. Expression eines einzelnen Gens. Expressionsmessung. Genexpressionsmessung. Transkription (Vorgang) Genexpression

MA Projekt: Langfristige Kapitalmarktsimulation

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/

Monte-Carlo Simulation

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Ausarbeitung des Seminarvortrags zum Thema

Eine Einführung in R: Statistische Tests

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Statistische Thermodynamik I Lösungen zur Serie 1

Monte-Carlo-Simulation

Modellbildung und Simulation

Extremwertverteilungen

Klaus Pötzelberger Department of Statistics and Mathematics Wirtschaftsuniversität Wien

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik

Hauptseminar. Monte-Carlo-Methoden, stochastische Schätzungen und deren Unsicherheit. Robert John

Einfache statistische Testverfahren

Einführung in die Geostatistik (7) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Verteilungsanalyse. Johannes Hain. Lehrstuhl für Mathematik VIII Statistik 1/31

Von den Grundlagen der Monte-Carlo-Methode zur Simulation von Teilchenreaktionen und Teilchendetektoren

Statistik II für Betriebswirte Vorlesung 3

Grundlagen der Monte-Carlo-Simulation. Dr. Sebastian Lück 7. Februar 2012

Datenanalyse und Statistik

Monty Hall-Problem. Wochen 3 und 4: Verteilungen von Zufallsvariablen. Lernziele. Diskrete Verteilungen

$ % + 0 sonst. " p für X =1 $

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

(Lineare) stochastische Optimierung

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Business Value Launch 2006

Beispiele zur UE Wirtschaftsstatistik 1 bei Nagel

Zusammenstellung der Befehle in R

Computational Finance

Tutorial 2: Simulationen

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Statistische Software P. Fink. Statistische Software (R) Wiederholungshausübung SoSe 2015

Credit Metrics. Wird in erster Linie für die Evaluierung von Bond Portfolios verwendet. (Siehe Crouhy et al. (2000), J.P.Morgan Inc.

Value at Risk Einführung

Beispiel Zusammengesetzte Zufallsvariablen

Zeitreihenanalyse. Teil III: Nichtlineare Zeitreihenmodelle. Prof. Dr. W. Zucchini, Dr. O. Nenadić, A. Schlegel. Göttingen, Januar 2008 DAX

Ein möglicher Unterrichtsgang

Beispiel 5 Europäische Call Option (ECO) in einer Aktie S mit Laufzeit T und Ausübungspreis (Strikepreis) K.

Varianzanalyse ANOVA

3 Monte-Carlo-Simulationen

Monte Carlo Simulation (Grundlagen)

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Multivariate Statistik

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2008/2009. Aufgabe 1

Modellgestützte Analyse und Optimierung Übungsblatt 4

Nachholklausur STATISTIK II

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Die Bestimmung von Value-at-Risk-Werten mit Hilfe der Monte-Carlo-Simulation

Statistiktraining im Qualitätsmanagement

Credit Risk+: Eine Einführung

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

R ist freie Software und kann von der Website.

Datenanalyse und Graphik mit R. zur Statistik

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

2. Korrelation, lineare Regression und multiple Regression

STA 120 Einführung in die Statistik

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

ARCH- und GARCH-Modelle

Risikomessung und Value at Risk Wintersemester 2013/14

Unsupervised Kernel Regression

DAS THEMA: INFERENZSTATISTIK II. Standardfehler Konfidenzintervalle Signifikanztests. Standardfehler

Mini-Skript Wahrscheinlichkeitstheorie und Statistik

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

Computational Finance

Einführung in Statistik und Messwertanalyse für Physiker

Umgang mit und Ersetzen von fehlenden Werten bei multivariaten Analysen

Risikoaggregation und allokation

Die Binomialverteilung

Grundlagen der Monte-Carlo-Methode

Vergleich von KreditRisk+ und KreditMetrics II Seminar Portfoliokreditrisiko

1 Statistische Grundlagen

Transkript:

Die Monte Carlo (MC) Methode 9. März 2004 1 Die Idee Sei F (x) eine beliebige Verteilungsfunktion und es existiere der Erwartungswert einer Funktion g(x), d.h. E(g(X)) = g(x)df (x) <. Dann gilt für X (1) (R) iid,..., X F (x) (Starkes Gesetz der großen Zahlen) Ê MC (g(x)) = 1 R g(x (r) ) f.s. E(g(X)). Die große Zahl R nennt man hierbei Replikationszahl. Es sind daher ausreichend viele (künstlich erzeugte) Zufallszahlen X (r), r = 1,..., R, aus der Verteilung von X zu generieren, darauf jeweils die Funktion g(x (r) ) anzuwenden, und von all diesen das arithmetische Mittel zu berechnen. Dieser Monte-Carlo Schätzer ÊMC(g(X)) ist selbst eine Zufallsvariable, die für R fast sicher gegen den gesuchten wahren Erwartungswert E(g(X)) strebt. Allgemeiner MC Algorithmus in R: n <- 1 # sample size, dim(x)=1 R <- 1000 # number of replications z <- 1:R # initialize z as a list of R elements x <- rf(n, par) z[r] <- g(x) mean(z) Verfügbare Zufallszahlengeneratoren rf in R mit Defaultwerten für die Parameter: N(µ, σ 2 ): rnorm(n, mean=0, sd=1) Uniform(min, max): runif(n, min=0, max=1) Beta(a, b): rbeta(n, a, b) Binom(s, p): rbinom(n, size, prob) Cauchy(α, σ): rcauchy(n, loc=0, scale=1) χ 2 (df, ncp): rchisq(n, df, ncp = 0), (entspricht Gamma(df/2, 1/2)) Exp(rate): rexp(n, rate=1) F(n 1, n 2 ): rf(n, df1, df2) Gamma(a, s): rgamma(n, shape, rate=1, scale=1/rate) Geom(p): rgeom(n, prob) 1

Hyper(m, n, k): rhyper(nn, m, n, k) LogN(µ, σ 2 ): rlnorm(n, meanl=0, sdl=1) Logistic(µ, σ 2 ): rlogis(n, loc=0, scale=1) NegBinom(s, p): rnbinom(n, size, prob, mu) Poisson(λ): rpois(n, lambda) t(df): rt(n, df) Weibull(a, b): rweibull(n, shape, scale=1) Darüberhinaus bietet R auch Funktionen zur Berechnung der Dichte (df), Verteilungsfunktion (pf) und Quantilsfunktion (qf), wobei F so wie zuvor bei den Generatoren definiert ist. Anwendung: Sei X n eine n-elementige Zufalls-Stichprobe aus F. Untersucht werden sollen die Varianzen von X n und X n für endliche (speziell für kleine) n <. Zu berechnen sind also der MC Schätzer für var( X n ), var(x n ), und zusätzlich noch für die Asymptotische Relative Effizienz are(x n, X n ) = var( X n ) var(x n ). Z.B. anhand von X n : var( X n ) = (x E( X n )) 2 df Xn (x). Was auch immer die exakte Verteilungsfunktion F Xn des empirischen Medians einer n-elementigen Zufalls- Stichprobe aus F sein mag, wir benötigen nur recht viele Replikationen von X n aus F Xn. Seien diese X n (1),..., mit X (R) n iid F Xn, dann gilt var MC ( X n ) = 1 R Ê MC ( X n ) = 1 R ( X(r) n ÊMC( X ) 2 f.s. n ) var( X n ) X (r) n f.s. E( X n ). Die Replikationszahl R soll dabei so groß gewählt sein, dass der MC Schätzer (der von R abhängt) stabil ist. Als Faustregel verwendet man zumindest 100 < R < 1000 für Momente und R > 1000 für Quantile x α. Je größer oder kleiner das Niveau des Quantils α ist, d.h. je näher α bei 0 oder 1 liegt, desto größer muss R gewählt werden. MC Algorithmus in R: n <- 20 # sample size, dim(x_n)=n R <- 1000 # number of replications med <- 1:R # initializations mean <- 1:R x <- rf(n, par) med[r] <- median(x) mean[r] <- mean(x) aremc <- var(med) / var(mean) Zur Erinnerung gilt asymptotisch für beliebig normalverteilte Zufalls-Stichproben lim n are(x n, X n ) = π/2. Der MC Schätzer erlaubt auch speziell für kleine Werte von n eine Aussage. 2

Verwendet man für rf(n, par) speziell rnorm(n, 5, 2), so führt dies (zufälligerweise) zu Monte-Carlo Realisationen ( x (r) n, x (r) n ) mit folgender Struktur: plot(mean, med) med mean par(mfrow=c(1, 2)) # 2 plots in 1 row hist(med, xlim=c(3, 7)); hist(mean, xlim=c(3, 7)) Histogram of med Histogram of mean 0 50 100 150 0 50 100 150 200 med mean 3

Die MC Methode kann auch zur Überprüfung der Überdeckungswahrscheinlichkeit 1 α eines Konfidenzintervalls für den Parameter θ genutzt werden. Sei dazu (L (r), U (r) ), r = 1,..., R, eine Folge unabhängig ident-verteilter Konfidenzintervalle für den Parameter θ zum Niveau 1 α. Diese können generiert werden, indem R mal eine Zufalls-Stichprobe mit Umfang n aus F (θ 0 ) erzeugt wird (θ 0 ist dabei der wahre Parameter θ), und darauf basierend die r-te Realisation des Konfidenzintervalls berechnet wird. Dann gilt 1 α MC = 1 R I [L (r),u (r) ](θ 0 ) f.s. 1 α. Für eine Zufalls-Stichprobe vom Umfang n aus der N(µ, σ 2 )-Verteilung (mit σ 2 bekannt) liefert das zweiseitige Konfidenzintervall für µ X n ± z 1 α σ/ n bekanterweise eine Überdeckungswahrscheinlichkeit von 1 α. n <- 20 # sample size R <- 1000 # number of replications mu <- 5; sigma <- 2 # true parameter(s) alpha <- 0.05 # 1 - coverage probability L <- U <- 1:R # initializations a <- sigma/sqrt(n) * qnorm(1 - alpha/2) m <- mean(rnorm(n, mu, sigma)) L[r] <- m - a; U[r] <- m + a left <- as.numeric(mu < L); sum(left) [1] 27 right <- as.numeric(u < mu); sum(right) [1] 25 Es liegt hier der wahre Parameter (µ 0 = 5) 27 mal unter den unteren Intervallsgrenzen, sowie 25 mal über den oberen Grenzen, d.h. in 52 (von 1000) Fällen wird der wahre Parameter µ 0 nicht von den Monte-Carlo Konfidenzintervallen überdeckt, was einem MC Schätzer α MC = 0.052 (bei vorgegebenem α = 0.05) entspricht. 4

2 Der Bootstrap Bis jetzt wurde immer ein vollständig spezifiziertes Verteilungsmodell F (θ) für die Monte-Carlo Simulationen angenommen und kein Bezug zu einer konkreten Datensituation gemacht. Sei nun X 1,..., X n eine Stichprobe aus einer uns unbekannten Verteilungsfunktion F. Wir kennen F nicht, haben aber daraus gerade eine Stichprobe vom Umfang n vorliegen. Beim Bootstrap wird nun die Stichprobeninformation auf zweierlei Art verwendet. Beim parametrischen Bootstrap wird wie zuvor eine Verteilung F (θ) für die Stichprobe angenommen. Die Parameter selbst werden hierbei aber durch die entsprechenden Schätzer ˆθ aus der Stichprobe ersetzt. Nimmt man beispielsweise an, dass X 1,..., X n N(µ, σ 2 ) gilt, so basiert der parametrische Bootstrap auf die generierte Stichprobe (eine Replikation) X1,..., Xn mit Xi N(x, s2 ). Der nicht-parametrische Bootstrap verzichtet gänzlich auf eine derartige Verteilungs-Annahme und verwendet die empirische Verteilungsfunktion der Stichprobe als Schätzer für die unbekannte Verteilung der Population. Die Replikation kommt somit aus ˆF n. Realisiert wird dieses Verfahren, indem n mal mit Zurücklegen X1,..., Xn aus der Realisierung x 1,..., x n gezogen wird. Beide Bootstrap-Ansätze basieren auf eine Stichprobe X1,..., Xn aus der geschätzten Verteilungsfunktion. Ist man zum Beispiel an der Schätzung der Varianz des Medians der originalen Stichprobe interessiert, also an var( X X i F ), so liefert der entsprechende Bootstrap-Schätzer entweder var( X Xi F (ˆθ)) oder var( X Xi ˆF n ). Nur in seltenen Fällen sind diese Bootstrap-Momente analytisch berechenbar. Daher wird wiederum die Monte Carlo Methode dafür verwendet. Allgemeiner MC-Bootstrap Algorithmus in R: n <- length(x) R <- 1000 med.star <- 1:R x.star <- rf(n, par.estimate) # parametric Bootstrap x.star <- sample(x, size=n, replace=t) # non-parametric Bootstrap med.star[r] <- median(x.star) EMC.median <- mean(med.star) varmc.median <- var(med.star) Als Monte-Carlo Approximation der Bootstrap-Schätzung für die asymptotische relative Effizienz des Medians im Vergleich zum Mittel erhält man unter Normalverteilungsannahme für die Variable fvc aus dem Datensatz aimu aimu <- read.table("aimu.dat", col.names=c("nr","jahr","alter","gr","gew","fvc","fev","fvcfev.ratio","ort")) attach(aimu) n <- length(fvc) R <- 1000 med.star.p <- mean.star.p <- med.star.np <- mean.star.np <- 1:R x.star.p <- rnorm(n, mean(fvc), sd(fvc)) # parametric Bootstrap x.star.np <- sample(fvc, size=n, replace=t) # non-parametric Bootstrap mean.star.p[r] <- mean(x.star.p) med.star.p[r] <- median(x.star.p) mean.star.np[r] <- mean(x.star.np) med.star.np[r] <- median(x.star.np) are.mcb.p <- var(med.star.p)/var(mean.star.p); are.mcb.p [1] 1.523219 are.mcb.np <- var(med.star.np)/var(mean.star.np); are.mcb.np [1] 1.369213 5

breaks <- seq(from=500, to=600, by=10) hist(med.star.p, breaks, xlim=c(500, 600), ylim=c(0,350)) hist(med.star.np, breaks, xlim=c(500, 600), ylim=c(0,350)) Histogram of med.star.p Histogram of med.star.np 0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350 500 520 540 560 580 600 med.star.p 500 520 540 560 580 600 med.star.np 6