Die Bootstrap-Methode

Ähnliche Dokumente
Tests für Erwartungswert & Median

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Hypothesentests für Erwartungswert und Median. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

Klausur zur Vorlesung

Mathematik für Naturwissenschaften, Teil 2

Population und Stichprobe Wahrscheinlichkeitstheorie II

Mathematik 2 für Naturwissenschaften

Stetige Verteilungen, Unabhängigkeit & ZGS

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Einführung in Bootstrap

Statistisches Testen

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Bootstrapping ein neuer Standard in Anwendung und Lehre?

Deskriptive Statistik

70 Wichtige kontinuierliche Verteilungen

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Bootstrap-Konfidenzintervalle

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

unendlich-dimensionalen lästigen Parameter auffassen.

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistik und Wahrscheinlichkeitsrechnung

Übung 4 im Fach "Biometrie / Q1"

Übungsaufgaben zu Kapitel 12 bis 14

Stichproben Parameterschätzung Konfidenzintervalle:

Biomathematik für Mediziner, Klausur SS 2000 Seite 1

Klausur zur Vorlesung Statistik für BWL Name Vorname Matrikelnr.

Korrelation, Regression und Signifikanz

Eine Zufallsvariable X sei stetig gleichverteilt im Intervall [0,5]. Die Wahrscheinlichkeit P(2< x <4) ist dann

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Zufallsvariable: Verteilungen & Kennzahlen

Klausur zur Vorlesung

Computational Finance

Parametrische vs. Non-Parametrische Testverfahren

Übungsblatt 4. Berechnen Sie für die statistischen Reihen die Varianzen, Kovarianzen und Korrelationskoeffizienten

Teil VIII Hypothesentests für zwei Stichproben

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Lösungen zu Übungsaufgaben Blatt 9

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

5 Exkurs: Deskriptive Statistik


Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Statistik II SoSe 2006 immer von 8:00-9:30 Uhr

Die Familie der χ 2 (n)-verteilungen

Statistische Messdatenauswertung

Forschungsstatistik I

Stichwortverzeichnis. Chi-Quadrat-Verteilung 183, 186, 189, 202 ff., 207 ff., 211 Testen von Zufallszahlen 294 Cărtărescu, Mircea 319

Fit for Abi & Study Stochastik

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

1 Dichte- und Verteilungsfunktion

Bitte bearbeite zunächst alle Aufgaben bevor du einen Blick in die Lösungen wirfst.

1. Die gemeinsame Dichtefunktion der Zufallsvariablen X,Y sei. 1 für 0 x 1 und 0 y 1 0 sonst. 1 Volumen über schraffierter Fläche = = 0.

Wolf-Gert Matthäus. Lösungen für die Statistik mit Excel 97

Deskriptive Statistik Aufgaben und Lösungen

Einführung in die Wahrscheinlichkeitsrechnung und Statistik für Ingenieure

Statistik II. Statistische Tests. Statistik II

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

SozialwissenschaftlerInnen II

Kapitel VII - Funktion und Transformation von Zufallsvariablen

7.5 Erwartungswert, Varianz

5. Lektion: Einfache Signifikanztests

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Statistik II. IV. Hypothesentests. Martin Huber

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

8. Konfidenzintervalle und Hypothesentests

Beschreibende Statistik Eindimensionale Daten

Beispiel 4 (Einige weitere Aufgaben)

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

Willkommen zur Vorlesung Statistik (Master)

Wahrscheinlichkeit und Statistik: Zusammenfassung

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1. Bootstrap: Tests

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung

Statistische Methoden für Bauingenieure WS 13/14. Einführungsbeispiel

1 Einleitung und Grundlagen 1

15 Über Zufallsgeneratoren (fakultativ)

Ein- und Zweistichprobentests

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

I. Deskriptive Statistik 1

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Mathematik für Biologen

7.2 Mittelwert einer Stichprobe

1. Was ist eine Wahrscheinlichkeit P(A)?

Mathematik für Biologen

Bootstrap: Punktschätzung

Wahrscheinlichkeit und Statistik BSc D-INFK

Häufigkeitsverteilungen

Schriftliche Prüfung (2 Stunden)

Forschungsstatistik I

1 Univariate Statistiken

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests

Statistische Software (R)

Transkript:

Mathematik II für Biologen Die -Methode 10. Juli 2015 Die -Methode

Vertrauensintervall für den Erwartungswert Begriff Idee Was heißt ähnlich? Praktische Durchführung Die -Methode

Stichprobe x 1,...,x n ( 10 Werte) Annahme: Realisierung von X 1,...,X n iid Mittelwert x = 1 n (x 1 +...+x n ) Genauigkeit / Fehler? Bestimme z.b. das 95%-Vertrauensintervall für den Erwartungswert Im Sinne eines t- oder z-tests: [ ] x 2 s n, x+2 s n wobei s 2 = 1 n 1 n j=1 (x j x) 2 (empirische Varianz) genauer: z-test: 2 1,96 t-test: 2 2,57..2,23..1,98 (für 5..10..100 FHGe) Also bestimmbar aus Mittelwert und empirischer Varianz! Die -Methode

Wie für andere Größen?...z.B. für den Median? vielleicht Vertrauensintervall aus Vorzeichen- oder Wilcoxon-Test Ohne Faustregeln (falls n nicht groß genug) muss man Test evt. für viele Nullhypothesen wiederholen. Und für noch andere Größen?...z.B. für einen Korrelationskoeffizienten? Wie ist der unter einer bestimmten Nullhypothese verteilt? Wird schnell schwierig... Die -Methode

Begriff Idee Was heißt ähnlich? Praktische Durchführung bootstrap, wörtlich: Stiefelschlaufe/-riemen engl. Wendung: to pull oneself up by one s bootstrap deutsch: sich an den eigenen Haaren / am eigenen Schopf aus dem Sumpf ziehen Theodor Hosemann (1807-1875) Münchhausen erzählt: Bei der Verfolgung eines Hasen wollte ich mit meinem Pferd über einen Morast setzen. Mitten im Sprung musste ich erkennen, dass der Morast viel breiter war, als ich anfänglich eingeschätzt hatte. Schwebend in der Luft wendete ich daher wieder um, wo ich hergekommen war, um einen größeren Anlauf zu nehmen. Gleichwohl sprang ich zum zweiten Mal noch zu kurz und fiel nicht weit vom anderen Ufer bis an den Hals in den Morast. Hier hätte ich unfehlbar umkommen müssen, wenn nicht die Stärke meines Armes mich an meinem eigenen Haarzopf, samt dem Pferd, welches ich fest zwischen meine Knie schloss, wieder herausgezogen hätte. Die -Methode

Begriff Idee Was heißt ähnlich? Praktische Durchführung Idee des : erzeuge künstlich viele ähnliche Stichproben berechne gewünschte Größe für diese, und bestimme Mittelwert und empirische Varianz s 2 der Werte 95%-Vertrauensintervall wieder als ±2s-Intervall um den Mittelwert (ohne n!) Fragen: Was heißt ähnlich? Wie erzeugt man die Daten? oder besser: Bestimme VI gleich aus Histogramm der -Daten Die -Methode

Begriff Idee Was heißt ähnlich? Praktische Durchführung ähnlich : Gleiche Verteilung(sfunktion) wie die Werte der Ausgangsstichprobe aber: Verteilung ist nicht bekannt! approximiere durch empirische Verteilung(sfunktion) F(x) = #{x i : x i x} n (aus Stichprobe) Ziehe neue Stichprobe: a1,...a n gleichverteilt aus [0,1] bj = F 1 (a j ) neue Stichprobe Die -Methode

Begriff Idee Was heißt ähnlich? Praktische Durchführung Praktisch heißt das: ziehe (mit Zurücklegen!) n Werte aus der Originalstichprobe ergibt eine neue Stichprobe / eine -Stichprobe wiederhole oft (N mal, N groß) Berechne dann die gewünschte Größe für jede - Stichprobe, und bestimme daraus die gesuchte Schwankung. Literatur: Efron & Tibshirani An Introduction to the Chapman & Hall/CRC, 1994 Die -Methode

Beispiel: (vgl. Vorlesungen 6 & 9) Die Eichung einer Waage soll überprüft werden. Sollwert 20kg n = 10 Messungen ergeben (in kg): 20,1 20,3 20,9 19,3 20,8 20,1 20,2 20,4 20,2 20,3 bisher: Vorzeichen-, Wilcoxon-, z- & t-test 95%-VI für Median oder Erwartungswert t-test [19,95, 20,57] Vorzeichen-Test [20,10, 20,79] Wilcoxon-Test [20,05, 20,55] Die -Methode

Mit : Originalstichprobe (Mittelwert: 20,26) 20,1 20,3 20,9 19,3 20,8 20,1 20,2 20,4 20,2 20,3 ziehe -Stichproben, z.b. 20,8 20,3 20,2 19,3 20,3 20,2 20,8 20,9 20,4 19,3 20,1 19,3 20,1 19,3 20,4 20,3 20,1 20,1 19,3 20,3 Mittelwerte dazu: 20,25, 19,93 etc. X := Mittelwert dieser Mittelwerte 20,2603 s := emp. Varianz dieser Mittelwerte 0,1301 (jeweils für N = 100 000 -Stichproben) 95%-Vertrauensintervall für den Erwartungswert: X ±1,96s [20,01, 20,52] Noch besser: Histogramm anschauen... Die -Methode

Matlab-Code zur Berechnung des Vertrauensintervalls des Erwartungswerts mittels >> waage=[20.1 20.3 20.9 19.3 20.8 20.1 20.2 20.4 20.2 20.3]; >> n=10^5; >> b=bootstrp(n, mean,waage); >> mean(b) >> std(b) ans = 20.2603 ans = 0.1301 >> hist(b,40) 10000 9000 8000 7000 6000 5000 4000 3000 2000 1000 0 19.4 19.6 19.8 20 20.2 20.4 20.6 20.8 evt. besser: links und rechts 2,5% abschneiden Die -Methode

Fortsetzung 1 0.9 >> B=sort(b); >> stairs(b,(1:n)/n) >> hold on >> plot(b,.025*ones(1,n), r ) >> plot(b,.975*ones(1,n), r ) >> hold off 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 19.6 19.8 20 20.2 20.4 20.6 B(round(.025*n)) B(round(.975*n)) ans = 19.9900 ans = 20.5000 d.h. 95%-VI: [19,99, 20,50] (vorhin: [20,01, 20,52]) Die -Methode

Vergleich der verschiedenen 95%-Vertrauensintervalle 95%-VI für Median oder Erwartungswert t-test [19,95, 20,57] Vorzeichen-Test [20,10, 20,79] Wilcoxon-Test [20,05, 20,55] [19,99, 20,50] Die -Methode

Beispiel: Durchschnittsnoten eines Hochschuleingangstests (LSAT) sowie einer Grundstudiumsprüfung (GPA) von 15 Hochschulen: Schule 1 2 3 4 5 6 7 8 LSAT 576 635 558 578 666 580 555 661 GPA 3,39 3,30 2,81 3,03 3,44 3,07 3,00 3,43 Schule 9 10 11 12 13 14 15 LSAT 651 605 653 575 545 572 594 GPA 3,36 3,13 3,12 2,74 2,76 2,88 2,96 Stichprobe: x i = (LSAT i,gpa i ) Korrelation (Pearson): r LSAT,GPA 0,776 Aber mit welcher Genauigkeit?! nach Efron & Tibshirani An Introduction to the Die -Methode

Vertrauensintervall für die Korrelation mittels Ziehe viele -Stichproben, Umfang 15, gezogen wird jeweils ein Paar x i berechne deren Korrelationskoeffizienten......sowie die Varianz s 2 derselben. Matlab-Code >> n=10000; >> korrelationen=bootstrp(n, corrcoef,lsat,gpa); >> sqrt(var(korrelationen(:,2))) ans = 0.1347 95%-Vertrauensintervall für r LSAT,GPA : 0,776±0,264 > 1? Vielleicht noch besser Histogramm betrachten... Die -Methode

>> hist(korrelationen(:,2),30) 1200 1000 800 600 400 200 0 0.2 0 0.2 0.4 0.6 0.8 1 1.2 95%-Vertrauensintervall für r LSAT,GPA : [0,45, 0,97] Die -Methode