Robuste und effiziente Konfidenzbereiche für nichtzentrale Perzentile

Ähnliche Dokumente
Streuungsmaße. Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre Varianz (empirische) Varianz (Streuung) s 2 = 1 n

1 Univariate Statistiken

Statistik K urs SS 2004

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

1.6 Der Vorzeichentest

Vorlesung: Statistik II für Wirtschaftswissenschaft

Effizientes Bootstrapping mit SAS

Bootstrap: Konfidenzintervalle

1.5 Berechnung von Rangzahlen

Übungen mit dem Applet Rangwerte

Medizinische Statistik

Empirische Wirtschaftsforschung

Bootstrapping ein neuer Standard in Anwendung und Lehre?

Biostatistik, WS 2013/2014 Wilcoxons Rangsummen-Test

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Statistisches Testen

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Statistik II. IV. Hypothesentests. Martin Huber

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

9 Robuste Methoden. 9.1 Einfluss und Robustheit. i (x i x) 2 = i x iy i. c 1 = x 2 + i (x i x) 2. Einfache Regression: 9.1 Einfluss und Robustheit 205

Lösung parametrischer Bootstrap

5.8 Anpassungstests. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 419

Statistik I für Betriebswirte Vorlesung 14

Mathematische und statistische Methoden II

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Einführung in die (induktive) Statistik

Statistics, Data Analysis, and Simulation SS 2017

Auswahl von Schätzfunktionen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

10. Medizinische Statistik

Fallzahlplanung bei unabhängigen Stichproben

1.3 Das Testen von Hypothesen am Beispiel des Einstichproben t-tests

Zufallsvariablen [random variable]

Verfahren für metrische Variable

1. Grundbegri e der Stochastik

Klassifikation von Signifikanztests

Stochastik Praktikum Parametrische Schätztheorie

Allgemeine lineare Modelle

Bootstrapping ein neuer Standard in Anwendung und Lehre?

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

6. Multivariate Verfahren Zufallszahlen

6.4 Der Kruskal-Wallis Test

PROC NPAR1WAY. zum Durchführen des U-Tests für zwei unverbundene Stichproben (für quantitative nicht-normalverteilte Merkmale)

MEHR ALS LINEAR ODER LOGISTISCH?

Hypothesenbewertungen: Übersicht

Bootstrap: Punktschätzung

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Spalten aufsummieren?!

Lage- und Streuungsparameter

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Statistik I für Betriebswirte Vorlesung 14

Dr. H. Grunert Schließende Statistik Vorlesungscharts. Vorlesung 7. Schätzverfahren

Übungen zur Vorlesung. Statistik 2

14.3 Das Einstichprobenproblem in R

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Vorlesung: Statistik II für Wirtschaftswissenschaft

DWT 314/460 csusanne Albers

Übungen mit dem Applet Vergleich von zwei Mittelwerten

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Statistik und Wahrscheinlichkeitsrechnung

Statistics, Data Analysis, and Simulation SS 2015

Thema der Stunde. I. Die Form der Stichprobenkennwerteverteilung. II. Schlüsse von der Stichprobe auf die Population

Binomialverteilung Vertrauensbereich für den Anteil

Grundlagen der schließenden Statistik

Wahrscheinlichkeitsrechnung und Statistik für Biologen 2. Der Standardfehler

Wahrscheinlichkeitsrechnung und schließende Statistik

Vergleich von k unabhängigen Gruppen (einfaktorielle, einfache Varianzanalyse)

Mehrdimensionale Zufallsvariablen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

2.3 Intervallschätzung

Kapitel 2. Weitere Beispiele Effizienter Algorithmen

Wahrscheinlichkeitsrechnung und schließende Statistik

2.3 Intervallschätzung

10. Statistische Verteilungen

Permutationstests II.

Bereiche der Statistik

5.9. Nichtparametrische Tests Übersicht

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Wahrscheinlichkeit und Statistik BSc D-INFK

Einführung in Bootstrap

8 Stichprobenkennwerteverteilung

Klassifikation von Signifikanztests

Klausur Statistik Lösungshinweise

Willkommen zur Vorlesung Statistik (Master)

Einstichprobenproblem t-test

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Ansprechen einer Anzahl von Variablen über einen Schleifendurchlauf

Zentraler Grenzwertsatz

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

Transkript:

LP-00671: Evakuierung von Gebäuden KSFE 2011 Heidelberg Robuste und effiziente Konfidenzbereiche für nichtzentrale Perzentile, Februar 2011 Vortrag KSFE 2011, Heidelberg 1 / 20 All rights reserved.

nichtzentrale Perzentile Zielsetzung des Vortrags Ich möchte mit diesem Vortrag an einem Beispiel zeigen, wie man wichtige Weiterentwicklungen statistischer Methoden mit Hilfe statistischer Simulation sehr effektiv durchführen kann. Die Aufgabe, die hier durch statistische Simulation gelöst werden soll, ist die Punkt- und Intervall-Schätzung von randständigen Perzentilen bei moderatem Stichprobenumfang, in Situationen, in denen die bekannte nichtparametrische Methode keine oder unbefriedigende Lösungen liefert, die parametrische Methode auf Basis der Normalverteilung aber ebenfalls nicht anwendbar ist. Page 2/20

nichtzentrale Perzentile : Vorbemerkung Anmerkung: Dieser Vortrag wirbt nicht für das Arbeiten mit unverantwortlich kleinen Stichprobenumfängen. Die Schätzung randständiger Perzentile ist und bleibt ein statistisch anspruchvolles Problem. Dennoch führen die Ineffizienz und manglende Robustheit der klassischen Methoden in der Praxis gelegentlich zu unerfüllbaren Wünschen an die Stichprobengröße. Page 3/20

nichtzentrale Perzentile Ein etwas extremes Beispiel 1: Gegeben eine Stichprobe von n=40 Meßergebnissen. Berechne Schätzwert und 95%- Konfidenzbereich für das 99.te Perzentil Q(0.99) Nichtparametrisch: Geht nicht, n muss mindestens 368 sein! Wäre n=368, so wäre die Lösung: Für Q(0.01) : X = LCL, X = Punktschätzer, X = UCL (1) (4) (9) Für Q(0.99) : X = LCL, X = Punktschätzer, X = UCL (360) (365) (368) Alles andere als robust! Wenn Ausreißer vorhanden, dann dort! Page 4/20

nichtzentrale Perzentile: Beispiel-Aufgabe Die entsprechende parametrische Lösung unter Normalverteilungsannahme lautet X 2.54* SD, X 2.33* SD, X 2.14* SD Dies ist der zweite klassische Ansatz: X + k( p)* SD, k( p) = probit( p) für den Punktschätzer, k( p) aus der t-verteilung zu berechnen für die Konfidenzgrenzen. Page 5/20

nichtzentrale Perzentile: Beispiel-Aufgabe Mit einer Beispiel-Stichprobe (n=368): Parametische und nichtparametrische Schätzwerte NPar. Param. LCL -3.53-2.77 EST -2.72-2.55 UCL -2.24-2.34 Q (0.01) = 2.76 Page 6/20

nichtzentrale Perzentile: Beispiel-Aufgabe Vor- und Nachteile der beiden klassischen Lösungen: Nichtparametrisch: Enthält keine verteilungsabhängigen Konstanten, also allgemeingültig für alle stetigen Verteilungen. Aber extrem ineffizient (n_min=368!) und ausreißerempfindlich ( X!) (1) Parametrisch: Sehr empfindlich gegenüber Abweichungen von der angenommenen Normalverteilung (anders als etwa t-test ) Page 7/20

nichtzentrale Perzentile: Idee für Verbesserung Idee: Modifiziere den parametrischen Ansatz Qˆ ( p) = Mˆ + c( p, F ) Dˆ derart, dass die Abhängigkeit der Konstanten vom Verteilungstyp F 0 möglichst gering ist und gewisse Robustheitseigenschaften haben. Ermittle c( p, F0 ) durch Simulation ( SAS) auch für Alternativen zumverteilungstyp der Normalverteilung. Wähle die Konstante als Kompromiss zwischen möglichen Fehlerverteilungstypen. 0 c( p, F ) 0 Mˆ, Dˆ Page 8/20

nichtzentrale Perzentile: Lösungsansatz Lösungsansatz: Bestimme durch Simulation Perzentile der Verteilung von Q( p) Mˆ Q ˆ 0( p) M0 Z = = Dˆ Dˆ 0 denn : < < Q ˆ 0( p) M0 c( p, F ˆ ˆ 0) Q( p) M c( p, F0) D Dˆ = = + 0 > >... und die Wahrscheinlichkeiten dieser Relationen wollen wir bei Konfidenzgrenzen kontrollieren. Page 9/20

nichtzentrale Perzentile: Beispiel Beispiel: Mˆ = Median X, ˆ 1 D = Mean Absolute Deviation from the Median MD = n X X i= 1 n Es zeigte sich, dass bei dieser Wahl von Dˆ, c( p, F0 ) eine relativ geringe Abhängigkeit von dem gewählten Vereilungstyp hat, wenn die zugelassenen Verteilungstypen neben der Normalverteilung t Verteilungen mitwenig Freiheitsgraden umfasssen (10 df,5 df,3 df ). i Page 10/20

nichtzentrale Perzentile: Fortsetzung Beispiel Für F = t und Z = ( Q(0.99) X ) / MD ergeben sich bei n= 40 (absichtlich etwas sehr 0 10 klein gewählt) die Perzentile Zˆ = 2.43, Zˆ = 3.27, Zˆ = 4.41 und damit die 0.025 0.50 0.975 Perzentilschätzer Q(0.01) Q(0.99) X 3.27* MD (Punktschätzer) X + 3.27* MD (Punktschätzer) X 4.41* MD (95%-CI: UG) X + 2. 43* MD (95%-CI: UG) X 2.43* MD (95%-CI: OG) X + 4.41* MD (95%-CI: OG) Die Größe der Bereiche zeigt, dass n=40 für die 1. bzw. 99. Perzentile doch etwas klein ist. Die Message ist: Man kann, wenn man muss, und braucht nicht mindestens n=368! Das weitere Vorgehen wäre an dieser Stelle: Berechnung von Bias und Präzision der Schätzer (wieder über Simulation) für andere t-verteilungen (3, 5, 15... df) und die Gauß-Vert. Dann Beschreibung des Verfahrens und seiner Grenzen. Page 11/20

nichtzentrale Perzentile: Beispiel 2 Zweites Beispiel: Das erste Beispiel war noch an die Symmetrie der Verteilung gekoppelt. Hier ist ein Beispiel auch für asymmetrische Verteilungen: n = 100. 95% CI für 97.5te Perzentile Q(0.975) gesucht. (Nichtparametrisch braucht man mindestens n=146). Dichte der Gamma- Verteilung mit Parameter a=3 Page 12/20

nichtzentrale Perzentile: Fortsetzung Beispiel 2 Diesmal soll als Punktschätzer das übliche nichtparamtrische Stichprobenperzentil Xˆ verwendet werden, die Konfidenzgrenzen sollen die Form X + Faktor*( Xˆ 0.975 X ) haben. Es ergibt sich ( X wie vorher der Median): 0.975 95%-CI für Q(0.975): [ X + 0.71*( Xˆ X ), X + 1.42*( Xˆ X ) ] 0.975 0.975 Das Gleiche am unteren Ende der Verteilung: bzw. 95%-CI für Q(0.025): [ X + 1.18*( Xˆ X ), X + 0.89* ( Xˆ X ) ] 95%-CI für Q(0.025): [ X 1.18*( X Xˆ ), X 0.89*( X Xˆ ) ] 0.025 0.025 0.025 0.025 Page 13/20

nichtzentrale Perzentile: Fortsetzung Beispiel 2 Diese Egebnisse beziehen sich auf die SAS- Perzentildefinition PCTLDEF=5 (default). Unter dieser Definition ist z.b. Xˆ = 0.025 (3), der drittkleinste Wert (vgl auch KSFE2010 -Vortrag zu SAS Makro UNISTATS 2.0, H. Stürzl & ). X Unter PCTLDEF=4 gilt Xˆ = 0.475X + 0.525 X und es ergeben sich etwas andere Konstanten, 0.025 (2) (3) 95%-CI für Q(0.025): [ X 1.14*( X Xˆ ), X 0.87*( X 0.025 Xˆ ) ] 0.025 (PCTLDEF=5: 1.18 statt 1.14, 0.89 statt 0.87) Page 14/20

nichtzentrale Perzentile: Programmierung in SAS Grundsätzlich zwei Möglichkeiten: 1. Alles in einem Datenschritt ohne output-statement, nur in Arrays rechnen (Rechenzeit-optimal, nur im Hauptspreicher rechnen, kein intensives Schreiben/Lesen auf Festplatte; 100000 Replications entspr. 30 Sek.). Perzentile mit PCTL-Funktion bestimmen. 2. Ein Dataset mit &Replications (=10000 bis 100000) Zeilen erstellen, Perzentile mit Proc Univariate o.ä. berechnen, wieder Datenschritt zur Berechnung der Größe Z = ( Q ( p) Mˆ )/ Dˆ, 0 0 0 dann wieder Proc Univariate zur Berechnung der Perzentile der Verteilung von Z. Der zweite Weg ergibt ein übersichtlicheres, SAS-typisches Programm, braucht etwas längere Laufzeit: ca. 10 Sek. bei 10000 Replikationen, ca. 1 Min. bei 100000 Replikationen. Page 15/20

nichtzentrale Perzentile: Programmierung in SAS Code des SAS-Programms für obiges Beispiel: %macro CI_for_Pctl_Gamma_Dist( p=0.025, n=100, shapepar=3, rep=10000, seed=38642159, out=tmp); PROC DATASETS nolist LIB=work;DELETE _d /MEMTYPE=DATA;RUN;QUIT; data _d; array zz z1-z&rep; array xx x1-x&n; Page 16/20

nichtzentrale Perzentile: Programmierung in SAS * number of replicates for simulation. 100000 is recommended; rep=&rep; *number of measurements per sample; n=&n; *Parameter of Gamma-distribution,-1 refers to Gaussian distribution; shapepar=&shapepar; *Percentage of Percentile; p=&p;p100=100*p; *true Percentile; TruePctl=probit(&p); if shapepar>0 then TruePctl=gaminv(&p,shapepar); Page 17/20

nichtzentrale Perzentile: Programmierung in SAS do i1=1 to rep;* Replications for simulation; do i3=1 to n; xx[i3]=rannor(&seed);**gaussian random numbers; **transforming to gamma-distribution if shapepar>0; if shapepar>0 then do; xx[i3]=gaminv(probnorm(xx[i3]),shapepar); end; end; x_p=pctl(p100,of x1 - x&n); x_50=pctl(50,of x1 - x&n); end; zz[i1]=(truepctl-x_50)/(x_50-x_p); Page 18/20

nichtzentrale Perzentile: Programmierung in SAS z_025=pctl( 2.5,of z1 - z&rep); z_500=pctl(50,of z1 - z&rep); z_975=pctl(97.5,of z1 - z&rep); run; data &out;set _d;run; proc print data=_d; var z_025 z_500 z_975 ; format z_025 z_500 z_975 8.2; label z_025='factor_for_ul_of_95ci_q(p)' z_500='factor_for_median_unbiased_q(p)' z_975='factor_for_ll_of_95ci_q(p)' ; title"ci_for_pctl_gamma_dist(p=&p,n=&n,shapepar=&shapepar,rep=&rep, seed=&seed,out=&out)"; run; %mend CI_for_Pctl_Gamma_Dist; Page 19/20

nichtzentrale Perzentile Literatur 1. H.Stürzl, C.Gutenbrunner: SAS Makro UNISTATS 2.0. 14.KSFE 2010 Berlin,U Rendtel, P Schirmbacher, O Kao, W.F. Lesener, R. Minkenberg (Hrsg.). Shaker Verlag, Aachen, 2010. 2. W. Kössler, W. Lesener: Adaptive Lokationstests mit U-Statistiken. 14.KSFE 2010 Berlin, U Rendtel, P Schirmbacher, O Kao, W.F. Lesener, R. Minkenberg (Hrsg.). Shaker Verlag, Aachen, 2010. Page 20/20