Robuste und effiziente Konfidenzbereiche für nichtzentrale Perzentile

Transkript

2 nichtzentrale Perzentile Zielsetzung des Vortrags Ich möchte mit diesem Vortrag an einem Beispiel zeigen, wie man wichtige Weiterentwicklungen statistischer Methoden mit Hilfe statistischer Simulation sehr effektiv durchführen kann. Die Aufgabe, die hier durch statistische Simulation gelöst werden soll, ist die Punkt- und Intervall-Schätzung von randständigen Perzentilen bei moderatem Stichprobenumfang, in Situationen, in denen die bekannte nichtparametrische Methode keine oder unbefriedigende Lösungen liefert, die parametrische Methode auf Basis der Normalverteilung aber ebenfalls nicht anwendbar ist. Page 2/20

3 nichtzentrale Perzentile : Vorbemerkung Anmerkung: Dieser Vortrag wirbt nicht für das Arbeiten mit unverantwortlich kleinen Stichprobenumfängen. Die Schätzung randständiger Perzentile ist und bleibt ein statistisch anspruchvolles Problem. Dennoch führen die Ineffizienz und manglende Robustheit der klassischen Methoden in der Praxis gelegentlich zu unerfüllbaren Wünschen an die Stichprobengröße. Page 3/20

4 nichtzentrale Perzentile Ein etwas extremes Beispiel 1: Gegeben eine Stichprobe von n=40 Meßergebnissen. Berechne Schätzwert und 95%- Konfidenzbereich für das 99.te Perzentil Q(0.99) Nichtparametrisch: Geht nicht, n muss mindestens 368 sein! Wäre n=368, so wäre die Lösung: Für Q(0.01) : X = LCL, X = Punktschätzer, X = UCL (1) (4) (9) Für Q(0.99) : X = LCL, X = Punktschätzer, X = UCL (360) (365) (368) Alles andere als robust! Wenn Ausreißer vorhanden, dann dort! Page 4/20

5 nichtzentrale Perzentile: Beispiel-Aufgabe Die entsprechende parametrische Lösung unter Normalverteilungsannahme lautet X 2.54* SD, X 2.33* SD, X 2.14* SD Dies ist der zweite klassische Ansatz: X + k( p)* SD, k( p) = probit( p) für den Punktschätzer, k( p) aus der t-verteilung zu berechnen für die Konfidenzgrenzen. Page 5/20

6 nichtzentrale Perzentile: Beispiel-Aufgabe Mit einer Beispiel-Stichprobe (n=368): Parametische und nichtparametrische Schätzwerte NPar. Param. LCL EST UCL Q (0.01) = 2.76 Page 6/20

7 nichtzentrale Perzentile: Beispiel-Aufgabe Vor- und Nachteile der beiden klassischen Lösungen: Nichtparametrisch: Enthält keine verteilungsabhängigen Konstanten, also allgemeingültig für alle stetigen Verteilungen. Aber extrem ineffizient (n_min=368!) und ausreißerempfindlich ( X!) (1) Parametrisch: Sehr empfindlich gegenüber Abweichungen von der angenommenen Normalverteilung (anders als etwa t-test ) Page 7/20

8 nichtzentrale Perzentile: Idee für Verbesserung Idee: Modifiziere den parametrischen Ansatz Qˆ ( p) = Mˆ + c( p, F ) Dˆ derart, dass die Abhängigkeit der Konstanten vom Verteilungstyp F 0 möglichst gering ist und gewisse Robustheitseigenschaften haben. Ermittle c( p, F0 ) durch Simulation ( SAS) auch für Alternativen zumverteilungstyp der Normalverteilung. Wähle die Konstante als Kompromiss zwischen möglichen Fehlerverteilungstypen. 0 c( p, F ) 0 Mˆ, Dˆ Page 8/20

9 nichtzentrale Perzentile: Lösungsansatz Lösungsansatz: Bestimme durch Simulation Perzentile der Verteilung von Q( p) Mˆ Q ˆ 0( p) M0 Z = = Dˆ Dˆ 0 denn : < < Q ˆ 0( p) M0 c( p, F ˆ ˆ 0) Q( p) M c( p, F0) D Dˆ = = + 0 > >... und die Wahrscheinlichkeiten dieser Relationen wollen wir bei Konfidenzgrenzen kontrollieren. Page 9/20

10 nichtzentrale Perzentile: Beispiel Beispiel: Mˆ = Median X, ˆ 1 D = Mean Absolute Deviation from the Median MD = n X X i= 1 n Es zeigte sich, dass bei dieser Wahl von Dˆ, c( p, F0 ) eine relativ geringe Abhängigkeit von dem gewählten Vereilungstyp hat, wenn die zugelassenen Verteilungstypen neben der Normalverteilung t Verteilungen mitwenig Freiheitsgraden umfasssen (10 df,5 df,3 df ). i Page 10/20

11 nichtzentrale Perzentile: Fortsetzung Beispiel Für F = t und Z = ( Q(0.99) X ) / MD ergeben sich bei n= 40 (absichtlich etwas sehr 0 10 klein gewählt) die Perzentile Zˆ = 2.43, Zˆ = 3.27, Zˆ = 4.41 und damit die Perzentilschätzer Q(0.01) Q(0.99) X 3.27* MD (Punktschätzer) X * MD (Punktschätzer) X 4.41* MD (95%-CI: UG) X * MD (95%-CI: UG) X 2.43* MD (95%-CI: OG) X * MD (95%-CI: OG) Die Größe der Bereiche zeigt, dass n=40 für die 1. bzw. 99. Perzentile doch etwas klein ist. Die Message ist: Man kann, wenn man muss, und braucht nicht mindestens n=368! Das weitere Vorgehen wäre an dieser Stelle: Berechnung von Bias und Präzision der Schätzer (wieder über Simulation) für andere t-verteilungen (3, 5, df) und die Gauß-Vert. Dann Beschreibung des Verfahrens und seiner Grenzen. Page 11/20

12 nichtzentrale Perzentile: Beispiel 2 Zweites Beispiel: Das erste Beispiel war noch an die Symmetrie der Verteilung gekoppelt. Hier ist ein Beispiel auch für asymmetrische Verteilungen: n = % CI für 97.5te Perzentile Q(0.975) gesucht. (Nichtparametrisch braucht man mindestens n=146). Dichte der Gamma- Verteilung mit Parameter a=3 Page 12/20

13 nichtzentrale Perzentile: Fortsetzung Beispiel 2 Diesmal soll als Punktschätzer das übliche nichtparamtrische Stichprobenperzentil Xˆ verwendet werden, die Konfidenzgrenzen sollen die Form X + Faktor*( Xˆ X ) haben. Es ergibt sich ( X wie vorher der Median): %-CI für Q(0.975): [ X *( Xˆ X ), X *( Xˆ X ) ] Das Gleiche am unteren Ende der Verteilung: bzw. 95%-CI für Q(0.025): [ X *( Xˆ X ), X * ( Xˆ X ) ] 95%-CI für Q(0.025): [ X 1.18*( X Xˆ ), X 0.89*( X Xˆ ) ] Page 13/20

14 nichtzentrale Perzentile: Fortsetzung Beispiel 2 Diese Egebnisse beziehen sich auf die SAS- Perzentildefinition PCTLDEF=5 (default). Unter dieser Definition ist z.b. Xˆ = (3), der drittkleinste Wert (vgl auch KSFE2010 -Vortrag zu SAS Makro UNISTATS 2.0, H. Stürzl & ). X Unter PCTLDEF=4 gilt Xˆ = 0.475X X und es ergeben sich etwas andere Konstanten, (2) (3) 95%-CI für Q(0.025): [ X 1.14*( X Xˆ ), X 0.87*( X Xˆ ) ] (PCTLDEF=5: 1.18 statt 1.14, 0.89 statt 0.87) Page 14/20

15 nichtzentrale Perzentile: Programmierung in SAS Grundsätzlich zwei Möglichkeiten: 1. Alles in einem Datenschritt ohne output-statement, nur in Arrays rechnen (Rechenzeit-optimal, nur im Hauptspreicher rechnen, kein intensives Schreiben/Lesen auf Festplatte; Replications entspr. 30 Sek.). Perzentile mit PCTL-Funktion bestimmen. 2. Ein Dataset mit &Replications (=10000 bis ) Zeilen erstellen, Perzentile mit Proc Univariate o.ä. berechnen, wieder Datenschritt zur Berechnung der Größe Z = ( Q ( p) Mˆ )/ Dˆ, dann wieder Proc Univariate zur Berechnung der Perzentile der Verteilung von Z. Der zweite Weg ergibt ein übersichtlicheres, SAS-typisches Programm, braucht etwas längere Laufzeit: ca. 10 Sek. bei Replikationen, ca. 1 Min. bei Replikationen. Page 15/20

16 nichtzentrale Perzentile: Programmierung in SAS Code des SAS-Programms für obiges Beispiel: %macro CI_for_Pctl_Gamma_Dist( p=0.025, n=100, shapepar=3, rep=10000, seed= , out=tmp); PROC DATASETS nolist LIB=work;DELETE _d /MEMTYPE=DATA;RUN;QUIT; data _d; array zz z1-z&rep; array xx x1-x&n; Page 16/20

17 nichtzentrale Perzentile: Programmierung in SAS * number of replicates for simulation is recommended; rep=&rep; *number of measurements per sample; n=&n; *Parameter of Gamma-distribution,-1 refers to Gaussian distribution; shapepar=&shapepar; *Percentage of Percentile; p=&p;p100=100*p; *true Percentile; TruePctl=probit(&p); if shapepar>0 then TruePctl=gaminv(&p,shapepar); Page 17/20

18 nichtzentrale Perzentile: Programmierung in SAS do i1=1 to rep;* Replications for simulation; do i3=1 to n; xx[i3]=rannor(&seed);**gaussian random numbers; **transforming to gamma-distribution if shapepar>0; if shapepar>0 then do; xx[i3]=gaminv(probnorm(xx[i3]),shapepar); end; end; x_p=pctl(p100,of x1 - x&n); x_50=pctl(50,of x1 - x&n); end; zz[i1]=(truepctl-x_50)/(x_50-x_p); Page 18/20

19 nichtzentrale Perzentile: Programmierung in SAS z_025=pctl( 2.5,of z1 - z&rep); z_500=pctl(50,of z1 - z&rep); z_975=pctl(97.5,of z1 - z&rep); run; data &out;set _d;run; proc print data=_d; var z_025 z_500 z_975 ; format z_025 z_500 z_ ; label z_025='factor_for_ul_of_95ci_q(p)' z_500='factor_for_median_unbiased_q(p)' z_975='factor_for_ll_of_95ci_q(p)' ; title"ci_for_pctl_gamma_dist(p=&p,n=&n,shapepar=&shapepar,rep=&rep, seed=&seed,out=&out)"; run; %mend CI_for_Pctl_Gamma_Dist; Page 19/20

20 nichtzentrale Perzentile Literatur 1. H.Stürzl, C.Gutenbrunner: SAS Makro UNISTATS KSFE 2010 Berlin,U Rendtel, P Schirmbacher, O Kao, W.F. Lesener, R. Minkenberg (Hrsg.). Shaker Verlag, Aachen, W. Kössler, W. Lesener: Adaptive Lokationstests mit U-Statistiken. 14.KSFE 2010 Berlin, U Rendtel, P Schirmbacher, O Kao, W.F. Lesener, R. Minkenberg (Hrsg.). Shaker Verlag, Aachen, Page 20/20