Stochastik Praktikum Nichtparametrische Dichteschätzung

Transkript

1 Stochastik Praktikum Nichtparametrische Dichteschätzung Humboldt-Universität zu Berlin

2 Einleitung Zunächst: X 1,..., X n reellwertige i. i. d. Zufallsvariablen, deren Verteilung die Dichte f bezüglich des Lebesgue Maßes besitzt. Datenbeispiel: 272 beobachtete Ausbrüche des Old Faithful Geysirs im Yellowstone National Park mit Eruptionsdauer sowie der Wartezeit bis zum nächsten Ausbruch > data ( f a i t h f u l ) > er< f a i t h f u l $ e r u p t i o n s

3 Übersicht 1 Histogramm Schätzer und empirische Verteilungsfunktion 2 Univariate Kerndichteschätzung 3 Bandweitenwahl für Kernschätzer 4 Multivariate Kerndichteschätzung

4 Histogramm Schätzer Intervalle ( bins ) I s : I s = (a s 1, a s ], s {1,..., d} n s := #{x i I s, i {1,..., n}} ˆfhist (x) = n s n Im Falle gleicher Intervalllängen mit a s a s 1 h s {1,..., d}: 1 a s a s 1 1 {Is}(x) ˆfhist (x) = n s nh 1 {I s}(x)

5 > hist (er, freq=false,col="grey")

6 Nachteil des Histogramm Schätzers: Schätzer hängt von der Wahl der bin Längen und des Startwertes ab!

7 Empirische Verteilungsfunktion F n (x) = #{x i x i x, i {1,..., n} n = n i=1 1 n 1 (,x](x i ). Satz von Glivenko Cantelli liefert fast sichere gleichmäßige Konvergenz: lim sup F n (x) F(x) = 0 P f f.s. n x R > ecdf ( er ) E m p i r i c a l CDF C a l l : ecdf ( er ) x [ 1 : ] = 1.6, 1.667, 1.7,..., 5.067, 5.1 > summary ( ecdf ( er ) ) E m p i r i c a l CDF: 126 unique values with summary Min. 1 s t Qu. Median Mean 3 rd Qu. Max

8

9 Gleitendes Histogramm Durch den gleitenden Histogramm Schätzer ˆfGH (x) := #{x i x i (x h, x + h]} = F n(x + h) F n (x h) 2hn 2h = 1 n ( ) x xi K R mit K R (t) = (1/2)1 nh h [ 1,1] (t), i=1 bei dem jede Beobachtung Mittelpunkt eines bins ist, lässt sich das Startwertproblem lösen.

10

12 Kernfunktionen Definition Eine Funktion K : R R heißt Kern, falls gilt: 1 K(x)dx = 1, K(x) 0 x R, K(x) = K( x) Regularitätsbedingungen: 2 sup x R K(x) = M < 3 x K(x) 0 für x 0, x 2 K(x)dx =: k 2 <.

13 Beispiele für Kernfunktionen: Rechteckskern Dreieckskern K(x) = [ 1,1](x), K(x) = (1 x )1 [ 1,1] (x), Gaußkern K(x) = 1 2π exp( x 2 /2), Bisquarekern K(x) = (1 x 2 ) 2 1 [ 1,1] (x), Epanechnikovkern K(x) = 3 4 (1 x 2 )1 [ 1,1] (x).

14 Grafische Darstellung der Kernfunktionen

15 Univariater Kerndichteschätzer Definition Sei K : R R ein Kern. ˆfn (t) = 1 nh n ( ) t xi K = h i=1 1 h K ( t x h ) F n (dx) heißt (univariater) Kerndichteschätzer mit Bandweite h und Kern K. Mit K(t) := t K(x)dx lässt sich auch F schätzen durch: n ( t x ˆF n (t) = 1 n i=1 ( ) t xi K = h K h ) F n (dx).

16 Gauß Kernschätzer (fünf Moden)

17 Gauß Kernschätzer (neun Moden)

18 Gauß Kernschätzer (50 Moden)

19

20 Entscheidende Schwierigkeit: Wahl der Bandweite! h zu groß oversmoothing lokale Extrema werden nicht erkannt, zu glatt h zu klein undersmoothing lokale Moden, Schätzer ist hairy

22 Bias Satz Wenn K : R R ein Kern ist, der die oben genannten Regularitätsbedingungen erfüllt, und f C 2 (R), so gilt: E f [ˆf n (x)] f (x) = h2 2 f (x) x 2 K(x)dx + O(h 2 ).

23 Bias Beweis über Taylor Entwicklung von f : f (x ht) = f (x) htf (x) + h2 t 2 2 f (x) + O(h 2 t 2 ) ( ) 1 x y E f [ˆf n (x)] f (x) = h K f (y)dy f (x) h = hf (x) yk(y)dy + }{{} h 2 f (x) 2 =0 = h2 f (x) k 2 + O(h 2 t 2 ). 2 y 2 K(y)dy +O(h 2 t 2 ) } {{ } =k 2

24 Varianz Satz Wenn K : R R ein Kern ist, der die oben genannten Regularitätsbedingungen erfüllt, und f C(R), so gilt: ) Var f (ˆfn (x) = 1 nh f (x) ( K 2 (y)dy + O n 1 h 1).

25 Varianz Beweis: ) Var (ˆfn (x) = 1 n 2 h 2 = 1 nh 2 = 1 nh n i=1 = 1 nh f (x) ( ( x xi Var K K 2 ( x y h )) h ) f (y)dy 1 n ( ) 2 E[ˆf n (x)] ( K 2 (y)f (x yh)dy n 1 E[ˆf n (x)] ( K 2 (y)dy + O n 1 h 1). ) 2

26 Mean Squared Error: Bias Varianz Zerlegung [ ) ] 2 E f (ˆfn (x) f (x) = Bias(ˆf n (x h)) 2 + Var(ˆf n (x h)) ( ) f = h k nh f (x) Trade Off zwischen Bias und Varianz Anmerkung: ( K 2 (y)dy + O h 4 + n 1 h 1). Bias hängt nicht explizit vom Stichprobenumfang n ab.

27 Optimaler Kern Minimierung des MISE bezüglich h ergibt optimale Bandweite: ( K 2 (y)dy )1 /5 h opt = ( n 1 /5 k 1 /5 2 (f (y)) dy) 2 1/5. (1) Setzt man h opt in den MISE ein, erhält man ( MISE 5 ( 4/5 ) ( k 2 /5 (f 4 2 K (y)dy) 2 (y) ) ) 1/5 2 dy. Minimal für Epanechnikov Kern: K e (x) = 3 (1 4 x 2 ) [ 5,5] (x).

28 Optimaler Kern Setzt man h opt in den MISE ein, erhält man ( MISE 5 ( 4/5 ) ( k 2 /5 (f 4 2 K (y)dy) 2 (y) ) ) 1/5 2 dy. Minimal für Epanechnikov Kern: K e (x) = (1 x 2 5 ) 1 [ 5,5] (x). Effizienz eff (K) für K K e und n gegeben: Zahl eff (K) löst Gleichung MISE(n, K) = MISE(n eff (K), K e ). Gauß Kern: Effizienz von ca. 0.95, Rechteck Kern: Effizienz von ca

29 Andere Methoden zur Bandweitenwahl Methoden der ersten Generation: Silverman s rule of thumb biased und unbiased cross validation Methoden der zweiten Generation: Plug-in Methode von Sheather and Jones smoothed Cross Validation Kontrastmethoden Bootstrap/Jackknife Methoden

35 Silverman s rule of thumb Unter Normalverteilungsannahme (f = ϕ) kann man die optimale Bandweite (1) in Abhängigkeit von σ berechnen: (f (x) ) 2 dx = σ 5 (ϕ(x)) 2 dx = 3 8 π σ σ 5, h opt = ( ) 1/5 4 σn 1/5 1.06σn 1/5. 3 Schätzt man σ aus den Daten, lässt sich damit auch h opt schätzen.

36 Kleinste Quadrate Kreuzvalidierung Betrachte integrierten quadratischen Fehler (ˆf f ) 2 = ˆf 2 2 ˆf f + f 2. Entscheidend: Mittleren Term schätzen. (Leave one out) Least Squares Cross Validation (LSCV): 1 ( ) x Xj ˆf i (x) = K. (n 1)h h Da der Bias nur von h und K abhängt, aber nicht von n, gilt: [ ] 1 ] ] E f ˆf i (X i ) = E n f [ˆfn (X n ) = E f [ˆf (X). i j i

37 Vergleich von Bandweiten

39 mehrdimensionale Kernfunktionen Modell: X 1,..., X n R p i. i. d. f. Definition (p-dimensionaler Kern) Eine Funktion K : R p R mit Regularitätsbedingungen: R p K(y)dy = 1 und K ist radialsymmetrische Wahrscheinlichkeitsdichte Beschränkter Träger oder zumindest x K(x) 0 für x 0

40 Mehrdimensionale Kernfunktionen Beispiele: uniformer Kern K(x) = 1 v p für x T x 1, Gaußkern K(x) = 1 (2π) p /2 exp ( 1 2 xt x ), Epanechnikovkern K(x) = 1+p/2 v p (1 x T x), x T x 1.

41 Multivariater Kernschätzer Definition Sei K : R p R ein Kern. ˆfn (x) = 1 nh p n ( x Xi K h i=1 ), x R p heißt multivariater Kerndichteschätzer mit Bandweite h und Kern K.

42 Multivariater Kernschätzer Definition Sei K : R p R ein Kern. ˆfn (x) = 1 nh p n ( x Xi K h i=1 ), x R p heißt multivariater Kerndichteschätzer mit Bandweite h und Kern K. Bias und Varianz: ) Bias h (ˆfn (x) = h2 2 ) Var h (ˆfn (x) = 1 nh p f (x) y 2 1 K(y)dy + O(h2 ), ( K 2 (y)dy + O n 1 h p).

43 Multivariater Kernschätzer Definition Sei K : R p R ein Kern. ˆfn (x) = 1 nh p n ( x Xi K h i=1 ), x R p heißt multivariater Kerndichteschätzer mit Bandweite h und Kern K. Minimierung des MISE: h p+4 opt = p n K 2 ( (y)dy ( y 2 1 K(y)dy ) 2 ) ( f (y)) 2 dy.

44 Darstellung zweidimensionaler Kernfunktionen Gaußkern und Epanechnikovkern mit p = 2

45 Verschiedene Bandweiten in unterschiedliche Richtungen Allgemeiner als in obiger Definition kann man den multivariaten Kerndichteschätzer mit einer Bandweitenmatrix H definieren: ˆfn (x) = 1 ( ) n H K H 1/2 (x X 1 /2 i ), x R p. Zuvor: H = h1 p, wobei 1 p die p dimensionale Einheitsmatrix bezeichnet In R: Diagonalmatrix H angebbar.

46 R Code: Zweidimensionale Kerndichteschätzung > l i b r a r y (MASS) > l i b r a r y ( KernSmooth ) > data ( f a i t h f u l ) > x< f a i t h f u l $ e r u p t i o n s > y< f a i t h f u l $ w a i t i n g > par ( mfrow=c ( 2, 2 ), pty ="m" ) > p l o t ( y, x, ylab =" e r u p t i o n ", xlab =" w a i t i n g " ) > z< kde2d ( x, y, lims=c (0,6,35,100)) > zz< bkde2d ( f a i t h f u l, range. x= l i s t ( c ( 0, 6 ), c ( 3 5, ) ), + bandwidth=c (bw. SJ ( x ),bw. SJ ( y ) ) ) > image ( z, xlab =" e r u p t i o n ", ylab =" w a i t i n g " ) > image ( zz$fhat, xlab =" e r u p t i o n ", ylab =" w a i t i n g " ) > persp ( z, c o l =" s l a t e g r e y ", t h e t a =35, x lim=c ( 0, 6 ), y lim=c (35,100), + t i c k t y p e =" d e t a i l e d ", xlab =" e r u p t i o n ", ylab =" w a i t i n g ", zlab = " " )

47 Zweidimensionale Kerndichteschätzung

48 > persp ( zz$x1, zz$x2, zz$fhat, c o l =" s l a t e g r e y ", + t h e t a =35, xlim=c ( 0, 6 ), ylim=c (35,100), + ticktype =" detailed ", xlab =" eruption ", + ylab =" w a i t i n g ", zlab = " " ) > contour ( zz$x1, zz$x2, zz$fhat )

49 Literatur Bernard W. Silverman Density estimation for statistics and data analysis. Chapman and Hall/CRC, Simon J. Sheather and M.C. Jones A Reliable Data-Based Bandwidth Selection Method for Kernel Density Estimation. Journal of the Royal Statistical Society, 53(3): , David W. Scott Multivariate Density Estimation: Theory, Practice and Visualization. New York: Wiley, 1992.

50 Literatur J. Steven Marron and Peter Hall and Byeong U. Park Smoothed Cross Validation. Probability Theory and Related Fields, 92:1-20, A. R. Mugdadi and Ibrahim A. Ahmad A Bandwidth Selection for Kernel Density Estimation of Functions of Random Variables. Computational Statistics and Data Analysis, 47(1):49-62, 1992.