17 Nichtparametrische Schätzer

17 Nichtparametrische Schätzer In diesem Paragraphen werden kurz einige Möglichkeiten skizziert, auch in nichtparametrischen Modellenzu Schätzern fürinteressierende statistische Größenzugelangen. a Empirische Verteilungsfunktionen in i.i.d. Stichproben Seien X 1,...,X n i.i.d. ZV. mit Werten in R k,b k und VF. F. Die empirische VF. F n x := 1 n I {Xi x}, x R k, n wobei wieder komponentenweise zu verstehen ist, liefert einen P-f.s. gleichmäßig konsistenten Schätzer für die zugrunde liegende VF. Fx := P X 1 x, x R k. Dies ist eine Konsequenz des folgenden Lemmas von Dvoretzky, Kiefer und Wolfowitz 1956: Lemma 17.1. Seien F n die empirische VF. einer i.i.d. Stichprobe X 1,...,X n mit VF. F auf R k,b k und d KS Fn,F := sup x F n x Fx, der Kolmogorov- Smirnov-Abstand zwischen F n und F. Dann gilt für a k = 1 : C > 0 unabhängig von F so, dass P d KS F n,f > α Ce 2nα2 α > 0, n N; b k 2 : ε > 0 C ε,k > 0 unabhängig von F so, dass P d KS F n,f > α C ε,k e 2 εnα2 α > 0, n N. Auf den Beweis von Lemma 17.1 muss hier verzichtet werden. Als unmittelbare Konsequenz ergibt sich: Satz 17.1. Unter den Voraussetzungen von Lemma 17.1 gilt: a d KS F n,f 0 P-f.s. n ; b E [ ndk,s F n,f ] p = O1 n p > 0; d KS F n,f = O p 1/ n n. 93

Bemerkung 17.1. Statt des Kolmogorov-Smirnov-Abstands d KS kann man andere Abstandsmaße benutzen, z.b. den Mallows-Abstand d Mp F,G := inf E X Y p 1/p, wobei das Infimum genommen wird über der Menge aller ZV. X und Y, die p-te Momente p 1 und VF. F und G besitzen, oder den L p -Abstand bei k = 1 d Lp F,G := Fx Gx p dx 1 p, falls die E.W. unter F und G existieren. Es gilt unter den obigen Momentenbedingungen, vgl. Shao 2003 : a d Mp F n,f 0 P-f.s. n ; b d Lp F n,f 0 P-f.s. n und E [ ndlp F n,f ] = O1 n, falls 1 p 2 und [ Fx1 Fx ] p/2 dx <, oder falls p 2. b Statistische Funktionale In vielen nicht-parametrischen Problemen besteht Interesse, nicht ausschließlich die zugrunde liegende VF. F etwa im i.i.d. Fall zu untersuchen, sondern eventuell nur charakteristische Parameter der Verteilung zu studieren. Letztere lassen sich in der Regel in der Form TF schreiben, wobei T : F R l ein statistisches Funktional ist auf der Menge F der zugrunde liegenden VF. In einer i.i.d. Stichprobe X 1,...,X n reeller ZV. mit VF. F stellt z.b. der E.W. E F X = xdfx ein solches Funktional dar, das in natürlicher Weise über die empirische Version E Fn X = xdf n x = 1 n n X i, also das arithmetische Mittel, geschätzt werden kann. Ein weiteres Beispiel liefern Quantile F 1 p := inf{x : Fx p} 0 < p < 1, die mittels der Stichprobenquantile Fn 1 p geschätzt werden können. 94

Wir untersuchen exemplarisch das asymptotische Verhalten reeller Funktionale TF n für i.i.d. Stichproben X 1,...,X n l = 1; die Behandlung im Fall l 2 verläuft analog. Die Idee hierbei ist, unter bestimmten Regularitäts- Differenzierbarkeits- bedingungen, die Asymptotik von TF n auf die von F n zurückzuführen. Definition 17.1. Sei T : F R ein reelles Funktional auf einer Menge F von VF. auf R k,b k und setze D := { cf G F,G F, c R }. a Das Funktional T : F R heißt Gâteaux-differenzierbar in F F, falls ein lineares Funktional L F : D R existiert derart, dass für D und F +t F gilt: [ TF +t TF lim t 0 t ] L F = 0. b Sei d eine Metrik auf F, die durch eine Norm auf D induziert ist, d.h. df, G = F G. Das Funktional T : F R heißt d-hadamard-differenzierbar in F F, falls ein lineares Funktional L F : D R existiert derart, dass für alle Nullfolgen t j 0 j und konvergenten Folgen j, d.h. j 0 j, mit, j D und F +t j j F j = 1,2,... gilt: [ ] TF +tj j TF lim L F j j t j = 0. c Sei d eine Metrik auf F. Das Funktional T : F R heißt d-fréchetdifferenzierbar in F F, falls ein lineares Funktional L F : D R existiert derart, dass für {F j } F mit df j,f 0 j gilt: [ ] TFj TF L F F j F lim j df j,f = 0. Das Funktional L F heißt Differential Ableitung von T in F. Bezeichnet δ x die VF. der Punktmasse in x, so heißt φ F x := L F δ x F, x R, die Influenzfunktion von T in F vgl. Hampel 1974. Falls T Gâteaux-differenzierbar ist in F, so folgt mit t = 1/ n, = n F n F : n [ TFn TF ] = L F nfn F + R n 17.1 mit einem stochastischen Restglied R n. 95

Da L F linear ist, gilt: 17.2 L F nfn F = 1 n n φ F X i D n N 0,σ 2 F, falls E [ φ F X 1 ] = 0, σ 2 F = E[ φ F X 1 ] 2 <. Würde nun 17.3 R n = o p 1 n gelten, so folgte aus 17.1 17.3 sofort 17.4 n [ TFn TF ] D n N 0, σ 2 F. Leider liefert die Gâteaux-Differenzierbarkeit i.a. nicht 17.3 oder 17.4, so dass stärkere Differenzierbarkeitsvoraussetzungen benötigt werden. Es gilt der folgende Satz zur asymptotischen Normalität statistischer Funktionale: Satz 17.2. Seien X 1,X 2,... i.i.d. R k,b k -ZV. mit VF. F und T : F R ein reelles statistisches Funktional. a Ist T d KS -Hadamard-differenzierbar in F F, so gilt für das Restglied R n in 17.1: R n = o p 1 n ; b Ist T d-fréchet-differenzierbar in F F und gilt df n,f = O p 1/ n n, so folgt für R n aus 17.1 ebenfalls R n = o p 1 n ; c Unter den Voraussetzungen von a oder b und von 17.2 liegt asymptotische Normalität von TF n vor, d.h. n [ TFn TF ] D n N 0, σ 2 F. 96

Beispiel 17.1. a T : F R, F ψxdfx, wobei ψ : R k R F-integrierbar sei für F F. Dann ist T ein lineares Funktional auf D und folglich d-fréchet-differenzierbar für jede Metrik d auf F. b Sei F reelle VF. und F > 0 auf R. Dann ist das Quantil-Funktional TF := F 1 p, F F, p 0,1 fest, d KS -Hadamard-differenzierbar vgl. Fernholz 1983. Unter den Voraussetzungen von Satz 17.2 c liegt also asymptotische Normalität vor. Beispiel 17.1 b lässt sich aber auch direkt unter schwächeren Voraussetzungen, s.u. behandeln. Als weiteres Beipiel betrachten wir M Schätzer Sei ρ : R k R R und seien für F F die Integrale ρx,tdfx wohldefiniert, wobei t Θ, Θ offen in R. Ein M-Funktional ist definiert als Lösung von 17.5 ρ x,tf dfx = min t Θ ρx,tdfx, F F. Seien X 1,...,X n i.i.d. mit VF. F F und empirischer VF. F n, so heißt TF n M-Schätzer für TF. Existiert ψx,t = ρx,t t λ 1 -f.ü. und gilt 17.6 λ F t = ψx,tdfx = d dt ρx,tdfx, [ Vertauschung von Differentiation und Integration ] so folgt, dass λf TF = 0. 97

Beispiel 17.2. a ρx,t = x t 2 /2. Dann gilt: ψx,t = t x; TF = xdfx E.W. Funktional; TF n = X n arithmetisches Mittel. b ρx,t = x t p /p, p [1,2, fest. Dann gilt: ψx,t = { x t p 1, x < t ; x t p 1, x > t. Für p = 1 : TF = Median von F ; TF n = Stichprobenmedian; Für 1 < p < 2 : TF n = Minimum-L p -Schätzer. c Sei F = { P ϑ = f ϑ µ : ϑ Θ R 1} eine parametrische Familie von Verteilungen und ρx,t = logf t x. Jeder ML-Schätzer TF n := ˆϑ liefert dann einen M-Schätzer für ϑ; ML-Schätzer sind also spezielle M-Schätzer. d Sei C > 0 konstant. Huber 1964 betrachtet ρx,t = { x t 2 /2, x t C ; C 2 /2, x t C. mit ψx,t = { t x, x t C ; 0, x t > C. Den zugehörigen M-Schätzer TF n nennt man auch ein getrimmtes Mittel. e Hampel 1974 betrachtet ψx,t = ψ 0 x t mit ψ 0 s = ψ 0 s und s, 0 s a ; a, a < s b ; ψ 0 s = ac s, b < s c ; c b 0, s > c, mit Konstanten 0 < a < b < c. Eine geglättete Version von ψ 0 liefert ψ 1 s = { sinas, 0 s π/a ; 0, s > π/a. 98

Das folgende Resultat zeigt, dass M-Schätzer mit stetiger, beschränkter ψ-funktion d KS -Hadamard-differenzierbar sind und TF n folglich asymptotisch normal ist im Sinne von 17.4, da die zugehörige Influenzfunktion φ ebenfalls stetig und beschränkt ist. Satz 17.3. Seien T ein M-Funktional gemäß 17.5, ψ = ψx,t stetig und beschränkt auf R k R und λ F = λ F t aus 17.6 stetig differenzierbar in TF mit λ F TF 0. Dann ist T d KS -Hadamard-differenzierbar in F mit φ F x = ψ x,tf, x R. TF λ F c Stichprobenquantile Seien X 1,...,X n i.i.d. mit stetiger reeller VF. F, empirischer Verteilungsfunktion F n und Ordnungsstatistiken X 1:n... X n:n. Da F stetig ist, gilt wieder P X 1:n <... < X n:n = 1. Für p 0,1, fest, sei das p-quantil x p := F 1 p := inf { x Fx p } zu schätzen. Das Stichprobenquantil ˆx p := Fn 1p ist ein geeigneter Schätzer. Man beachte, dass P-f.s. gilt: F n x = k n für X k:n x < X k+1:n k = 1,...,n 1, folglich, mit k p = np, also k p 1 < np k p : F n Xkp:n p, Fn Xkp 1:n < p, d.h. ˆxp = X kp:n. Wir zeigen, dass Ordnungsstatistiken unter bestimmten Voraussetzungen konsistent und asymptotisch normal sind. Satz 17.4. Für das p-quantil x p gelte Fx > p x > x p. Dann gilt für k = np+on : X kn P x p n. 99

Satz 17.5. Sei F differenzierbar an der Stelle x p mit F x p > 0. Dann gilt für k = np+o n : n Xk:n x D p1 p p N 0, F x p 2 n. Bemerkung 17.2. Da ˆx p = X np :n und np = np + O1, liefern die Sätze 17.4 und 17.5 sofort die Konsistenz und asymptotische Normalität der Stichprobenquantile unter den entsprechenden Voraussetzungen. d Kernschätzer Seien X 1,...,X n i.i.d. ZV. mit reeller VF. F und einer λ 1 -Dichte f. Die empirische Verteilungsfunktion ˆF n x = 1 n n I {Xi x}, x R, liefert, bei beobachteten X 1,...,X n, eine diskrete VF. alsschätzer fürdieunbekannte VF. F, nämlich so, dass jede Beobachtung X i das Gewicht 1 n erhält. Bei angenommener Dichte f versucht man, mit Hilfe einer Kernfunktion K diese diskreten Punktmassen zu verschmieren smoothing, um so zu einer stetigen Schätzung für die unbekannte Verteilung -sdichte zu gelangen. Konkret sei K = Ku eine W-Dichte auf R 1,B 1 mit E.W. Varianz u 2 Kudu = 1. Die ZV. ukudu = 0 und 17.7 ˆf n x := 1 n n 1 h K x Xi, x R, h heißt Kernschätzer für f mit Kernfunktion K und Bandweite h = h n. Anschaulich gesprochen bilden die Funktionen x 1 nh K x Xi h Dichtefunktionen mit Massen 1 n, die um die Beobachtungen Xi herum konzentriert sind und sich zu einer W-Dichte mit Gesamtmasse 1 aufsummieren. 100

Ein gebräuchliches Maß für die Güte des Kernschätzers ˆfn ist der mittlere integrierte quadratische Fehler Mean Integrated Square Error MISE : 17.8 MISE f ˆfn = = E f ˆfn x fx 2 dx Var f ˆfn x Ef dx + ˆfn x fx 2 dx, der sich als Summe eines integrierten Varianzterms und eines Biasterms darstellen lässt. Es wird sich zeigen, dass der Varianzterm von der Ordnung O 1 nh ist, während der Biasterm die Ordnung O h 4 hat. Die Bandweite h sollte also möglichst groß sein, um die Varianz gering zu halten, andererseits aber möglichst klein, um den Bias zu verringern. Eine ausgewogene Wahl der Bandweite, d.h. mit 1 nh h4, führt zu einer optimalen Wahl von h n 1/5. Eine genaue Abschätzung liefert Satz 17.6. Seien f eine zweimal stetig differenzierbare W-Dichte bzgl. λ 1 mit f x 2 dx < und K eine Kernfunktion mit ukudu = 0 sowie u 2 Kudu < und K 2 udu <. Dann gibt es eine Konstante C = C f derart, dass für h > 0 gilt: E f ˆfn x fx 2 1 dx C nh +h4. Für h = h n n 1/5 n folgt somit: 1 MISE f ˆfn = O n. n 4/5 Bemerkung 17.3. Benutzt man eine Kernfunktion K i.a. keine W-Dichte mit Kudu = 1, u l Kudu = 0 l = 1,...,r 1, u r Kudu < r 2, K 2 udu <, und ist f r-mal stetig differenzierbar mit f r x 2 dx <, so lässt sich die Güte des Kernschätzers wie folgt verbessern: C = C f h > 0 Ef ˆfn x fx 2 1 dx C nh +h2r. Für h n n 1/2r+1 : Letztere Rate ist optimal MISE f ˆfn = O n 2r/2r+1 n. vgl. van der Vaart 1998. 101