17 Nichtparametrische Schätzer

Ähnliche Dokumente
22 Charakteristische Funktionen und Verteilungskonvergenz

Bootstrap: Punktschätzung

Verteilungsfreie Verfahren

6. Schätzverfahren für Parameter

13 Grenzwertsätze Das Gesetz der großen Zahlen

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Statistik I für Betriebswirte Vorlesung 13

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit

Statistik I für Betriebswirte Vorlesung 4

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Statistik I für Betriebswirte Vorlesung 3

4. Verteilungen von Funktionen von Zufallsvariablen

Reelle Zufallsvariablen

Das empirische VaR bzw. CVaR

Mathematik für Physiker, Informatiker und Ingenieure

ε δ Definition der Stetigkeit.

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Stetige Funktionen. Definition. Seien (X, d) und (Y, D) metrische Räume und f : X Y eine Abbildung. i) f heißt stetig in x 0 (x 0 D(f)), wenn

Wahrscheinlichkeit und Statistik: Zusammenfassung

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistische Methoden

Wahrscheinlichkeitsrechnung und Statistik

1 Konvergenz im p ten Mittel

DIFFERENTIATION PARAMETERABHÄNGIGER INTEGRALE

Punktschätzer Optimalitätskonzepte

3.3 Methoden zur Evaluierung von Schätzern

9 Robuste Methoden. 9.1 Einfluss und Robustheit. i (x i x) 2 = i x iy i. c 1 = x 2 + i (x i x) 2. Einfache Regression: 9.1 Einfluss und Robustheit 205

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik

Lösungsvorschlag zur Übungsklausur zur Analysis I

Probeklausur zur Analysis 2, SoSe 2017

Analysis I. Guofang Wang Universität Freiburg

Differential- und Integralrechnung

Eigenschaften stetiger Funktionen Buch Kap. 2.5

Charakteristische Funktionen

1.2 Summen von Zufallsvariablen aus einer Zufallsstichprobe

Statistik I für Betriebswirte Vorlesung 13

4 Messbare Funktionen

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

Allgemeine lineare Modelle

Wirtschaftsmathematik

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Mehrdimensionale Zufallsvariablen

Gewöhnliche Differentialgleichungen Woche 6. Existenz nach Picard-Lindelöf

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

Nachteile: STD existiert nur für Verteilungen mit E(FL 2 ) <, d.h. nicht ansetzbar bei leptokurtischen ( fat tailed ) Verlustverteilungen;

22 KAPITEL 1. GRUNDLAGEN. Um zu zeigen, dass diese Folge nicht konvergent ist, betrachten wir den punktweisen Limes und erhalten die Funktion

Zufallsvariablen. f(x) dx = 1. Die stetige Zufallsvariable X wird also durch seine Dichtefunktion beschrieben. P(c < X < d) =

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II

d(x, z) = z x = y x + z y y x + z y = d(x, y) + d(y, z). d(x, y) = 0, falls x = y.

Statistik und Wahrscheinlichkeitsrechnung

Zusammenfassung Analysis 2

18 Höhere Ableitungen und Taylorformel

Die Varianz (Streuung) Definition

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Korollar 116 (Grenzwertsatz von de Moivre)

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Statistik für Ingenieure Vorlesung 3

4.2 Moment und Varianz

Einführung in die (induktive) Statistik

Kapitel VII - Funktion und Transformation von Zufallsvariablen

2. Prinzipien der Datenreduktion

5. Funktional-Gleichung der Zetafunktion

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung

ist ein n-dimensionaler, reeller Vektorraum (vgl. Lineare Algebra). Wir definieren auf diesem VR ein Skalarprodukt durch i y i i=1

Mathematik II für Inf und WInf

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Aufgaben zu Kapitel 0

Analysis I für Studierende der Ingenieurwissenschaften

4.2 Grenzwerte und Stetigkeit reeller Funktionen

Musterlösung Klausur zu Analysis II. Verständnisteil

Spezifische innere Volumina

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte

2 Zufallsvariable, Verteilungen, Erwartungswert

2 Zufallsvariable und Verteilungsfunktionen

Bemerkung Als Folge von Satz 6.2 kann man jede ganze Funktion schreiben als Potenzreihe. α m z m. f(z) = m=0. 2πi. re it t [0,2π] 2πi

1 Verbandstheorie. Aufgabensammlung. Höhere Mathematik für Physiker III Wintersemester 2014

Wichtige Definitionen und Aussagen

Kapitel 6. Suffiziente Statistiken. 6.1 Vorbetrachtungen

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Vorlesung Mathematische Statistik. Inhalt in Stichworten. Reinhard Höpfner. Vorlesung 2004/2005 und 2007/2008

7.2 Moment und Varianz

Gesetze der großen Zahlen

3 Differenzierbarkeit und Ableitung (Differentialrechnung I)

Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie

Der Mittelwert (arithmetisches Mittel)

Integraldarstellung des Restgliedes; Lagrangesche Restgliedformel;

1.3 Zufallsvariablen

Kapitel 3 Schließende Statistik

Lösung zu Kapitel 5 und 6

Man kann also nicht erwarten, dass man immer den richtigen Wert trifft.

12 Aufgaben zu linearen Funktionalen

1. Übungsblatt. Zeige: Falls für jedes ε > 0 endlich viele ε-klammern existieren, die F überdecken, so gilt die Glivenko-Cantelli-Eigenschaft

Optimale Steuerung, Prof.Dr. L. Blank 1. II Linear-quadratische elliptische Steuerungsprobleme

20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen

1 Die direkte Methode der Variationsrechnung

Transkript:

17 Nichtparametrische Schätzer In diesem Paragraphen werden kurz einige Möglichkeiten skizziert, auch in nichtparametrischen Modellenzu Schätzern fürinteressierende statistische Größenzugelangen. a Empirische Verteilungsfunktionen in i.i.d. Stichproben Seien X 1,...,X n i.i.d. ZV. mit Werten in R k,b k und VF. F. Die empirische VF. F n x := 1 n I {Xi x}, x R k, n wobei wieder komponentenweise zu verstehen ist, liefert einen P-f.s. gleichmäßig konsistenten Schätzer für die zugrunde liegende VF. Fx := P X 1 x, x R k. Dies ist eine Konsequenz des folgenden Lemmas von Dvoretzky, Kiefer und Wolfowitz 1956: Lemma 17.1. Seien F n die empirische VF. einer i.i.d. Stichprobe X 1,...,X n mit VF. F auf R k,b k und d KS Fn,F := sup x F n x Fx, der Kolmogorov- Smirnov-Abstand zwischen F n und F. Dann gilt für a k = 1 : C > 0 unabhängig von F so, dass P d KS F n,f > α Ce 2nα2 α > 0, n N; b k 2 : ε > 0 C ε,k > 0 unabhängig von F so, dass P d KS F n,f > α C ε,k e 2 εnα2 α > 0, n N. Auf den Beweis von Lemma 17.1 muss hier verzichtet werden. Als unmittelbare Konsequenz ergibt sich: Satz 17.1. Unter den Voraussetzungen von Lemma 17.1 gilt: a d KS F n,f 0 P-f.s. n ; b E [ ndk,s F n,f ] p = O1 n p > 0; d KS F n,f = O p 1/ n n. 93

Bemerkung 17.1. Statt des Kolmogorov-Smirnov-Abstands d KS kann man andere Abstandsmaße benutzen, z.b. den Mallows-Abstand d Mp F,G := inf E X Y p 1/p, wobei das Infimum genommen wird über der Menge aller ZV. X und Y, die p-te Momente p 1 und VF. F und G besitzen, oder den L p -Abstand bei k = 1 d Lp F,G := Fx Gx p dx 1 p, falls die E.W. unter F und G existieren. Es gilt unter den obigen Momentenbedingungen, vgl. Shao 2003 : a d Mp F n,f 0 P-f.s. n ; b d Lp F n,f 0 P-f.s. n und E [ ndlp F n,f ] = O1 n, falls 1 p 2 und [ Fx1 Fx ] p/2 dx <, oder falls p 2. b Statistische Funktionale In vielen nicht-parametrischen Problemen besteht Interesse, nicht ausschließlich die zugrunde liegende VF. F etwa im i.i.d. Fall zu untersuchen, sondern eventuell nur charakteristische Parameter der Verteilung zu studieren. Letztere lassen sich in der Regel in der Form TF schreiben, wobei T : F R l ein statistisches Funktional ist auf der Menge F der zugrunde liegenden VF. In einer i.i.d. Stichprobe X 1,...,X n reeller ZV. mit VF. F stellt z.b. der E.W. E F X = xdfx ein solches Funktional dar, das in natürlicher Weise über die empirische Version E Fn X = xdf n x = 1 n n X i, also das arithmetische Mittel, geschätzt werden kann. Ein weiteres Beispiel liefern Quantile F 1 p := inf{x : Fx p} 0 < p < 1, die mittels der Stichprobenquantile Fn 1 p geschätzt werden können. 94

Wir untersuchen exemplarisch das asymptotische Verhalten reeller Funktionale TF n für i.i.d. Stichproben X 1,...,X n l = 1; die Behandlung im Fall l 2 verläuft analog. Die Idee hierbei ist, unter bestimmten Regularitäts- Differenzierbarkeits- bedingungen, die Asymptotik von TF n auf die von F n zurückzuführen. Definition 17.1. Sei T : F R ein reelles Funktional auf einer Menge F von VF. auf R k,b k und setze D := { cf G F,G F, c R }. a Das Funktional T : F R heißt Gâteaux-differenzierbar in F F, falls ein lineares Funktional L F : D R existiert derart, dass für D und F +t F gilt: [ TF +t TF lim t 0 t ] L F = 0. b Sei d eine Metrik auf F, die durch eine Norm auf D induziert ist, d.h. df, G = F G. Das Funktional T : F R heißt d-hadamard-differenzierbar in F F, falls ein lineares Funktional L F : D R existiert derart, dass für alle Nullfolgen t j 0 j und konvergenten Folgen j, d.h. j 0 j, mit, j D und F +t j j F j = 1,2,... gilt: [ ] TF +tj j TF lim L F j j t j = 0. c Sei d eine Metrik auf F. Das Funktional T : F R heißt d-fréchetdifferenzierbar in F F, falls ein lineares Funktional L F : D R existiert derart, dass für {F j } F mit df j,f 0 j gilt: [ ] TFj TF L F F j F lim j df j,f = 0. Das Funktional L F heißt Differential Ableitung von T in F. Bezeichnet δ x die VF. der Punktmasse in x, so heißt φ F x := L F δ x F, x R, die Influenzfunktion von T in F vgl. Hampel 1974. Falls T Gâteaux-differenzierbar ist in F, so folgt mit t = 1/ n, = n F n F : n [ TFn TF ] = L F nfn F + R n 17.1 mit einem stochastischen Restglied R n. 95

Da L F linear ist, gilt: 17.2 L F nfn F = 1 n n φ F X i D n N 0,σ 2 F, falls E [ φ F X 1 ] = 0, σ 2 F = E[ φ F X 1 ] 2 <. Würde nun 17.3 R n = o p 1 n gelten, so folgte aus 17.1 17.3 sofort 17.4 n [ TFn TF ] D n N 0, σ 2 F. Leider liefert die Gâteaux-Differenzierbarkeit i.a. nicht 17.3 oder 17.4, so dass stärkere Differenzierbarkeitsvoraussetzungen benötigt werden. Es gilt der folgende Satz zur asymptotischen Normalität statistischer Funktionale: Satz 17.2. Seien X 1,X 2,... i.i.d. R k,b k -ZV. mit VF. F und T : F R ein reelles statistisches Funktional. a Ist T d KS -Hadamard-differenzierbar in F F, so gilt für das Restglied R n in 17.1: R n = o p 1 n ; b Ist T d-fréchet-differenzierbar in F F und gilt df n,f = O p 1/ n n, so folgt für R n aus 17.1 ebenfalls R n = o p 1 n ; c Unter den Voraussetzungen von a oder b und von 17.2 liegt asymptotische Normalität von TF n vor, d.h. n [ TFn TF ] D n N 0, σ 2 F. 96

Beispiel 17.1. a T : F R, F ψxdfx, wobei ψ : R k R F-integrierbar sei für F F. Dann ist T ein lineares Funktional auf D und folglich d-fréchet-differenzierbar für jede Metrik d auf F. b Sei F reelle VF. und F > 0 auf R. Dann ist das Quantil-Funktional TF := F 1 p, F F, p 0,1 fest, d KS -Hadamard-differenzierbar vgl. Fernholz 1983. Unter den Voraussetzungen von Satz 17.2 c liegt also asymptotische Normalität vor. Beispiel 17.1 b lässt sich aber auch direkt unter schwächeren Voraussetzungen, s.u. behandeln. Als weiteres Beipiel betrachten wir M Schätzer Sei ρ : R k R R und seien für F F die Integrale ρx,tdfx wohldefiniert, wobei t Θ, Θ offen in R. Ein M-Funktional ist definiert als Lösung von 17.5 ρ x,tf dfx = min t Θ ρx,tdfx, F F. Seien X 1,...,X n i.i.d. mit VF. F F und empirischer VF. F n, so heißt TF n M-Schätzer für TF. Existiert ψx,t = ρx,t t λ 1 -f.ü. und gilt 17.6 λ F t = ψx,tdfx = d dt ρx,tdfx, [ Vertauschung von Differentiation und Integration ] so folgt, dass λf TF = 0. 97

Beispiel 17.2. a ρx,t = x t 2 /2. Dann gilt: ψx,t = t x; TF = xdfx E.W. Funktional; TF n = X n arithmetisches Mittel. b ρx,t = x t p /p, p [1,2, fest. Dann gilt: ψx,t = { x t p 1, x < t ; x t p 1, x > t. Für p = 1 : TF = Median von F ; TF n = Stichprobenmedian; Für 1 < p < 2 : TF n = Minimum-L p -Schätzer. c Sei F = { P ϑ = f ϑ µ : ϑ Θ R 1} eine parametrische Familie von Verteilungen und ρx,t = logf t x. Jeder ML-Schätzer TF n := ˆϑ liefert dann einen M-Schätzer für ϑ; ML-Schätzer sind also spezielle M-Schätzer. d Sei C > 0 konstant. Huber 1964 betrachtet ρx,t = { x t 2 /2, x t C ; C 2 /2, x t C. mit ψx,t = { t x, x t C ; 0, x t > C. Den zugehörigen M-Schätzer TF n nennt man auch ein getrimmtes Mittel. e Hampel 1974 betrachtet ψx,t = ψ 0 x t mit ψ 0 s = ψ 0 s und s, 0 s a ; a, a < s b ; ψ 0 s = ac s, b < s c ; c b 0, s > c, mit Konstanten 0 < a < b < c. Eine geglättete Version von ψ 0 liefert ψ 1 s = { sinas, 0 s π/a ; 0, s > π/a. 98

Das folgende Resultat zeigt, dass M-Schätzer mit stetiger, beschränkter ψ-funktion d KS -Hadamard-differenzierbar sind und TF n folglich asymptotisch normal ist im Sinne von 17.4, da die zugehörige Influenzfunktion φ ebenfalls stetig und beschränkt ist. Satz 17.3. Seien T ein M-Funktional gemäß 17.5, ψ = ψx,t stetig und beschränkt auf R k R und λ F = λ F t aus 17.6 stetig differenzierbar in TF mit λ F TF 0. Dann ist T d KS -Hadamard-differenzierbar in F mit φ F x = ψ x,tf, x R. TF λ F c Stichprobenquantile Seien X 1,...,X n i.i.d. mit stetiger reeller VF. F, empirischer Verteilungsfunktion F n und Ordnungsstatistiken X 1:n... X n:n. Da F stetig ist, gilt wieder P X 1:n <... < X n:n = 1. Für p 0,1, fest, sei das p-quantil x p := F 1 p := inf { x Fx p } zu schätzen. Das Stichprobenquantil ˆx p := Fn 1p ist ein geeigneter Schätzer. Man beachte, dass P-f.s. gilt: F n x = k n für X k:n x < X k+1:n k = 1,...,n 1, folglich, mit k p = np, also k p 1 < np k p : F n Xkp:n p, Fn Xkp 1:n < p, d.h. ˆxp = X kp:n. Wir zeigen, dass Ordnungsstatistiken unter bestimmten Voraussetzungen konsistent und asymptotisch normal sind. Satz 17.4. Für das p-quantil x p gelte Fx > p x > x p. Dann gilt für k = np+on : X kn P x p n. 99

Satz 17.5. Sei F differenzierbar an der Stelle x p mit F x p > 0. Dann gilt für k = np+o n : n Xk:n x D p1 p p N 0, F x p 2 n. Bemerkung 17.2. Da ˆx p = X np :n und np = np + O1, liefern die Sätze 17.4 und 17.5 sofort die Konsistenz und asymptotische Normalität der Stichprobenquantile unter den entsprechenden Voraussetzungen. d Kernschätzer Seien X 1,...,X n i.i.d. ZV. mit reeller VF. F und einer λ 1 -Dichte f. Die empirische Verteilungsfunktion ˆF n x = 1 n n I {Xi x}, x R, liefert, bei beobachteten X 1,...,X n, eine diskrete VF. alsschätzer fürdieunbekannte VF. F, nämlich so, dass jede Beobachtung X i das Gewicht 1 n erhält. Bei angenommener Dichte f versucht man, mit Hilfe einer Kernfunktion K diese diskreten Punktmassen zu verschmieren smoothing, um so zu einer stetigen Schätzung für die unbekannte Verteilung -sdichte zu gelangen. Konkret sei K = Ku eine W-Dichte auf R 1,B 1 mit E.W. Varianz u 2 Kudu = 1. Die ZV. ukudu = 0 und 17.7 ˆf n x := 1 n n 1 h K x Xi, x R, h heißt Kernschätzer für f mit Kernfunktion K und Bandweite h = h n. Anschaulich gesprochen bilden die Funktionen x 1 nh K x Xi h Dichtefunktionen mit Massen 1 n, die um die Beobachtungen Xi herum konzentriert sind und sich zu einer W-Dichte mit Gesamtmasse 1 aufsummieren. 100

Ein gebräuchliches Maß für die Güte des Kernschätzers ˆfn ist der mittlere integrierte quadratische Fehler Mean Integrated Square Error MISE : 17.8 MISE f ˆfn = = E f ˆfn x fx 2 dx Var f ˆfn x Ef dx + ˆfn x fx 2 dx, der sich als Summe eines integrierten Varianzterms und eines Biasterms darstellen lässt. Es wird sich zeigen, dass der Varianzterm von der Ordnung O 1 nh ist, während der Biasterm die Ordnung O h 4 hat. Die Bandweite h sollte also möglichst groß sein, um die Varianz gering zu halten, andererseits aber möglichst klein, um den Bias zu verringern. Eine ausgewogene Wahl der Bandweite, d.h. mit 1 nh h4, führt zu einer optimalen Wahl von h n 1/5. Eine genaue Abschätzung liefert Satz 17.6. Seien f eine zweimal stetig differenzierbare W-Dichte bzgl. λ 1 mit f x 2 dx < und K eine Kernfunktion mit ukudu = 0 sowie u 2 Kudu < und K 2 udu <. Dann gibt es eine Konstante C = C f derart, dass für h > 0 gilt: E f ˆfn x fx 2 1 dx C nh +h4. Für h = h n n 1/5 n folgt somit: 1 MISE f ˆfn = O n. n 4/5 Bemerkung 17.3. Benutzt man eine Kernfunktion K i.a. keine W-Dichte mit Kudu = 1, u l Kudu = 0 l = 1,...,r 1, u r Kudu < r 2, K 2 udu <, und ist f r-mal stetig differenzierbar mit f r x 2 dx <, so lässt sich die Güte des Kernschätzers wie folgt verbessern: C = C f h > 0 Ef ˆfn x fx 2 1 dx C nh +h2r. Für h n n 1/2r+1 : Letztere Rate ist optimal MISE f ˆfn = O n 2r/2r+1 n. vgl. van der Vaart 1998. 101