Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 1 Bootstrap: Punktschätzung 1. Die Grundidee 2. Plug-in Schätzer 3. Schätzung des Standardfehlers 4. Schätzung und Korrektur der Verzerrung 5. Konsistenz des Bootstraps
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 2 1. Die Grundidee Nehmen wir an, daß wir eine Stichprobe x = (x 1, x 2,..., x n ) aus einer Population genommen und eine Prüfgröße t(x) aus x berechnet haben. Wir möchten jetzt die Verteilung von t(x) bestimmen oder schätzen. Wäre es am einfachsten, wenn wir die Verteilung empirisch bestimmen könnten: wir würden weitere (oder alle mögliche) Stichproben von demselbem Umfang aus der Population nehmen und für jede Stichprobe t(x) berechnen: damit würden wir die Verteilung von t(x) erhalten. Wenn es nicht möglich ist, nehmen wir Stichproben aus der beobachteten Stichprobe x und rechnen damit als ob sie aus der Population stammten! (*-Bezeichnung: x und x*, t und t*, usw.)
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 3 Je besser die beobachtete Stichprobe die Population wiederspiegelt, desto besser ist die Übereinstimmung zwischen der wahren Verteilung und der Bootstrap-Verteilung. Der Name kommt aus dem Märchen über den Lügenbaron von Münchhausen, der sich an den Haaren in der englischen Version an der Stiefelschlaufe (=bootstrap) aus dem Wasser gezogen hat.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 4 2. Plug-in Schätzer Parameter und Funktionale In der parametrischen Statistik schätzt man die Parameter einer Verteilung (d. h. Parameter der Verteilungs- oder Dichtefunktion). Beispiele: die Parameter µ oder σ der Normalverteilung, der Parameter λ der Exponentialverteilung, usw. In der nichtparametrischen Statistik sind die zu schätzenden Größen nicht Parameter im obigen Sinn, sondern Funktionale. Beispiel: nichtparametrisch formuliert man den Mittelwert einer Variable X (verteilt nach Q) als E(X) oder E(Q) = xdq = xf ( x) dx. (Diese Definition ist auch in der parametrischen Statistik gültig.)
Plug-in Schätzer Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 5 Bezeichne t(q) einen beliebigen Funktional der Verteilung Q. Die plug-in Schätzung von t(q) ist t(q n ), wobei Q n die empirische Verteilung ist. Noch genauer könnte man t Q (Q n ) schreiben, um zu betonen, dass Q n von einer Stichprobe aus der Verteilung Q stammt. Die von der Stichprobe x = (x 1,, x n ) stammende empirische Verteilung ist ein Maß mit Gewichten 1/n an den Werten x i 1 Q ( A) =. n n x A Daher ist die empirische Verteilungsfunktion 1 F ( x) =. n i x i n < x
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 6 Beispiele: Der Stichprobemittelwert ist die plug-in Schätzung für den Mittelwert 1 E( Qn ) = xdqn = xi = x i n Die unkorrigierte Varianz ist die plug-in Schätzung für die Varianz var( Q 2 2 2 1 2 n ) = x dqn E ( Qn ) = xi x = i n (die korrigierte Varianz ist keine plug-in Schätzung!) usw. Da Q n eine konsistente Schätzung für Q liefert, wenn der Funktional t(.) bei Q stetig ist, dann t(q n ) t(q) in Verteilung. s 2
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 7 Beim Bootstrap zieht man Stichproben x* aus der empirischen Verteilung F n, und schätzt die Verteilung der Prüfgröße t(f n ) mit der Verteilung von t(f n *), wobei F n * die von x* stammende, empirische Verteilung bezeichnet. x ist eine Stichprobe aus F F n ist die empirische Verteilung basiert auf x t(f n ) ist ein beobachteter Wert der Prüfgröße Q F (t) ist die zu schätzende Verteilung der Prüfgröße x* ist eine Stichprobe aus F n F n * ist die empirische Verteilung basiert auf x* t*=t(f n *) ist ein bootstrap Wert der Prüfgröße Q Fn (t*) ist die bootstrap Verteilung der Prüfgröße Und wie kann man das ohne Stichprobennahme beschreiben?
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 8 Für einen Schätzer t(f) möchte man die Verteilung von t(f n ) bestimmen. Problem: die Verteilung F ist unbekannt. Wenn man die unbekannte Verteilung F mit der bekannten Verteilung F n ersetzt, bleibt nichts unbekannt. So erhält man die Verteilung von t(f n *) als Schätzung für die Verteilung von t(f n ). Definition: Beim Bootstrap-Verfahren ersetzt man F(x) durch F n (x) (unabhängig davon, ob man simuliert oder alles theoretisch ausrechnet). Manchmal ist es nur schneller oder bequemer zu simulieren, manchmal ist Simulation die einzige Möglichkeit. Die Bootstrap Verteilung ist die plug-in Schätzung der Prüfverteilung.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 9 Parametrisches Bootstrap Wenn man eine parametrische Voraussetzung über die Verteilung hat, kann man die Stichproben von der vorausgesetzten Verteilung nehmen (Parameter geschätzt aufgrund der Stichprobe). Beispiel: Bei der Exponentialverteilung möchte man die Verteilung von Interquantilsabstand schätzen. Oder die Verzerrung von trimmed mean unter Exponentialverteilung. In diesen Fällen ist es besser nicht direkt von der Stichprobe zu simulieren. Bei einigen parametrischen Voraussetzungen kann man die Verteilung auch theoretisch bestimmen, aber das ist viel mühsamer als die Simulation. In manchen Fällen geht das aber gar nicht.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 10 Ähnliches gilt für nichtparametrische Annahmen. Wenn man z.b. die Voraussetzung hat, dass die Verteilung symmetrisch ist, kann man die empirische Verteilung symmetrisieren und von dieser symmetrisierten Verteilung simulieren.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 11 3. Schätzung des Standardfehlers Der Standardfehler eines Schätzers kann einfach von der Bootstrap-Verteilung geschätzt werden. SE F (t) wird durch SE Fn (t*) geschätzt, wobei t* = t(f n *). Die klassische (unkorrigierte) Schätzung des Standardfehlers des Mittelwertes ist auch eine Bootstrap-Schätzung. var( F) SE F ( x) = wird durch n SE var( Fn ( x*) = geschätzt. n F n ) Und dazu braucht man keine simulierte Stichprobennahme, in diesem Fall kann man alles völlig theoretisch ausrechnen. (Aber das ist leider nur eine Ausnahme.)
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 12 4. Schätzung und Korrektur der Verzerrung Sei θ ein Parameter der Verteilung F, oder der Wert eines Funktionals für die Verteilung F: θ = t(f). x eine Stichprobe vom Umfang n aus F. θˆ ein Schätzer für θ, in allgemeinen θ ˆ = s( x), oder speziell θ ˆ = t( Fˆ ) (der plug-in Schätzer, wobei Fˆ die empirische Verteilung bezeichnet.) Die Verzerrung von θˆ wird als definiert. bias F (θˆ) = E F (θˆ) θ = E F (s(x)) t(f)
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 13 Die Schreibweise bias F (θˆ) und E F (θˆ) betont, daß die Verzerrung eines Schätzers von der wahrenverteilung abhängt. Die Verzerrung von θˆ kann mit dem Bootstrap geschätzt werden: bias ( ˆ) = E ( ˆ) θ = E F ( s( x)) t(f) Fˆ θ Fˆ θ ˆ Der Bootstrap Schätzer der Verzerrung ist ein plug-in Schätzer (anstelle von F wird Fˆ in die Formel eingesteckt) unabhängig davon, ob s(x) der plug-in Schätzer für t(f) ist oder nicht. bias ( ˆ) ist eine Schätzung für bias F (θˆ) Fˆ θ
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 14 Beispiel: Gamma-Verteilung Parameter: α > 0, λ > 0 Dichtefunktion: f α λ α 1 λx ( x) = x e x 0 Γ ( α) (Spezialfälle: Exponential, Erlang, Chi-quadrat) Parameterschätzung (mit der Methode der Momenten): 2 x α ˆ = und ˆ x = 2 2 s 1 λ, wobei s ( x n s i= 1 = n Schätzung für α verzerrt, Verzerrung kann aber mit dem Bootstrap geschätzt und korrigiert werden. 2 i x) 2
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 15 Simulation mit 10000 Stichproben von Umfang n = 15 aus der Gamma-Verteilung mit α = 3, λ = 1. Gamma-Verteilung mit alpha = 3 und lambda = 1 Haufigkeit 0 20000 0 5 10 15 Wert Für jede Stichprobe wurde α geschätzt und mit dem Bootstrap- Verfahren (mit 300 Bootstrap Replikationen) Bias-korrigiert.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 16 Histogramme der Verzerrung des Schätzers für α ohne und mit Korrektur. Mittelwert der Verzerrung unkorrigiert: 0.903 korrigiert: -0.053 Haufigkeit 0 1500 Verzerrung ohne Korrektion -10 0 10 20 30 Mittlerer quadratischer Fehler vom wahren Wert α = 3 unkorrigiert: 4.012 korrigiert: 2.280 Korrektur war jetzt nützlich. Haufigkeit 0 2000 Bootstrap korrigierte Verzerrung -10 0 10 20 30
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 17 Die Korrektur funktioniert aber nicht immer. Es kann sein, daß der Mittelwert der Verzerrung ganz klein ist, aber der mittlere quadratische Fehler viel größer ist als ohne Korrektur. Erklärung: da der Korrekturfaktor vom Zufall abhängt, hat er einen zufälligen Fehler, der in einem unglücklichen Fall ziemlich groß sein kann. Wenn man den Korrekturfaktor und den Schätzer addiert, werden auch die zufälligen Fehler summiert. Beispiel: Variationskoeffizient var( X ) CV = geschätzt durch E( X ) CV = Simulation mit 10000 Stichproben von Umfang n = 15 aus der Exponentialverteilung mit λ = 1. Bei der Exponentialverteilung gilt E(X) = var (X) = 1/λ. Daher ist CV = 1. s x.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 18 Histogramme von Verzerrung der Schätzung für CV ohne und mit Korrektur. Mittelwert der Verzerrung unkorrigiert: -0.0538 korrigiert: -0.0002 Haufigkeit 0 1000 Verzerrung ohne Korrektion -1.0-0.5 0.0 0.5 1.0 1.5 2.0 Mittlerer quadratischer Fehler vom wahren Wert CV = 1 unkorrigiert: 0.0474 korrigiert: 0.0636 Jetzt ist es mit Korrektur schlimmer als ohne. Haufigkeit 0 1000 Bootstrap korrigierte Verzerrung -1.0-0.5 0.0 0.5 1.0 1.5 2.0
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 19 Woher weiß man, wann man korrigieren soll und wann nicht? Ganz sicher weiß man das nicht. Faustregel: Wenn die Bootstrap Verzerrung kleiner als 50% des Bootstrap Standardfehlers ist, lohnt es sich wahrscheinlich nicht die Verzerrung zu korrigieren.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 20 5. Konsistenz des Bootstraps Konsistenz, wenn eine Verteilungsfunktion geschätzt wird Sei ρ eine Metrik zwischen den Verteilungsfunktionen in R n. Am häufigsten ist dies die Supremum-Metrik: ρ(f, G) = sup x R n F(x) G(x). Sei F n eine Folge von Schätzungen für F. F n wird konsistent genannt, wenn ρ(f n, F) in W. 0 und stark konsistent genannt, wenn ρ(f n, F) f. s. 0. Beispiel: die empirische Verteilung ist eine konsistente Schätzung der Verteilung.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 21 Resultate über die Konsistenz des Bootstraps (nichtparametrisches Bootstrap, Stichprobe i.i.d.) Shao and Tu (Springer, 1995) 71-128. Funktionen des Stichprobenmittelwertes: T n = g( X n ) Hinreichende Bedingung für starke Konzistenz des Bootstraps: E( X 2 )<, g(.) stetig differenzierbar bei E(X) mit Ableitung 0 U-Statistiken L-Statistiken Differenzierbare Funktionale Beran and Ducharme (Univ. Montreal, 1991) Mammen (Springer, 1992)
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 22 Inkonsistenz des Bootstraps Einige Gründe, wegen denen die bootstrap Punktschätzung inkonsistent sein kann: t(f n ) nicht differenzierbar Beispiel: t(f n ) = x, wenn E(F) = 0, var(f) < Beispiel: Gleichverteilung auf [0,θ], t(f n ) = max(f n ) Heavy-tailed Verteilung der Daten Es kann passieren, dass t(f n ) eine Grenzverteilung mit Varianz < hat, aber var(t(f n *)). Subsampling hilft in meisten Fällen dieser Art.
Resampling Methoden Dortmund, 2005 (Jenő Reiczigel) 23 Konsistenz des Subsampling-Verfahrens Sei n der Stichprobenumfang und m n der Umfang der bootstrap Stichproben (m n < n). Wenn n, m n /n 0 und t(f n ) eine Grenzverteilung hat, ist die Schätzung der Verteilung von t(f n ) durch Subsampling konsistent. (Politis and Romano, Bull. Int. Stat. Inst. 2, 315-316.)