Bootstrap-Konfidenzintervalle

Transkript

1 Bootstrap-Konfidenzintervalle Worum geht es in diesem Modul? Ausgangspunkt Grundlagen zum Bootstrap Die Idee des Bootstrap Das Bootstrap-t-Konfidenzintervall Simulation: Bootstrap-t-Konfidenzintervall bei Normalverteilung Simulation: Bootstrap-t-Konfidenzintervall bei kontaminierter Normalverteilung Simulation: Bootstrap-t-Konfidenzintervall bei Exponentialverteilung Worum geht es in diesem Modul? Abschließend wird mit dem Bootstrap-Konfidenzintervall eine Methode vorgestellt, mit der sich ein Konfidenzintervall mithilfe von Computer-Simulationen auch in Situationen aufstellen lässt, in denen die Verteilung nicht spezifiziert ist, aus der die Stichprobe stammt. Die Anwendung der Bootstrap-Methode wird an Beispielen demonstriert und kritisch hinterfragt. Dieses Modul hat eher Exkurs-Charakter. Ausgangspunkt In den vorherigen Modulen haben wir einige der gebräuchlichsten Konfidenzintervalle kennengelernt. Diese Konfidenzintervalle haben eine Gemeinsamkeit: Sie unterstellen alle ein bestimmtes Verteilungsmodell. Im Rahmen unserer Robustheitsbetrachtung (vgl. ) haben wir bereits festgestellt, dass sich für viele empirische Stichproben kein passendes theoretisches Verteilungsmodell finden lässt. Wenden wir unsere Konfidenzintervalle an, obwohl die Verteilungsannahmen nicht erfüllt sind, dann kann es zu schwerwiegenden Verletzungen des Konfidenzniveaus (vgl. ) kommen, die unter Umständen unbemerkt bleiben, weil wir in der Praxis den wahren Parameterwert nicht kennen und die Überdeckungshäufigkeit daher nicht bestimmen können. In diesem Modul - das eher Exkurs-Charakter aufweist - soll eine Einführung in ein relativ neues Verfahren zur Konstruktion von Konfidenzintervallen gegeben werden, das ohne spezifische Verteilungsannahmen auskommt. Bereits vorab soll darauf hingewiesen werden, dass auch dieses Verfahren, Bootstrap genannt, keinen Freibrief für die Konstruktion von "guten" Konfidenzintervallen bietet. Grundlagen zum Bootstrap Page 1

2 Die Konfidenzintervalle für und setzen Normalverteilung (vgl. ) voraus, d.h. das Konfidenzniveau wird nur dann eingehalten, wenn die Stichprobe aus einer Normalverteilung stammt. Stammt die Stichprobe aus einer anderen Wahrscheinlichkeitsverteilung, müsste man versuchen, Konfidenzintervalle auf Basis dieser Verteilung aufzustellen. In der Praxis ist aber in der Regel überhaupt nicht bekannt, aus welcher Verteilung die Stichprobe stammt. Die Wahrscheinlichkeitsverteilung ist ja nur ein Modell für das Verhalten der Zufallsvariablen und die Frage sollte daher nicht lauten, ob das Modell richtig oder falsch ist, sondern nur, ob das Modell das Verhalten der Zufallsvariablen ausreichend gut beschreibt. Aber auch diese Frage lässt sich - insbesondere bei kleinen Stichproben - schlecht beantworten. Neben der Möglichkeit, die Anwendung eines bestimmten Verteilungsmodells, z.b. das der Normalverteilung, zu unterstellen (eventuell unterstützt durch eine Modellvalidierung), gibt es auch noch andere Möglichkeiten. Man könnte versuchen, ohne Voraussetzung eines bestimmten Verteilungsmodells zu arbeiten, also weniger Modellvoraussetzungen zu machen. Eventuell könnte man nur die Unabhängigkeit der Beobachtungen oder auch die Symmetrie der Verteilung fordern. Die sich ergebenden Verfahren nennt man verteilungsfreie oder nichtparametrische Verfahren. Im Gegensatz dazu nennt man die statistischen Verfahren, die auf einer ganz bestimmten Verteilung oder Verteilungsfamilie beruhen, parametrische Verfahren. Die Konfidenzintervalle für und bei Normalverteilung und das Konfidenzintervall für den Anteilswert sind also parametrische Verfahren. Verteilungsfreie Konfidenzintervalle haben gegenüber denen, die wir bisher kennen, den Nachteil, dass sie breiter sind als parametrische Konfidenzintervalle zum selben Konfidenzniveau und dem selben Stichprobenumfang. Die geringere Präzision ist die Folge der nicht vorhandenen Verteilungsinformation. Wir wollen verteilungsfreie Konfidenzintervalle hier nicht betrachten. Stattdessen wollen wir uns im Folgenden mit der Bootstrap-Methode beschäftigen, die statt einer theoretischen Verteilung die empirische Verteilung der Stichprobe als Modell verwendet. Die Idee des Bootstrap Ein moderner Ansatz besteht darin, die Stichprobe selbst als Verteilungsmodell zu nehmen. Auf dieser Idee bauen die Bootstrap-Konfidenzintervalle auf, die im Jahre 1979 von Efron vorgeschlagen wurden. Bootstrapping ist zu verstehen als das "sich an den eigenen Haaren aus dem Sumpf ziehen". Page 2

3 Bradley Efron (*1938) Die Idee ist ganz einfach: Für die theoretische Herleitung wie auch für die Simulation der Konfidenzintervalle für und haben wir Normalverteilung unterstellt. D.h. wir haben unterstellt, dass die Stichproben aus einer Wahrscheinlichkeitsverteilung mit der Verteilungsfunktion der Normalverteilung stammen. Jetzt unterstellen wir, dass die Stichprobe aus einer Wahrscheinlichkeitsverteilung stammt, deren Verteilungsfunktion gleich der empirischen Verteilungsfunktion eben dieser Stichprobe ist. Zur Erinnerung: Die empirische Verteilungsfunktion ist eine monoton wachsende Treppenfunktion (vgl. ). Diese Treppenfunktion ist nun unser Modell für die Herleitung der Konfidenzintervalle. Vergleich der empirischen Verteilungsfunktion (schwarz) mit der theoretischen Verteilungsfunktion (rot) bei n=10 (links) und n=100 (rechts) - Modell: Standardnormalverteilung N(0,1) Die empirische Verteilungsfunktion schätzt nach dem Satz von Glivenko-Cantelli (auch "Hauptsatz der Statistik" genannt, vgl. ) ihr theoretisches Pendant um so besser, je größer der Stichprobenumfang ist - dieser Effekt wird in der Grafik deutlich. Das Bootstrap-t-Konfidenzintervall Wir benutzen das Modell der empirischen Verteilungsfunktion prinzipiell genau so wie bereits das Modell Normalverteilung. Entweder wir versuchen, auf dieser Modellgrundlage die Konfidenzintervalle theoretisch zu entwickeln. Das ist - von ganz wenigen Ausnahmen abgesehen - aussichtslos. Oder wir simulieren die Stichprobenergebnisse aus der Wahrscheinlichkeitsverteilung, die durch dieses empirische Modell definiert ist. So wie wir bisher in den Simulationen Zufallsstichproben vom Umfang aus der zugrunde liegenden Normalverteilung gezogen haben, ziehen wir jetzt Stichproben vom Umfang aus der vorliegenden Page 3

4 Basisstichprobe vom Umfang. Genauer gesagt: wir wählen nach dem Zufallsprinzip einen der Werte aus der Basisstichprobe aus, notieren ihn und legen ihn wieder zurück (damit die Unabhängigkeit gewahrt bleibt), wählen den nächsten aus usw., bis wir Werte als simulierte Stichprobe vom Umfang ausgewählt haben (zufälliges Ziehen mit Zurücklegen). Wiederholen wir diesen Vorgang, dann erhalten wir eine zweite, dritte,... Stichprobe vom Umfang aus unserer Basisstichprobe. Diese Stichproben nennen wir Replikationsstichproben, ihre Anzahl bezeichnen wir mit. Natürlich können auf diese Weise nur endlich viele neue Stichproben entstehen; bei jedem Zug eines neuen Wertes kann jeder der Werte der Basisstichprobe gezogen werden, bei Zügen gibt es daher Möglichkeiten. Bei einem Stichprobenumfang von wären das, bei schon Milliarden mögliche Stichproben und bei wären das, eine unvorstellbar große und auch durch schnelle Computer nicht erreichbare Anzahl von Stichproben. Wir ziehen also aus unserer Basisstichprobe in einer Simulation Stichproben nach dem Zufallsprinzip, z.b., und berechnen jeweils und sowie den Wert der Zufallsvariablen, die den Ausgangspunkt der Herleitung des Konfidenzintervalls für gebildet hatte. Für setzen wir jetzt den Mittelwert unseres empirischen Verteilungsmodells, der Basisstichprobe, ein. In der Häufigkeitsverteilung, die sich aus den Werten ergibt, können wir nun die empirischen Quantile und bestimmen. Diese treten jetzt an die Stelle der Quantile der t-verteilung, die wir vorher für die Abgrenzung des Konfidenzintervalls benutzt haben. Nachdem wir die empirischen Quantile und durch Simulation bestimmt haben, gehen wir weiter so vor wie früher: Sind und Mittelwert und Standardabweichung der Basisstichprobe, dann ist ein Bootstrap-Konfidenzintervall für zum Konfidenzniveau gegeben durch Page 4

5 . Wir machen also fast das gleiche wie bisher: nur treten an die Stelle der theoretischen t-quantile (deren Anwendung Normalverteilung voraussetzt) die aus den Bootstrap-Stichproben gewonnen empirischen Quantile und. Schema zur Berechnung eines Bootstrap-Konfidenzintervalls Ein Hersteller von Speziallampen, z.b. für Projektoren, gibt für ein bestimmtes Leuchtmittel eine Farbtemperatur von 5800 Kelvin an. Ist die tatsächliche Farbtemperatur höher, enthält das Licht der Lampe einen höheren Blau-Anteil und wirkt zu "kühl". Ist die Farbtemperatur niedriger, so wirkt das Licht gelblich. Zum Vergleich: Tageslicht hat etwa ein Farbtemperatur von 5600 Kelvin, eine Halogenlampe ca Kelvin. Um die Einhaltung der Spezifikation zu prüfen, werden 15 Leuchtmittel zufällig ausgewählt und getestet. Es ergibt sich folgende Stichprobe ( b2b.xls ). Bilden Sie mit Hilfe des Statistiklabors ( b2d.zmpf ) ein Bootstrap-Konfidenzintervall zum Konfidenzniveau. Verwenden Sie zur Bestimmung der empirischen Quantile und Replikationsstichproben. Simulation: Bootstrap-t-Konfidenzintervall bei Normalverteilung Es ist keinesfalls selbstverständlich, dass das Bootstrap-Verfahren die von uns gewünschten Konfidenzintervalle liefert. Deshalb untersuchen wir das Bootstrap-Verfahren empirisch, wiederum durch eine Simulation. Wir erzeugen uns Stichproben aus einer bekannten Normalverteilung, aus Vergleichsgründen wieder Stichproben vom Umfang aus, und grenzen nun zum Konfidenzniveau jeweils das auf der t-verteilung beruhende Konfidenzintervall für als auch das Bootstrap-Konfidenzintervall für Bootstrap-Simulationen von ab; für das letztere sind also jeweils die mit Replikationsstichproben anzustellen. Dann vergleichen wir die Überdeckungshäufigkeit und die Präzision der beiden Arten von Konfidenzintervallen. k=100 Bootstrap-Konfidenzintervalle aus jeweils d=1000 Replikationsstichproben (oben) und die entsprechenden Page 5

6 t-konfidenzintervalle zum Vergleich (unten) Überdeckung (tatsächlich / erwartet) Breite Bootstrap-t-Konfidenzintervall 96% / 95% t-konfidenzintervall 97% / 95% Das Bootstrap-Verfahren funktioniert also; die Bootstrap-Konfidenzintervalle halten das Konfidenzniveau von 95% ein. Wie erwartet sind die Bootstrap-Konfidenzintervalle allerdings im Vergleich zu den t-konfidenzintervallen geringfügig breiter, weil wir die Verteilungsinformation nicht verwendet haben (schließlich wissen wir, dass es sich um normalverteilte Stichproben handelt). Simulation: Bootstrap-t-Konfidenzintervall bei kontaminierter Normalverteilung Nachdem wir die Bootstrap-Methode erfolgreich in einer Standardsituation getestet haben, wollen wir sie nun mit verschmutzten Stichproben konfrontieren. Die Stichproben wurden aus einer Standardnormalverteilung erzeugt, in denen ca. 16% der Werte zufällig durch Realisierungen einer zweiten Normalverteilung ersetzt wurden. Es werden derartige Stichproben betrachtet. Zum Vergleich sind wieder die entsprechenden t-konfidenzintervalle berechnet worden. Für den Bootstrap wurden je Replikationsstichproben verwendet. Histogramm über alle k=100 Basisstichproben vom Umfang n=10 (abs. Häufigkeiten, oben); Bootstrap-Konfidenzintervalle (mitte); korrespondierende t-konfidenzintervalle (unten) Überdeckung (tatsächlich / erwartet) Breite Bootstrap-t-Konfidenzintervall 95% / 95% 2.84 t-konfidenzintervall 88% / 95% 2.34 Die Bootstrap-t-Konfidenzintervalle sind zwar geringfügig breiter als die t-konfidenzintervalle, halten aber das vorgegebene Konfidenzniveau von ein, während die Überdeckung bei den t-konfidenzintervallen diesen Wert deutlich unterschreitet. Dennoch verkraftet natürlich auch das Bootstrap-t-Verfahren die Verschmutzung nur bis zu einem begrenztem Maß. Simulation: Bootstrap-t-Konfidenzintervall bei Exponentialverteilung Jetzt testen wir das Bootstrap-Verfahren an einer Exponentialverteilung mit. Wir ziehen wieder Stichproben vom Umfang ; für die Bestimmung der empirischen Quantile beim Bootstrap verwenden wir Replikationsstichproben. Dichte der Exponentialverteilung mit Lambda=1 (oben), Bootstrap-Konfidenzintervalle (mitte), t-konfidenzintervalle (unten) Überdeckung (tatsächlich / Breite Page 6

7 erwartet) Bootstrap-t-Konfidenzintervall 85% / 95% 1.71 t-konfidenzintervall 88% / 95% 1.25 Nun versagt auch die Bootstrap-t-Methode, die Überdeckung liegt (wie auch bei den t-konfidenzintervallen) deutlich unter den geforderten. Der Grund ist die Schiefe der Exponentialverteilung, die dem Bootstrap massive Probleme bereitet. In diesem Modul wurde eine Alternative zu den bisher bekannten Konfidenzintervallen vorgestellt. Statt ein theoretisches Verteilungsmodell zu unterstellen, orientiert sich das Bootstrap-Verfahren an der empirischen Verteilung der Basisstichprobe. Aus der Basisstichprobe werden sog. Replikationsstichproben gezogen, anhand derer empirische Quantile bestimmt werden, mit deren Hilfe das Bootstrap-t-Konfidenzintervall abgegrenzt wird. Im Gegensatz zu den Konfidenzintervallen aus Modul 8-11 besteht der große Vorteil des Bootstrap-Verfahrens darin, dass es ohne theoretische Verteilungsannahme auskommt. Unsere erste Simulation zeigt, dass der t-bootstrap problemlos bei Normalverteilung funktioniert, die entsprechenden Konfidenzintervalle in dieser Situation aber geringfügig breiter sind als die t-konfidenzintervalle. Bei den verschmutzen Stichproben kann der t-bootstrap überzeugen, das Verfahren verkraftet die Ausreißer in den Stichproben besser als das t-konfidenzintervall. Die letzte Simulation zeigt jedoch deutlich die Grenzen des Bootstrap-t-Verfahrens. Mit schiefen Verteilungen kommt der t-bootstrap nicht zurecht; das Konfidenzniveau wird nicht eingehalten. Auch der t-bootstrap ist also kein universelles Verfahren, bei dessen Anwendung man sich keine Gedanken mehr über die Stichprobenverteilung machen muss. Es handelt sich jedoch um ein relativ junges Verfahren, dass noch fleißig weiterentwickelt wird. Es gibt zudem verschiedene Varianten, von denen hier nur eine, der t-bootstrap, vorgestellt wurde. Z.B. lässt sich die Robustheit des Bootstrap erhöhen, indem statt Mittelwert und Stichprobenstandardabweichung zur Berechnung robuste Punktschätzer (vgl. ) wie Median und (korrigierter) MAD eingesetzt werden. Basisstichprobes. Bootstrap-Konfidenzintervall ErklärungBootstrap-t-Konfidenzintervall ErklärungModellvalidierung ErklärungReplikationsstichprobes. Bootstrap-Konfidenzintervall ErklärungVerfahren, nichtparametrische ErklärungVerfahren, parametrische Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: Page 7