Welch-Test Welch-Test Test auf Lageunterschied zweier normalverteilter Grundgesamtheiten mit unbekannten Varianzen durch Vergleich der Mittelwerte zweier unabhängiger Zufallsstichproben. Beispiel Im Labor haben wir uns folgende normalverteilte Zufallszahlen generiert. Auch die zugrunde liegende Varianz wurde zufällig bestimmt. Wir haben demnach kein festes Vorwissen über die Varianz und wir nehmen an, dass die Varianz der Stichproben ungleich ist, was die untere Abbildung verdeutlicht. Page 1
Demnach ist folgendes gegeben: - Wir haben normalverteilte Daten. - Die Stichproben wurden voneinander unabhängig gezogen. - Wir kennen die Varianzen nicht. - Die beiden Grundgesamtheiten haben nicht die gleiche Varianz. Welch-Test Ein typischer Anwendungsfall für einen Test auf Mittelwertsunterschiede ist, dass über die Varianzen der Grundgesamtheiten keinerlei Vorwissen besteht. Beim bereits vorgestellten wurde die Annahme getroffen, dass die zwei unbekannten Varianzen gleich sind. Diese Annahme soll nun nicht mehr gerechtfertigt sein. (Das Problem von unbekannten und ungleichen Varianzen nennt man auch das Behrens-Fisher-Problem.) Annahmen Annahmen Grundgesamtheit 1 unabhängig und identisch 1) normalverteilt mit. Grundgesamtheit 2 unabhängig und identisch 2) normalverteilt mit. 3) Page 2
und sind voneinander unabhängig und untereinander ebenfalls 4), unbekannt Wie Sie die obigen Annahmen überprüfen können, steht im Überblick über die Annahmenüberprüfung für den Welch-Test ( : a88.pdf ) oder im. Hypothesen Die Forschungsfrage und damit auch das Testproblem ist dasselbe wie beim oder mit gleichen Varianzen. D.h. es wird wiederum auf einen Lageunterschied zweier normalverteilter Grundgesamtheiten getestet. Dementsprechend werden die Hypothesen wie folgt formuliert: Nullhypothese Alternative Test A gegen Test B gegen Test C gegen Prüfgröße Die Herleitung der Prüfgröße beruht auf derselben Idee, wie Sie schon bei der Herleitung des Gauß-Tests zugrunde gelegt wurde. Die hier unbekannten Varianzen werden mittels der Stichprobenvarianzen und geschätzt. Ersetzen wir in der Prüfgröße des Gauß-Tests die bekannten Varianzen durch ihre Schätzer, erhält man die neue Prüfgröße unbekannten Varianzen: für den t-test mit Page 3
Die Prüfgröße folgt unter der Nullhypothese allerdings keiner bekannten Verteilung exakt. Unter gültiger Nullhypothese kann lediglich gezeigt werden, dass approximativ t-verteilt ist mit Freiheitsgraden. Im Exkurs Freiheitsgrade steht, wie sich die Freiheitsgrade zusammensetzen. Normalverteilungsapproximation Gilt für beide Stichprobenumfänge, dass, ist die Prüfgröße approximativ standardnormalverteilt. Die t-quantile werden dann durch die Quantile ersetzt. (Siehe hierzu auch den Exkurs im.) Testentscheidung Je nach Testproblem und Stichprobengrößen ergeben sich folgende Verwerfungsregeln für : Verwirf H0, wenn (je nach Stichprobenumfang) Test A Test B Test C Anleitung zur Programmierung des Welch-Tests im Statistiklabor: Page 4
Laboranleitung Welch ( bad.spf ). Applet t-verteilung (bb3.jar) Applet t-verteilung mit Normalverteilung (bc6.jar) Beispiel: Motivation - Berechnung Für das Zahlenbeispiel haben wir den Verdacht, dass die Werte von gegenüber tendenziell um mindestens 0.5 Einheiten kleiner sind. Wir wollen dies mit einem Test statistisch beweisen und eine Fehlentscheidung zugunsten von zu 5% absichern. Wir formulieren deshalb das Testproblem wie folgt: gegen Es ergeben sich folgende Schätzwerte: Eingesetzt in die Formel für die Prüfgröße des Welch-Tests ergibt sich: Die Zahl der Freiheitsgrade ist also abgerundet. Daraus ergibt sich der kritische Wert. Da Page 5
ist, wird die Nullhypothese nicht abgelehnt. Wenn Sie sehen möchten, wie das Beispiel im Labor gerechnet wird, klicken Sie hier: Labordatei öffnen ( c1e.spf ) Beispiel: WeiNOless Speziell für den Weinbau wurde der Dünger "WeiNOless" entwickelt, der weniger Stickstoff enthält als herkömmliche Düngersorten (und somit erheblich zum Umweltschutz beiträgt). Die Entwickler versprechen, dass sich mit "WeiNOless" der Weinertrag pro Rebe nicht verschlechtert. Welchen Ernteertrag wird diese Jungrebe wohl geben? Die Biologische Bundesanstalt ist von der neuen Erfindung begeistert, möchte aber mit einer Studie belegt haben, dass die Ernteerträge unverändert bleiben. (Der Ertrag pro Rebe kann als normalverteilt angesehen werden.) Dafür wählen sie mehrere voneinander unabhängige Reben aus. Ein Teil der Reben wird mit dem neuen Dünger behandelt, der andere Teil mit dem Standarddünger. Die Biologische Bundesanstalt will den Test zu einem Signifikanzniveau von durchführen. Das Beispiel wird im Statistiklabor fortgeführt: Labordatei öffnen ( c3b.zmpf ) Quelle: Beispiel frei nach Vogel, F. (1989). Beispiel: Aufschlag Geschwindigkeiten Andre Agassi behauptet in einer tollkühnen Stimmung, dass seine Aufschläge im Mittel mindestens 25 mph schneller sind als von Steffi (Graf). Steffi will das nicht auf sich sitzen lassen und fordert Andre auf, das in einem sportlichen Wettkampf unter Beweis zu stellen. Beide schlagen jeweils 50 Bälle auf und lassen die Geschwindigkeit durch ein eigens dafür angeschafftes Radargerät messen. Öffnen Sie die Datei Tennis ( c48.zmpf ) und lassen Sie einen geeigneten statistischen Test entscheiden, ob Andres Hypothese stimmt. Page 6
Die nicht gerade einfache Näherungslösung für die Freiheitsgrade Welch (1938) und lautet stammt von Um die berechneten Freiheitsgrade zur Ermittlung der kritischen Werte in die t-verteilung einsetzen zu können, muss gegebenenfalls zu einer ganzen Zahl abgerundet werden. Das Abrunden der Freiheitsgrade hat zur Folge, dass eher konservativer getestet wird, also das u.u. nicht voll ausgeschöpft wird, aber auch auf keinen Fall überschritten wird. Würde man stattdessen nicht mehr gewährleistet. aufrunden, ist die Einhaltung des Signifikanzniveaus Es soll untersucht werden, ob eine Beziehung zwischen dem Risiko, einen koronaren Herzinfarkt zu bekommen, und einem bestimmten Verhaltenstyp besteht. Verhaltenstyp A kennzeichnet die Männer, deren Verhalten charakterisiert ist durch Aggression, Hektik und Ehrgeiz, während der Verhaltenstyp B als ausgeruht, gemütlich und nicht ehrgeizig gilt. Für den Datensatz wurden aus der Ursprungsstudie nur die Cholesterinwerte der 40 schwersten Männer abgespeichert (in mg pro 100ml). Es soll nun untersucht werden, ob bei schwergewichtigen Männern mittleren Alters der Cholesterinwert in Beziehung mit dem Verhaltenstyp steht. Dabei möchte man belegen, dass Männer des Verhaltenstyp A einen um mindestens 10mg/100ml höheren Cholesterinspiegel aufweisen als Männer des Typs B. Laden Sie dazu den Datensatz ins Labor, und untersuchen Sie die Fragestellung. Formulieren Sie das zugehörige Modell und stellen Sie eine geeignete Hypothese auf. Testen Sie diese zum 2.5%-Niveau, und interpretieren Sie das Ergebnis. (Anm. Betrachten Sie zunächst einmal die Verteilungen. Besteht Varianzhomogenität?) Labordatei öffnen ( c7b.zmpf ) Page 7
Quelle: Hand D.J et al. (1991). Die Hodgkinsche Krankheit ist ein Krebs, der primär Lymphknoten anfällt. Es soll die wissenschaftliche Hypothese überprüft werden, dass die T4-Zellen bei Hodgkin-Patienten auch nach vollständiger Remission (kein Tumor mehr nachweisbar) gegenüber nicht-hodgkin-patienten erhöht ist. Die logarithmierte Anzahl der T4-Zellen kann dabei als normalverteilt angesehen werden. A) Quantifizieren Sie das inhaltliche Problem und stellen Sie das Testproblem auf. B) Legen Sie ein Signifikanzniveau von 0.01 zugrunde. C) Berechnen Sie zusätzlich die kritischen Werte und interpretieren Sie das Ergebnis. Labordatei öffnen ( c8f.zmpf ) Mehr zu der Hodgkinschen Krankheit und Lymphknoten erfahren Sie unter und. Die Firma H2O-Laser hat einen Wasserlaser entwickelt, der die Operationstechnik revolutionieren soll: Der Wasserlaser soll das Skalpell ersetzen. Die Hersteller versprechen sich mehrere Vorteile ihrer Technik gegenüber der herkömmlichen Skalpellschnitttechnik: - weniger Blutverlust während der OP - eine schnellere Wundheilung - weniger Wundschmerzen nach der Operation - eine kürzere Operationsdauer Damit die Firma eine Lizenz für ihr Medizinprodukt bekommt, muss sie ihr Verfahren in einer klinischen Studie (siehe Fallstudie) unter Beweis stellen. An 13 Schweinen soll der Wasserlaser erprobt werden. Als Kontrolle dienen weitere 8 Schweine, bei denen die Skalpelltechnik angewandt wird. Es wurde unter Einbeziehung von Medizinern und Statistikern ein aus den obigen Kriterien sinnvoll gewichteter standardnormalverteilter Score gebildet, wobei ein höherer Score für eine erfolgreichere OP- und Wundheilungverlauf steht. Führen Sie einen zweiseitigen Test zu einem Signifikanzniveau von durch. Zu beachten ist, dass das neue Verfahren durchschnittlich im Lageunterschied um mindestens besser sein muss als das Skalpellverfahren um eine Lizenz zu erhalten! Page 8
Solch ein Wasserlaser wird momentan in der Zahnmedizin eingesetzt. Quelle: Labordatei öffnen ( cbc.zmpf ) Beim Londoner Marathon 1992 lief der schnellste Mann 2:10:02 und die schnellste Frau 2:29:39. Überprüfen Sie, ob die Männer im Mittel 25 Minuten schneller gelaufen sind als die Frauen. Es wird vorausgesetzt, dass die Zeiten normalverteilt sind. Labordatei öffnen ( cc4.zmpf ) Ein Marathon Quelle: Quelle: Hand D.J et al. (1991). Welch-Test Erklärung Literaturangabe Beschreibende und schließende Statistik. Aufgaben und Beispiele. (3. Auflage) Oldenbourg Verlag, München. Hand D.J., Daly F., Lunn A.D. und McConway K.J. (1994). A handbook of small data sets. London: Chapmann & Hall. Page 9
(c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 10