Ein- und Zweistichprobentests

(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Ein- Zweistichprobentests Worum geht es in diesem Modul? Wiederholung: allgemeines Ablaufschema eines Tests Allgemeine Voraussetzungen Einteilung nach Kenntnisstand die Verteilung Einteilung nach Stichprobensituation Tests bei Normalverteilung Tests bei Bernoulli-Verteilung Tests bei unbekanntem Verteilungstyp Zusammenfassung Worum geht es in diesem Modul? Dieses Lernmodul gibt einen Überblick weitere spezielle Tests. Es stellt verschiedene Testprobleme untergliedert nach dem zugre liegenden Modell bzw. dessen Annahmen vor verweist jeweils auf die Module, die die entsprechenden Tests genauer darstellen. Wiederholung: allgemeines Ablaufschema eines Tests Im zum Testen haben wir gesehen, dass jeder Test nach folgendem Schema abläuft: - Der erste Schritt "Quantifizieren des inhaltlichen Problems" führt zur Definition einer oder mehrerer Zufallsvariablen, welche die Daten der gezogenen oder zu ziehenden Stichproben modellieren. - Im zweiten Schritt "Formulierung der Modellannahmen" wird geklärt, welche Informationen die Verteilungen der Zufallsvariablen vorliegen. - Im dritten Schritt "Formulierung des statistischen Testproblems" werden die Hypothesen formuliert, die zu testen sind. - In den folgenden Schritten 4 bis 9 geht es dann um die Anwendung des Tests bis zur Interpretation des Ergebnisses. Wesentlich dafür, welcher Test zur Anwendung kommt, sind die Schritte 2 3, die Formulierung der Modellannahmen der zu testenden Hypothesen. Mit diesen beiden Schritten werden wir uns in diesem Modul befassen. Als Anwender statistischer Methoden werden wir versuchen, die Konstruktion des Tests, also die Konstruktion der Prüfgröße, die Gewinnung der kritischen Werte die Page 1

(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Aufstellung der Entscheidungsregel, zu vermeiden. Stattdessen werden wir versuchen, die für das zu lösende Testproblem infrage kommenden Tests in der Literatur zu finden. Das wird nicht immer gelingen. Wenn aber Hypothesen Modellannahmen nicht zu abwegig sind, dann werden wir auch fündig werden. Und da alle Tests nach dem gleichen Schema ablaufen, werden wir keine Schwierigkeiten haben, den gefenen Test tatsächlich durchzuführen. Allgemeine Voraussetzungen Wir wollen diesen Weg beginnen, indem wir Tests für einige immer wieder auftretende Testprobleme diskutieren uns damit einen kleinen Testwerkzeugkasten schaffen. Für alle folgenden Tests setzen wir voraus Beobachtungswerte in jeder der vorliegenden Stichproben Realisierungen von voneinander unabhängigen identisch verteilten Zufallsvariablen sind. D.h., sind die Beobachtungswerte, dann sind die Zufallsvariablen deren Realisierungen die Beobachtungswerte sind, voneinander unabhängig jedes hat dieselbe Verteilung. Dasselbe würde für eine zweite Stichprobe gelten, usw. Diese Voraussetzung der Unabhängigkeit innerhalb der Stichproben ist i.a. dann erfüllt, wenn die Stichproben als gezogen wurden. Abhängigkeiten zwischen den Beobachtungen können durch eine dritte, (un-) beobachtete Größe entstehen. Untersucht man beispielsweise eine Variable einen längeren Zeitraum, können die Beobachtungen anhand der Dimension "Zeit" miteinander korreliert sein. Einteilung nach Kenntnisstand die Verteilung Wir unterscheiden nun danach, was wir die Verteilungen der betrachteten Zufallsvariablen wissen. Kennen wir den Verteilungstyp der betrachteten Zufallsvariablen, dann können sich die Hypothesen nur auf die Parameter dieser Verteilungen beziehen. Wir betrachten erstens Tests, die Normalverteilung aller betrachteten Zufallsvariablen voraussetzen, zweitens Tests bei Bernoulliverteilung. Tests bei weiteren Verteilungen sehen wir uns nicht an; stattdessen diskutieren wir einige Tests, bei denen nur schwache Voraussetzungen die Verteilung der betrachteten Zufallsvariablen gemacht werden. Einteilung nach Stichprobensituation Wir unterscheiden weiter nach Ein-, Zwei- Mehrstichprobenproblemen. Liegt nur eine Stichprobe vor, dann können sich die Hypothesen nur auf die Verteilungsfunktion bzw. Parameter der Verteilung beziehen, aus der die Stichprobe stammt; bei zwei Zufallsstichproben beziehen sie sich auf die Verteilungsfunktionen (oder Parameter) der beiden Verteilungen, aus denen die Stichproben stammen, bei Mehrstichprobenproblemen auf mehr als zwei Verteilungen. Page 2

(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Wenn wir zwei Stichproben vorliegen haben, dann setzen wir entweder voraus, dass diese untereinander unabhängig sind; das ergibt sich insbesondere dann, wenn die Stichproben unabhängig voneinander gezogen wurden. Oder wir setzen voraus Beobachtungswerte der beiden Stichproben paarweise miteinander verben sind. Das kann dadurch zustande kommen, dass an jedem Beobachtungsobjekt eine Variable zweimal, nämlich vor nach einer Maßnahme oder Behandlung, gemessen wird. Solche "Vorher-Nachher-Messungen" spielen in der Medizin, aber nicht nur dort, eine große Rolle. Man misst z.b. den Blutdruck jedes Patienten vor nach einer medikamentösen Therapie. Wird an jedem Patienten eine Variable dreimal gemessen, etwa vor einer Behandlung, direkt nach einer Behandlung zwei Monate später, dann würde sich ein verbenes Dreistichprobenproblem ergeben. Stichproben Verteilungstyp bekannt Verteilungstyp unbekannt eine zwei unabhängige Normalverteilung: Hypothesen Bernoulliverteilung: Hypothesen Normalverteilungen: Hypothesen Hypothesen Hypothesen Hypothesen, zwei verbene Normalverteilungen: Hypothesen Hypothesen den Median der Verteilung der Differenzen Tests bei Normalverteilung Wir betrachten nun den Fall weiter, dass alle beteiligten Zufallsvariablen normalverteilt sind. Wenn nicht theoretische Überlegungen oder lange Erfahrung zwingend zur Modellannahme der Normalverteilung führen, sollte diese prüft werden, etwa durch Q-Q-Plots (vgl. ), Boxplots (vgl. ) oder Histogramme (vgl. ). Die einfachste Nullhypothese beim Lageproblem unter Normalverteilung lautet, dass also der Erwartungswert der Zufallsvariablen gleich einem gegebenen Wert ist. Diese Nullhypothese können wir unter der Voraussetzung testen Varianz bekannt ist (das führt zum ) oder nicht (das führt zum ). Die einfachste Nullhypothese beim Skalenproblem unter Normalverteilung lautet, dass also die Varianz der Zufallsvariablen gleich einem Page 3

(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests gegebenem Wert ist. Diese Nullhypothese können wir mit dem unter der Voraussetzung testen, dass der Erwartungswert bekannt ist oder nicht. Beim Zweistichproben-Lageproblem bei unabhängigen Stichproben aus Normalverteilungen lautet die einfachste Nullhypothese Erwartungswerte der beiden Normalverteilungen, aus denen die Stichproben stammen, gleich sind. Wir können sie unter der Voraussetzung testen, dass die Varianzen der beiden Normalverteilungen bekannt sind (), oder dass sie unbekannt aber gleich sind () oder dass sie unbekannt sind, aber ihre Gleichheit nicht vorausgesetzt werden kann (). Beim Zweistichprobenproblem bei verbenen Stichproben aus Normalverteilungen befassen wir uns mit dem Test der Nullhypothese Erwartungswertdifferenz gleich Null ist, unter der Annahme Varianz der Differenz unbekannt ist (). Beim Zweistichproben-Skalenproblem bei unabhängigen Stichproben aus Normalverteilungen lautet die einfachste Nullhypothese Varianzen der beiden Normalverteilungen, aus denen die Stichproben stammen, gleich sind. Unter der Voraussetzung beiden Erwartungswerte unbekannt sind, können sie mit dem geprüft werden. Tests bei Bernoulli-Verteilung Unter der Voraussetzung der Bernoulliverteilung betrachten wir nur das Einstichprobenproblem mit der Nullhypothese Wahrscheinlichkeit (bzw. der Anteil der Merkmalsträger in der Grgesamtheit) gleich einem gegebenen Wert ist (). Tests bei unbekanntem Verteilungstyp Abschließend betrachten wir zwei Tests, bei denen wir nur schwache Voraussetzungen die Verteilungen der betrachteten Zufallsvariablen machen. Der ist ein Lagetest bei zwei unabhängigen Stichproben; er testet die Nullhypothese Verteilungsfunktionen der beiden Verteilungen, aus denen die Stichproben stammen, gleich sind. Er ist ein nichtparametrisches Pendant zum Zweistichproben-t-Test. Wie dieser setzt er voraus, dass sich die beiden Verteilungen, wenn haupt, dann nur in der Lage unterscheiden, aber nicht in der Streuung. Page 4

(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests Der ist ein Lagetest bei zwei verbenen Stichproben; er testet die Nullhypothese wobei die Zufallsvariable die Differenz der paarweisen Beobachtungen von ist. Vorausgesetzt wird dabei Verteilung von nichtparametrisches Pendant zum paarweisen t-test. Zusammenfassung symmetrisch ist. Der Vorzeichentest ist ein In der folgenden Synopse sind die in diesem Modul angesprochenen Tests zusammengestellt. Für jeden der Tests können den entsprechenden Link weitere Informationen beschafft werden, z.b. zur Herleitung der Prüfgröße, zu den kritischen Werten, zu den ein- oder zweiseitigen Varianten A, B C sowie selbstverständlich Beispiele. Freie Felder in der Synopse zeigen, wo noch weiter gegangen aufgefüllt werden könnte. Die Tabelle könnte auch durch weitere Verteilungsannahmen verlängert werden. Stichproben Verteilungstyp bekannt Verteilungstyp unbekannt Normalverteilung bekannt: eine unbekannt: bekannt oder unbekannt: Bernoulliverteilung Normalverteilungen Verteilungsfunktionen zwei Page 5

(c) Projekt Neue Statistik 2003 - Lernmodul: Ein- Zweistichprobentests bekannt: unbekannt: unbekannt: unbekannt: Normalverteilung von symmetrische Verteilung von zwei verbene Freiheitsgrade Erklärungt-Test Erklärungt-Verteilung Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 6