Testentscheidungen. Worum geht es in diesem Modul? Kritische Werte p-wert

Testentscheidungen Worum geht es in diesem Modul? Kritische Werte p-wert Worum geht es in diesem Modul? Testentscheidungen: Annahme- und Ablehnbereich Bei der Durchführung eines statistischen Tests kommen wir zwangsläufig an den Punkt, an dem zu entscheiden ist, ob die Daten so stark für die Alternative sprechen, dass die Nullhypothese abgelehnt werden kann. Gesucht ist also ein objektives Verfahren, mit dem eine Testentscheidung getroffen werden kann. (Das haben wir schon im einführenden kennen gelernt.) Die Idee dabei ist, dass das Auftreten eines unter der Nullhypothese recht unwahrscheinlichen Prüfgrößenwertes die Verwerfung der Nullhypothese rechtfertigen soll. Dazu müssen die Werte der Prüfgröße bestimmt werden, die zu einer Ablehnung der Nullhypothese führen. Diese bilden den so genannten Ablehnbereich Liegt also der beobachtete Prüfgrößenwert im Ablehnbereich, entscheiden wir uns für die Alternative. Die komplementäre Menge dazu ist der Annahmebereich. Fällt der realisierte Wert der Prüfgröße in diese, behalten wir die Nullhypothese bei. Der Ablehnbereich hängt zum einen von der Art des Testproblems ab, zum anderen vom Signifikanzniveau das die Breite von festlegt. Somit enthält der Ablehnbereich die Prüfgrößenwerte, die in Richtung der Alternative weisen und deren Wahrscheinlichkeit insgesamt kleiner oder gleich dem vorgegebenen Niveau ist: (Erinnern Sie sich, dass der Ablehnbereich unter der Nullhypothese bestimmt wird. Page 1

Siehe dazu auch das Lernmodul Idee des Testens) Der Punkt (oder die Punkte), der den Ablehnbereich vom Annahmebereich trennt, wird als kritischer Wert bezeichnet. Die kritischen Werte sind die äußersten Punkte innerhalb des Annahmebereichs. In der unteren Abbildung separiert das Quantil den Annahme- vom Ablehnbereich. Es entspricht dem Testproblem B, wenn große Werte der Prüfgröße unter H0 unplausibel sind. Beispiel: Annahme- / Ablehnbereich Beispiel Zur Verdeutlichung betrachten wir das beliebige Testproblem gegen bei dem große Werte der Prüfgröße für die Alternative sprechen. Sei nun Realisation der Prüfgröße Der entsprechende Ablehnbereich des gegebenen Testproblems ist gegeben als eine Page 2

Ablehnbereich zum Testproblem B. In diesem Fall lehnt ein Test die Nullhypothese ab, wenn der beobachtete Wert der Prüfgröße überschreitet und somit in den Ablehnbereich fällt. Test B: t überschreite den kritischen Wert; die Nullhypothese kann verworfen werden. Kritische Werte Berechnung des kritischen Werts Um den Ablehnbereich festlegen zu können, müssen der kritische Wert bzw. die kritischen Werte gesucht werden. Betrachten wir wieder das beliebige Testproblem gegen Wie bereits gesehen, ergibt sich hier der Ablehnbereich als In fallen die Werte der Prüfgröße, die größer als der kritische Wert sind. Die Wahrscheinlichkeit für in zu fallen ist kleiner oder gleich dem Signifikanzniveau. Daher gilt: Aus der Tatsache, dass für gilt bzw. wird deutlich, dass der gesuchte kritische Wert mit dem jeweiligen Quantil der Verteilung der Prüfgröße unter übereinstimmt. Bei diskreten Prüfgrößen (wie z.b. bei der binomialverteilten Prüfgröße beim ) ist nicht immer ein kritischer Wert zu finden, so dass voll ausgeschöpft werden kann. Test B: Die Wahrscheinlichkeit, dass unter Annahme der Nullhypothese die Prüfgröße einen Wert größer dem kritischen Wert annimmt, entspricht dem Signifikanzniveau. Page 3

Wäre in diesem Fall der beobachtete Wert der Prüfgröße kann die Nullhypothese verworfen werden. (Gilt ausschließlich für das Testproblem B!) In Material finden Sie eine Übersicht, wie die Testentscheidung für die einzelnen Testprobleme aussieht. Fehler 1. Art Der kritische Wert und damit die Breite des Ablehnbereichs ist genau so bestimmt, dass der Fehler 1. Art unter Kontrolle bleibt, d.h. (Die Wahrscheinlichkeit, eine wahre Nullhypothese fälschlicherweise zu verwerfen, ist höchstens ). Leider liefern Ihnen die im Labor zur Verfügung stehenden vorgefertigten Testaufrufe keine kritischen Werte! Diese Möglichkeit besitzt fast kein Statistiksoftwarepaket. Das ist aber kein Problem. Es gibt eine weitere Möglichkeit, mit der eine Testentscheidung herbeigeführt werden kann: mit den so genannten p-werten. In der Sektion Material finden Sie eine Aufstellung für die Berechnung der kritischen Werte je Testproblem und eine Labordatei, die Ihnen die Berechnung kritischer Werte im Statistiklabor zeigt und auf was Sie dabei zu achten haben. Diese Labordatei ( aff.zmpf ) zeigt Ihnen, wie Sie kritische Werte im Labor berechnen können und auf was Sie dabei zu achten haben. Die Datei besteht aus fünf Laborseiten und benötigt die Bibliothek wilcoxon.r. Es werden zwei Stichproben aus derselben Grundgesamtheit gezogen und auf Lageunterschied miteinander verglichen. Verwendet wird dafür der Wilcoxon-Rangsummen-Test. In diesem Fall wissen wir, dass die Nullhypothese wahr ist! Das Experiment wird 100 Mal durchgeführt, und die erhaltenen Prüfgrößenwerte werden in ein Stabdiagramm geschrieben. Auf der x-achse sind die Prüfwerte aus den 100 Experimenten aufgezeichnet. Die y-achse zeigt die absoluten Häufigkeiten. Die vertikalen orangen Striche geben die berechneten kritischen Werte (2.5%-Quantil und 97.5%-Quantil) an. Insgesamt liegen 12 Prüfwerte im Ablehnbereich. (Unter der Nullhypothese würden wir höchstens 5 erwarten.) Ziehen Sie selber Stichproben, und verändern Sie die Anzahl der Experimente oder die Größe der Stichproben. Was ist zu beobachten? Labordatei öffnen ( b10.zmpf ) (Laden Sie die Bibliothek Simul.R.) p-wert Eine Alternative zur Bestimmung von kritischen Werten ist die Berechnung von p-werten. Die p-werte geben an, wie wahrscheinlich der beobachtete Prüfgrößenwert oder ein in Richtung der Alternative noch extremerer Wert unter der Nullhypothese ist. Ist die Wahrscheinlichkeit für das Auftreten von oder extremeren Werten sehr klein, erscheint die Verteilung unter der Nullhypothese eher nicht dafür verantwortlich zu sein, dass dieser beobachtete Wert oder etwa ein noch extremerer zustande gekommen ist. Page 4

Der p-wert ist die Wahrscheinlichkeit unter, den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten. Beispiel Betrachten wir wieder das einseitige Testproblem B, bei dem große Werte für die Alternative sprechen: gegen Der p-wert ist in diesem Fall wobei der konkret berechnete Prüfgrößenwert ist. Der Flächenwert unter der Verteilung ab dem konkret beobachteten Prüfwert t ist genau der p-wert (orange Fläche). Testentscheidung Eine Testentscheidung mit p-werten führt man dann für alle Testprobleme folgendermaßen durch: Verwirf, falls behalte bei, falls Die folgenden Bilder veranschaulichen Ihnen, wie p-werte und kritische Werte zusammenhängen (basierend auf obigen Testproblem): Verwirf H0: Der p-wert (orange Fläche) ist kleiner als alpha (blaue Fläche). Die Nullhypothese kann abgelehnt werden. Entsprechend weist der beobachtete Prüfwert t stark in Richtung der Alternative und hat den kritischen Wert überschritten. Behalte H0: Die Fläche des p-wertes (orange) ist größer als alpha (blaue Fläche). Die Nullhypothese muss beibehalten werden. Beachten Sie die Äquivalenz: Prüfwert t überschreitet den kritischen Wert nicht. Der p-wert wird in allen Statistiksoftwarepaketen standardmäßig ausgegeben, weil die Regel für die Testentscheidung bei jedem Testproblem die gleiche ist. Vorteile von p-werten - Prüfwerte mehrer Tests sind im Allgemeinen nicht direkt vergleichbar; p-werte schon, da p-werte Wahrscheinlichkeiten sind und deswegen zwischen 0 und 1 liegen. - Interpretierbarkeit. - schnelle Durchführung am Computer. Nachteile von p-werten - p-werte geben an, zu welchem Niveau die Nullhypothese gerade noch verworfen werden kann. Hierbei besteht die Gefahr, dass die zugrunde liegende Testtheorie außer Kraft gesetzt wird. Dafür ist es nämlich wichtig, dass vor der Testentscheidung das Signifikanzniveau vorgegeben wird und nicht aufgrund des erhaltenen p-werts das Niveau "nachkorrigiert" wird. (Siehe dazu auch.) Unter Material finden Sie eine Anleitung, wie Sie im Statistiklabor einen Testoutput über die p-werte interpretieren. Ausblick Wie der p-wert beim zweiseitigen Testproblem berechnet wird, können Sie im Exkurs Page 5

p-wert beim zweiseitigen Testproblem nachlesen. Die Testentscheidung kann auch anhand des Konfidenzintervalls gefällt werden. Das können Sie im nachlesen. Anleitung, wie Sie im Statistiklabor einen Testoutput über die p-werte interpretieren: p-wert ( b97.zmpf ) Berechnung des p-werts beim zweiseitigen Testproblem anhand eines Beispiels Der Schlagzeuger Gus Veit ist es leid. Er haut ständig seine selbstgebauten Ruten kaputt und sucht nun deshalb ein Qualitätsprodukt. Sein örtlicher Musikladen hat zwei verschiedene Ruten im Angebot: Die RodsTM von und die Red Rods von. Ruten der Firma ProMark Der nicht gerade entschlussfreudige Gus will ein Experiment starten, um sich letztendlich für eine Stammmarke zu entscheiden. Er stellt ein zweiseitiges Testproblem auf, das er zum 10%-Niveau überprüfen möchte: H0: Die Haltbarkeitszeiten der Ruten ProMark (X) und Headhunter (Y) unterscheiden sich nicht. H1: Die Haltbarkeitszeiten der Ruten ProMark (X) und Headhunter(Y) sind unterschiedlich. Für das Experiment hat Gus von jeder Marke 5 Paar eingekauft. Er schlagwerkt wie gewohnt und schreibt akribisch die Haltbarkeit in Stunden auf. Als Test verwendet er den Wilcoxon-Rangsummen-Test und beobachtet für die Prüfgröße den Wert 18. Wie wahrscheinlich ist es, den Prüfgrößenwert 18 oder einen in Richtung Alternative extremeren Wert zu erhalten, wenn sich die beiden Rutenprodukte nicht unterscheiden, d.h., wie groß ist der p-wert? Öffnen wir das Applet Wilcoxon-Verteilung (bb3.jar), können wir am linken Ende die Wahrscheinlichkeit ablesen. Wir testen aber zweiseitig. Deswegen müssen wir zusätzlich dieselbe Wahrscheinlichkeitsmasse am rechten Ende der Verteilung ablesen, also Für den p-wert gilt sonach Damit ist und Gus kann die Nullhypothese verwerfen. Eine der beiden Stick-Marken stellt die besseren Ruten her. Wilcoxon-Verteilung für n=m=5. Die blauen Balken ergeben zusammen den p-wert. Die roten Balken stellen das 5%- und das 95%-Quantil dar (kritische Werte). Der zweiseitige Test hat sich für die Alternative entschieden. Allgemein Page 6

Wie bei der Berechnung der kritischen Werte im zweiseitigen Fall, wird für die Berechnung des p-werts die Wahrscheinlichkeit aufgeteilt und symmetrisch auf beide Seiten der Verteilung abgetragen. So gilt einerseits für die kritischen Werte und andererseits für die p-werte Damit ergibt sich die schon erlernte Testentscheidung: Verwirf falls behalte bei, falls Verwendung des p-werts bei einem zweiseitigen Testproblem als Hilfsmittel für die Testentscheidung. Die orangen Flächen stellen den p-wert dar, die blauen Flächen zusammen ergeben die Alpha-Wahrscheinlichkeit Sie können sich eine Übersichtstabelle als PDF ( Word-Dokument ( : c04.doc ) herunterladen. : c02.pdf ) oder als p-wert Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 7