Testentscheidungen. Worum geht es in diesem Modul? Kritische Werte p-wert

Ähnliche Dokumente
Ablaufschema beim Testen

T-Test für den Zweistichprobenfall

Statistik II. Statistische Tests. Statistik II

Idee des Testens. Heuristische Verfahren

Statistik II. Statistische Tests. Statistik II

Statistisches Testen

Einführung in die Induktive Statistik: Testen von Hypothesen

Gauß-Test für den Zweistichprobenfall

Fehlerwahrscheinlichkeiten

THEMA: "STATISTIK IN DER PRAXIS TESTEN IST BESSER ALS VERMUTEN" TORSTEN SCHOLZ

2.4 Hypothesentests Grundprinzipien statistischer Hypothesentests. Hypothese:

Vorlesung: Statistik II für Wirtschaftswissenschaft

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Kapitel 3 Schließende Statistik

8. Konfidenzintervalle und Hypothesentests

3 Grundlagen statistischer Tests (Kap. 8 IS)

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Grundlegende Eigenschaften von Punktschätzern

Kapitel 13. Grundbegriffe statistischer Tests

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

5. Seminar Statistik

GRUNDPRINZIPIEN statistischen Testens

Bemerkungen zu statistischen Tests

Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung

Kapitel XIII - p-wert und Beziehung zwischen Tests und Konfidenzintervallen

R. Brinkmann Seite

Allgemeines zu Tests. Statistische Hypothesentests

Grundlagen der Statistik

Statistische Tests Version 1.2

R. Brinkmann Seite

Statistische Tests für unbekannte Parameter

3) Testvariable: T = X µ 0

Statistik II. Weitere Statistische Tests. Statistik II

So berechnen Sie einen Schätzer für einen Punkt

Kapitel 3 Schließende Statistik

Statistik II für Betriebswirte Vorlesung 1

Um zu entscheiden, welchen Inhalt die Urne hat, werden der Urne nacheinander 5 Kugeln mit Zurücklegen entnommen und ihre Farben notiert.

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Auswertung und Lösung

Beurteilende Statistik

Ein- und Zweistichprobentests

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

Jost Reinecke. 7. Juni 2005

Signifikanztest zum Testen einer Nullhypothese H 0

Macht des statistischen Tests (power)

Statistische Tests für unbekannte Parameter

Wirtschaftsstatistik-Klausur am

Schließende Statistik: Hypothesentests (Forts.)

Fit for Abi & Study Stochastik

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Je genauer und sicherer, desto größer muss der Stichprobenumfang sein

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Mathematik 2 Dr. Thomas Zehrt

12 Rangtests zum Vergleich zentraler Tendenzen

Exakter Binomialtest als Beispiel

Parameterfreie Tests. ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

Wahrscheinlichkeitsrechnung und Statistik

Statistische Tests Übersicht

Empirische Wirtschaftsforschung

Forschungsstatistik I

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

3.3 Konfidenzintervalle für Regressionskoeffizienten

Binomialverteilung Vertrauensbereich für den Anteil

: p= 1 6 ; allgemein schreibt man hierfür H : p = p. wird Gegenhypothese genannt und mit H 1 bezeichnet.

Testen von Hypothesen

Häufigkeiten. Verteilungen. Lageparameter Mittelwert. oder

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht.

DEMO für STOCHASTIK. Testen von Hypothesen. Datei Nr INTERNETBIBLIOTHEK FÜR SCHULMATHEMATIK.

Zweiseitiger Test für den unbekannten Mittelwert µ einer Normalverteilung bei unbekannter Varianz

Hypothesen über die Grundgesamtheit. Aufgabenstellung der Testtheorie Hypothesen (Annahmen, Vermutungen oder

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

9 Prinzipien der statistischen Hypothesenprüfung

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

P-Test Motivation: Einsatz des Tests auf p im Krankenhausmanagement Theorie zum Test auf p

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Biometrie und Methodik (Statistik) - WiSem08/09 Probeklausur 1

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

Nachklausur zur Vorlesung

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Die Abfüllmenge ist gleich dem Sollwert 3 [Deziliter].

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Statistische Tests zu ausgewählten Problemen

Tutorial: Anpassungstest

Zusammenfassung PVK Statistik

Bemerkungen bzgl statistichen Tests. (basierend auf Slides von Lukas Meier)

Konkretes Durchführen einer Inferenzstatistik

3.Wiederholung: Toleranzbereiche Für EX Geg:

Macht des statistischen Tests (power)

T-Test für unabhängige Stichproben

Statistik II. Version A. 1. Klausur Sommersemester 2011 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

9. Schätzen und Testen bei unbekannter Varianz

Klausur zu Statistik II

Transkript:

Testentscheidungen Worum geht es in diesem Modul? Kritische Werte p-wert Worum geht es in diesem Modul? Testentscheidungen: Annahme- und Ablehnbereich Bei der Durchführung eines statistischen Tests kommen wir zwangsläufig an den Punkt, an dem zu entscheiden ist, ob die Daten so stark für die Alternative sprechen, dass die Nullhypothese abgelehnt werden kann. Gesucht ist also ein objektives Verfahren, mit dem eine Testentscheidung getroffen werden kann. (Das haben wir schon im einführenden kennen gelernt.) Die Idee dabei ist, dass das Auftreten eines unter der Nullhypothese recht unwahrscheinlichen Prüfgrößenwertes die Verwerfung der Nullhypothese rechtfertigen soll. Dazu müssen die Werte der Prüfgröße bestimmt werden, die zu einer Ablehnung der Nullhypothese führen. Diese bilden den so genannten Ablehnbereich Liegt also der beobachtete Prüfgrößenwert im Ablehnbereich, entscheiden wir uns für die Alternative. Die komplementäre Menge dazu ist der Annahmebereich. Fällt der realisierte Wert der Prüfgröße in diese, behalten wir die Nullhypothese bei. Der Ablehnbereich hängt zum einen von der Art des Testproblems ab, zum anderen vom Signifikanzniveau das die Breite von festlegt. Somit enthält der Ablehnbereich die Prüfgrößenwerte, die in Richtung der Alternative weisen und deren Wahrscheinlichkeit insgesamt kleiner oder gleich dem vorgegebenen Niveau ist: (Erinnern Sie sich, dass der Ablehnbereich unter der Nullhypothese bestimmt wird. Page 1

Siehe dazu auch das Lernmodul Idee des Testens) Der Punkt (oder die Punkte), der den Ablehnbereich vom Annahmebereich trennt, wird als kritischer Wert bezeichnet. Die kritischen Werte sind die äußersten Punkte innerhalb des Annahmebereichs. In der unteren Abbildung separiert das Quantil den Annahme- vom Ablehnbereich. Es entspricht dem Testproblem B, wenn große Werte der Prüfgröße unter H0 unplausibel sind. Beispiel: Annahme- / Ablehnbereich Beispiel Zur Verdeutlichung betrachten wir das beliebige Testproblem gegen bei dem große Werte der Prüfgröße für die Alternative sprechen. Sei nun Realisation der Prüfgröße Der entsprechende Ablehnbereich des gegebenen Testproblems ist gegeben als eine Page 2

Ablehnbereich zum Testproblem B. In diesem Fall lehnt ein Test die Nullhypothese ab, wenn der beobachtete Wert der Prüfgröße überschreitet und somit in den Ablehnbereich fällt. Test B: t überschreite den kritischen Wert; die Nullhypothese kann verworfen werden. Kritische Werte Berechnung des kritischen Werts Um den Ablehnbereich festlegen zu können, müssen der kritische Wert bzw. die kritischen Werte gesucht werden. Betrachten wir wieder das beliebige Testproblem gegen Wie bereits gesehen, ergibt sich hier der Ablehnbereich als In fallen die Werte der Prüfgröße, die größer als der kritische Wert sind. Die Wahrscheinlichkeit für in zu fallen ist kleiner oder gleich dem Signifikanzniveau. Daher gilt: Aus der Tatsache, dass für gilt bzw. wird deutlich, dass der gesuchte kritische Wert mit dem jeweiligen Quantil der Verteilung der Prüfgröße unter übereinstimmt. Bei diskreten Prüfgrößen (wie z.b. bei der binomialverteilten Prüfgröße beim ) ist nicht immer ein kritischer Wert zu finden, so dass voll ausgeschöpft werden kann. Test B: Die Wahrscheinlichkeit, dass unter Annahme der Nullhypothese die Prüfgröße einen Wert größer dem kritischen Wert annimmt, entspricht dem Signifikanzniveau. Page 3

Wäre in diesem Fall der beobachtete Wert der Prüfgröße kann die Nullhypothese verworfen werden. (Gilt ausschließlich für das Testproblem B!) In Material finden Sie eine Übersicht, wie die Testentscheidung für die einzelnen Testprobleme aussieht. Fehler 1. Art Der kritische Wert und damit die Breite des Ablehnbereichs ist genau so bestimmt, dass der Fehler 1. Art unter Kontrolle bleibt, d.h. (Die Wahrscheinlichkeit, eine wahre Nullhypothese fälschlicherweise zu verwerfen, ist höchstens ). Leider liefern Ihnen die im Labor zur Verfügung stehenden vorgefertigten Testaufrufe keine kritischen Werte! Diese Möglichkeit besitzt fast kein Statistiksoftwarepaket. Das ist aber kein Problem. Es gibt eine weitere Möglichkeit, mit der eine Testentscheidung herbeigeführt werden kann: mit den so genannten p-werten. In der Sektion Material finden Sie eine Aufstellung für die Berechnung der kritischen Werte je Testproblem und eine Labordatei, die Ihnen die Berechnung kritischer Werte im Statistiklabor zeigt und auf was Sie dabei zu achten haben. Diese Labordatei ( aff.zmpf ) zeigt Ihnen, wie Sie kritische Werte im Labor berechnen können und auf was Sie dabei zu achten haben. Die Datei besteht aus fünf Laborseiten und benötigt die Bibliothek wilcoxon.r. Es werden zwei Stichproben aus derselben Grundgesamtheit gezogen und auf Lageunterschied miteinander verglichen. Verwendet wird dafür der Wilcoxon-Rangsummen-Test. In diesem Fall wissen wir, dass die Nullhypothese wahr ist! Das Experiment wird 100 Mal durchgeführt, und die erhaltenen Prüfgrößenwerte werden in ein Stabdiagramm geschrieben. Auf der x-achse sind die Prüfwerte aus den 100 Experimenten aufgezeichnet. Die y-achse zeigt die absoluten Häufigkeiten. Die vertikalen orangen Striche geben die berechneten kritischen Werte (2.5%-Quantil und 97.5%-Quantil) an. Insgesamt liegen 12 Prüfwerte im Ablehnbereich. (Unter der Nullhypothese würden wir höchstens 5 erwarten.) Ziehen Sie selber Stichproben, und verändern Sie die Anzahl der Experimente oder die Größe der Stichproben. Was ist zu beobachten? Labordatei öffnen ( b10.zmpf ) (Laden Sie die Bibliothek Simul.R.) p-wert Eine Alternative zur Bestimmung von kritischen Werten ist die Berechnung von p-werten. Die p-werte geben an, wie wahrscheinlich der beobachtete Prüfgrößenwert oder ein in Richtung der Alternative noch extremerer Wert unter der Nullhypothese ist. Ist die Wahrscheinlichkeit für das Auftreten von oder extremeren Werten sehr klein, erscheint die Verteilung unter der Nullhypothese eher nicht dafür verantwortlich zu sein, dass dieser beobachtete Wert oder etwa ein noch extremerer zustande gekommen ist. Page 4

Der p-wert ist die Wahrscheinlichkeit unter, den beobachteten Prüfgrößenwert oder einen in Richtung der Alternative extremeren Wert zu erhalten. Beispiel Betrachten wir wieder das einseitige Testproblem B, bei dem große Werte für die Alternative sprechen: gegen Der p-wert ist in diesem Fall wobei der konkret berechnete Prüfgrößenwert ist. Der Flächenwert unter der Verteilung ab dem konkret beobachteten Prüfwert t ist genau der p-wert (orange Fläche). Testentscheidung Eine Testentscheidung mit p-werten führt man dann für alle Testprobleme folgendermaßen durch: Verwirf, falls behalte bei, falls Die folgenden Bilder veranschaulichen Ihnen, wie p-werte und kritische Werte zusammenhängen (basierend auf obigen Testproblem): Verwirf H0: Der p-wert (orange Fläche) ist kleiner als alpha (blaue Fläche). Die Nullhypothese kann abgelehnt werden. Entsprechend weist der beobachtete Prüfwert t stark in Richtung der Alternative und hat den kritischen Wert überschritten. Behalte H0: Die Fläche des p-wertes (orange) ist größer als alpha (blaue Fläche). Die Nullhypothese muss beibehalten werden. Beachten Sie die Äquivalenz: Prüfwert t überschreitet den kritischen Wert nicht. Der p-wert wird in allen Statistiksoftwarepaketen standardmäßig ausgegeben, weil die Regel für die Testentscheidung bei jedem Testproblem die gleiche ist. Vorteile von p-werten - Prüfwerte mehrer Tests sind im Allgemeinen nicht direkt vergleichbar; p-werte schon, da p-werte Wahrscheinlichkeiten sind und deswegen zwischen 0 und 1 liegen. - Interpretierbarkeit. - schnelle Durchführung am Computer. Nachteile von p-werten - p-werte geben an, zu welchem Niveau die Nullhypothese gerade noch verworfen werden kann. Hierbei besteht die Gefahr, dass die zugrunde liegende Testtheorie außer Kraft gesetzt wird. Dafür ist es nämlich wichtig, dass vor der Testentscheidung das Signifikanzniveau vorgegeben wird und nicht aufgrund des erhaltenen p-werts das Niveau "nachkorrigiert" wird. (Siehe dazu auch.) Unter Material finden Sie eine Anleitung, wie Sie im Statistiklabor einen Testoutput über die p-werte interpretieren. Ausblick Wie der p-wert beim zweiseitigen Testproblem berechnet wird, können Sie im Exkurs Page 5

p-wert beim zweiseitigen Testproblem nachlesen. Die Testentscheidung kann auch anhand des Konfidenzintervalls gefällt werden. Das können Sie im nachlesen. Anleitung, wie Sie im Statistiklabor einen Testoutput über die p-werte interpretieren: p-wert ( b97.zmpf ) Berechnung des p-werts beim zweiseitigen Testproblem anhand eines Beispiels Der Schlagzeuger Gus Veit ist es leid. Er haut ständig seine selbstgebauten Ruten kaputt und sucht nun deshalb ein Qualitätsprodukt. Sein örtlicher Musikladen hat zwei verschiedene Ruten im Angebot: Die RodsTM von und die Red Rods von. Ruten der Firma ProMark Der nicht gerade entschlussfreudige Gus will ein Experiment starten, um sich letztendlich für eine Stammmarke zu entscheiden. Er stellt ein zweiseitiges Testproblem auf, das er zum 10%-Niveau überprüfen möchte: H0: Die Haltbarkeitszeiten der Ruten ProMark (X) und Headhunter (Y) unterscheiden sich nicht. H1: Die Haltbarkeitszeiten der Ruten ProMark (X) und Headhunter(Y) sind unterschiedlich. Für das Experiment hat Gus von jeder Marke 5 Paar eingekauft. Er schlagwerkt wie gewohnt und schreibt akribisch die Haltbarkeit in Stunden auf. Als Test verwendet er den Wilcoxon-Rangsummen-Test und beobachtet für die Prüfgröße den Wert 18. Wie wahrscheinlich ist es, den Prüfgrößenwert 18 oder einen in Richtung Alternative extremeren Wert zu erhalten, wenn sich die beiden Rutenprodukte nicht unterscheiden, d.h., wie groß ist der p-wert? Öffnen wir das Applet Wilcoxon-Verteilung (bb3.jar), können wir am linken Ende die Wahrscheinlichkeit ablesen. Wir testen aber zweiseitig. Deswegen müssen wir zusätzlich dieselbe Wahrscheinlichkeitsmasse am rechten Ende der Verteilung ablesen, also Für den p-wert gilt sonach Damit ist und Gus kann die Nullhypothese verwerfen. Eine der beiden Stick-Marken stellt die besseren Ruten her. Wilcoxon-Verteilung für n=m=5. Die blauen Balken ergeben zusammen den p-wert. Die roten Balken stellen das 5%- und das 95%-Quantil dar (kritische Werte). Der zweiseitige Test hat sich für die Alternative entschieden. Allgemein Page 6

Wie bei der Berechnung der kritischen Werte im zweiseitigen Fall, wird für die Berechnung des p-werts die Wahrscheinlichkeit aufgeteilt und symmetrisch auf beide Seiten der Verteilung abgetragen. So gilt einerseits für die kritischen Werte und andererseits für die p-werte Damit ergibt sich die schon erlernte Testentscheidung: Verwirf falls behalte bei, falls Verwendung des p-werts bei einem zweiseitigen Testproblem als Hilfsmittel für die Testentscheidung. Die orangen Flächen stellen den p-wert dar, die blauen Flächen zusammen ergeben die Alpha-Wahrscheinlichkeit Sie können sich eine Übersichtstabelle als PDF ( Word-Dokument ( : c04.doc ) herunterladen. : c02.pdf ) oder als p-wert Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 7