Kapitel 4.3 Testen von Verteilungshypothesen. Stochastik SS

Ähnliche Dokumente
Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

7. Hypothesentests. Ausgangssituation erneut: ZV X repräsentiere einen Zufallsvorgang. X habe die unbekannte VF F X (x)

Einführung in die statistische Testtheorie

11 Testen von Hypothesen

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Kapitel 13. Grundbegriffe statistischer Tests

Statistik II für Betriebswirte Vorlesung 1

Statistische Tests Übersicht

Allgemeines zu Tests. Statistische Hypothesentests

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Wichtige Definitionen und Aussagen

Auswertung und Lösung

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Vorlesung: Statistik II für Wirtschaftswissenschaft

Signifikanztests Optimalitätstheorie

How To Find Out If A Ball Is In An Urn

Nachgefragte Aufgaben über spezifische Themen

Online-Aufgaben Statistik (BIOL, CHAB) Auswertung und Lösung

5 Konfidenzschätzung. 5.1 Einige Grundbegriffe zur Konfidenzschätzung

6. Statistische Hypothesentests

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Einführung in die Induktive Statistik: Testen von Hypothesen

Beurteilende Statistik

Einführung in die statistische Testtheorie II

3 Grundlagen statistischer Tests (Kap. 8 IS)

Experimentelle Methoden der Teilchenphysik Sommersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Stochastik Praktikum Testtheorie

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Induktive Statistik Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

Wahrscheinlichkeitsrechnung und Statistik

Kapitel XII - Gleichmäßig beste unverfälschte Tests und Tests zur Normalverteilung

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Klassifikation von Signifikanztests

Sammlung alter Klausuraufgaben zur Stochastik keine Abgabe keine Besprechung in den Tutorien

2 Klassische statistische Verfahren unter Normalverteilungs-Annahme

Kapitel VIII - Tests zum Niveau α

Kapitel 3 Schließende Statistik

Wir gehen wieder von einem allgemeinen (parametrischen) statistischen Modell aus, (

Statistik II. Statistische Tests. Statistik II

WB 11 Aufgabe: Hypothesentest 1

Um zu entscheiden, welchen Inhalt die Urne hat, werden der Urne nacheinander 5 Kugeln mit Zurücklegen entnommen und ihre Farben notiert.

Klassifikation von Signifikanztests

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Mathematik für Biologen

Klassifikation von Signifikanztests

Mathematische Statistik Aufgaben zum Üben. Schätzer

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Statistisches Testen

Schließende Statistik: Hypothesentests (Forts.)

Lösungen zum Aufgabenblatt 14

Wahrscheinlichkeit und Statistik BSc D-INFK

Statistik. Andrej Depperschmidt. Sommersemester 2016

Klausur Stochastik und Statistik 31. Juli 2012

Kapitel XI - Operationscharakteristik und Gütefunktion

Statistische Methoden der Datenanalyse Wintersemester 2012/2013 Albert-Ludwigs-Universität Freiburg

Zulassungsprüfung Stochastik,

Statistik-Notfallkit für Schüler und Lehrer

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Biostatistik, Winter 2011/12

Statistik II. Statistische Tests. Statistik II

Klassifikation von Signifikanztests

10 Der statistische Test

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Kapitel 3 Schließende Statistik

3) Testvariable: T = X µ 0

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 5: Aufgaben zu den Kapiteln 9 bis 12

A Kurzskript: Stochastische Majorisierung und Testtheorie

Fit for Abi & Study Stochastik

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Nachklausur Wahrscheinlichkeitstheorie und Inferenz II Sommersemester Oktober 2011

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Vorlesung: Statistik II für Wirtschaftswissenschaft

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

AUFGABENTYPEN. 2. Bekannt ist die Irrtumswahrscheinlichkeit α ; zu berechnen ist der Annahme- und Ablehnungsbereich, also die Entscheidungsregel.

Testen von Hypothesen, Beurteilende Statistik

Biomathematik für Mediziner

Stochastik für Mathematiker Teil 2: Wahrscheinlichkeitstheorie

Um zu entscheiden, welchen Inhalt die Urne hat, werden der Urne nacheinander 5 Kugeln mit Zurücklegen entnommen und ihre Farben notiert.

2 Aufgaben aus [Teschl, Band 2]

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

Musterlösung zu Serie 8

Zulassungsprüfung Stochastik,

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

8. Konfidenzintervalle und Hypothesentests

Wahrscheinlichkeit 1-α: richtige Entscheidung - wahrer Sachverhalt stimmt mit Testergebnis überein. Wahrscheinlichkeit α: falsche Entscheidung -

2.2 Klassische Testtheorie

TU DORTMUND Sommersemester 2018

2.2 Klassische Testtheorie

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

Auswertung und Lösung

Beurteilende Statistik

Testen von Hypothesen:

Grundlagen der schließenden Statistik

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Transkript:

Kapitel 4.3 Testen von Verteilungshypothesen Stochastik SS 2017 1

Beispiele 1) Landwirt wird Verfahren zur Änderung des Geschlechtsverhältnisses von Nutztieren angeboten, so dass z.b. mehr Kuhkälber als Stierkälber geboren werden. Um die Wirksamkeit des Verfahrens zu überprüfen, muss getestet werden, ob sich das Verhältnis tatsächlich ändert. Da ein Test aber lange dauert, sollte die Anzahl der Tests gering bleiben. 2) Faire Münze: Wie oft muss eine Münze geworfen, d.h. getestet werden, um mit hinreichender Sicherheit sagen zu können, dass sie fair ist? 3) Qualitätskontrolle: Hypothese: Ein Produkt ist besser als ein anderes. In allen Beispielen gibt es zwei Möglichkeiten: Die Annahme (Verhältnis ändert sich/münze ist fair/produkt ist besser) trifft zu oder nicht. Anhand eines Tests soll eine Entscheidung getroffen werden, welche der zwei Möglichkeiten tatsächlich vorliegt. Stochastik SS 2017 2

Mathematische Formulierung Gegeben: Parametrisches Modell (P ϑ ) ϑ Θ, mit Θ R oder Θ R n. Beobachtungen x 1,..., x n, die Realisierungen von u.i.v. nach P ϑ verteilten ZVn X 1,..., X n seien, wobei ϑ unbekannt ist. Aufgabe: Entscheide anhand der Beobachtungen, ob der unbekannte Parameter ϑ in Θ 0 Θ liegt oder im Komplement: Nullhypohese H 0 : ϑ Θ 0 Alternative H 1 : ϑ Θ 1 = Θ \ Θ 0 = Θ c 0 Definition 4.15 Ein Test ist eine Entscheidungsregel der Form { 1, für Annahme von H 1, d.h. Ablehnung von H 0, E = e(x 1,..., X n ) = 0, für Annahme von H 0, d.h. Ablehnung von H 1, die aufgrund der Beobachtungen x i = X i (ω), 1 i n, eine Entscheidung E(ω) = e(x 1,..., x n )für oder gegen die Hypothese trifft. Stochastik SS 2017 3

Bemerkung: a) Allgemeiner wird ein Test definiert als (messbare) Abbildung der Beobachtungen e(x 1,..., X n ) [0, 1], wobei e(x 1,..., x n ) die Wahrscheinlichkeit angibt, sich aufgrund der beobachteten Daten für die Alternative zu entscheiden. Ein Test ist somit eine Zufallsvariable mit Werten in [0, 1]. Wir betrachten im Folgenden nur Tests mit eindeutiger Entscheidung, d.h. e(x 1,..., X n ) {0, 1}. b) Ein Test ist in diesem Fall eindeutig charakterisiert durch seinen kritischen Bereich K = {ω Ω E(ω) = 1} d.h. durch die Menge der Fälle, bei denen die Nullhypothese H 0 verworfen wird. c) Sind Θ 0 = {ϑ 0 } oder Θ 1 = {ϑ 1 } einelementig, spricht man von einfachen Hypothesen bzw. Alternativen, andernfalls von zusammengesetzten Hypothesen/Alternativen. Stochastik SS 2017 4

Bei der Testentscheidung sind zwei Fehler/Irrtümer möglich: Fehler 1. Art: Nullhypothese H 0 wird verworfen, obwohl sie zutrifft. Fehler 2. Art: Nullhypothese H 0 wird nicht verworfen, obwohl sie falsch ist. Definition 4.16 Ein Test hat das (Signifikanz-)Niveau α, wenn gilt P ϑ (K) α ϑ Θ 0. Beachte, dass P ϑ (K) für ϑ Θ 0 gerade die Wahrscheinlichkeit für einen Fehler 1. Art ist! Typische Vorgehensweise: Man fixiert ein α (Wahrscheinlichkeit für Fehler 1. Art) und sucht dann unter allen Tests zum Niveau α denjenigen, der die Wahrscheinlichkeit für einen Fehler 2. Art minimiert, d.h. für den P ϑ (K c ) minimal wird für ϑ Θ 1. Asymmetrie bzgl. der beiden Fehler, nur einen kann man kontrollieren. Stochastik SS 2017 5

Definition 4.17 Die durch β(ϑ) = P ϑ (K) definierte Funktion β : Θ [0, 1] heißt Gütefunktion des Tests. Wahrscheinlichkeit für Fehler 1. Art: β(ϑ), ϑ Θ 0 Wahrscheinlichkeit für Fehler 2. Art: 1 β(ϑ), ϑ Θ 1 Für ϑ Θ 1 heißt β(ϑ) die Macht (engl. power) oder auch Güte/Schärfe des Tests in ϑ. Stochastik SS 2017 6

Kälberbeispiel revisited (Beispiel 4.18) Verfahren, das Geschlechtsverhältnis bei Kälbern verbessern soll: Ω = {ω = (x 1,..., x n ) x i {0, 1}}, wobei 0 kein Erfolg (Stier) entspricht und 1 Erfolg (Kuh). Annahme: n = 20, d.h. 20 Kälbergeburten werden beobachtet P ϑ sei Binomialverteilung mit p = ϑ und n = 20, Θ = [ 1 2, 1]. (Einfache) Hypothese: Θ 0 = { 1 2 } (kein Effekt) Alternative: Θ 1 = ( 1 2, 1] (Verfahren wirkt) (ebenso möglich wäre Θ = [0, 1], Θ 0 = [ 0, 1 2], Θ1 = ( 1 2, 1] ) Testidee: Lehne Hypothese ab (d.h. Entscheid für Wirksamkeit und Kauf des Verfahrens), falls 20 i=1 x i > c. Problem: Wie ist c zu wählen, damit Effekt deutlich und Entscheidung klar wird? Züchter will aus Kostengründen vermeiden, das Verfahren einzuführen, wenn es in Wahrheit wirkungslos ist (Fehler 1. Art), und entscheidet sich für das Niveau α = 0.05. Stochastik SS 2017 7

Kälberbeispiel revisited (Beispiel 4.18) Wahrscheinlichkeit für Fehler 1. Art ist ] P 1 2 [ 20 i=1 X i > c = 20 k=c+1 ( 20 k ) ( 1 2 [ 20 ] Man findet P 1 2 i=1 X i > 14 = 0.0207, P 1 2 { = c = 14, d.h. K = ω Ω ) 20 α = 0.05 [ 20 ] i=1 X i > 13 = 0.0577 } 20 i=1 x i > 14 Betrachte nun den Fehler 2. Art: Angenommen, der Fall ϑ = 0.7 sei bereits wirtschaftlich interessant. Die Macht β(ϑ) des Tests bei ϑ = 0.7 ist 20 ( ) 20 P 0.7 (K) = 0.7 k 0.3 20 k = 0.417 k k=15 d.h. mit Wahrscheinlichkeit 1 β(0.7) = 0.583 wird nicht entdeckt, dass das Verfahren gut funktioniert: unbefriedigend! Stochastik SS 2017 8

Kälberbeispiel revisited (Beispiel 4.18) Konsequenz: Im vorliegenden Beispiel reichen Daten nicht für größere Trennschärfe aus! Um z.b. P 0.5 (K) 0.05 und P 0.7 (K) 0.9 zu erreichen, braucht man mindestens n = 53 Versuche (mit c = 32). Stochastik SS 2017 9

Allgemeine Konstruktion von Tests Fall der einfachen Alternative: Θ 1 = {ϑ 1 } Wähle K so, dass P ϑ1 (K) maximal wird (d.h. maximiere die Macht des Tests) unter der Nebenbedingung P ϑ (K) α ϑ Θ 0 (wahre Signifikanzniveau α). Fall der zusammengesetzten Alternative: Θ 1 > 1 Im Allgemeinen wird das optimale K von ϑ 1 Θ 1 abhängen. Ist das nicht der Fall, so heißt der durch das eindeutige K festgelegte Test gleichmäßig bester Test (UMP-Test, uniformly most powerful) zum Niveau α. Beispiel 4.19 (Münzwurf): Θ = [0, 1], Θ 0 = { 1 2} (Nullhypothese: Münze ist fair). Plausibler Test ist { n 1, falls i=1 E(ω) = x i n 2 c, 0, sonst für einen bestimmten kritischen Wert c. Stochastik SS 2017 10

Es gilt P 0.5 (K) = 0.043 0.05, d.h. der Test hält das Niveau α = 0.05 ein. Für ϑ mit ϑ 1 2 0.06 ist auch die Fehlerwahrscheinlichkeit 2. Art 0.05, d.h. der Test ist in diesem Sinne trennscharf für gebiete mit Abstand 0.06. Stochastik SS 2017 11

Kapitel 4.4 Likelihood-Quotienten-Tests Stochastik SS 2017 12

Grundannahmen Grundraum (Ω, A) = (R n, B n ), P = {P ϑ ϑ Θ} Für diskrete Wahrscheinlichkeitsmaße sei P ϑ ({(x 1,..., x n )}) = µ ϑ (x 1 )... µ ϑ (x n ), im stetigen Fall habe P ϑ eine Dichte p((x 1,..., x n ), ϑ) = f (x 1, ϑ)... f (x n, ϑ). Einfache Hypothese und Alternative Sei Θ = {ϑ 0, ϑ 1 }, die Nullhypothese sei Θ 0 = {ϑ 0 }. Die Likelihoodfunktion ist gegeben durch { f (x 1, ϑ i )... f (x n, ϑ i ) im stetigen Fall, L((x 1,..., x n ), ϑ i ) = µ ϑi (x 1 )... µ ϑi (x n ) im diskreten Fall, Der Likelihood-Quotient ist L(x, ϑ 1 ) L(x, ϑ 0 ). i = 0, 1. Stochastik SS 2017 13

Neyman-Pearson-Lemma Idee: Ein hoher Wert des Likelihood-Quatienten spricht für ϑ 1, d.h. Ablehnung der Hypothese, ein niedriger Wert für ϑ 0, d.h. Hypothese kann aufrecht erhalten werden. Definition 4.20 Ein Likelihood-Quotienten-Test (LQT) von ϑ 0 gegen ϑ 1 ist ein Test E = e(x!,..., X n ) der Form { 1, falls L((X 1,...,X n),ϑ 1) L((X e(x 1,..., X n ) = c, 1,...,X n),ϑ 0) 0, sonst, mit kritischem Bereich K = { } L((X1,...,X n),ϑ 1) L((X c 1,...,X n),ϑ 0) und Signifikanzniveau ( ) L((X1,..., X n ), ϑ 1 ) α = P ϑ0 L((X 1,..., X n ), ϑ 0 ) c. Stochastik SS 2017 14

Neyman-Pearson-Lemma Satz 4.21 (Lemma von Neyman-Pearson) Jeder Likelihood-Quotienten-Test E ist im folgenden Sinne optimal: Ist Ẽ ein weiterer Test mit demselben Signifikanzniveau wie E, so hat Ẽ eine mindestens ebenso große Fehlerwahrscheinlichkeit 2. Art, d.h. P ϑ0 ( K) P ϑ0 (K) = P ϑ1 ( K) P ϑ1 (K). Beispiel 4.22 (Nachrichtentechnik) Über Nachrichtenkanal wird in n sukzessiven Perioden festes Signal S gesendet, und zwar S = 1, falls zu Beginn der Sendezeit ein bestimmtes Ereignis eingetreten ist ( Notsignal ), und S = 0 sonst ( Funkstille ). Problem: Signal wird durch Rauschen überlagert, d.h. der Empfänger hört tatsächlich die Signal X 1,..., X n mit X i = S + Z i, i = 1,..., n, wobei die Z i zufällige Störungen sind. Stochastik SS 2017 15

Annahme: weißes Rauschen, d.h. die Z i sind u.i.v. nach N(0, 1) verteilt. Mögliche Signalfolgen 1. Folge 2. Folge 1.022-1.420-0.472 0.489 1.279-1.711 3.521-1.186 0.571 0.754-1.851-0.732 0.194-0.066 1.192 1.006-0.501-0.798-0.273 0.162 4.682-3.502 Aufgrund der empfangenen Signale soll entschieden werden, ob die Hypothese S = 1 aufrecht erhalten werden kann oder verworfen werden muss. Stochastik SS 2017 16

Wichtig ist, das Signal, falls es gesendet wird (Notfall), auch wirklich zu entdecken (d.h. die Wahrscheinlichkeit für einen Fehler 1. Art sollte klein sein). Empfangenes Signal ist N(ϑ, 1)-verteilt, wobei ϑ = 0 oder ϑ = 1. Hypothese: S = 1 wird gesendet, d.h. die X i sind N(1, 1)-verteilt. Alternative: S = 0, d.h. die X i sind N(0, 1)-verteilt. Der Likelihood-Quotient ist L((x 1,..., x n ), 0) L(x 1,..., x n ), 1) = e 1 2 e 1 2 n i=1 x 2 i n i=1 (x i 1) 2 c Ausmultiplizieren des Nenners und Kürzen ergibt e n 2 n i=1 x i c n n 2 x i ln(c) d.h. K = { n i=1 X i k }. i=1 n x i k i=1 mit k = n 2 ln(c), Stochastik SS 2017 17

Der Test hat das Niveau α = 0.05, falls gilt [ n ] [ n i=1 P ϑ0 X i k = P X i n ϑ0 k n ] ( ) k n = Φ = α. i=1 n n n Somit muss gelten k n n = Φ 1 (α) 1.65 = k = n n 1.65. Konkret für n = 10 ergibt dies k 4.79, d.h. K = { 10 i=1 X i 4.79}. Damit lehnt der Test für beide Datenreihen die Hypothese S = 1 ab, d.h. man geht aufgrund der empfangenen Signale von Funkstille aus. Die Macht des Tests in ϑ 1 = 0 ist ] P ϑ1 (K) = P ϑ1 [ 10 i=1 X i 4.79 = P [ 10 ] i=1 X i 4.79 ( ) 4.79 = Φ 0.934, 10 10 10 d.h. die Fehlerwahrscheinlichkeit 2. Art ist 1 P ϑ1 (K) 0.066, insofern ist der Test in Bezug auf beide Fehler recht befriedigend. Stochastik SS 2017 18

Plausibel wäre auch der folgende Test (der aber nach dem Neyman-Pearson-Lemma nicht besser sein kann!): Dann ist P ϑ0 ( K) = n P ϑ0 [X i c] = i=1 K = {max(x 1,..., X n ) c} n P ϑ0 [X i 1 c 1] = ( Φ(c 1) ) n α = 0.05, i=1 falls c 1 Φ 1( ) α 1 n. Speziell für n = 10 und α = 0.05 ist α 1 10 = 0.74 und Φ 1 (0.74) = 0.64, d.h. c = 1.64. Damit würde die Hypothese ϑ = 1 für die erste Datenreihe nicht verworfen, sondern nur bei der zweiten. Die Macht dieses Tests an der Stelle ϑ 1 = 0 ist P ϑ1 ( K) = ( Φ(c) ) 10 = (0.9495) 10 0.6, d.h. die Fehlerwahrscheinlichkeit 2. Art ist ungefähr 1 0.6 = 0.4 und damit etwa sechsmal so groß wie beim Likelihood-Quotiententest! Stochastik SS 2017 19

Zusammengesetzte Hypothesen und Alternativen Sei nun Θ > 2 und wiederum Θ 0 die Hypothesenmenge sowie Θ 1 = Θ \ Θ 0 die Alternativenmenge. Der Likelihood-Quotient ist nun λ(x 1,..., x n ) = sup ϑ Θ L((x 1,..., x n ), ϑ) sup ϑ Θ0 L((x 1,..., x n ), ϑ) Es gilt λ(x 1,..., x n ) 1 Große Werte von λ lassen wiederum ϑ Θ 1 vermuten. Dies führt zu einem Test der Form {K = {λ(x 1,..., X n ) c} mit c > 1. Für Θ = {ϑ 0, ϑ 1 } und c > 1 ist λ(x 1,..., x n ) = max{l((x 1,..., x n ), ϑ 0 ), L((x 1,..., x n ), ϑ 1 )} L((x 1,..., x n ), ϑ 0 ) L((x 1,..., x n ), ϑ 1 ) L((x 1,..., x n ), ϑ 0 ) c c Stochastik SS 2017 20

Beispiel 4.23: Nachrichtentechnik revisited Es kann irgendein Text ϑ = (ϑ 1,..., ϑ n ), ϑ i R, gesendet werden, d.h. Θ = R n. Hypothese: ϑ 0 = (0,..., 0) ( Funkstille ), Alternative: ϑ ϑ 0 λ(x 1,..., x n ) = sup ϑ Θ L((x 1,..., x n ), ϑ) L((x 1,..., x n ), ϑ 0 ) L((x 1,..., x n ), ϑ) = (2π) n 2 e 1 2 n i=1 (x i ϑ i ) 2 maximal für ϑ = (x 1,..., x n ) (2π) n 2 = λ(x 1,..., x n ) = (2π) n 2 e 1 2 n = xi 2 c mit c = 2 ln(c), i=1 n i=1 x 2 i = e 1 2 d.h. der kritische Bereich ist K = { n i=1 [ X i 2 c}. n c ist so zu wählen, dass P ϑ0 (K) = P ϑ0 i=1 X i 2 c ] α. n i=1 X i 2 ist unter der Hypothese χ 2 n-verteilt = c = q χ2 n 1 α. n i=1 x 2 i Stochastik SS 2017 21 c

Verallgemeinerungen Unter einigen weiteren technischen Voraussetzungen charakterisiert das allgemeine Neyman-Pearson-Lemma die in diesem Rahmen optimalen Tests (d.h. β(ϑ) α, ϑ Θ 0, β(ϑ) maximal für ϑ Θ 1 ). Diese haben die folgende Struktur: Einseitiger Test: Θ = R, Θ 0 = (, ϑ 0 ), Θ 1 = [ϑ 0, ) { 1, falls T 0 (x 1,..., x n ) > c 1, e(x 1,..., X n ) = 0, falls T 0 (x 1,..., x n ) < c 1. (vertausche 0 und 1, falls Θ 0 = (ϑ 0, ) und Θ 1 = (, ϑ 0 ]) Zweiseitiger Test: Θ = R, Θ 0 = {ϑ 0 }, Θ 1 = R \ {ϑ 0 } { 1, falls T 0 (x 1,..., x n ) [c 21, c 22 ], e(x 1,..., X n ) = 0, sonst. Stochastik SS 2017 22

Strategie zur Konstruktion von Tests Bilde aus den Beobachtungen eine Teststatistik T (d.h. finde eine Abbildung T : R n R), deren Verteilung F auf der Hypothese Θ 0 = {ϑ 0 } bzw. dem linken oder rechten Randpunkt der Hypothesen Θ 0 = (, ϑ 0 ) oder Θ 0 = (ϑ 0, ) bekannt ist. Wählt man dann c 1 als das 1 α-quantil q1 α F von F bzw. c 21, c 22 als die α 2 - bzw. 1 α 2 -Quantile qf α, F 2 1 von F, erhält man einen Niveau-α-Test. α 2 Ist T = T 0 (mit T 0 wie oben, was jeweils zu beweisen wäre), kann man sicher sein, dass der Test optimal ist in dem Sinne, dass er die größtmögliche Güte auf der Alternativenmenge hat. Man beachte die Asymmetrie bzgl. der Fehler 1. und 2. Art! Niveau-α-Tests halten den Fehler 1. Art unter Kontrolle, d.h. lehnt ein Test die Hypothese ab, kann man größerer Wahrscheinlichkeit davon ausgehen, dass sie tatsächlich falsch ist. Verwirft ein Test jedoch die Hypothese nicht, ist damit noch nicht bewiesen, dass sie tatsächlich zutrifft! Je nach Testausgang kann die Wahrscheinlichkeit dafür recht gering sein. Stochastik SS 2017 23

Einfache Hypothese Θ 0 = {ϑ 0 }: Test lehnt Hypothese ab, wenn der Wert der Teststatistik T in einem der roten Bereiche liegt. Zusammengesetzte Hypothese Θ 0 = (, ϑ 0 ): Test lehnt Hypothese ab, wenn der Wert der Teststatistik T im roten Bereiche liegt. Stochastik SS 2017 24

Fehlerhafte Testinterpretationen Man beachte, dass die Fehlerwahrscheinlichkeiten 1. und 2. Art genau genommen bedingte Wahrscheinlichkeiten gegeben die Hypothese bzw. die Alternative sind: P ϑ (Fehler 1. Art) = P ϑ (e(x 1,..., X n ) = 1 ϑ Θ 0 ) P ϑ (Fehler 2. Art) = P ϑ (e(x 1,..., X n ) = 0 ϑ Θ 1 ) Die Wahrscheinlichkeit, dass die Hypothese tatsächlich falsch ist, wenn der Test sie verwirft, ist dagegen P ϑ (ϑ Θ 1 e(x 1,..., X n ) = 1) und diese kann deutlich kleiner als 1 α sein! Nehmen wir vereinfachend an, dass P ϑ (Fehler 1. Art) α und P ϑ (e(x 1,..., X n ) = 1 ϑ Θ 1 ) 1 α, d.h der Test ist in beiden Fällen gleich trennscharf. Stochastik SS 2017 25

Fehlerhafte Testinterpretationen Gilt P(ϑ Θ 0 ) = 0.9 = 1 P(ϑ Θ 1 ), so ist für α = 0.05 nach der Bayesschen Regel P ϑ (ϑ Θ 1 e(x ) = 1) P ϑ (e(x ) = 1 ϑ Θ 1 ) P(ϑ Θ 1 ) = P ϑ (e(x ) = 1 ϑ Θ 1 ) P(ϑ Θ 1 ) + P ϑ (e(x ) = 1 ϑ Θ 0 ) P(ϑ Θ 0 ) 0.95 0.1 = 0.95 0.1 + 0.05 0.9 = 0.6785714, d.h. nur in etwa zwei Dritteln der Fälle, in denen der Test die Hypothese verwirft, ist sie tatsächlich falsch. Hat der Test eine geringere Macht auf der Alternative, d.h. ist P ϑ (e(x 1,..., X n ) = 1 ϑ Θ 1 ) < 1 α, fällt obiger Wert noch geringer aus. Insbesondere wird deutlich, dass man ohne Kenntnis von P(ϑ Θ 0 ) und P(ϑ Θ 1 ) aus einem Testentscheid gegen die Hypothese nicht zwingend schließen kann, dass sie unzutreffend ist. Stochastik SS 2017 26