Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer

Ähnliche Dokumente
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Tobias Scheffer Michael Brückner

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr Paul Prasse

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung

Statistik II. Statistische Tests. Statistik II

Statistik II. Statistische Tests. Statistik II

3 Grundlagen statistischer Tests (Kap. 8 IS)

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Modellevaluierung. Niels Landwehr

Mathematik für Biologen

Statistik II. IV. Hypothesentests. Martin Huber

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Grundlagen der schließenden Statistik

Hypothesenbewertungen: Übersicht

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Einführung in die Induktive Statistik: Testen von Hypothesen

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

2 Wiederholung statistischer Grundlagen Schließende Statistik empirischen Information aus Stichprobenrealisation x von X

Auswertung und Lösung

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Statistik II. Weitere Statistische Tests. Statistik II

4.1. Nullhypothese, Gegenhypothese und Entscheidung

Zusammenfassung PVK Statistik

1.6 Der Vorzeichentest

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Macht des statistischen Tests (power)

Statistisches Testen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 13. Winterthur, 24. Mai Institut für Datenanalyse und Prozessdesign

Statistik I für Betriebswirte Vorlesung 14

Prüfung aus Statistik 2 für SoziologInnen

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Stochastik Serie 11. ETH Zürich HS 2018

Biostatistik, WS 2013/2014 Konfidenzintervalle

Klassifikation von Signifikanztests

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

1. Grundbegri e der Stochastik

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003

Bereiche der Statistik

Vorlesung: Statistik II für Wirtschaftswissenschaft

2-Stichprobentest für Anteilswerte

Empirische Wirtschaftsforschung

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

3.Wiederholung: Toleranzbereiche Für EX Geg:

Macht des statistischen Tests (power)

Aufgaben. d) Seien X und Y Poissonverteilt mit Parameter µ, X, Y P(µ). 2. Dann ist die Summe auch Poissonverteilt mit (X + Y ) P(2µ).

Tests für Erwartungswert & Median

Softwaretechnik. Prof. Dr. Rainer Koschke. Fachbereich Mathematik und Informatik Arbeitsgruppe Softwaretechnik Universität Bremen

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 12. Winterthur, 17. Mai Institut für Datenanalyse und Prozessdesign

Wichtige Definitionen und Aussagen

Statistik und Wahrscheinlichkeitsrechnung

Statistik II. IV. Hypothesentests. Martin Huber

Mathematik für Biologen

Schließende Statistik

Mathematik für Biologen

Wahrscheinlichkeitsrechnung und Statistik

Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen?

Statistik-Notfallkit für Schüler und Lehrer

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik II. Regressionsanalyse. Statistik II

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Klassifikation von Signifikanztests

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Ein- und Zweistichprobentests

Allgemeines zu Tests. Statistische Hypothesentests

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

T-Test für unabhängige Stichproben

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Parameterfreie Tests. ²- Unabhängigkeitstest Test auf Unabhängigkeit von zwei Zufallsgrößen

Statistische Tests für unbekannte Parameter

So berechnen Sie einen Schätzer für einen Punkt

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Prof. Dr. Marc Gürtler WS 2015/2016. Prof. Dr. Marc Gürtler. Klausur zur 10/12 SWS-Vertiefung Empirische Finanzwirtschaft Finanzwirtschaft

Statistik und Wahrscheinlichkeitsrechnung

T-Test für den Zweistichprobenfall

Statistik III. Methodologie der Psychologie

OLS-Schätzung: asymptotische Eigenschaften

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Entscheidung zwischen zwei Möglichkeiten auf der Basis unsicherer (zufälliger) Daten

Hypothesentests für Erwartungswert und Median. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Verteilung von Summen

2 Aufgaben aus [Teschl, Band 2]

Auswertung und Lösung

Statistics, Data Analysis, and Simulation SS 2017

Stichproben Parameterschätzung Konfidenzintervalle:

2. Formulieren von Hypothesen. Nullhypothese: H 0 : µ = 0 Gerät exakt geeicht

Mathematische Statistik Aufgaben zum Üben. Schätzer

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Transkript:

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Tobias Scheffer

Überblick Wiederholung: Konfidenzintervalle Statistische Tests p-wert Vorzeichen-, Wald-, t- und Pearsons Test 2

Konfidenzintervalle Hypothesenbewertung: Was ist der erwartete Fehler (Risiko) eines Modells?, ( ), R f y f x p x y dxdy Da p x, y unbekannt ist, muss es aus Daten geschätzt werden, z.b.: ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 i i i i ˆR f Was sagt über R f aus? 3

Konfidenzintervalle Idee Konfidenzintervall: Intervall um den geschätzten Fehler ˆR angeben so dass der echte Fehler meistens im Intervall liegt Quantifiziert Unsicherheit der Schätzung Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable ˆR ˆR [ ] R 4

Konfidenzintervalle Idee Konfidenzintervall: so wählen, dass Schranke mit vorgegebener Wahrscheinlichkeit von 1-a (z.b. a =0.05) gilt. Einseitiges 1-a -Konfidenzintervall: Schranke, so dass Zweiseitiges 1-a -Konfidenzintervall: Schranke, so dass Bei symmetrischer Verteilung gilt immer: P R Rˆ 1a P R Rˆ 1a zu einseitigem 1-a -Konfidenzintervall = zu zweiseitigem 1-2a -Konfidenzintervall. 5% Wahrscheinlichkeit, dass 10% Wahrscheinlichkeit, dass R Rˆ oder R Rˆ R Rˆ 5

Konfidenzintervalle Spezialfall: Risikoschätzung mit Zero-One Loss R ( y, f ( x)) p( x, y)dxdy p y 0/1 y f ( x) p( x, y)dxdy f ( x) Ereignis Modell f wird auf separater Testmenge mit m unabhängigen Beispielen evaluiert: 1 m m Rˆ ( y, f ( )) : binäre Indikatorvariable für "Ereignis" x j1 01 / j j T ( x, y),...,( x, y ) 1 1 m m 6

Verteilung für Fehlerschätzer Betrachten zunächst unnormalisierten Fehlerschätzer ˆ m mr (, ( )) 1 0/1 y j f x j j Summe über Beispielverluste Beispiele unabhängig: Summe über Münzwürfe Münzparameter ist Fehlerwahrscheinlichkeit R 0/1 ( y, f( x )) {0,1} j j 7

Binomialverteilung Unnormalisiertes empirisches Risiko ˆ m mr ( 1 0/1 y, ( )) j f x j j ist Summe von Bernouilli-Variablen, also binomialverteilt: mrˆ Erwartungswert Varianz ~ Bin( mrˆ m, R) m ˆR mr Var m m R(1 R) 8

Binomialverteilung Unnormalisiertes empirisches Risiko ˆ m mr ( 1 0/1 y, ( )) j f x j j ist Summe von Bernouilli-Variablen, also binomialverteilt: m Wir beobachten k Fehler. 0/1( y 1 i, f( x )) i i Was sagt k über den wirklichen Fehler aus? mrˆ ~ Bin( mrˆ m, R) Wir suchen Münzparameter, unter denen die Wahrscheinlichkeit der Beobachtung mindestens Oder: Finde Münzparameter U und L, so dass a U ˆ ˆ L p mr k p mr k 2 1a ist. Binomiale Zufallsvariable mit Parameter L bzw. U 9

Clopper-Pearson-Konfidenzintervall Beispiel: a 0.05, m100, k 15 10

Clopper-Pearson-Konfidenzintervall Beispiel: a 0.05, m100, k 15 [ L p mrˆ 15 0.025 L 11

Clopper-Pearson-Konfidenzintervall Beispiel: a 0.05, m100, k 15 p mrˆ 15 0.025 U [ L ] U 12

Clopper-Pearson-Konfidenzintervall Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable Fehlerschätzer entspricht Wir beobachten Wir suchen U und L, so dass a 2 i0 p mrˆ k k U 1 U 1 Beta m Bin i U, m Beta 1 U m kk, 1 a kk, 1 2 m m k 0/1( yi, f( x i1 a 2 Münzwürfen i )) p mrˆ k L 1 k 1 i0 1Beta L 1 Beta Fehler. ˆ ˆ L a pu mr k p mr k 2 1 Bin i L, m 1 L m k 1, k a 1 m k1, k 2 13

Clopper-Pearson-Konfidenzintervall Per Definition korrekt, d.h. nur in a der Fälle liegt wirklicher Fehler nicht im Konfidenzinterval. Diskretheit der Binomialverteilung führt allerdings zu sehr konservativen / sehr großen Intervallen. 14

coverage Konfidenzintervall Theoretische Konfidenz: 1a CP-Intervall zu pessimistisch (hoher Typ II Fehler) Alternative: Approximative Konfidenzintervalle. 1 0.95 n=100 0.9 0 0.5 1 k/n 15

Normalisierte Binomialverteilung Normalisierter Fehlerschätzer: normalisierte Binomialverteilung Erwartungswert des normalisierten Fehlerschätzers: ˆ 1 ˆ 1 R mr mr R m m Varianz des normalisierten Fehlerschätzers: Standardabweichung ( Standardfehler ) ˆ 1 1 (1 ) Var R Var R R mˆ R m R(1 R) 2 2 m m m Rˆ Rˆ(1 Rˆ) m Zufallsanteil des Schätzers, sinkt mit 1 m 16

Binomialverteilung R 0.5 Binomialverteilung für große m ähnlich Normalverteilung 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 m 5 m 16 m 160 0-0.2 0 0.2 0.4 0.6 0.8 1 1.2 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0.35 0.4 0.45 0.5 0.55 0.6 0.65 17

Binomialverteilung R 0.5 R 0.1 Binomialverteilung für große m ähnlich Normalverteilung 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 m 5 m 16 m 160 0-0.2 0 0.2 0.4 0.6 0.8 1 1.2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0-0.2-0.1 0 0.1 0.2 0.3 0.4 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.12 0.08 0.06 0.04 0.02 0 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.1 18 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

Normalverteilung Empirisches Risiko annähernd normalverteilt: 2 Rˆ 2 Rˆ ~ Rˆ R, r ˆ [approximativ, für große m] Rˆ(1 Rˆ) m Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt: Rˆ R Rˆ R ~ 0,1 [approximativ, für große m] Rˆ Rˆ Schätzen der Varianz des empirischen Risikos: 2 2 2 s s Rˆ Rˆ Rˆ Rˆ(1 Rˆ) m1 19

Wald-Konfidenzintervall Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable Fehlerschätzer ist Summe aus n i.i.d. Zufallsvariablen asymptotisch normalverteilt a 2 Wir suchen U und L, so dass p ˆ ˆ U nr k pl nr k 1 n U n 2 n a p ˆ U nr k 2 Rˆ U k / n U pu n n k / n U n k a a p ˆ L nr k 2 L Rˆ L k / n pl n n L k / n n k 1 a L n 2 n 20

Konfidenzintervall Theoretische Konfidenz: CP-Intervall zu pessimistisch (hoher Typ II Fehler) Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler) 0.2 0.15 0.1 0.05 1a k=10, n=100 0 0 0.1 0.2 0.3 21

coverage Konfidenzintervall Theoretische Konfidenz: 1a CP-Intervall zu pessimistisch (hoher Typ II Fehler) Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler) 1 0.95 n=100 0.9 0 0.5 1 k/n 22

Wilson-Konfidenzintervall Normalverteilungsannahme: Für Binomialverteilung: Rˆ R Rˆ R ~ 0,1 2 2 Rˆ Rˆ Aus Normalverteilungsannahme folgt, dass mit Wahrscheinlichkeit 1a gilt Quadrieren ergibt quadratische Ungleichung, die geschlossene Lösung für R hat. 2 Rˆ 1 a m R R Rˆ R 1 (1 ) 2 R(1 R) m 23

Wilson-Konfidenzintervall Aus Normalverteilungsannahme folgt, dass mit Wahrscheinlichkeit 1a gilt Rˆ R 1 (1 ) 2 1 a m R R Quadrieren ergibt quadratische Ungleichung, die geschlossene Lösung für R hat: R 2 2 ˆ z ˆ(1 ˆ z a a R R R) 2n 4n z LU, 2 a 2 za za 1 n n n, z a a 1 2 1 24

coverage Konfidenzintervall Theoretische Konfidenz: CP-Intervall zu pessimistisch (hoher Typ II Fehler) Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler) Wilson adäquat 1 0.95 0.9 1a n=100 0.85 0 0.5 1 k/n 25

Students t-verteilung Empirisches Risiko annähernd normalverteilt: Problem: Risiko muss bekannt sein, damit wir Varianz bzw. Standardfehler bestimmen können. ˆ ˆ R R p R R N 0,1 Rˆ 2 Rˆ R(1 R) R(1 R) ; Rˆ m m Einfache Charakterisierung der Verteilung des empirischen Fehlers Nur das empirische Risiko ist gegeben. 26

Students t-verteilung Standardisiertes empirisches Risiko mit geschätzter Varianz Rˆ R S Rˆ folgt einer Students t-verteilung mit m-1 Freiheitsgraden (ähnlich Normalverteilung, aber mehr Wahrscheinlichkeitsmasse in den Außenbereichen). Aber für große m konvergiert Students t-verteilung wieder gegen die Standardnormalverteilung Rˆ R Rˆ R ~ 0,1 [approximativ, für große m] S Rˆ S Rˆ 27

Students t-verteilung Rˆ R Rˆ R lim m t m 0,1 S ˆ S R Rˆ 28

Konfidenzintervalle Vorsicht bei der Interpretation von Konfidenzintervallen: die Zufallsvariable ist das empirische Risiko ˆR und das davon abgeleitete Intervall, nicht das echte Risiko R. Richtig: "Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu erhalten, das den echten Fehler enthält, ist 90%" Falsch: "Wir haben ein Konfidenzintervall erhalten. Die Wahrscheinlichkeit, dass der echte Fehler im Intervall liegt, ist 90%" 29

Überblick Wiederholung: Konfidenzintervalle Statistische Tests p-wert Vorzeichen-, Wald-, t- und Pearsons Test 30

Statistische Tests Hypothesenvergleich: Ist mein Modell besser als die Baseline-Methode? Da p x, y unbekannt ist, müssen Risiken aus Daten geschätzt werden. ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 R f R f 1 2 i i i i Was sagt der beobachtete Unterschied über R f R f aus? 1 2 Rˆ f Rˆ f 1 2 31

Statistische Tests Was sagt der beobachtete Unterschied über R f R f aus? 1 2 Rˆ f Rˆ f Wenn R ˆ f1 R ˆ f2 0 gibt es Grund zur Annahme, dass Modell 1 besser ist. Wenn man sich daraufhin für Modell 1 entscheidet, verwirft man die (Null-) Hypothese, dass R ˆ f1 R ˆ f2 0 nur ein Zufallseffekt war. Ein statistischer Test kann die Entscheidung für ein scheinbar besseres Modell rechtfertigen. 1 2 32

Statistische Tests Ein Test ist eine Prozedur mit den Eingaben Nullhypothese, Beobachtungen Parameter (Type 1 Fehler) Ein Test hat die möglichen Ausgaben Nullhypothese abgelehnt das Gegenteil der Nullhypothese gilt. nicht abgelehnt keine Schlussfolgerung möglich, kein neues Wissen gewonnen. a 33

Statistische Tests Nullhypothese: Aussage von der wir bis auf weiteres ausgehen, die wir aber überprüfen möchten und zu widerlegen bereit sind. Bedingung für einen statistischen Test: Wenn die Nullhypothese gilt, dann darf sie nur mit einer Wahrscheinlichkeit von höchstens aabgelehnt werden. Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. 34

Statistische Tests Ausgabe Nullhypothese abgelehnt : Wir ziehen die Schlussfolgerung, dass die Nullhypothese nicht die Realität beschreibt. Neues Wissen gewonnen, Publikation! Ausgabe nicht abgelehnt : Wir können keine Schlussfolgerung ziehen. Vielleicht gilt die Nullhypothese, vielleicht nicht. 35

Statistische Tests Beispiel: Wirksamkeit von Medikamenten Nullhypothese: Medikament ist nicht wirksam. Beobachtungen: Symptome bei einer Test- und einer Kontrollgruppe. Wenn sich Symptome bei Testgruppe so stark von Kontrollgruppe unterscheiden, dass P(Beobachteter Unterschied Nullhypothese) < a, dann sagen wir dass die Unterschiede zwischen den Gruppen signifikant sind und lehnen die Nullhypothese ab. Medikament ist wirksam. Ansonsten kein Ergebnis. 36

Statistische Tests Ziel: anhand vorliegender Beobachtungen x einer Zufallsvariable X eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einer Hypothese treffen Formal: Nullhypothese h : vs. h : 0 0 1 1 37

Statistische Tests Im Allgemeinen ist ein statistischer Tests durch seinen kritischen Bereich definiert. Wenn XR, lehnen wir die Nullhypothe ab, sonst nicht Woher kommen und c? T x problemabhängig R x T x c Teststatistik bestimmen die Aussagekraft (Verteilungsannahmen, Vorwissen) 38 Kritischer Wert

Statistische Tests Viele Tests haben die folgende Form einseitiger Test: h : vs. h : h : vs. h : zweiseitiger Test: Weitere Unterscheidungen 0 0 1 0 0 0 1 0 1 vs. 2 Stichproben-Tests nach zu schätzenden Parametern (Mittelwert, Varianz) Varianz bekannt / unbekannt paired / unpaired Signifikanz-Niveau eines Tests: a sup PXR o 39

Statistische Tests Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. c a T 40

p-wert Die Aussage Nullhypothese abgelehnt ist nicht sehr informativ p-wert: kleinste Signifikanz-Niveau a, für das die Nullhypothese abgelehnt wird Wahrscheinlichkeit unter Annahme der Nullhypothese, dass die wirkliche Teststatistik größer ist, als die beobachtete Achtung: keine Wahrscheinlichkeit, dass Nullhypothese richtig ist! Ursache für großen p-wert Nullhypothese richtig ODER Nullhypothese falsch, aber Test zu schwach 41

p-wert p-wert: kleinste Signifikanz-Niveau a, für das die Nullhypothese abgelehnt wird Tx c a T 42

p-wert p-wert: kleinste Signifikanz-Niveau a, für das die Nullhypothese abgelehnt wird Wahrscheinlichkeit unter Annahme der Nullhypothese, dass die wirkliche Teststatistik größer ist, als die beobachtete Ein p-wert von <5% <1% gilt als signifikant gilt als sehr signifikant <0,1% gilt als hoch signifikant 43

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 Gibt es Unterschiede zwischen den Medikament in der Wirkung? 44

Vorzeichen-Test Seien x 1,,x n unabhängig und identisch verteilt mit Median m h : m vs. h : m 0 0 1 0 Lehne Nullhypothese ab, gdw. T unter h 0 Tx n n x max xi 0 0, xi 0 0 i1 i1 1 c BinCDF n,0.5 1 a 2 binomial-verteilt c

Vorzeichen-Test Lehne Nullhypothese ab, gdw. Tx h 0: m 0 unter h 0 Wie wahrscheinlich ist T x 9? c binomial-verteilt

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Gibt es Unterschiede zwischen den Medikament in der Wirkung? Nullhypothese: beide gleich h 0 : m 6 Tx 9 47

Beispiel p-wert Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Nullhypothese Tx 9 n 0 9 3, ~ 12;0,5 p Wert p T X T X h p Z p Z Z Bin k 14,6% h 0 : m 6 2BinCDF 3 12;0,5 48

Wald-Test Gegeben eine normalverteilte Schätzung ˆ für einen Parameter aus x,,x h : vs. h : 0 0 1 0 Lehne Nullhypothese ab, gdw. ˆ 0 Tx n 1 a c 1 2 1 n Tx unter h 0 0 n 0,1 c ˆ normalverteilt

Wald-Test Wald-Test: Lehne Nullhypothese ab, gdw. ˆ 0 n 1 a 1 2 Wald-Test hat Signifikanz-Niveau a Beweis: sup R n o 0 ˆ 0 1 P X P 1 2 a 1a 1 a 1 2 1 P Z 1 a 2 a 50

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Gibt es Unterschiede zwischen den Medikament in der Wirkung? Nullhypothese: beide gleich h 0 : 0 2,133 0, 984 T x 2,168 51

Beispiel p-wert Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Nullhypothese Tx 2,168 n 0 2,168 2,168, ~ 0,1 p Wert p T X T X h p Z p Z Z 2NormCDF 2,168 0,1 3% h 0 : 0 52

t-test Seien x 1,,x n unabhängig normalverteilt mit Erwartungswert und unbekannter Varianz h : vs. h : 0 0 1 0 Lehne Nullhypothese ab, gdw. Tx Xn n 0 1 Tx n, Xn xi n i1 1 a c Fn 11 unter h 0 t-verteilt 2 Für kleine n besser geeignet als Wald-Test c (n-1 Freiheitsgrade)

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Gibt es Unterschiede zwischen den Medikament in der Wirkung? Nullhypothese: beide gleich h 0 : 0 2,133 0, 984 T x 2,168 54

Beispiel p-wert Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Nullhypothese Tx 2,168 n 0 2,168 2,168, Z ~ n1 0 p Wert p T X T X h p Z p Z F 2tCDFn 1 2,168 5,3% h 0 : 0 55

Pearsons 2 -Test Seien x 1,,x n unabhängig multinomial-verteilt mit 1 k Erwartungswert,, h : vs. h : 0 0 1 0 Lehne Nullhypothese ab, gdw. k j j x 2 n 1 Tx c, wobei x x n T x j j1 2 1 a c k1 1 unter 2 h -verteilt 2 0 x x,,x, x {0,1} 1 k j i i i i (k-1 Freiheitsgrade) i1 i

Dualität Ein Test mit Signifikanzniveau a verwirft die Nullhypothese h 0: 0, genau dann nicht, wenn 0 innerhalb des 1 a -Vertrauensintervalls liegt. 57

Zusammenfassung Ein statistischer Test ist spezifiziert durch eine Statistik und einen kritischen Wert Wir lehnen die Nullhypothese ab, wenn R x T x c Da X unbekannt, hängt Test von Beobachtungen ab: Die Nullhypothese soll nur mit Wahrscheinlichkeit a fälschlicher Weise abgelehnt werden Verschiedene Tests: Vorzeichen-Test, Wald-Test, 2 t-test, Pearson XR 58