Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Hypothesenbewertung. Christoph Sawade/Niels Landwehr Tobias Scheffer

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Hypothesenbewertung Christoph Sawade/Niels Landwehr Tobias Scheffer

Überblick Wiederholung: Konfidenzintervalle Statistische Tests p-wert Vorzeichen-, Wald-, t- und Pearsons Test 2

Konfidenzintervalle Hypothesenbewertung: Was ist der erwartete Fehler (Risiko) eines Modells?, ( ), R f y f x p x y dxdy Da p x, y unbekannt ist, muss es aus Daten geschätzt werden, z.b.: ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 i i i i ˆR f Was sagt über R f aus? 3

Konfidenzintervalle Idee Konfidenzintervall: Intervall um den geschätzten Fehler ˆR angeben so dass der echte Fehler meistens im Intervall liegt Quantifiziert Unsicherheit der Schätzung Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable ˆR ˆR [ ] R 4

Konfidenzintervalle Idee Konfidenzintervall: so wählen, dass Schranke mit vorgegebener Wahrscheinlichkeit von 1-a (z.b. a =0.05) gilt. Einseitiges 1-a -Konfidenzintervall: Schranke, so dass Zweiseitiges 1-a -Konfidenzintervall: Schranke, so dass Bei symmetrischer Verteilung gilt immer: P R Rˆ 1a P R Rˆ 1a zu einseitigem 1-a -Konfidenzintervall = zu zweiseitigem 1-2a -Konfidenzintervall. 5% Wahrscheinlichkeit, dass 10% Wahrscheinlichkeit, dass R Rˆ oder R Rˆ R Rˆ 5

Konfidenzintervalle Spezialfall: Risikoschätzung mit Zero-One Loss R ( y, f ( x)) p( x, y)dxdy p y 0/1 y f ( x) p( x, y)dxdy f ( x) Ereignis Modell f wird auf separater Testmenge mit m unabhängigen Beispielen evaluiert: 1 m m Rˆ ( y, f ( )) : binäre Indikatorvariable für "Ereignis" x j1 01 / j j T ( x, y),...,( x, y ) 1 1 m m 6

Verteilung für Fehlerschätzer Betrachten zunächst unnormalisierten Fehlerschätzer ˆ m mr (, ( )) 1 0/1 y j f x j j Summe über Beispielverluste Beispiele unabhängig: Summe über Münzwürfe Münzparameter ist Fehlerwahrscheinlichkeit R 0/1 ( y, f( x )) {0,1} j j 7

Binomialverteilung Unnormalisiertes empirisches Risiko ˆ m mr ( 1 0/1 y, ( )) j f x j j ist Summe von Bernouilli-Variablen, also binomialverteilt: mrˆ Erwartungswert Varianz ~ Bin( mrˆ m, R) m ˆR mr Var m m R(1 R) 8

Binomialverteilung Unnormalisiertes empirisches Risiko ˆ m mr ( 1 0/1 y, ( )) j f x j j ist Summe von Bernouilli-Variablen, also binomialverteilt: m Wir beobachten k Fehler. 0/1( y 1 i, f( x )) i i Was sagt k über den wirklichen Fehler aus? mrˆ ~ Bin( mrˆ m, R) Wir suchen Münzparameter, unter denen die Wahrscheinlichkeit der Beobachtung mindestens Oder: Finde Münzparameter U und L, so dass a U ˆ ˆ L p mr k p mr k 2 1a ist. Binomiale Zufallsvariable mit Parameter L bzw. U 9

Clopper-Pearson-Konfidenzintervall Beispiel: a 0.05, m100, k 15 10

Clopper-Pearson-Konfidenzintervall Beispiel: a 0.05, m100, k 15 [ L p mrˆ 15 0.025 L 11

Clopper-Pearson-Konfidenzintervall Beispiel: a 0.05, m100, k 15 p mrˆ 15 0.025 U [ L ] U 12

Clopper-Pearson-Konfidenzintervall Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable Fehlerschätzer entspricht Wir beobachten Wir suchen U und L, so dass a 2 i0 p mrˆ k k U 1 U 1 Beta m Bin i U, m Beta 1 U m kk, 1 a kk, 1 2 m m k 0/1( yi, f( x i1 a 2 Münzwürfen i )) p mrˆ k L 1 k 1 i0 1Beta L 1 Beta Fehler. ˆ ˆ L a pu mr k p mr k 2 1 Bin i L, m 1 L m k 1, k a 1 m k1, k 2 13

Clopper-Pearson-Konfidenzintervall Per Definition korrekt, d.h. nur in a der Fälle liegt wirklicher Fehler nicht im Konfidenzinterval. Diskretheit der Binomialverteilung führt allerdings zu sehr konservativen / sehr großen Intervallen. 14

coverage Konfidenzintervall Theoretische Konfidenz: 1a CP-Intervall zu pessimistisch (hoher Typ II Fehler) Alternative: Approximative Konfidenzintervalle. 1 0.95 n=100 0.9 0 0.5 1 k/n 15

Normalisierte Binomialverteilung Normalisierter Fehlerschätzer: normalisierte Binomialverteilung Erwartungswert des normalisierten Fehlerschätzers: ˆ 1 ˆ 1 R mr mr R m m Varianz des normalisierten Fehlerschätzers: Standardabweichung ( Standardfehler ) ˆ 1 1 (1 ) Var R Var R R mˆ R m R(1 R) 2 2 m m m Rˆ Rˆ(1 Rˆ) m Zufallsanteil des Schätzers, sinkt mit 1 m 16

Binomialverteilung R 0.5 Binomialverteilung für große m ähnlich Normalverteilung 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 m 5 m 16 m 160 0-0.2 0 0.2 0.4 0.6 0.8 1 1.2 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 0.35 0.4 0.45 0.5 0.55 0.6 0.65 17

Binomialverteilung R 0.5 R 0.1 Binomialverteilung für große m ähnlich Normalverteilung 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 m 5 m 16 m 160 0-0.2 0 0.2 0.4 0.6 0.8 1 1.2 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0-0.2-0.1 0 0.1 0.2 0.3 0.4 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.12 0.08 0.06 0.04 0.02 0 0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.1 18 0 0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18 0.2

Normalverteilung Empirisches Risiko annähernd normalverteilt: 2 Rˆ 2 Rˆ ~ Rˆ R, r ˆ [approximativ, für große m] Rˆ(1 Rˆ) m Für die weitere Analyse betrachten wir das standardisierte Risiko, dieses ist standardnormalverteilt: Rˆ R Rˆ R ~ 0,1 [approximativ, für große m] Rˆ Rˆ Schätzen der Varianz des empirischen Risikos: 2 2 2 s s Rˆ Rˆ Rˆ Rˆ(1 Rˆ) m1 19

Wald-Konfidenzintervall Weg zum Konfidenzintervall: Analyse der Verteilung der Zufallsvariable Fehlerschätzer ist Summe aus n i.i.d. Zufallsvariablen asymptotisch normalverteilt a 2 Wir suchen U und L, so dass p ˆ ˆ U nr k pl nr k 1 n U n 2 n a p ˆ U nr k 2 Rˆ U k / n U pu n n k / n U n k a a p ˆ L nr k 2 L Rˆ L k / n pl n n L k / n n k 1 a L n 2 n 20

Konfidenzintervall Theoretische Konfidenz: CP-Intervall zu pessimistisch (hoher Typ II Fehler) Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler) 0.2 0.15 0.1 0.05 1a k=10, n=100 0 0 0.1 0.2 0.3 21

coverage Konfidenzintervall Theoretische Konfidenz: 1a CP-Intervall zu pessimistisch (hoher Typ II Fehler) Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler) 1 0.95 n=100 0.9 0 0.5 1 k/n 22

Wilson-Konfidenzintervall Normalverteilungsannahme: Für Binomialverteilung: Rˆ R Rˆ R ~ 0,1 2 2 Rˆ Rˆ Aus Normalverteilungsannahme folgt, dass mit Wahrscheinlichkeit 1a gilt Quadrieren ergibt quadratische Ungleichung, die geschlossene Lösung für R hat. 2 Rˆ 1 a m R R Rˆ R 1 (1 ) 2 R(1 R) m 23

Wilson-Konfidenzintervall Aus Normalverteilungsannahme folgt, dass mit Wahrscheinlichkeit 1a gilt Rˆ R 1 (1 ) 2 1 a m R R Quadrieren ergibt quadratische Ungleichung, die geschlossene Lösung für R hat: R 2 2 ˆ z ˆ(1 ˆ z a a R R R) 2n 4n z LU, 2 a 2 za za 1 n n n, z a a 1 2 1 24

coverage Konfidenzintervall Theoretische Konfidenz: CP-Intervall zu pessimistisch (hoher Typ II Fehler) Wald-/t-Intervall zu optimistisch (hoher Typ I Fehler) Wilson adäquat 1 0.95 0.9 1a n=100 0.85 0 0.5 1 k/n 25

Students t-verteilung Empirisches Risiko annähernd normalverteilt: Problem: Risiko muss bekannt sein, damit wir Varianz bzw. Standardfehler bestimmen können. ˆ ˆ R R p R R N 0,1 Rˆ 2 Rˆ R(1 R) R(1 R) ; Rˆ m m Einfache Charakterisierung der Verteilung des empirischen Fehlers Nur das empirische Risiko ist gegeben. 26

Students t-verteilung Standardisiertes empirisches Risiko mit geschätzter Varianz Rˆ R S Rˆ folgt einer Students t-verteilung mit m-1 Freiheitsgraden (ähnlich Normalverteilung, aber mehr Wahrscheinlichkeitsmasse in den Außenbereichen). Aber für große m konvergiert Students t-verteilung wieder gegen die Standardnormalverteilung Rˆ R Rˆ R ~ 0,1 [approximativ, für große m] S Rˆ S Rˆ 27

Students t-verteilung Rˆ R Rˆ R lim m t m 0,1 S ˆ S R Rˆ 28

Konfidenzintervalle Vorsicht bei der Interpretation von Konfidenzintervallen: die Zufallsvariable ist das empirische Risiko ˆR und das davon abgeleitete Intervall, nicht das echte Risiko R. Richtig: "Die Wahrscheinlichkeit, bei einem Experiment ein Konfidenzintervall zu erhalten, das den echten Fehler enthält, ist 90%" Falsch: "Wir haben ein Konfidenzintervall erhalten. Die Wahrscheinlichkeit, dass der echte Fehler im Intervall liegt, ist 90%" 29

Überblick Wiederholung: Konfidenzintervalle Statistische Tests p-wert Vorzeichen-, Wald-, t- und Pearsons Test 30

Statistische Tests Hypothesenvergleich: Ist mein Modell besser als die Baseline-Methode? Da p x, y unbekannt ist, müssen Risiken aus Daten geschätzt werden. ˆ n 1 R f y, f ( x ), wob ei y, x ~ p y, x n i 1 R f R f 1 2 i i i i Was sagt der beobachtete Unterschied über R f R f aus? 1 2 Rˆ f Rˆ f 1 2 31

Statistische Tests Was sagt der beobachtete Unterschied über R f R f aus? 1 2 Rˆ f Rˆ f Wenn R ˆ f1 R ˆ f2 0 gibt es Grund zur Annahme, dass Modell 1 besser ist. Wenn man sich daraufhin für Modell 1 entscheidet, verwirft man die (Null-) Hypothese, dass R ˆ f1 R ˆ f2 0 nur ein Zufallseffekt war. Ein statistischer Test kann die Entscheidung für ein scheinbar besseres Modell rechtfertigen. 1 2 32

Statistische Tests Ein Test ist eine Prozedur mit den Eingaben Nullhypothese, Beobachtungen Parameter (Type 1 Fehler) Ein Test hat die möglichen Ausgaben Nullhypothese abgelehnt das Gegenteil der Nullhypothese gilt. nicht abgelehnt keine Schlussfolgerung möglich, kein neues Wissen gewonnen. a 33

Statistische Tests Nullhypothese: Aussage von der wir bis auf weiteres ausgehen, die wir aber überprüfen möchten und zu widerlegen bereit sind. Bedingung für einen statistischen Test: Wenn die Nullhypothese gilt, dann darf sie nur mit einer Wahrscheinlichkeit von höchstens aabgelehnt werden. Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. 34

Statistische Tests Ausgabe Nullhypothese abgelehnt : Wir ziehen die Schlussfolgerung, dass die Nullhypothese nicht die Realität beschreibt. Neues Wissen gewonnen, Publikation! Ausgabe nicht abgelehnt : Wir können keine Schlussfolgerung ziehen. Vielleicht gilt die Nullhypothese, vielleicht nicht. 35

Statistische Tests Beispiel: Wirksamkeit von Medikamenten Nullhypothese: Medikament ist nicht wirksam. Beobachtungen: Symptome bei einer Test- und einer Kontrollgruppe. Wenn sich Symptome bei Testgruppe so stark von Kontrollgruppe unterscheiden, dass P(Beobachteter Unterschied Nullhypothese) < a, dann sagen wir dass die Unterschiede zwischen den Gruppen signifikant sind und lehnen die Nullhypothese ab. Medikament ist wirksam. Ansonsten kein Ergebnis. 36

Statistische Tests Ziel: anhand vorliegender Beobachtungen x einer Zufallsvariable X eine begründete Entscheidung über die Gültigkeit oder Ungültigkeit einer Hypothese treffen Formal: Nullhypothese h : vs. h : 0 0 1 1 37

Statistische Tests Im Allgemeinen ist ein statistischer Tests durch seinen kritischen Bereich definiert. Wenn XR, lehnen wir die Nullhypothe ab, sonst nicht Woher kommen und c? T x problemabhängig R x T x c Teststatistik bestimmen die Aussagekraft (Verteilungsannahmen, Vorwissen) 38 Kritischer Wert

Statistische Tests Viele Tests haben die folgende Form einseitiger Test: h : vs. h : h : vs. h : zweiseitiger Test: Weitere Unterscheidungen 0 0 1 0 0 0 1 0 1 vs. 2 Stichproben-Tests nach zu schätzenden Parametern (Mittelwert, Varianz) Varianz bekannt / unbekannt paired / unpaired Signifikanz-Niveau eines Tests: a sup PXR o 39

Statistische Tests Weg zu einem statischen Test: Analyse der Verteilung der Zufallsvariable unter der Nullhypothese. c a T 40

p-wert Die Aussage Nullhypothese abgelehnt ist nicht sehr informativ p-wert: kleinste Signifikanz-Niveau a, für das die Nullhypothese abgelehnt wird Wahrscheinlichkeit unter Annahme der Nullhypothese, dass die wirkliche Teststatistik größer ist, als die beobachtete Achtung: keine Wahrscheinlichkeit, dass Nullhypothese richtig ist! Ursache für großen p-wert Nullhypothese richtig ODER Nullhypothese falsch, aber Test zu schwach 41

p-wert p-wert: kleinste Signifikanz-Niveau a, für das die Nullhypothese abgelehnt wird Tx c a T 42

p-wert p-wert: kleinste Signifikanz-Niveau a, für das die Nullhypothese abgelehnt wird Wahrscheinlichkeit unter Annahme der Nullhypothese, dass die wirkliche Teststatistik größer ist, als die beobachtete Ein p-wert von <5% <1% gilt als signifikant gilt als sehr signifikant <0,1% gilt als hoch signifikant 43

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 Gibt es Unterschiede zwischen den Medikament in der Wirkung? 44

Vorzeichen-Test Seien x 1,,x n unabhängig und identisch verteilt mit Median m h : m vs. h : m 0 0 1 0 Lehne Nullhypothese ab, gdw. T unter h 0 Tx n n x max xi 0 0, xi 0 0 i1 i1 1 c BinCDF n,0.5 1 a 2 binomial-verteilt c

Vorzeichen-Test Lehne Nullhypothese ab, gdw. Tx h 0: m 0 unter h 0 Wie wahrscheinlich ist T x 9? c binomial-verteilt

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Gibt es Unterschiede zwischen den Medikament in der Wirkung? Nullhypothese: beide gleich h 0 : m 6 Tx 9 47

Beispiel p-wert Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Nullhypothese Tx 9 n 0 9 3, ~ 12;0,5 p Wert p T X T X h p Z p Z Z Bin k 14,6% h 0 : m 6 2BinCDF 3 12;0,5 48

Wald-Test Gegeben eine normalverteilte Schätzung ˆ für einen Parameter aus x,,x h : vs. h : 0 0 1 0 Lehne Nullhypothese ab, gdw. ˆ 0 Tx n 1 a c 1 2 1 n Tx unter h 0 0 n 0,1 c ˆ normalverteilt

Wald-Test Wald-Test: Lehne Nullhypothese ab, gdw. ˆ 0 n 1 a 1 2 Wald-Test hat Signifikanz-Niveau a Beweis: sup R n o 0 ˆ 0 1 P X P 1 2 a 1a 1 a 1 2 1 P Z 1 a 2 a 50

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Gibt es Unterschiede zwischen den Medikament in der Wirkung? Nullhypothese: beide gleich h 0 : 0 2,133 0, 984 T x 2,168 51

Beispiel p-wert Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Nullhypothese Tx 2,168 n 0 2,168 2,168, ~ 0,1 p Wert p T X T X h p Z p Z Z 2NormCDF 2,168 0,1 3% h 0 : 0 52

t-test Seien x 1,,x n unabhängig normalverteilt mit Erwartungswert und unbekannter Varianz h : vs. h : 0 0 1 0 Lehne Nullhypothese ab, gdw. Tx Xn n 0 1 Tx n, Xn xi n i1 1 a c Fn 11 unter h 0 t-verteilt 2 Für kleine n besser geeignet als Wald-Test c (n-1 Freiheitsgrade)

Beispiel 12 Patienten wurden zwei unterschiedliche Schmerzmittel A und B verabreicht und die Wirkung in Stunden gemessen Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Gibt es Unterschiede zwischen den Medikament in der Wirkung? Nullhypothese: beide gleich h 0 : 0 2,133 0, 984 T x 2,168 54

Beispiel p-wert Patient 1 2 3 4 5 6 7 8 9 10 11 12 A 2 3,6 2,6 2,6 7,3 3,4 14,9 6,6 2,3 2 6,8 8,5 B 3,5 5,7 2,9 2,4 9,9 3,3 16,7 6 3,8 4 9,1 20,9 x=b-a 1,5 2,1 0,3-0,2 2,6-0,1 1,8-0,6 1,5 2 2,3 12,4 Nullhypothese Tx 2,168 n 0 2,168 2,168, Z ~ n1 0 p Wert p T X T X h p Z p Z F 2tCDFn 1 2,168 5,3% h 0 : 0 55

Pearsons 2 -Test Seien x 1,,x n unabhängig multinomial-verteilt mit 1 k Erwartungswert,, h : vs. h : 0 0 1 0 Lehne Nullhypothese ab, gdw. k j j x 2 n 1 Tx c, wobei x x n T x j j1 2 1 a c k1 1 unter 2 h -verteilt 2 0 x x,,x, x {0,1} 1 k j i i i i (k-1 Freiheitsgrade) i1 i

Dualität Ein Test mit Signifikanzniveau a verwirft die Nullhypothese h 0: 0, genau dann nicht, wenn 0 innerhalb des 1 a -Vertrauensintervalls liegt. 57

Zusammenfassung Ein statistischer Test ist spezifiziert durch eine Statistik und einen kritischen Wert Wir lehnen die Nullhypothese ab, wenn R x T x c Da X unbekannt, hängt Test von Beobachtungen ab: Die Nullhypothese soll nur mit Wahrscheinlichkeit a fälschlicher Weise abgelehnt werden Verschiedene Tests: Vorzeichen-Test, Wald-Test, 2 t-test, Pearson XR 58