Grundlagen der schließenden Statistik Schätzer, Konfidenzintervalle und Tests 1 46
Motivation Daten erhoben (Umfrage, Messwerte) Problem: Bei Wiederholung des Experiments wird man andere Beobachtungen erhalten Ergebnisse sind mit Unsicherheit behaftet Wie kann man die Unsicherheit quantifizieren? 2 46
Schätzer 3 46
Beispiel: Normalverteilung Messungen, bei denen bekannt ist, dass die zufälligen Messfehler sich normalverteilt verhalten 100.09 99.08 93.14 97 101.47 101.95 93.96 98.18 91.87 Modellieren die Messungen mit festem Erwartungswert µ: damit X i N ( µ, σ 2) X i = µ }{{} + ε }{{} i, Effekt / wahre Messung Messfehler Schätzproblem für den Parameter µ der Verteilung N ( µ, σ 2) Verschiedene Schätzer für µ existieren, z.b. (empirischer) Mittelwert X n oder empirischer Median X ( n 2 ) Hier: X n = 97.42 und X ( n 2 ) = 98.18 4 46
Schätzer Gegeben eine Familie von möglichen Verteilungen P θ, θ Θ Für N (µ, σ 2 ) ist θ = ( µ, σ 2) und Θ = R (0, ] Gesucht ist ein Parameter λ = λ(θ) λ(µ, σ 2 ) = µ Ein Schätzer ist eine Abbildung die den P θ -verteilten Beobachtungen X 1,..., X n eine Schätzung λ zuordnet n ˆµ = X n = 1 X n i i=1 Der Schätzer hängt von den zufälligen Beobachtungen X 1,..., X n ab und ist damit selbst zufällig (hätte man das Experiment wiederholt, hätte man andere Daten und damit auch eine andere Schätzung) 5 46
Beispiel: Normalverteilung 100.09 99.079 93.143 97.004 101.47 101.95 93.96 98.182 91.867 Berechnen Mittelwert: X n = 97.42 Den Daten liegt µ = 100 zugrunde, X n weicht davon ab Ist diese Abweichung groß oder klein? Fehler in der Schätzung muss quantifiziert werden 6 46
Bewertung von Schätzern Problem: Auch unsinnige Schätzer zugelassen Schätzer sollte unverzerrt sein, also im Mittel den richtigen Wert treffen E θˆλ(x 1,..., X n ) = λ Schätzer sollte wenig streuen: der Standardfehler s. e. θ (ˆλ) = Var θ ˆλ(X1,..., X n ) sollte klein sein Unverzerrter Schätzer mit kleinem Standardfehler: Geringe Streuung um den echten Parameter 7 46
Konfidenzintervalle 8 46
Bereichsschätzung Problem an Punktschätzung: Man trifft den wahren Parameter nicht! mittlere Ungenauigkeit kann man über Standardfehler quantifizieren Gibt nur Aussagen über den erwarteten Abstand, keine Aussage bei nur einer Schätzung Muss eventuell auch geschätzt werden Schätzen Bereich, der den wahren Parameter mit hoher Wahrscheinlichkeit enthält Größe des Bereichs entspricht Unsicherheit in der Schätzung 9 46
Beispiel Messen mit Messungenauigkeit, unbekannter Erwartungswert µ 10 46
Beispiel Messen mit Messungenauigkeit, unbekannter Erwartungswert µ X n Schätzer X n trifft den Erwartungswert nicht! 10 46
Beispiel Messen mit Messungenauigkeit, unbekannter Erwartungswert µ X n Bereich um X n, der mit hoher Wahrscheinlichkeit µ enthält 10 46
Konfidenzbereiche Gegeben Beobachtungen X 1,..., X n (Umfrageergebnisse, Messungen) Parameter λ (z.b. tatsächlicher Anteil in der Bevölkerung, entrauschte Messung) Fehlertoleranz α (meist 5%) Dann ist ein Konfidenzbereich K für λ zum Niveau 1 α (95%) eine Abbildung, welche den Beobachtungen X 1,..., X n einen Bereich K(X 1,..., X n ) zuordnet, sodass gilt. P θ (Bereich enthält λ) = P θ (K(X 1,..., X n ) λ) 1 α Konfidenzbereiche sind (wie Schätzer) zufällig 11 46
Konfidenzbereiche sind zufällig Wiederholte Messungen ergeben unterschiedliche Konfidenzbereiche, müssen tatsächlichen Parameter nicht enthalten! 16 Konfidenzintervall 12 8 4 0 5 10 15 20 Experiment Nummer 12 46
Interpretation von Konfidenzbereichen Der echte Parameter λ ist fest, der Konfidenzbereich K (X 1,..., X n ) ist zufällig Man wirft mit der Dartscheibe nach dem Dart Würde man das Experiment wiederholen, dann enthält der Konfidenzbereich den Parameter in mindestens 1 α der Fälle Nach Beobachtung gilt entweder λ K(X 1,..., X n ) oder nicht Alle Wahrscheinlichkeiten sind prospektiv zu lesen! 13 46
Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46
Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46
Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46
Konfidenzintervalle bei Normalverteilung 0.4 Gegeben Beobachtungen X 1,..., X n N (µ, 1) mit unbekanntem Erwartungswert µ und bekannter Varianz σ 2 = 1 Beispiel: Messungen bei denen Schwankungen der Messfehler bekannt ist 0.3 0.2 0.1 0.0 95% 2 0 2 Abbildung: Dichte der Standardnormalverteilung, µ = 0 14 46
Konfidenzintervalle bei Normalverteilung Erhalten für festes µ einen Vertrauensbereich V µ mit P µ ( Xn V µ ) = 95% = 1 α Für Normalverteilung mit Erwartungswert µ und Varianz σ 2 : V µ = [µ 1.96 σ, µ + 1.96 σ], wobei ±1.96 den 97.5%- und 2.5%-Quantilen der Standardnormalverteilung entspricht, man schneidet rechts und links jeweils α 2 = 2.5% ab 15 46
Konfidenzintervalle bei Normalverteilung Jetzt umdrehen: Für gegebenes X n wählen wir alle µ für die X n V µ liegt, dabei beachten: X n N (µ, σ2 n ) und nicht etwa N (µ, σ 2 )! Aus X n [ µ 1.96 σ n, µ + 1.96 ] σ n wird dann µ [ X n 1.96 σ n, X n + 1.96 ] σ, n Daher Faustformel: Mittelwert ± 2 Standardfehler Wenn σ 2 nicht bekannt, schätzen durch die empirische Varianz σ 2 t-verteilung mit größeren Quantilen 16 46
Vorhersagen und Klassifikation 17 46
Vorhersagen Nach Beobachtungen von Messungen X 1,..., X n N ( µ, σ 2) wollen wir eine erneute Messung Y N ( µ, σ 2) vorhersagen Ähnlich zu Schätzungen: Punktvorhersage trifft tatsächliche Realisierung nicht Vorhersagebereich Kennt man µ, σ 2, so gilt P (Y (µ + σ q 0.025, µ + σ q 0.975 )) = 0.95, (µ + σ q 0.025, µ + σ q 0.975 ) ist ein Vorhersageintervall zum Niveau 0.95. Kennt man µ und σ 2 nicht, so muss man diese schätzen und erhält dadurch zusätzliche Unsicherheit: ( ( )) n + 1 n + 1 P Y X n + σ n 2 t 0.025, µ + σ n 2 t 0.975 = 0.95 18 46
Klassifikation Bank muss entscheiden, ob ein Kunde einen Kredit gewährt bekommt Dazu: Betrachte ähnliche Kunden und sagen für neuen Kunden vorher ob er den Kredit zurück zahlt oder nicht Spezieller Fall von Vorhersage: Nur endliche Klassen möglich Formal: Beobachtungen (X 1, Y 1 ),..., (X n, Y n ) wobei Y i { Zahlt Kredit zurück, Zahlt Kredit nicht zurück } und X i Merkmale sind (Alter, Wohnort, Beruf) Gegeben eine neue Beobachtung X n+1 muss Y n+1 vorhergesagt werden P (Y n+1 X n+1) schätzen Parametrisch Modellieren (logistische Regression) Besten Klassifikator bestimmen Maschinelles Lernen 19 46
Statistische Tests 20 46
Überprüfen von Hypothesen Wisenschaftstheorie: Aufstellen und Überprüfen von falsifizierbaren Hypothesen Hypothesen können nicht bestätigt werden, nur verworfen werden Verworfen wird, falls es genügend Beweise gegen die Hypothese gibt Beweise sind hier unter der Hypothese extreme (unwahrscheinliche) Werte 21 46
Beispiel: Neues Medikament Ein neues Medikament soll getestet werden, dabei soll zu einer vorgegeben Wahrscheinlichkeit (Signifikanzniveau) verschiedene Hypothesen getestet werden: Das neue Medikament hat keine Wirkung Das neue Medikament ist höchstens so gut wie das alte Problem: Die Wirkung der Medikamente ist hängt von verschiedenen Faktoren ab: Geschlecht, Alter, Vorerkrankungen etc. Modellieren stochastisch Idee: Betrachten erwartete Wirkung 22 46
Beispiel: Neues Medikament wirkt Tabelle: Beispieldaten zur Wirkung eines Medikaments Vorher Nachher -0.34103 4.65560-0.88530 2.88740 2.96751 2.58324-2.32540-0.41677 0.82769 3.47115 Problem: Wie können wir im statistischen Sinne hart entscheiden, ob hier ein Effekt vorliegt, oder die Beobachtungen nur durch Zufall zustande kam? 23 46
Beispiel: Neues Medikament wirkt Betrachten Differenzen von Nachher und Vorher und erhalten Beobachtungen X 1,..., X n : 4.9966 3.7727-0.38427 1.9086 2.6435 Annahme: diese sind normalverteilt (muss begründet sein!) Nullhypothese: Das Medikament wirkt nicht, d.h. Erwartungswert der Differrenzen ist 0 Unter der Nullhypothese gilt X i N ( 0, σ 2) verteilt X n t 4 σ2 5 Idee: Wie unwahrscheinlich sind die Daten dann? X n = 2.587, σ 2 = 2.031 X n σ2 5 = 2.848 24 46
Beispiel: Neues Medikament wirkt 0.4 0.3 0.2 0.1 0.0 4 2 0 2 4 Abbildung: Dichte der t-verteilung, gestrichelt: Standardnormalverteilung 25 46
Beispiel: Neues Medikament wirkt 0.3 0.2 t 0.025 t 0.975 0.1 0.0 4 2 0 2 4 Abbildung: Dichte der t 4-Verteilung, mit α 2 und 1 α 2 - Quantilen 25 46
Beispiel: Neues Medikament wirkt 0.3 0.2 t 0.025 t 0.975 X n 0.1 0.0 4 2 0 2 4 Abbildung: Dichte der t 4-Verteilung, mit α 2 und 1 α 2 - Quantilen und X n Daten sind also sehr unwahrscheinlich, Hypothese wird verworfen 25 46
Statistische Tests Gegeben X 1,..., X n P θ Nullhypothese über den Parameter θ: θ = θ 0 Alternativhypothese: θ θ 0 Dann ist ein statistischer Test ϕ eine Abbildung, welche den Beobachtungen X 1,..., X n Ablehnen oder Nicht-Ablehnen zuordnet 26 46
Fehler erster und zweiter Art Test verwirft nicht Test verwirft 27 46
Fehler erster und zweiter Art Test verwirft nicht Test verwirft Nullhypothese trifft zu richtige Entscheidung Fehler zweiter Art 27 46
Fehler erster und zweiter Art Nullhypothese trifft zu Alternative trifft zu Test verwirft nicht richtige Entscheidung Fehler erster Art Test verwirft Fehler zweiter Art richtige Entscheidung 27 46
Fehler erster und zweiter Art Nullhypothese trifft zu Alternative trifft zu Test verwirft nicht richtige Entscheidung Fehler erster Art Test verwirft Fehler zweiter Art richtige Entscheidung ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art P θ0 ( ϕ verwirft ), also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist. 27 46
Fehler erster und zweiter Art Nullhypothese trifft zu Alternative trifft zu Test verwirft nicht richtige Entscheidung Fehler erster Art Test verwirft Fehler zweiter Art richtige Entscheidung ϕ heißt Test zum Signifikanzniveau α, falls der Fehler erster Art P θ0 ( ϕ verwirft ), also ein fehlerhaftes Verwerfen der Nullhypothese, kleiner als α ist. Unter der Alternative θ heißt die Güte des Tests β (θ) = P θ ( ϕ verwirft nicht ) 27 46
Interpretation Test verwirft: Nicht: die Hypothese ist mit Wahrscheinlichkeit 95% falsch Hypothese wurde mit Irrtumswahrscheinlichkeit 95% verworfen, wobei diese richtig zu interpretieren ist Problem: Welche der Annahmen der Hypothese ist verletzt? Test verwirft nicht: Nicht: die Hypothese ist bestätigt Abweichung nicht vorhanden oder nur klein? Konfidenzintervall betrachten Geringer Stichprobenumfang? Wie bei Konfidenzintervallen: Für α = 5% verwirft man in einem von 20 Fällen fälschlicherweise 28 46
p-werte Meist ergeben sich mehrere Tests zu allen α [0, 1] p-wert ist das kleinste Signifikanzniveau, zu dem man noch abgelehnt hätte Hypothese wird genau dann zum Level α verworfen, wenn p-wert kleiner als α ist schwierig zu interpretieren, da α ja vor dem Testen festgelegt wurde Bei unabhängiger Wiederholung unter der Nullhypothese einen mindestens genauso extremen Wert zu beobachten 29 46
Gängige Tests Einstichproben-t-Test Zweistichproben-t-Test (verbundene oder unverbundene) Stichproben F -Test Tests auf Normalverteilung, z.b. Shapiro-Wilks Test Schwierig zu interpretieren, besser: qq-plots Tests auf Unabhängigkeit Vorzeichentest 30 46
Konfidenzbereiche und Tests 31 46
Dualität Gegeben einen Konfidenzbereich K(X 1,..., X n ) für Parameter λ zum Niveau 1 α erhält man sofort einen Test der Hypothese λ = λ 0 zum Niveau α, indem man verwirft, wenn λ 0 K(X 1,..., X n ) λ 0 32 46
Dualität Gegeben Tests ϕ λ0 zum Signifikanzniveau α der Hypothese λ = λ 0 für alle möglichen λ 0, so erhält man einen Konfidenzbereich mittels K(X 1,..., X n ) = {λ 0 ϕ λ0 verwirft nicht } Hier muss also unter allen Hypothesen λ = λ 0 gerechnet werden schwieriger 33 46
Vor-/Nachteile von Konfidenzbereichen Konfidenzbereiche sind informativer λ 0 34 46
Vor-/Nachteile von Konfidenzbereichen Informativer Unsicherheit wird mit berücksichtigt Leichter zu interpretieren dafür aber Man muss unter allen Alternativen λ 0 rechnen können Berechnung kann kompliziert sein 35 46
Vor-/Nachteile von Tests aber Man muss nur unter der Nullhypothese rechnen Falls Konfidenzbereiche schwierig zu bestimmen sind, kann man testen 0/1 Aussage, Unsicherheit nicht mit quantifiziert Interpretation schwierig, sowohl für Verwerfen als auch für nicht verwerfen Konfidenzbereiche sind Tests vorzuziehen 36 46
Multiples Testen, p-hacking 37 46
p-hacking Abbildung: Quelle: https://xkcd.com/882/
p-hacking Abbildung: Quelle: https://xkcd.com/882/
p-hacking Abbildung: Quelle: https://xkcd.com/882/
p-hacking Abbildung: Quelle: https://xkcd.com/882/
Multiples Testen: Das Problem Oft möchte man mehrere Hypothesen testen oder Konfidenzinvtervalle für mehrere Parameter (simultan) angeben Bei k Tests zum Niveau α stößt man (unter der Nullhypothese) auf folgendes Problem: P (mindestens ein Test verwirft) k P (Der i-te Test verwirft) k α i=1 Durch multiple Tests verändert sich das Signifikanzniveau (analog für Konfidenzbereiche) 39 46
Multiples Testen: Lösung Bonferroni Korrektur des Signifikanzniveaus. Bei k Tests müssen die einzelnen Tests zu α k angesetzt werden Von vorneherein festlegen, welche Hypothesen getestet werden sollen Studienprotokoll! Alternativ p-wert für jeden Test mit k multiplizieren Bei Regression kann man mit Konfidenzbereichen durch die F -Verteilung und Projektionen bessere Ergebnisse erreichen (Methode von Scheffé) 40 46
p-werte 41 46
Misinterpretation p-werte werden in vielen Publikationen als Indikator für Signifikanz verwendet Interpretation von p-werte ist schwierig! Falls möglich: Konfidenzintervall mit angeben Kurzer Auszug aus [Goodman] 42 46
Szenario Vergleich zweier Behandlungen / Verfahren Interesse an Unterschied zwischen diesen ist Differenz signifikant? Falls Verteilung der Differenz unter H 0 bekannt (normalverteilt, t-verteilt): 0.4 0.3 0.2 0.1 0.0 2 0 2 Abbildung: p-wert einer Beobachtung (schattiert) 43 46
Fehlinterpretationen Falls p = 0.05, so ist die Nullhypothese nur mit Wahrscheinlichkeit 5% wahr Macht keinen Sinn, da p-wert nur unter Nullhypothese definiert ist Falls p 0.05, so gibt es keinen Unterschied zwischen den Behandlungen Es könnten zu wenig Daten gesammelt sein oder ein sehr kleiner Effekt vorliegen Falls p < 0.05 ist ein relevanter Effekt vorhanden Der Effekt könnte sehr klein sein p = 0.05 heißt, dass man Daten beobachtet hat, die unter der Nullhypothese nur in 5% der Fälle auftritt p-wert ist definiert als die Wahrscheinlichkeit einen mindestens so extreme Beobachtung zu machen 44 46
Literatur Steven Goodman. A dirty dozen: twelve p-value misconceptions. In Seminars in hematology, volume 45, pages 135 140. Elsevier. 45 46