Prinzipien des statistischen Testens Entscheidungsfindung Exakter Binomialtest als Beispiel Statistische Tests Nullhypothese Alternativhypothese Fehlentscheidungen
Ausgangspunkt: Forschungshypothese Beispiele:. Klinische Studien: These: Neues Präparat größere therapeutische Wirkung als die herkömmlichen 2. Geburtshypothese: These: mehr Jungen- als Mädchengeburten 2
Überprüfung solcher Fragestellungen anhand empirischer Forschung Beachte: Fragestellungen - Aussagen über Grundgesamtheit (GG) - formuliert über Parameter der GG - nicht vollständig überprüfbar, i.d.r. nur die Konsequenzen - zur empirischen Überprüfung Operationalisierung notwendig, d.h. Festlegung beobachtbarer Variablen, die zur Erfassung der eigentlichen Fragestellung geeignet sind z.b. bessere Heilung bedingt durch neues Medikament, messbar über Veränderung bestimmter Laborparameter 3
Dabei wichtig: Festlegung von Einflussvariable (unabhängig) Verabreichung des Medikaments Zielvariablen (abhängig) Veränderung relevanter Laborparameter Zur empirischen Überprüfung notwendig: - Festlegung eines Prüfplans - Kontrolle von Störvariablen (Confounder) zusätzliche Einflussgrößen auf abh. Variablen und mit interessierender Einflussgröße assoziiert - Einhaltung des Prüfplans - Abweichungen notieren 4
Von Interesse: Ist beobachtetes Phänomen in Stichproben (Heilung unter Medikament) reines Zufallsprodukt oder mit großer Sicherheit auf Medikament zurückzuführen? Dazu notwendig: Formale Entscheidungsregel Statistischer Test 5
Beispiel: Vermutung: Studienplan: Exakter Binomialtest mehr Jungen- als Mädchengeburten Zähle Geburten (keine Mehrlinge) getrennt nach Geschlecht innerhalb von 24 Stunden in einem Krankenhaus Geburten 6
Überlegung: Jungen- und Mädchengeburten gleich wahrscheinlich Was ist bei 6 Jungen und 4 Mädchen? gleich wahrscheinlich? Jedes dieser Ereignisse möglich, auch wenn Anzahl in Wirklichkeit gleich Wahrscheinlichkeiten dafür aber gering mehr Jungen als Mädchen 7
Formale Beschreibung Junge wir geboren Xi= mit P(Xi = ) = π sonst Damit: Aussagen über Verhältnis Jungen- und Mädchengeburten formulierbar über π: π = gleich viele Jungen und Mädchen 2 π > mehr Jungen als Mädchen 2 statistisches Testproblem Nullhypothese vs. Alternativhypothese H : = π vs. (Forschungshypothese) 2 H : π > 2 8
Zur Überprüfung des Testproblems: Verdichtung der Info aus Stichprobe in Prüfgröße bzw. Teststatistik Wichtig: Anhand Teststatistik Entscheidung darüber, ob eher H oder H für Grundgesamtheit zutrifft, d.h. H und H Aussagen über GG und nicht über die Stichprobe Hier: Prüfgröße : Anzahl der Jungen Falls Y > c Y = X i i= für geeigneten kritischen Wert c Entscheidung für H! 9
Aber: Wie ist c zu wählen? Dazu: Annahme gerechtfertigt, dass Geburten unabhängig X ~Binomial(n =, π.5) i = H y 2 3 4 5 P(Y=y)...44.7.25.246
Skizze: B (,.),3,25,2,5,,5 2 3 4 5 6 7 8 9
Außerdem: Unter H erwartet: 5 Jungengeburten d.h. Y > 5 spricht für H Aber wie groß müssen Werte sein, dass ihr Zustandekommen unter H extrem unwahrscheinlich ist? Was ist extrem unwahrscheinlich? üblich:.,.5,. Signifikanzniveau α Konstruktion des sogenannten Ablehnungsbereichs, der alle Werte enthält, - die für H sprechen - deren Wahrscheinlichkeit insgesamt α Simulation mit R 2
Beispiel: n = Da, π =.5, α =., Y ~Bin (,.5) H Ablehnungsbereich enthält alle y-werte, also Anzahl von Jungengeburten, die - größer 5 - zusammengenommen unter H eine Wahrscheinlichkeit von höchstens. besitzen P P P P H H H H ( Jungengeburten) =. + =. + (9 Jungengebu rten) =. =.55 (8 Jungengebu rten) =.44 (7 Jungengebu rten) =.7 >. Ablehnungs bereich C = {8,9,} 3
Interpretation: 8, 9, Jungengeburten sind unter der Annahme, dass Jungenund Mädchengeburten gleich wahrscheinlich sind, nur mit einer Wahrscheinlichkeit von höchstens % möglich so klein, dass Schluss naheliegend: H gilt! Man sagt: H kann zugunsten von H verworfen werden. 4
Damit: Statistischer Test liefert objektive Entscheidung H beibehalten bzw. Beobachtungen liefern stat. nicht signifikantes Ergebnis aber Vorsicht! statistischer Test kann nur entscheiden, ob Ergebnis im statistischen Sinn signifikant, also statistisch bedeutend, aber nicht, ob auch unter substanzwissenschaftlichen Gesichtspunkt H ablehnen bzw. Beobachtungen liefern statistisch signifikantes Ergebnis 5
Also: Stat. Signifikanz nicht immer gleich biologischer Relevanz Bewertung der Biologischen Relevanz eventuell unter Einbeziehung der Nebenkriterien (z.b. positive / negative Nebenwirkungen, Wohlbefinden des Patienten, Allgemeinzustand) Abb. : Statistische Signifikanz und biologische Relevanz Statistische Signifikanz Biologische ja + - Relevanz nein - + ja nein Wichtig: Inhaltliche Interpretierbarkeit der Ergebnisse 6
Beispiel: Biologisch relevante Blutdrucksenkung (BDS), wenn BDS > /5 mmhg bei Patienten mit leichtem bis mittelschwerem Bluthochdruck. Blutdruck vorher Blutdruck nachher ( Baseline ) ( nach Gabe der Mittels ) Y Y H H : µ : µ µ < µ Biolog. Relevanz Stat. Signifikanz bio logisch Relevant, wenn µ µ > /5 mmhg ja ja nein nein ja nein ja nein Y Y Y Y Y Y Y Y > /5 und Ablehnung von H > /5 und Nicht - Ablehnung < /5 und Ablehnung von H < /5 und Nicht - Ablehnung von H 7 von H
Außerdem möglich: Fehlentscheidungen Test entscheidet - mehr Jungen- als Mädchengeburten, obwohl tatsächlich gleich viele - gleich viele Jungen- und Mädchengeburten, obwohl tatsächlich mehr Jungen, d.h. - H wird verworfen, obwohl H wahr Fehler. Art (α-fehler) - H wird beibehalten, obwohl H wahr Fehler 2. Art (β-fehler) 8
Damit sind folgende Ausgänge eines Tests möglich: Abb. 2: Hypothese wahr nicht wahr Test lehnt ab lehnt nicht ab Fehler. Art (α-fehler) richtig richtig Fehler 2. Art (β-fehler) 9
Beachte: stat. Test med. Test bei beiden Fehlentscheidungen möglich Testproblem bei med. Test (Diagnose) H : Patient gesund vs. H : Patient krank Ziel: med. Test mit großer Genauigkeit bei Einstufung von gesundem Patienten als gesund hohe Spezifität geringe Wahrscheinlichkeit für Fehler. Art krankem Patienten als krank hohe Sensitivität geringe Wahrscheinlichkeit für Fehler 2. Art 2
Merke: Konstruktion statistischer Tests so, dass Kontrolle über Wahrscheinlichkeit für Fehler. Art durch kleine vorgegebene obere Schranke Signifikanzniveau α Sicherheitswahrscheinlichkeit - α keine Kontrolle über Wahrscheinlichkeit für Fehler 2. Art Suche nach bestem Test: unter allen Tests zum Niveau α für vorliegendes Testproblem derjenige mit geringster Wahrscheinlichkeit für Fehler 2. Art Fallzahl-Bestimmung durch Festlegung der Power des Tests bei einem bestimmten Wirkunterschied unter Berücksichtigung der Streuung des Hauptzielkriteriums. Power: Funktion, die abhängt vom wahren Wirkunterschied ( µ -µ im BDS-Beispiel) und der Streuung. 2
Damit: Nullhypothese höchstens mit Wahrscheinlichkeit α fälschlicherweise verworfen Wahrscheinlichkeit für den Fehler 2. Art nicht vorgegeben abhängig von gewählter Alternative, je näher wahrer Parameter an (nicht wahrem) Wert aus H, desto größer Wahrscheinlichkeit für Fehler 2. Art Ungleichbehandlung beider Fehlerarten Grund für Formulierung eigentlicher Forschungsfrage als statistische Alternative: Entscheidung für H durch α statistisch abgesichert! 22
Zur Veranschaulichung: Steht Angeklagter vor Gericht, so lautet H : Angeklagter ist unschuldig und H : Angeklagter ist schuldig H und H so formuliert, da Gericht Schuld des Angeklagten beweisen muss, nicht Angeklagter Unschuld Fehler. Art: Unschuldiger wird verurteilt Fehler 2. Art: Schuldiger wird nicht verurteilt 23
Beachte: Wichtig für Auswahl eines besten statistischen Tests: Verteilungsmodell hängt ab vom Skalenniveau und Wertebereich der Ausprägungen der interessierenden Größe 24