6. Übung Statistische Tests Teil 1 (t-tests)

Querschnittsbereich 1: Epidemiologie, Medizinische iometrie und Medizinische Informatik - Übungsmaterial - Erstellt von Mitarbeitern des IMISE und des ZKS Leipzig 6. Übung Statistische Tests Teil 1 (t-tests) Universität Leipzig WS 015/16 uswertung von klinischen Studien / Statistisches Testen uswertungspopulation festlegen Welche Patienten werden in welcher nalyse berücksichtigt? nalyse der Probandencharakteristika mit Methoden der deskriptiven Statistik (Übung 3) nalyse der primären und sekundären Endpunkte zur Entscheidung bzgl. der Studienfragestellung mit Methoden der induktiven Statistik, statistischen Testverfahren Deskription von Nebenwirkungen mit Methoden der deskriptiven Statistik und ggf. statistischen Tests Weitere explorative nalysen mit Methoden der deskriptiven Statistik und ggf. statistischen Tests Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie

Wissenschaftliche Fragestellung der Herzsportstudie in Übung 1 (primäres Studienziel) Unterscheidet sich die mittlere Änderung der Herzfrequenz nach 30 Kniebeugen von der mittleren Änderung der Herzfrequenz nach 5 Kniebeugen? HF diff = HF post HF prä HF... Herzfrequenz Primärer Endpunkt Konfirmatorische nalyse Grafische Deskription Herzfrequenzänderung 140 10 100 80 60 40 0 0-0 -40 N = Studienarm: 18 rm (5 Knieb.) 131 rm (30 Knieb.) Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 3 blaufschema beim statistischen Testen Skriptenheft Kapitel 5.6 1. ufstellen der Hypothesen H 0 und H (Umsetzen der wissenschaftlichen Fragestellung in stat. Modell). Wahl des Signifikanzniveaus α (Synonym: Irrtumswahrscheinlichkeit α) 3. Wahl des statistischen Tests nach Zielstellung, Merkmalsart der Zielgröße, nzahl der Stichproben 4. Prüfung der Testvoraussetzungen 5. Ermittlung des nnahmebereiches Quantil der Prüfverteilung aus Tafel ablesen (bei Rechnungen per Hand) 6. erechnung der Prüfgröße (aus den beobachteten Daten) 7. Testentscheidung a) Vergleich berechnete Prüfgröße mit Quantil der Prüfverteilung b) Vergleich p-wert mit vorgegebenem Signifikanzniveau α 8. Interpretation der Ergebnisse im Kontext der Fragestellung (mit ngabe von p) Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 4

Statistische Hypothesen ufstellen der Hypothesen H 0 und H (Umsetzen der wissenschaftlichen Fragestellung in stat. Modell) Nullhypothese H 0 : Die mittlere Herzfrequenzänderung µ nach Durchführung von 5 Kniebeugen (rm ) ist gleich der mittleren Herzfrequenzänderung µ nach 30 Kniebeugen (rm ) µ = µ lternativhypothese H : Die mittlere Herzfrequenzänderung µ nach Durchführung von 5 Kniebeugen (rm ) ist nicht gleich der mittleren Herzfrequenzänderung µ nach 30 Kniebeugen (rm ) µ µ Hinweis: Dem statistischen Testen liegt das Falsifizierungsprinzip zugrunde, d.h. man möchte H 0 zugunsten von H ablehnen und damit indirekt beweisen, dass H richtig ist. Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 5 Wahl des Signifikanzniveaus und des statistischen Tests Wahl des Signifikanzniveaus α - die Wahrscheinlichkeit, die Nullhypothese abzulehnen, obwohl sie richtig ist (also: Wahrscheinlichkeit für eine Fehlentscheidung) - typische Konventionen: α = 0,05 oder 0,01 oder 0,001 (nicht zwingend!) In dieser ufgabe sei α = 0,05. Wahl des statistischen Tests abhängig von - Zielstellung: Mittelwertvergleich - Merkmalsart der Zielgröße: metrisch, normalverteilt - nzahl / rt der Gruppen: unabhängige Gruppen vom Umfang n 1 und n t -Test für unabhängige Gruppen (Synonym: -Stichproben-t-Test) Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 6

Testvoraussetzungen Prüfung der Testvoraussetzungen Herzfrequenzänderung HF diff in beiden Gruppen normalverteilt? rm (5 Kniebeugen) rm (30 Kniebeugen) 40 40 30 30 bsolute Häufigkeit 0 10 0-15 -10-5 0 Herzfrequenzänderung 5 10 15 0 5 30 35 40 bsolute Häufigkeit 0 10 0 10 30 50 0 40 Herzfrequenzänderung 60 70 80 90 110 100 10 Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 7 Prüfgröße (Teststatistik) Zur eurteilung der beobachteten Effekte wird ein Maß benötigt, das den beobachteten Effektunterschied zwischen den Gruppen in geeigneter Weise abbildet, z.. für den Vergleich von Mittelwerten die Differenz der Mittelwerte. ezeichnung dieses Maßes: (empirische) Prüfgröße oder Teststatistik Eigenschaften der Prüfgröße (PG) ist eine Zufallsgröße und besitzt eine bestimmte Wahrscheinlichkeitsverteilung, die unter der Nullhypothese (H 0 ) bekannt ist wird aus erhobenen Daten berechnet Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 8

Prüfgröße (Teststatistik) Prüfgröße des t-tests für unabhängige Gruppen t x s n x s n t ~t-verteilung mit f Freiheitsgraden (FG) (zur erechnung der FG siehe Folie 11) Mittelwert HF diff rm x rm x Standardabw. HF diff s s Fallzahl n n Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 9 erechnung der Prüfgröße erechnung der empirischen Prüfgröße für den primären Endpunkt der Herzsportstudie enötigte Informationen (aus den Daten) Herzfrequenzänderung nzahl Mittelwert Standardabweichung Studienarm rm (5 rm (30 Knieb.) Knieb.) 18 131 16,0 43,40 9,3 17,74 Prüfgröße des t-tests für unabhängige Gruppen t x s n x s n 16,0 43,4 9,3 17,74 18 131 7,38 15,6 3,08 Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 10

erechnung der Freiheitsgrade Freiheitsgrade (Formel rein informativ) f ( s n s n n) 1 s n ( s n n ) 1 9,3 17,74 18 131 (9,3 18) (17,74 131) 18 1 1311 198 Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 11 Verteilung der Prüfgröße Ein statistischer Test prüft, ob die Stichprobenergebnisse (beobachtete Daten) vereinbar sind mit einer Hypothese (theoretische nnahme für die Grundgesamtheit). Dichte der Prüfgröße unter H 0 (im aktuellen eispiel t-verteilung mit 198 FG) α/ t FG;α/ nnahmebereich α/ t FG;1-α/ Hinweis: eim zweiseitigen Test wird der nnahmebereich so begrenzt, dass die Flächen unter der Kurve an jedem Ende der Verteilung α/ =,5% betragen. Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 1

Ermittlung des nnahmebereichs Ermittlung des nnahmebereiches (Synonym: kzeptanzbereich) - mittels blesen der Quantile (Übung 3) der Prüfverteilung unter H 0 - Prüfgröße ist t-verteilt mit 198 Freiheitsgraden (FG), also t 198 1,97 ;0,975 Hinweise: Der nnahmebereich ist unabhängig von den beobachteten Daten und der berechneten PG. Das Quantil wird aus der Tafel mit tabellierter t-verteilung abgelesen (s. nächste Folien). Das blesen ist nur bei Rechnungen per Hand notwendig. Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 13 Quantile der t-verteilung (1/) FG<30 t FG; 1-α/ = t 4; 0,975 Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 14

Quantile der t-verteilung (/) FG 30 Hinweis: Ist FG nicht explizit gelistet, dann zum nächstgelegenen FG runden. t FG; 1-α/ =t 00; 0,975 = Quantile der standardisierten Normalverteilung Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 15 Testentscheidung (zweiseitig) Dichte der Prüfgröße unter H 0 α/ α/ nnahmebereich - t Testentscheidung t FG;α/ t FG;1-α/ a) Vergleich der berechneten Prüfgröße mit dem Quantil der Prüfverteilung etrag der PG (Stichprobe) < Quantil der PG (Tabelle) H 0 nicht ablehnen etrag der PG (Stichprobe) Quantil der PG (Tabelle) H 0 ablehnen t Das Ergebnis eines statistischen Tests ist stets eine Ja/Nein-Entscheidung, d.h. H 0 wird abgelehnt oder H 0 wird beibehalten. Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 16

Testentscheidung Möglichkeit a Testentscheidung mittels berechneter Prüfgröße t 15,6 15,6 t ;0, 975 198 1,97 H 0 wird auf dem 5% Signifikanzniveau abgelehnt Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 17 Der p-wert Wahrscheinlichkeit p ("probability") für den in den Daten beobachteten Unterschied (Therapieeffekt) oder all jene, die noch mehr gegen die Nullhypothese sprechen, wenn die Effekte nur zufällig voneinander abweichen (also H 0 gilt). korrespondiert mit der empirischen Prüfgröße und entspricht der Fläche unter der Dichtefunktion bis zur berechneten PG, d.h. Fläche über den Intervallen (- ; - t ] und [ t ; + ) kleine Wahrscheinlichkeit p spricht eher gegen Zufall (H 0 ) Was heißt kleine Wahrscheinlichkeit? 4 4 Vergleich von p mit dem vorher festgelegten Schwellwert für das Signifikanzniveau " Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 18

Testentscheidung (zweiseitig) Dichte der Prüfgröße unter H 0 α/ α/ p/ p/ nnahmebereich Testentscheidung - t t FG;α/ t FG;1-α/ t a) etrag der PG (Stichprobe) < Quantil der PG (Tabelle) H 0 nicht ablehnen etrag der PG (Stichprobe) Quantil der PG (Tabelle) H 0 ablehnen b) Vergleich p-wert mit vorgegebenem Signifikanzniveau α p p H 0 nicht ablehnen H 0 ablehnen Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 19 Testentscheidung Möglichkeit b Testentscheidung mittels p-wert p > α beobachteter Effekt widerspricht der Nullhypothese nicht. H 0 wird beibehalten. eobachteter Effekt ist nicht signifikant. Ein eventuell vorhandener Therapieeffekt konnte nicht nachgewiesen werden. p α beobachteter Effekt ist mit Irrtumswahrscheinlichkeit α signifikant. H 0 wird abgelehnt. Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 0

Testentscheidung Möglichkeit b SPSS usgabe: Möglichkeit b (meist bei PC-gestützten nalysen) Vergleich des p-wertes mit dem Signifikanzniveau α nzeige ",000", d.h. p 0,0005 0,05 also gilt p H 0 wird auf dem 5% Signifikanzniveau abgelehnt Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 1 Testentscheidung Möglichkeiten a und b Möglichkeit a (meist bei Rechnungen von Hand) Vergleich der berechneten Prüfgröße mit dem Quantil der Prüfverteilung t 15,6 t ;0, 975 198 1,97 Möglichkeit b (meist bei PC-gestützten nalysen) Vergleich des p-wertes mit dem Signifikanzniveau α p 0,0005 0,05 also gilt p H 0 wird auf dem 5% Signifikanzniveau abgelehnt Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie

Interpretation Kontextbezogene Formulierung (mit ngabe der beobachteten Schätzwerte, Effekte und p) Die mittlere Herzfrequenzänderung nach 30 Kniebeugen unterscheidet sich signifikant von der nach 5 Kniebeugen (p < 0,0001), wobei die mittlere Herzfrequenzänderung nach 30 Kniebeugen ( x s: 43,40 ± 17,74) signifikant höher ist als jene nach 5 Kniebeugen ( x s : 16,0 ± 9,3). Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 3 blaufschema beim statistischen Testen Skriptenheft Kapitel 5.6 1. ufstellen der Hypothesen H 0 und H (Umsetzen der wissenschaftlichen Fragestellung in stat. Modell). Wahl des Signifikanzniveaus α (Synonym: Irrtumswahrscheinlichkeit α) 3. Wahl des statistischen Tests nach Zielstellung, Merkmalsart der Zielgröße, nzahl der Stichproben 4. Prüfung der Testvoraussetzungen 5. Ermittlung des nnahmebereiches Reihenfolge für 5 und 6 ist beliebig! Quantil der Prüfverteilung aus Tafel ablesen (bei Rechnungen per Hand) 6. erechnung der Prüfgröße (aus den beobachteten Daten) 7. Testentscheidung a) Vergleich berechnete Prüfgröße mit Quantil der Prüfverteilung b) Vergleich p-wert mit vorgegebenem Signifikanzniveau α 8. Interpretation der Ergebnisse im Kontext der Fragestellung (mit ngabe von p) Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 4

Übungsaufgabe 1 In der Herzsportsstudie wurden folgende Werte für die Herzfrequenz ermittelt: rm rm HF prä ( x s) 77,07 ± 11,9 76,16 ± 9,97 HF post ( x s) 93,09 ± 1,83 119,56 ± 17,37 HF diff ( x s) 16,0 ± 9,3 43,40 ± 17,74 n 18 131 Testen Sie auf einem Signifikanzniveau von 1%, ob sich die Herzfrequenz nach Intervention HF post zwischen den rmen und signifikant unterscheidet! (Normalverteilung kann vorausgesetzt werden; unter H 0 hat die Prüfverteilung 39 Freiheitsgrade.) Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 5 Lösung Übungsaufgabe 1 (1/) H 0 : Die mittlere Herzfrequenz nach Intervention in rm und rm unterscheidet sich nicht. H : Die Herzfrequenz nach Intervention in rm und rm unterscheiden sich im Mittel. α = Testvoraussetzung: t-test für unabhängige Stichproben Normalverteilung der Herzfrequenzen kann vorausgesetzt werden t x x s s n n 93,09 119,56 1,83 17,37 18 131 6,47 13,97 3,589 Quantil t39; 0,995 der Prüfverteilung: t00; 0,995,601 `t 13,97 13,97 t39 ; 0,995, 601 Testentscheidung: also t t39 ; 0,995 und somit wird H 0 abgelehnt Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 5a 30

Lösung Übungsaufgabe 1 (/) Interpretation: Die Herzfrequenzen nach Intervention der rme und unterscheiden sich bei einer Irrtumswahrscheinlichkeit von 1% im Mittel signifikant. Die mittlere Herzfrequenz in rm ist signifikant höher (119,56 ± 17,37) als im rm (93,09 ± 1,83). Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 5b 31 t-test für verschiedene Situationen 1) für den Vergleich von unabhängigen Gruppen: a) bei ungleichen Varianzen ( ² ²) siehe Skript Formel 5.1 (FG aufwändiger, siehe Folie 11) b) bei gleichen Varianzen ( ² ²) Spezialfall n = n, siehe Skript Formel 5.3, FG n n ) für den Vergleich von abhängigen Gruppen: t-test für Paardifferenzen, siehe Skript Formel 5.4, 3) für den Vergleich einer Gruppe mit einem Normwert: siehe Skript Formel 5., FG n 1 FG n 1 FG Freiheitsgrad Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 6

Übungsaufgabe In einer weiteren Herzsportstudie wurden folgende Werte für die Herzfrequenz ermittelt: rm rm HF prä ( x s) 77,66 ± 11, 76,4 ± 9,88 HF post ( x s) 94,4 ± 13,5 119,3 ± 15,83 HF diff ( x s) 16,77 ± 10,13 4,91 ± 17,6 n 64 65 a) Testen Sie auf einem Signifikanzniveau von 5%, ob sich die Herzfrequenz vor und nach Intervention in rm signifikant unterscheidet! Welcher Test ist für diese Fragestellung angemessen? (Normalverteilung kann vorausgesetzt werden.) b) Testen Sie auf einem Signifikanzniveau von 1%, ob sich die Herzfrequenz vor und nach Intervention in rm signifikant unterscheidet! (Normalverteilung kann vorausgesetzt werden.) Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 7 Lösung Übungsaufgabe rm H 0 : Die Herzfrequenzen vor und nach Intervention unterscheiden sich im Mittel nicht. H : Die mittleren Herzfrequenzen vor und nach Intervention unterscheiden sich. α = 0,05 Testvoraussetzung: t-test für Paardifferenzen Normalverteilung der Differenzen kann vorausgesetzt werden d 16,77 t n 64 13,4 s d 10,13 Quantil t63 ; 0,975 der Prüfverteilung: t60; 0,975,000 t 13,4 t63 ; 0,975, 000 also t t63; 0,975 und somit Testentscheidung: wird H abgelehnt 0 Interpretation: Die Herzfrequenzen vor und nach Intervention im rm unterscheiden sich auf einem Signifikanzniveau von 5% im Mittel signifikant. Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 7a 3

Lösung Übungsaufgabe rm H 0 : Die Herzfrequenzen vor und nach Intervention unterscheiden sich im Mittel nicht. H : Die mittleren Herzfrequenzen vor und nach Intervention unterscheiden sich. α = 0,01 Testvoraussetzung: t-test für Paardifferenzen Normalverteilung der Differenzen kann vorausgesetzt werden d 4,91 t n 65 19,63 s d 17,6 Quantil t. der Prüfverteilung: t,660 64; 0,995 60; 0,995. t 19,63 t64; 0,995, 660 also Testentscheidung: wird H abgelehnt 0 t t 64; 0,995 und somit Interpretation: Die mittlere Herzfrequenz vor Intervention im rm ist signifikant geringer als nach Intervention. Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 7b 33 chtung! Statistische Signifikanz klinische Relevanz! Nichtsignifikanz Äquivalenz! p - Wert sagt nichts über die Größe des Therapieeffektes aus, sondern nur darüber, wie wahrscheinlich der beobachtete Effekt ist, wenn die Nullhypothese wahr ist ( unter H 0 ). Universität Leipzig - IMISE, ZKS Leipzig QS 1, 6. Übung Folie 8