Klinische Forschung WWU Münster Pflichtvorlesung zum Querschnittsfach Epidemiologie, Biometrie und Med. Informatik Praktikum der Medizinischen Biometrie () WiSe /3 Univariate und bivariate Verfahren Univariate Verfahren Analyse der Verteilung eines Merkmals (eindimensional) Bivariate Verfahren Analyse des Zusammenhangs zweier Merkmale zwei qualitative Merkmale: Kontingenztafel zwei quantitative Merkmale: Regressions- und Korrelationsanalyse 4 Überblick. Deskriptive Statistik I. Deskriptive Statistik II - Kontingenztafeln - Korrelation und Regression - Analyse von Überlebenszeiten 3. Wahrscheinlichkeitsrechnung und Zufallsvariablen 4. Induktive Statistik
Zusammenhang qualitativer Merkmale Beispiel: Rauchen mehr Frauen als Männer? WiSe /3 Umfrage: Frauen, Männer 7 Raucher, 39 Nichtraucher Raucher Nichtraucher männlich 8 weiblich 4 7 39. Deskriptive Statistik II Kontingenztafeln Zeilenprozente Raucher Nichtraucher männlich 8 3% 77% % weiblich 4 49% % % 7 39. Deskriptive Statistik II Kontingenztafeln 7 Spaltenprozente Raucher Nichtraucher männlich 33% 8 % weiblich 7% 4 39% 7 % 39 %. Deskriptive Statistik II Kontingenztafeln 8
Kenngrößen in Kontingenztafeln männlich weiblich Raucher (h =3%) (h =49%) Nichtraucher Risikodifferenz: h h = 49% 3% = %punkte (!) Relatives Risiko: h / h = 49% / 3% =.3, d.h. Steigerung des Risikos zu rauchen um 3% h h 49% 3% Odds Ratio: 3. h h 49% 3% 8 4 WiSe /3. Deskriptive Statistik II Kontingenztafeln 9 Überblick. Deskriptive Statistik I. Deskriptive Statistik II - Kontingenztafeln - Korrelation und Regression - Analyse von Überlebenszeiten 3. Wahrscheinlichkeitsrechnung und Zufallsvariablen 4. Induktive Statistik Linearer Zusammenhang stetiger Merkmale Beispiel: Medikamentendosis und Blutdrucksenkung Dosis RR- Zielgröße, Blutdrucksenkung 3 Senkung abhängige Variable 4 3 3 4 4 7 8 3 4 7 8 9 9 3 Medikamentendosis 8 Einflussgröße, unabhängige Variable Regressionsgerade
Kenngrößen Blutdrucksenkung 3 WiSe /3 Stärke des Einflusses Schätzung der Regressionsgerade y = + x Der Regressionskoeffizient =.9 gibt an, dass bei einer Dosissteigerung um Einheit die Blutdrucksenkung im Mittel um ca. 3 mmhg zunimmt (Steigung der Regressionsgeraden). Stärke ˆ des xy Zusammenhangs i i Korrelationskoeffizient sxx xi nx Methode der Kleinsten Quadrate s x y nxy 3 4 7 8 9 ˆ y ˆ x Medikamentendosis 3 Beispiel Medikamentendosis (x i ) und Blutdrucksenkung (y i ) Regressionsgerade: RR-Senkung =,73 +,9 Dosis Aus der Regressionsgeraden geht hervor, daß die Blutdrucksenkung pro zusätzlicher Dosiseinheit um durchschnittlich,9 mmhg zunimmt. x i =. y i =,73 +,9, = 7, Bei einer Dosis von, Einheiten wird eine Blutdrucksenkung um 7, mmhg erwartet. x i = y i =,73 +,9 = 4,3?! Extrapolation über den Beobachtungsbereich hinaus ist nicht erlaubt! 4
Korrelation Der Korrelationskoeffizient ist ein Maß für die Stärke des linearen Zusammenhangs zwischen zwei Merkmalen. Der Korrelationskoeffizient nimmt Werte zwischen - und + an. r xy > : positiver linearer Zusammenhang r xy < : negativer linearer Zusammenhang r xy = : kein linearer Zusammenhang Für r xy = + liegen die Meßwerte genau auf einer Geraden mit positiver Steigung und für r xy = - auf einer Geraden mit negativer Steigung. Ein hoher Korrelationskoeffizient muss auf keinen ursächlichen Zusammenhang hindeuten. WiSe /3 JUMBO Java-Applet 3.7 Korrelation Java-Applet 3.8 Raten von Korrelationen 7 Korrelation Der Korrelationskoeffizient ist ein Maß für die Stärke des linearen Zusammenhangs zwischen zwei Merkmalen. Der Korrelationskoeffizient nimmt Werte zwischen - und + an. r xy > : positiver linearer Zusammenhang r xy < : negativer linearer Zusammenhang r xy = : kein linearer Zusammenhang Für r xy = + liegen die Meßwerte genau auf einer Geraden mit positiver Steigung und für r xy = - auf einer Geraden mit negativer Steigung. Ein hoher Korrelationskoeffizient muss auf keinen ursächlichen Zusammenhang hindeuten. 8
Scheinkorrelation und Confounder WiSe /3 Blutdrucksenkung 3 4 Medikamentendosis 9 Scheinkorrelation und Confounder Männer Frauen 3 4 Medikamentendosis Scheinkorrelation und Confounder Blutdrucksenkung Blutdrucksenkung Männer Frauen Der Einfluss der Medikamentendosis auf die Blutdrucksenkung wurde überschätzt. Die beobachteten Unterschiede in der Blutdrucksenkung sind in Wirklichkeit gar nicht auf die Medikamentendosis zurück zu führen, 3 4 sondern auf einen Geschlechtseffekt. Medikamentendosis Das Geschlecht wird in diesem Fall als Confounder bezeichnet.
Bestimmtheitsmaß B r, r gibt den Anteil der Varianz in den y-werten an, der sich durch die x-werte erklären lässt. -> Erklärungswert der x-variable: Inwiefern ist die y-variable durch die x-variable vorhersagbar? 7 4 3 Korrelationskoeffizient r = % Faustregel: Werte r >. sind gut, d.h. r >.7 7 4 3 r = 8% 7 4 3 r = WiSe /3 3 4 7 3 4 7 3 4 7 Die y-variable ist zu % durch die x- Variable vorhersagbar. Y ist zu 8% vorhersagbar. Y ist nicht vorhersagbar, Die restlichen % sind sondern zu % zufällig. nicht vorhersagbar, sondern zufällig. Zusammenfassung Linearer Zusammenhang zweier stetiger Merkmale Regressionskoeffizient Wertebereich Bezeichnung β (-, ) Richtung des Zusammenhangs am Vorzeichen erkennbar? ja Interpretation Steigung der Regressionsgeraden: Wie stark ist der Einfluss von x auf y? Korrelationskoeffizient r [-,] ja Streuung der Punktewolke um die Regressionsgerade: Wie stark ist der Zusammenhang zwischen x und y? Bestimmtheitsmaß R [,] nein Vorhersagbarkeit bzw. prozentualer Informationsgehalt der y-variable, der in der x-variable enthalten ist Überblick. Deskriptive Statistik I. Deskriptive Statistik II - Kontingenztafeln - Korrelation und Regression - Analyse von Überlebenszeiten 3. Wahrscheinlichkeitsrechnung und Zufallsvariablen 4. Induktive Statistik 7
Zensierte Ereigniszeiten. Patient. Patient 3. Patient 4. Patient. Patient Rekrutierungsphase Zeit Ende der Nachbeobachtung WiSe /3. Deskriptive Statistik II Analyse von Überlebenszeiten 8 Kaplan-Meier-Schätzung. Deskriptive Statistik II Analyse von Überlebenszeiten 3 Kaplan-Meier-Schätzung Survtimes:, 3,, Anteil lebender % Patienten -% 7% -% % -% % -% % 3 4 7 Lebensdauer (Jahre). Deskriptive Statistik II Analyse von Überlebenszeiten 3
Kaplan-Meier-Schätzung Survtimes:, 3+,, Anteil lebender % Patienten -% 7% % % - (% +.%) % 3 4 7 - (% +.%) Lebensdauer (Jahre) WiSe /3. Deskriptive Statistik II Analyse von Überlebenszeiten 33 Aufgabe Gegeben ist die folgende Kontingenztafel, in der die Inzidenz einer bestimmten Krankheit in einem Kollektiv von 3 Personen getrennt nach Geschlecht dargestellt ist. Um welchen Faktor ist die relative Häufigkeit einer Erkrankung bei Männern höher als diejenige der Frauen? krank gesund gesamt männlich 9 weiblich 9.... 3. 4.. 4. % % % % %. 4 34 Aufgabe Schätzen Sie den Regressionskoeffizienten b der im Scatterplot dargestellten Merkmale. - - -3 - - 3. b = -. b = 3. b = 4. b = 3. b = -3 b = - % % % % % b = b = b = 3 3 b = -3
Aufgabe 3 Schätzen Sie den Korrelationskoeffizienten r der im Scatterplot dargestellten Merkmale. - - -3 - - 3. r = -.9. r = -. 3. r = 4. r =.. r =.9 r = -.9 % % % % % r = -. r = r =. 3 r =.9 WiSe /3 Aufgabe 4 Überlebensrate,,8,,4 In einer Studie wurden zwei Therapien A und B miteinander verglichen. In einer graphischen Darstellung der Überlebenskurven zeigen sich folgende Überlebenswahrscheinlichkeiten in Abhängigkeit der Zeit (in Tagen). Welche Schlussfolgerung kann man aus der Graphik ableiten?,, t B A. Therapie B hat einen günstigeren Verlauf als Therapie A.. Die mediane Überlebenszeit von Patienten unter Therapie A ist länger als unter Therapie B. 3. Nach ca. Tagen ist weniger als die Hälfte aller Patienten unter Therapie A gestorben. 4. Nach ca. Tagen sind alle Patienten unter Therapie B gestorben.. Nach ca. Tagen sind etwa % der Patienten unter Therapie B gestorben.. % % % % %. 3. 4.. 37 Aufgabe In einer klinischen Studie wurden in 3 Therapiegruppen A, B und C die Überlebenszeiten von jeweils Patienten ermittelt. Tage nach Studienbeginn wurde die Studie beendet und es wurden folgende Kaplan-Meier-Kurven erstellt. Was bezeichnen die folgenden Kennzahlen? Überlebenswahrscheinlichkeit,,8,,4 A B, C, 3 4 7 8 9 Überlebenszeit in Tagen Therapie A B C? 8. Schätzer der mittleren Überlebenszeit. Schätzer der medianen Überlebenszeit 3. Anzahl der zensierten Daten 4. Anzahl der Ereignisse. Anzahl der verbliebenen Patienten zum Ende der Studie. % % % % % 38. 3. 4..