Multiple Lineare Regression. Statistik (Biol./Pharm./HST) Herbst 2013

Ähnliche Dokumente
Experiment vs. Beobachtungsstudie. Randomisiertes, kontrolliertes Experiment

Kategorielle Daten. Seminar für Statistik Markus Kalisch

Computerübung 5. Empirische Wirtschaftsforschung. Willi Mutschler. Ökonometrie und Wirtschaftsstatistik Uni Münster. 26.

ANalysis Of VAriance (ANOVA) 1/2

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Weiterbildungskurs Stochastik

Einfache Modelle für Paneldaten. Statistik II

Korrelation - Regression. Berghold, IMI

Unsystematische Störvariablen

Literatur: Glantz, S.A. (2002). Primer of Biostatistics. New York: McGraw-Hill.

VS PLUS

Mögliche Fehler beim Testen

Varianzanalyse * (1) Varianzanalyse (2)

Datenanalyse mit Excel und Gretl

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Medizinische Biometrie (L5)

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Berechnung des LOG-RANK-Tests bei Überlebenskurven

Nichtparametrische Analyse longitudinaler Daten in faktoriellen Experimenten. Frank Konietschke

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Was ist eine gute Klinische Studie - die Sicht der Statistik. Peter Martus Institut für Biometrie und Klinische Epidemiologie

Regression I. Statistik I. Sommersemester Lineare Regression Zusammenhang und Modell Ein Beispiel: Armut und Gewaltverbrechen Zusammenfassung

Aufgaben zu Kapitel 7:

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Studiendesign/ Evaluierungsdesign

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

BIOL, HST HS 2014 Dr. M. Kalisch. MC-Quiz 1. Einsendeschluss: Dienstag, der :59 Uhr

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Mathematik für Biologen

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

5. Untersuchungsdesigns

Binäre abhängige Variablen

Zur Statistik im neuen Genehmigungsantrag

Dimebon Enttäuschend bei Alzheimer, könnte aber bei Huntington funktionieren

Quantitative Methoden der Bildungsforschung

I. Deskriptive Statistik 1

Das Problem signifikanter Betaschätzungen

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Interne und externe Modellvalidität

Fortgeschrittene Statistik Logistische Regression

Kapitel 5: Einfaktorielle Varianzanalyse

2. Korrelation, lineare Regression und multiple Regression

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Verbessert Bildung den Gesundheitszustand? Ergebnisse für die Bildungsexpansion in West-Deutschland

Tutorial: Regression Output von R

Mehrebenenanalyse. Seminar: Multivariate Analysemethoden Referentinnen: Barbara Wulfken, Iris Koch & Laura Früh

Statistik für Studenten der Sportwissenschaften SS 2008

Einfluss von einem Computerspiel auf Depression, Angststörungen und Schmerzen bei stationären Patienten: rct. Institut für Physiotherapie

Statistik II für Betriebswirte Vorlesung 12

Einseitig gerichtete Relation: Mit zunehmender Höhe über dem Meeresspiegel sinkt im allgemeinen die Lufttemperatur.

Fertilität und psychische Gesundheit im Alter

Einführung in statistische Testmethoden

Parametrische Statistik

Chi-Quadrat Verfahren

2. Korrelation, lineare Regression und multiple Regression

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Studiendesign und Statistik: Interpretation publizierter klinischer Daten

Kapitel 7: Varianzanalyse mit Messwiederholung

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Statistik Einführung // Lineare Regression 9 p.2/72

Lineare Strukturgleichungsmodelle (LISREL) Konfirmatorische Faktorenanalyse (CFA)

Inhalt. 2. Ein empirisches Beispiel als Hintergrund 2.1 Die Studie von Preckel & Freund (2006) 2.2 Rückblick

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

methodenlehre ll Grenzen des Signifikanztests methodenlehre ll Grenzen des Signifikanztests

1.1 Studientitel: XY 1.2 Studienleiter: XY 1.3 Medizinischer Hintergrund

> Wer wir sind > Was wir machen > Wo Sie uns finden

Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kapitel 5: Einfaktorielle Varianzanalyse

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Relationship between cortical bone thickness or computerized tomography-derived bone density values and implant stability.

Statistik II Übung 2: Multivariate lineare Regression

Vibono Coaching Brief -No. 39

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

Einführung in die Induktive Statistik: Varianzanalyse

Über den Autor 7. Teil Beschreibende Statistik 29

Gestaltungsempfehlungen

Laktoseintoleranz in der Allgemeinmedizin

Hypothesentests mit SPSS. Beispiel für einen t-test

Beurteilende Statistik

Korrelation (II) Korrelation und Kausalität

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Gestaltungsempfehlungen

Test auf Varianzgleichheit (F-Test) (einseitiger Test!!)

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Butz, Krüger: Mensch-Maschine-Interaktion, Kapitel 13 - Evaluation. Mensch-Maschine-Interaktion

Versuchsplanung. Teil 2 Varianzanalyse (ANOVA) Dr. Tobias Kiesling

DSR Daten, Statistik, Risikobewertung AUSWERTUNG GAHS. Intervention + BMI

Kategoriale abhängige Variablen:

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Multivariate Analyse: Einführung in das COX-Modell

Transkript:

Multiple Lineare Regression Statistik (Biol./Pharm./HST) Herbst 2013

Wdh: Einfache lineare Regression Modell: Y i = β 0 + β 1 x i + ε i, ε i ~N 0, σ 2 i. i. d Finde β 0, β 1 : Methode der kleinsten Quadrate σ 2 ist geschätzte Varianz der Residuen β k β k s.e. β k ~t n 2 t-test: H 0 : β k = 0, H A : β k 0 R: Funktion lm

Wdh: Residuenanalyse Sind Modellannahmen erfüllt? Tukey-Anscombe Plot: Modellwert vs. Residuen (Fehlervarianz konstant, systematische Fehler) QQ-Plot: Empirische Quantile vs. theoretische Quantile (Residuen normalverteilt) Gerade OK Krümmung 2

Falls Residuenanalyse schlecht: Transformationen Zusammenhang: Hirnmasse und Körpermasse 3

Bsp: Hirnmasse vs. Körpermasse 4

Bsp: log(hirnmasse) vs. Körpermasse 5

Bsp: log(hirnmasse) vs. log(körpermasse) 6

Bsp: log(hirnmasse) vs. log(körpermasse) log H = β 0 + β 1 log K H = exp β 0 + β 1 log K H = a K b β 0 = 2.19 (95%-VI: [1.89; 2.49]); β 1 = 0.75 (95%-VI: [0.67; 0.83]) a = exp β 0 = 8.94 (95%-VI: [exp 1.89 ; exp (2.49)] = [6.60; 12.02] b = β 1 (95%-VI: [0.67; 0.83]) 7

Übersicht über nützliche Transformationen Linearer Zusammenahng: y = a + bx (keine Transofrmation nötig) Exponentieller Zusammenhang: log y = a + bx y = exp a exp (bx) Polynomieller Zusammenhang: log y = a + b log x y = exp a + b log x y = exp a x b 8

Multiple Lineare Regression: Wie hängt Energie von Eiweiss, Kohlehydraten und Fett ab? 9

Multiple Lineare Regression: Interpretation Energie (E), Eiweiss (EW), Kohlehydrate (K), Fett (F) Modell: E[kcal] = β 0 + β 1 EW[g] + β 2 K[g] + β 3 F[g] + ε, ε~n(0, σ 2 ) Was bedeutet es, wenn in diesem Modell β 3 = 8? A: Wenn ein Nahrungsmittel ein Gramm mehr Fett als ein anderes hat, enthält es im Schnitt 8 kcal mehr Energie. B: Wenn ein Nahrungsmittel ein Gramm mehr Fett als ein anderes hat und gleich viel Eiweiss und Kohlehydrate enthält, enthält es im Schnitt 8 kcal mehr Energie. 10

Einfache oder Multiple Regression (Gilt für alle GLMs; hier am Bsp der linearen Regression) Einfache Regression: Totaler Effekt y ~ x Wenn sich x um eine Einheit erhöht, erhöht sich y um β 1 Multiple Regression Bereinigter Effekt y ~ x1 + x2 Wenn sich x1 um eine Einheit erhöht und x2 konstant bleibt, erhöht sich y um β 1. Kein richtig oder falsch ; eher zwei verschiedene Sichtweisen auf das gleiche Problem 11

Vorteil von Multipler Regression Andere Einflüsse werden ausgeschaltet Bsp: Diskriminierung Einfache Regression: Zulassung ~ Geschlecht Multiple Regression: Zulassung ~ Geschlecht + Job Berühmtes Beispiel: Simpson s Paradox 12

Bestimmtheitsmass R 2 R 2 = 1 SS err SS tot R 2 : Wie nahe liegen Punkte auf der Geraden? (im Vergleich zur ursprünglichen Streuung der y-werte) 13

Signifikanz vs. Relevanz Signifikant, aber evtl. nicht relevant H 0 : β 1 = 0 p = 0.00008 R 2 = 0.15 oder β 1 sehr "klein" Signifikant und wohl auch relevant (?) H 0 : β 1 = 0 p = 0.00002 R 2 = 0.98 oder β 1 "gross" Statistik: Entscheidet Signifikanz Wissenschaft: Entscheidet Relevanz (je nach Fach: Unterschiedliche Werte von R 2 gefordert) 14

Energiegehalt von 20 Lebensmitteln

Daten (pro 100 g) 16

Multiple Lineare Regression Ein Lebensmittel, das ein Gramm mehr Fett aber gleich viel Eiweis und Kohlenhydrate enthält, enthält im Schnitt 8.8 kcal (95%-VI: [7.8; 9.8]) mehr Energie. Die Punkte liegen äusserst genau auf der geschätzten Geraden. (verglichen mit der ursprünglichen Streuung der Energiewerte) 17

Residuenanalyse Im Allgemeinen sind die Modellannahmen erfüllt. Allerdings fallen Beobachtungen 2 (Lätta) und 13 (Brot) etwas aus dem Rahmen (5-10 kcal mehr als vorhergesagt). 18

Ursache und Wirkung (Kausalität) Randomisiertes, kontrolliertes Experiment

Ursache und Wirkung Opfer durch Ertrinken? Eisverkauf 20

Ursache und Wirkung Opfer durch Ertrinken Eisverkauf 21

Kausaler Zusammenhang Korrelation 22

Wie findet man Kausalzusammenhänge? Randomisiertes, kontrolliertes Experiment 23

Kausaleffekt finden Experiment? 24

Kausaleffekt finden Experiment 25

Kausaleffekt finden Experiment 26

Kausaleffekt finden Experiment 27

Kausaleffekt finden Experiment Dünger besser als kein Dünger? Keine Ahnung! Wie viele rote Blumen hätte es ohne Dünger gegeben? Brauchen eine Kontrollgruppe 28

Kausaleffekt finden Experiment Behandlungsgruppe Kontrollgruppe 29

Kausaleffekt finden Experiment Zwei Gruppen von Feldern in allem gleich (Bodenqualität, Wasser, Sonnenlicht, ) 30

Kausaleffekt finden Experiment Zwei Gruppen von Feldern in allem gleich: (Bodenqualität, Wasser, Sonnenlicht, ) Praxis: Zufällige Zuordnung der Felder 31

Kausaleffekt finden Experiment 32

Kausaleffekt finden Experiment Ergebnis ist wegen Dünger, weil alles andere gleich war 33

Manchmal sind randomisierte, kontrollierte Experimente nicht machbar zu teuer, zu zeitaufwändig (Genexpressionsdaten) unethisch, nicht machbar (HIV Behandlung, Rauchen) 34

Falls Experiment nicht machbar Beobachtungsstudie 35

mache Beobachtungen. Beobachtungsstudie 36

mache Beobachtungen. Beobachtungsstudie Es ist nicht garantiert, dass beide Gruppen in allen Aspekten gleich sind 37

mache Beobachtungen. Beobachtungsstudie 38

mache Beobachtungen. Beobachtungsstudie Ist das Ergebnis wegen Dünger? Keine Ahnung! 39

mache Beobachtungen. Beobachtungsstudie 40

mache Beobachtungen. Beobachtungsstudie 41

Beobachtungsstudie Besser: Vergleiche Bauern, die in möglichst vielen Punkten übereinstimmen. 42

Beobachtungsstudie Aber: Wir können nie sicher sein, dass es nicht doch noch irgendwelche relevanten Unterschiede zwischen den Gruppen gibt. 43

Zusammenfassung Randomisierte, kontrollierte Experiment: Beste Möglichkeit, Daten zu sammeln ( Goldstandard ) Beobachtungsstudie: Man muss skeptisch sein kam der Effekt (viele schöne Blumen) durch die Behandlung (Dünger), oder durch einen Umstand, der in beiden Gruppen unterschiedlich war (Luftqualität)? Luftqualität Düngereinsatz Ertrag 44

Beispiel für rand. kontr. Exp.: Das grösste medizinische Experiment aller Zeiten 1954: Potenzieller Impfstoff gegen Polio Randomisiertes, kontrolliertes Experiment bei Kindern in 1. bis 3. Schulklasse [http://www.stat.luc.edu/statisticsforthesciences/meierpolio.htm] Anzahl Kinder Behandlung 200.000 28 Kontrolle 200.000 71 Verweigert 350.000 46 Polio bekommen (pro 100.000 Kinder) Kontrollgruppe hatte mehr Polio-Fälle als Behandlungsgruppe: Könnte das Zufall sein? KAUM: p-wert = 0.000000001 (diesen Test haben wir nicht besprochen) 45

Methodenvergleich: Leberzirrhose Shunt (Blutumleitung) Bringt die riskante Operation einen Vorteil? 51 klinische Studien untersucht: Bringt die Operation einen Vorteil? Ja, sehr Etwas Nein Keine Kontrollgruppe 24 7 1 Kontrollgruppe, nicht randomisiert Kontrollgruppe, randomisiert 10 3 3 0 1 3 [aus Statistics, D. Freedman et.al., 4 th ed., Kap. 1.2] 46

Problem: Gesündere Patienten werden eher operiert Experiment Randomisiert, kontrolliert Alle Patienten Nicht randomisiert, kontrolliert Alle Patienten Geeignet Ungeeignet Gesünder Kränker OP-Gruppe Kontroll-Gruppe OP-Gruppe Kontroll-Gruppe Gesündere Patienten in der OP-Gruppe! 47

Goldstandard in der Medizin: Randomisiertes, kontrolliertes, doppelblindes Experiment mit Placebo Placebo: Medikamentenattrappe ohne Wirkstoff Placebo hat einen starken Effekt! (J.A. Turner et.al., The importance of placebo effects in pain treatment and research, Journal of the American Medical Association, Vol. 271 (1994), pp. 1609 14) Doppelblind: Weder Patient noch Arzt weiss, ob er das Placebo oder das wirkliche Medikament erhält / verabreicht. (Nur Leiter der Studie weiss das.) 48

Zusammenfassung Jede Behandlung muss mit einer Kontrolle verglichen werden (bei Menschen am besten doppelblind mit einem Placebo) Was nicht kontrolliert werden kann, soll randomisiert werden Korrelation Kausalzusammenhang 49