Biostatistik 101 Korrelation - Regressionsanalysen

Ähnliche Dokumente
Biostatistik 101 Korrelation - Regressionsanalysen

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Prognoseintervalle für y 0 gegeben x 0

Multiple Regression III

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Vergleich von Gruppen I

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Wiederholung und ein mehrfaktorielles Verfahren. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Empirische Wirtschaftsforschung in R

Interaktion unter Berücksichtigung des Skalenniveaus der Prädiktoren Dr. Markus Stöcklin, Universität Basel, Fakultät für Psychologie

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:

6. Tutoriumsserie Statistik II

Teil XIII. Multiple lineare Regression. Woche 11: Multiple lineare Regression. Zusammenfassung Einfache lineare Regression.

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Eine Einführung in R: Varianzanalyse

Lineare Modelle in R: Klassische lineare Regression

1 Beispiel zur Methode der kleinsten Quadrate

W-Rechnung und Statistik für Ingenieure Übung 13

Einleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Tutorial: Regression Output von R

Vorlesung: Statistik II für Wirtschaftswissenschaft

Mehrfache und polynomiale Regression

Züchtungslehre - Lösung 3

Technische Universität München Zentrum Mathematik Sommersemester Juli 2005 Arbeitszeit 60 Minuten

Statistik II. IV. Hypothesentests. Martin Huber

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Statistik II Übung 1: Einfache lineare Regression

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Mehrere metrische Merkmale

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

Statistik II Übung 1: Einfache lineare Regression

Statistik II: Signifikanztests /2

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

# Befehl für den Lilliefors-Test

Statistik für Ingenieure Vorlesung 13

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Schriftliche Prüfung (90 Minuten)

Dr. M. Kalisch. Statistik (für Biol./Pharm. Wiss.) Winter Musterlösung

Lineare Regression in R, Teil 1

Eine Einführung in R: Varianzanalyse

Die Funktion f wird als Regressionsfunktion bezeichnet.

Lösung zu Kapitel 11: Beispiel 1

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

1 Kodierung kategorialer Einflussgrößen

Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Stochastik Praktikum Lineare Modelle

Prüfungstermin aus Angewandter Statistik (WS 2012/13) Name:

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

Hypothesentests mit SPSS

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Crashkurs Einführung Biostatistik

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Ausblick; Darstellung von Ergebnissen; Wiederholung

FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Statistik Einführung // Lineare Regression 9 p.2/72

Schriftliche Prüfung (90 Minuten)

Statistische Methoden in den Umweltwissenschaften

6.2 Lineare Regression

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Analyse von Querschnittsdaten. Signifikanztests I Basics

5. Lektion: Einfache Signifikanztests

Statistik II Übung 3: Hypothesentests

Schriftliche Prüfung (2 Stunden)

Kapitel 10. Multikollinearität. Exakte Multikollinearität Beinahe Multikollinearität

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

Das Lineare Regressionsmodell

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

Eine Einführung in R: Varianzanalyse

Statistik Vorlesung 7 (Lineare Regression)

ANOVA und Transformationen. Statistik II

11. weitere Übungsaufgaben Statistik II WiSe 2017/2018

Eine Einführung in R: Das Lineare Modell

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Korrelation - Regression. Berghold, IMI

If something has a 50% chance of happening, then 9 times out of 10 it will. Yogi Berra

Einführung in die formale Demographie Übung

Regression und Korrelation

Inhaltsverzeichnis. Vorwort

Musterlösung. Modulklausur Multivariate Verfahren

Proportions Tests. Proportions Test können in zwei Fällen benutzt werden. Vergleich von beobachteten vs. erwarteten Proportionen

Metrische und kategoriale Merkmale

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Transkript:

Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de

Korrelation

Sind Alter und Blutdruck miteinander verbunden? Streudiagramme = Scatter Plot Keine Annahme, was Ursache und Konsequenz ist!!

Verhältnis von 2 Variabeln Varianz : positiv negativ Kovarianz : positiv negativ die Kovarianz ist nicht skaleninvariant!

Kovarianz / Korrelation einer Stichprobe Kovarianz Korrelation (Pearson's Korrelation ρ ) Eigenschaften Skaleninvarianz Borniertheit

Beispiele

Beispiele

Korrelation und Steigung die Korrelation alleine sagt nichts über die Steigung!

Korrelationen interpretieren Korrelation ~ 0 bedeutet nicht, daß es keinen Zusammenhang zwischen den Variabeln gibt! Ungekehrt kann eine starke Korrelation durch wenige Ausreißer beeinflußt werden Korrelation bedeutet nicht Kausalität http://tylervigen.com/spuriouscorrelations

Anscombe Quartet r = 0.816 in allen 4 Fällen...

Hypothesen Tests H0 : die Korrelation zwischen den Zufallsvariablen X,Y ist null... Standardfehler des Korrelationskoeffizientes Test-Statistik : t-verteilung mit n-2 Freiheitsgraden t-verteilung

Beispiel > cor.test(diab[1:30,7],diab[1:30,12]) Pearson's product-moment correlation data: diab[1:30, 7] and diab[1:30, 12] t = 2.386, df = 28, p-value = 0.02404 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.05960801 0.67182894 sample estimates: cor 0.41105 t=2.386 pupper=0.012 p2tail=0.024

Konfidenzinterval Konfidenzinterval kann nicht direkt für r berechnet werden, da die Stichprobenverteilung nicht Normal ist r z' : z' ist (einigermaßen ) Normalverteilt Berechnung des CI auf z' und inverse Transformation z' r Beispielberechnung : r = 0.41, n = 30

Konfidenzinterval 2 Zufallsvariablen X, Y mit Korrelation : ρ = 0.6 Stichproben x, y von verschiedenen Größen n Verteilung der Korrelationswerte r KEINE Normalverteilung Fisher's Transformation ~ Normalverteilung mit Standardabweichung

Spearman Korrelation Pearson Korrelation kann von einigen Ausreißern stark beeinflußt werden Um diesen Effekt zu beheben wird die Korrelation nach Spearman berechnet Ränge Werte Ränge Korrelation der Ränge Werte Ränge Ausreißer cor = 0.67 cor =0.67 cor = -0.11

Regressionsmodelle

Lineare Regression Man geht von einer linearen Beziehung zwischen 2 Variabeln (X,Y) aus Ŷ Y für jeden Wert Xi kann man den Wert Yi abschätzen b1 = Steigung b0 = Schnittpunkt

Prinzip der kleinsten Quadrate die Parameter der Regressionslinie werden mittels der kleinsten Quadrate ( least square ) bestimmt

Residuen der geschätzte Wert ist nicht gleich dem reellen Wert es gilt ei sind die Residuen

Residuen der ganze Einfluß von X ist durch aufgesaugt worden X hat keinen Einfluß auf die Residuen ei

Residuen die Residuen sollten nicht mit X korrelieren Mittelwert = 0 haben normalverteilt sein mit Mittelwert 0 Trifft das nicht zu ist die Beziehung von X,Y nicht linear wichtiger Test!

Wie gut ist das Regressionsmodel? Ist das Regressionsmodel besser als das einfache Model Y=Y? Vermutlich genauer, aber dafür komplizierter lohnt sich der Aufwand?

Varianzzerlegung die Varianz von Y kann zerlegt werden in einzelne Komponenten Varianz von Ŷ Varianz der Residuen e da corr(ŷ,e) = 0 gilt : Total Sum of Squares (SST) Model Sum of Sq. (SSM) Residual Sum of Sq. (SSR)

Wie gut ist der Fit? Total Sum of Squares (SST) Model Sum of Sq. (SSM) Residual Sum of Sq. (SSR) bei einem guten Fit sollte SSR klein sein und SSM einen großen Anteil von SST ausmachen R² ist der Anteil der Varianz, die durch das Model erklärt wird es gilt corr(x,y) = 0.6 ein lineares Regressionsmodel kann 36% der Varianz erklären

Wie gut ist der Fit? Total Sum of Squares (SST) erklärte Varianz : nicht erklärte Varianz : Model Sum of Sq. (SSM) Residual Sum of Sq. (SSR)

Wie gut ist der Fit? Total Sum of Squares (SST) Model Sum of Sq. (SSM) Residual Sum of Sq. (SSR) F-ratio = Verhältnis der Varianzen df = 1 df = n-2 F-Ratio kann mit einem F-Test auf Signifikanz untersucht werden H0: das lineare Model ist nicht signifikant besser als Y = Y Anzahl der beta Koeffizienten = Anzahl Variablen + 1 Anzahl der Datenpunkte

Hypothesentest für Koeffizienten wenn b1 = 0 kann Y nicht durch X vorhergesagt werden andersrum gilt : wenn b1 signifikant von 0 abweicht, dann besteht eine lineare Beziehung Achtung! ein kleiner b1 Wert kann signifikant von 0 abweichen ein großer b1 Wert kann mit b1 = 0 kompatibel sein Abweichung von 0 kann mit einem t-test bestimmt werden. H0 : b1=0 Standardabweichung der Residuen

Hypothesentest für Koeffizienten Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.95159 0.15391 19.177 1.99e-13 *** x 0.10668 0.01309 8.147 1.89e-07 *** Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.926370 0.032410 90.29 <2e-16 *** x 0.104333 0.002757 37.84 <2e-16 *** größerer Einfluß des Störfaktors führt zu größerer Unsicherheit bei Bestimmung der Regressionskoeffizienten

Hypothesentest für Koeffizienten Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 2.92637 0.03241 90.29 <2e-16 *** x 2.08667 0.05515 37.84 <2e-16 *** Ungenauere Bestimmung von b1 wenn die X-Werte näher bei einander liegen

Beispiel einer linearen Regression n = 397 > l <- lm(weight ~ height,data=diab) > summary(l) Call: lm(formula = weight ~ height, data = diab) Residuals: Min 1Q Median 3Q Max -82.906-26.380-6.731 21.331 152.445 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.9422 33.1694 0.209 0.834 height 2.5877 0.5016 5.159 3.94e-07 *** --Residual standard error: 39.13 on 395 degrees of freedom (6 observations deleted due to missingness) Multiple R-squared: 0.06313, Adjusted Rsquared: 0.06076 F-statistic: 26.62 on 1 and 395 DF, p-value: 3.938e-07 nur 6% der Varianz kann durch das Model erklärt werden

Diagnostic plots Residuenverteilung ist unabhängig von der Variablen Residuen sind (ungefähr..) Normalverteilt

Ein Gegenbeispiel... > summary(l) Call: lm(formula = y ~ x, data = data.frame(x = x, y = y)) Residuals: Min 1Q Median 3Q Max -4.660-1.721-0.242 1.506 6.495 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -4.26400 0.19459-21.91 <2e-16 *** x 5.01129 0.06737 74.38 <2e-16 *** --Residual standard error: 2.181 on 499 degrees of freedom Multiple R-squared: 0.9173, Adjusted R-squared: 0.9171 F-statistic: 5533 on 1 and 499 DF, p-value: < 2.2e-16

Ein Gegenbeispiel... Residuenverteilung ist keine unabhängige Funktion von x... Residuen sind NICHT normalverteilt!

Lineare Regression mit Kategorien A B C D 1 21 18 19 14 2 22 16 19 13 3 19 15 16 12 4 18 13 14 11 Summe 80 62 68 50 Mittelwert 20 15.5 17 12.5 4 unterschiedliche Weizensorten (A,B,C,D) werden getestet, jeweils auf 4 Parzellen Gibt es einen signifikanten Unterschied im Ertrag?

Varianzanalyse (one-way ANOVA) Ist die Varianz zwischen den Gruppen signifikant größer als die Varianzen innerhalb der einzelnen Gruppen? Varianzanalyse (ANOVA) Xij = Einzelwert X = Gesamtmittelwert αi = Faktoreneffekt eij = Restfehler Gesamtmittelwert X

Varianzanalyse (one-way ANOVA) Varianz innerhalb der Gruppe Zerlegung der Varianz Varianz zwischen den Gruppen (i=gruppe A,B,C,D; j=replikat 1,2,3,4) X = Gesamtmittelwert Xi = Mittelwert der Gruppe Total Sum of Squares (SST) Model Sum of Sq. (SSM) Gesamtmittelwert X Residual Sum of Sq. (SSR) Freiheits grade SS SS F Faktor 3 117 39 10.17 Restfehler 12 46 3.833 Gesamt 15 163 Freiheitsgrade: 3 : 4 Gruppen 1 Gesamtmittelwert 12 : 16 Datenpunkte 4 Gruppenmittelwerte 15 : 16 Datenpunkte 1 Gesamtmittelwert

Lineare Regression mit binären Daten Eine lineare Regression kann auch mit einer binären Variablen durchgeführt werden: z.b. Xi = {Frau/Mann}, {Jung/Alt}... Xi wird dann mit den Werten {0/1} kodiert ( dummy variable ) Beispiel : Gewicht in Abhängigkeit des Geschlechts Mann 0 ; Frauen 1 In diesem Fall ist der F-Test äquivalent zum t-test