Korrelation - Regression
Zusammenhang zwischen Variablen Bivariate Datenanalyse - Zusammenhang zwischen 2 stetigen Variablen Korrelation Einfaches lineares Regressionsmodell 1. Schritt: Erstellung eines Scatterplots (Streudiagramm)
Scatterplot 10 9 8 7 6 5 4 Cholesterin 3 2 1 0 0 10 20 30 40 50 60 70 80 Alter
Korrelationsanalyse Mit der Korrelationsanalyse werden Maßzahlen berechnet, um die Stärke eines Zusammenhangs zu quantifizieren. Voraussetzungen: Beide Merkmale sind metrisch skaliert und stetig Die einzelnen Beobachtungseinheiten sind voneinander unabhängig
Korrelation Korrelationskoeffizient nach Pearson. Maß für die Stärke eines linearen Zusammenhangs. Liegt zwischen 1 und 1. 1 entspricht einem perfekten positiven Zusammenhang. -1 entspricht einem perfekten negativen Zusammenhang.
Korrelationskoeffizient nach Pearson r ( x x)( y y) i = i ( ) 2 x x ( y y) i i 2 = 338,075 6326,3 49,70275 = 0,603
Korrelationskoeffizient nach Pearson r 1 r 0. 2 r 0 r 0. 4
Korrelationskoeffizient nach Pearson 20.0 20.0 15.0 15.0 10.0 10.0 5.0 5.0 0.0 0.0 0.0 5.0 10.0 15.0 20.0 r = 0.8! 0.0 5.0 10.0 15.0 20.0 20.0 20.0 15.0 15.0 10.0 10.0 5.0 5.0 0.0 0.0 0.0 5.0 10.0 15.0 20.0 0.0 5.0 10.0 15.0 20.0
Monotoner Zusammenhang Korrelationskoeffizient nach Spearman Maß für monotonen Zusammenhang je höher das Alter umso höher das Cholesterin Basiert auf den Rängen der Daten
Rangtransformation Rangtransformation...... 42 5,57 42 5,57 39 5,74 36 2,92 33 6,72 33 5,23 30 4,65 29 4,92 21 4,97 Alter Cholesterin...... 9 12 8 11 7 13 6 1 5 24 4 10 3 2 2 5 1 6 Rang Alter Rang Cholesterin
Korrelationskoeffizient nach Spearman r s = 6 i= 1 1 3 n n d 2 i n n = 30 d i = Rang Alter Rang Cholesterin = 1 6 1672 27000 30 = 0,628
Unterschied Pearson scher Korrelationskoeffizient misst linearen Zusammenhang Liegen die Punkte auf einer Linie? Wird stark beeinflusst von extremen Beobachtungen Parametrisch (= die ursprünglich beobachteten Werte werden zur Berechnung herangezogen) Spearman scher Korrelationskoeffizient misst monotonen Zusammenhang Je höher das Alter umso höher ist das Cholesterin Robust gegenüber extremen Beobachtungen Nicht-parametrisch (= die rangtransformierten Werte werden zur Berechnung herangezogen)
Zusammenhang zwischen Geburtsgewicht und Alter 3400 3300 3200 Beispiel 2 Geburtsgewicht in g 3100 3000 2900 2800 2700 2600 10 20 Alter in Jahren 30 40 50 r r s = 0,504 = 0,391
Zusammenhang zwischen Geburtsgewicht und Alter 3400 3300 3200 Beispiel 2 3100 r = 0,155 Geburtsgewicht in g 3000 2900 2800 2700 2600 10 20 Alter in Jahren 30 40 50 r s = 0,217
Lineare Regression Konzise Beschreibung eines statistischen Zusammenhangs Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist Möglichkeit der Prognose für einen einzelnen Patienten
Lineare Regression 200 180 maximal static expiratory pressure 160 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 weight
Definitionen Abhängige Variable (Regressand, response, outcome): Diese Variable soll aus der anderen Variable berechnet werden. y-achse Unabhängige Variable(n) (Regressor, Predictor, erklärende Variable(n)) x-achse Ziel der Regressionsanalyse: Vorhersage, Prediction Methode: Die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden sollen minimiert werden
Methode der Kleinsten Quadrate ( x 1, y1 ), ( x2, y2 ),...,( x n, y n )... Paare von Messungen metrischer Größen x i... unabhängige / erklärende Variable; Regressor y i... abhängige Variable; Regressand Für die Berechnung der abhängigen Variablen soll die Gerade so liegen, dass die Streuung der beobachteten Werte um diese Gerade möglichst klein ist. Diese Gerade ist die Regressionsgerade.
Methode der Kleinsten Quadrate Für den Zusammenhang zwischen und soll folgendes i i Modell gelten: y i = β 0 + β1x i + ε i i = 1,2,..., n x y und β sind die Regressionskoeffizienten β0 1 ist die Konstante (Intercept) in der Regressionsgerade β 0 ist die Steigung der Regressionsgeraden β 1 Die Regressionsgerade verläuft durch den Schwerpunkt ( x, y)
Methode der Kleinsten Quadrate 200 180 maximal static expiratory pressure 160 140 120 100 80 60 40 20 0 0 β 0 10 20 30 40 Residuum 50 60 ( x, y) 70 80 β 1 90 100 weight
Methode der Kleinsten Quadrate Q ˆ β 1 n = i= 1 ( β β ) 2 0 1 min β β y i x i ( x )( ) i x yi y ( x x) = 2 i 0, 1 ˆ β 0 = y β1x
Methode der Kleinsten Quadrate heißen Residuen der Regression heißen Prognosewerte der Regression Beispiel: ˆ ( ˆ β + ˆ β x ) r i = y i y i = y i 0 1 ˆ ˆ ˆ yi = β 0 + β1x i ˆ β = 66,181 0 ˆ β = 1,087 1 i
SPSS-output Modell 1 Modellzusammenfassung Standardf Korrigiertes ehler des R R-Quadrat R-Quadrat Schätzers,879 a,772,743 2,954 a. Einflußvariablen : (Konstante), Körpergröße in cm Modell 1 Regression Residuen Gesamt ANOVA b Quadrats Mittel der umme df Quadrate F Signifikanz 236,201 1 236,201 27,072,001 a 69,799 8 8,725 306,000 9 a. Einflußvariablen : (Konstante), Körpergröße in cm b. Abhängige Variable: Körpergewicht in kg Modell 1 (Konstante) Körpergröße in cm Nicht standardisierte Koeffizienten a. Abhängige Variable: Körpergewicht in kg Koeffizienten a Standardisie rte Koeffizienten 95%-Konfidenzintervall für B Standardf B ehler Beta T Signifikanz Untergrenze Obergrenze -93,243 31,388-2,971,018-165,624-20,862,912,175,879 5,203,001,508 1,316
Voraussetzungen Die Werte der Outcome-Variablen Y (bei uns weight ) sollten normalverteilt sein für jeden Wert der erklärenden Variablen X. Die Variabilität von Y (entspricht der Varianz bzw. der Standardabweichung) sollte gleich sein für jeden Wert von X. Varianzhomogenität Der Zusammenhang zwischen X und Y sollte linear sein.
Überprüfung Visuelle Inspektion des Scatterplots; Plot der Residuen vs. vorhergesagte Werte zufällige Verteilung der Daten; Wenn die Voraussetzungen zutreffen folgen die Resdiuen einer Normalverteilung - NQQ Plot.
Bestimmtheitsmaß Maß für die Güte der Anpassung = Bestimmtheitsmaß ˆ 2 i ( y y) R = = 2 2 yˆ ( ) 2 2 y y s i s y Gibt den Anteil der Varianz der Daten an, welche durch das Modell erklärt wird. 0 R 2 1
Residuenanalyse 60 40 Unstandardized Residual 20 0-20 -40-60 10 20 30 40 50 60 70 80 weight
Konfidenzbänder nder Die Berechnung der Regressionsgerade beruht auf den Daten Die berechneten Werte gelten nur für den Bereich, in welchem Beobachtungen vorhanden sind. Natürlich muss auch auf die Qualität der Daten geachtet werden.
Konfidenzbänder nder 200 180 160 maximal static expiratory pressure 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 70 80 90 100 weight
Unterschied Korrelation - Regression Korrelation beschreibt die Stärke eines linearen oder monotonen Zusammenhangs Regression beschreibt eine Ursache- Wirkungs-Beziehung
Multiple lineare Regression Es gibt mehrere unabhängige Variablen y = β + β x + β x +... + β 0 1 1 2 2 k x k