Einführung in die Korrelationsrechnung Sven Garbade Fakultät für Angewandte Psychologie SRH Hochschule Heidelberg sven.garbade@hochschule-heidelberg.de Statistik 1 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 1 / 49
Agenda Kovarianz Produkt-Moment-Korrelation Datenbeispiel Bestimmtheitsmaß Spearman-Rangkorrelation Datenbeispiel Signifikanztest für Korrelationen S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 2 / 49
Agenda (Forts. 2) Weitere Korrelationstechniken S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 3 / 49
Kovarianz Outline Kovarianz Zusammenhangshypothesen Kovarianz Grafische Darstellung der Kovarianz Berechnung der Kovarianz Rechenbeispiel S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 4 / 49
Kovarianz Zusammenhangshypothesen Zusammenhangshypothesen Zusammenhangshypothesen prüfen, ob es zwischen zwei Variablen einen Zusammenhang gibt. Beispiel: Gibt es zwischen dem Alter eines Mitarbeiters und der Unfallhäufigkeit ein Zusammenhang? Um einen solchen Zusammenhang quantifizieren zu können, stehen die Kovarianz und Korrelationen zur Verfügung. Kovarianz und Korrelationen bzw. der Korrelationskoeffizienten sind Zahlen zur Beschreibung eines linearen Zusammenhangs zwischen Variablen. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 5 / 49
Kovarianz Kovarianz Kovarianz Die Kovarianz cov(x, y) ist ein Maß für den Zusammenhang von zwei Variablen. Die Kovarianz hat einen Wertebereich von < cov(x, y) <. Positive Kovarianz: Je größer die Werte von x, desto größer die Werte von y, und andersherum. 0 Kovarianz: Kein Zusammenhang zwischen x und y. Negative Kovarianz: Je größer die Werte von x, desto kleiner die Werte von y und andersherum. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 6 / 49
Kovarianz Grafische Darstellung der Kovarianz Grafische Darstellung der Kovarianz keine Kovarianz positive Kovarianz negative Kovarianz S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 7 / 49
Kovarianz Berechnung der Kovarianz Berechnung der Kovarianz Kovarianz mit: n i=1 cov(x, y) = (x i x) (y i ȳ) ( n 1 n ) = 1 n 1 x i y i n x ȳ i=1 (1) (2) n x y x ȳ Anzahl der Messpaare Ausprägung der Variablen x bei Objekt i Ausprägung der Variablen y bei Objekt i Mittelwert der Variablen x Mittelwert der Variablen y S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 8 / 49
Kovarianz Rechenbeispiel Rechenbeispiel Zwei Messwertreihen: x = 13, 8, 8, 10, 5, 10, 6, 10, 8, 8 y = 15, 16, 14, 16, 12, 17, 13, 13, 14, 22 Mittelwerte: x = 8.6; ȳ = 15.2, jeweils n = 10. Damit: n i=1 cov(x, y) = (x i x) (y i ȳ) n 1 = 1 [(13 8.6) (15 15.2) + (8 8.6) (16 15.2) 9 +... + (8 8.6) (22 15.2)] = 1.53 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 9 / 49
Kovarianz Rechenbeispiel Rechenbeispiel (Forts. 2) Bzw.: cov(x, y) = 1 n 1 ( n ) x i y i n x ȳ i=1 = 1 ((13 15) + (8 16) +... + (8 22) 10 8.6 15.2) 9 = 1.53 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 10 / 49
Kovarianz Rechenbeispiel Kovarianz für Alter & Unfälle Für das Alter und Unfälle Beispiel aus Deskriptiver Statistik erhält man für Ihre Produktionsstraße folgendes Punktwolkediagramm und Kovarianz: Kovarianz: 8.44 Unfälle [N] 0 2 4 6 8 10 12 45 50 55 60 Alter in Jahren S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 11 / 49
Produkt-Moment-Korrelation Outline Produkt-Moment-Korrelation Nachteile der Kovarianz Produkt-Moment-Korrelation Interpretation von Korrelationen Korrelation und Kausalität S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 12 / 49
Produkt-Moment-Korrelation Nachteile der Kovarianz Nachteile der Kovarianz Die Kovarianz ist nicht dimensionslos. Je nach gewählter Einheit kann diese damit variieren. Ein Vergleich von verschiedenen Kovarianzen ist daher nur bedingt möglich: anhand des Vorzeichens kann ein eventueller Zusammenhang der Variablen abgeleitet werden. Die Product-Moment Korrelation entspricht der standardisierten Kovarianz. Der Wertebereich der Korrelation wird auf 1 bis 1 begrenzt und Korrelationen zwischen verschiedenen Variablen sind vergleichbar. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 13 / 49
Produkt-Moment-Korrelation Produkt-Moment-Korrelation Produkt-Moment-Korrelation Produkt-Moment-Korrelation Der auf Bavais und Pearson zurückgehende Korrelationskoeffizient r PM relativiert die Kovarianz an den Standardabweichungen s x und s y : cov(x, y) r PM = (3) s x s y n i=1 = (x i x) (y i ȳ) n i=1 (x i x) 2 n i (y (4) i ȳ) 2 mit: n Anzahl der Messpaare x, y Ausprägung der Variablen x bzw. y bei Messpaar i x, y Mittelwert der Variablen x bzw. y Bortz und Schuster (2010, Kap. 10.2, S. 156ff) S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 14 / 49
Produkt-Moment-Korrelation Produkt-Moment-Korrelation Alternative Berechnung von r PM Durch die Verwendung des arithmetischen Mittels können bei der Berechnung per Hand Rundungsungenauigkeiten kumulieren. Wird r PM per Hand berechnet, empfiehlt sich folgende alternative Berechnung: Alternative Berechnung von r PM r PM = n n i=1 (x i y i ) ( n i=1 x ( i) n i=1 y ) i ) ] 2 [ n n i=1 x2 i ( n i=1 x i [ n n i=1 y2 i ( n i=1 y i ) 2 ] (5) S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 15 / 49
Produkt-Moment-Korrelation Interpretation von Korrelationen Interpretation von Korrelationen Der Wertebereich von Korrelationen liegt zwischen -1 und 1: r 0: Kein Zusammenhang, es gibt keinen Zusammenhang zwischen den beiden Variablen. r > 0: positiver Zusammenhang, steigt eine Variable in ihrem Wert, steigt auch die andere Variable in ihrem Wert (z. B. je älter ein Arbeitnehmer, desto größer dessen Unfallhäufigkeit). r < 0: negativer Zusammenhang, steigt eine Variable in ihrem Wert, fällt der Wert der anderen Variablen (z. B. Zufriedenheit mit der Arbeit und Stressbelastung). S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 16 / 49
Produkt-Moment-Korrelation Interpretation von Korrelationen Einteilung von Korrelationen Für den Betrag einer Korrelation gelten folgende Einteilungen: 0 < r < 0.1 Nullkorrelation 0.1 < r < 0.3 geringe Korrelation 0.3 < r < 0.7 mittlere Korrelation 0.7 < r < 1 hohe Korrelation S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 17 / 49
Produkt-Moment-Korrelation Korrelation und Kausalität Korrelation und Kausalität Die Korrelation gibt keinen Aufschluss über den Kausalzusammenhang zwischen Variablen: Variable 1 kann Variable 2 kausal beeinflussen, oder anders herum. Beide Variablen werden von einer dritten, möglichenerweise unbekannten Variablen beeinflusst. Variable 1 und 2 beeinflussen sich Wechselseitig kausal. Eine Korrelation ist eine notwendige, aber keine hinreichende Voraussetzung für kausale Abhängigkeiten (Bortz & Schuster, 2010, S. 160). S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 18 / 49
Datenbeispiel Outline Datenbeispiel Beispieldaten Berechnung von r PM Interpretation Punktwolkendiagramm Beispiel: Hohe positive Korrelation Beispiel: Hohe negative Korrelation S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 19 / 49
Datenbeispiel Beispieldaten Beispieldaten Sie haben die Vermutung, dass es zwischen Unfallhäufigkeit und Alter einen Zusammenhang geben könnte: Produktionsstraße Ihre Kollegin Unfallhäufigkeit Alter Unfallhäufigkeit Alter 8 45 4 44 4 54 4 53 3 55 14 59 9 48 6 58 7 57 2 58 12 48 9 61 2 62 8 59 5 51 10 51 5 58 11 56 0 48 13 54 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 20 / 49
Datenbeispiel Berechnung von r PM Berechnung von r PM x = Unfallhäufigkeit, y = Alter Nr. x y x 2 y 2 x y 1 8 45 64 2025 360 2 4 54 16 2916 216 3 3 55 9 3025 165 4 9 48 81 2304 432 5 7 57 49 3249 399 6 12 48 144 2304 576 7 2 62 4 3844 124 8 5 51 25 2601 255 9 5 58 25 3364 290 10 0 48 0 2304 0 11 4 44 16 1936 176 12 4 53 16 2809 212 13 14 59 196 3481 826 14 6 58 36 3364 348 15 2 58 4 3364 116 16 9 61 81 3721 549 17 8 59 64 3481 472 18 10 51 100 2601 510 19 11 56 121 3136 616 20 13 54 169 2916 702 136 1079 1220 58745 7344 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 21 / 49
Datenbeispiel Berechnung von r PM Einsetzen der Werte x = 136; y = 1079; x 2 = 1220; y 2 = 58745; (x y) = 7344 r PM = n n i=1 (x i y i ) ( n i=1 x ( i) n i=1 y ) i ) ] 2 [ n n i=1 x2 i ( n i=1 x i [ n n i=1 y2 i ( n i=1 y i 20 7344 136 1079 = [ ] ] 20 1220 (136) 2 [20 58745 (1079) 2 = = [ 24400 18496] 136 5904 10659 = = 0.017 146880 146744 [ 1174900 1164241 136 = 136 62930736 7932.890 ] ) 2 ] S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 22 / 49
Datenbeispiel Interpretation Interpretation Der positive Korrelationskoeffizient r PM = 0.017 ist sehr klein, praktisch Null. Fazit: Zwischen dem Alter und den Unfallhäufigkeiten eines Mitarbeiters gibt es praktisch keinen Zusammenhang. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 23 / 49
Datenbeispiel Punktwolkendiagramm Punktwolkendiagramm Alter in Jahren 64 62 60 58 56 54 52 50 48 46 44 42 0 5 10 15 Anzahl der Unfälle S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 24 / 49
Datenbeispiel Beispiel: Hohe positive Korrelation Beispiel: Hohe positive Korrelation Angenommen wir hätten einen r PM = 0.90. Dies entspricht einer sehr hohen positiven Korrelation. Fazit: Zwischen dem Alter und den Unfallhäufigkeiten eines Mitarbeiters gibt es einen hohen positiven Zusammenhang: Je höher das Alter, desto häufiger passieren Unfälle. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 25 / 49
Datenbeispiel Beispiel: Hohe negative Korrelation Beispiel: Hohe negative Korrelation Angenommen wir hätten einen r PM = 0.90. Dies entspricht einer sehr hohen negativen Korrelation. Fazit: Zwischen dem Alter und den Unfallhäufigkeiten eines Mitarbeiters gibt es einen hohen negativen Zusammenhang: Je höher das Alter, desto seltener passieren Unfälle. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 26 / 49
Bestimmtheitsmaß Outline Bestimmtheitsmaß Bedeutung Bestimmtheitsmaß im Beispiel S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 27 / 49
Bestimmtheitsmaß Bedeutung Bestimmtheitsmaß Das Bestimmtheitsmaß oder der Determinationskoeffizient entspricht dem quadrierten und mit 100 multiplizierten Korrelationskoeffizienten: r 2 100. Es gibt den Anteil der gemeinsamen Varianz (bzw. gemeinsamer Variation) zweier Merkmale wieder. Beispiel: r =.90 r 2 = 0.81 und damit ist das Bestimmtheitsmaß 81%, oder 81% gemeinsame Varianz. Manchmal wird auch von 81% Zusammenhang gesprochen. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 28 / 49
Bestimmtheitsmaß Bestimmtheitsmaß im Beispiel R 2 im Beispiel Für den Zusammenhang zwischen Alter und Unfallhäufigkeit wurde eine Korrelation r PM = 0.017 berechnet. Daraus ergibt sich das Bestimmheitsmaß von r 2 PM = 0.0172 = 0.000289 und damit etwa 0.00028 100 = 0.0289, d. h. es bestehen lediglich 0.03% Zusammenhang bzw. gemeinsame Varianz. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 29 / 49
Spearman-Rangkorrelation Outline Spearman-Rangkorrelation Definition Berechenung Verbundene Ränge S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 30 / 49
Spearman-Rangkorrelation Definition Spearman-Rangkorrelation Die Spearman-Rang-Korrelation findet bei ordinalskalierten Variablen Anwendung. Die Messwerte werden in Rangplätze überführt. Problem: Gleiche Messwerte führen zu Rangbindungen. Aus der Formel der Produkt-Moment-Korrelation kann eine Berechnungsvorschrift für den Rangkorrelationskoeffizienten r s abgeleitet werden. Alternativ: Mit den Rangplätzen wird eine Produkt-Momentkorrelation berechnet. Bei vielen Rangbindungen (>20%) sollte eher ein anderer Korrelationskoeffizient herangezogen werden. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 31 / 49
Spearman-Rangkorrelation Berechenung Berechnung Spearman-Rangkorrelation Der Spearman-Rangkorreationskoeffizient kann folgendermaßen berechnet werden: r s = 1 6 n i=1 d2 i n (n 2 1) mit d als Differenz zwischen zwei Rangplätzen eines Messwertpaares. (6) Bortz und Schuster (2010, S. 178f) S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 32 / 49
Spearman-Rangkorrelation Verbundene Ränge Verbundene Ränge Oft kommen einige Messwerte doppelt vor. In diesem Fall spricht man von verbundenen Rängen, die eine Verbindungsgruppe bilden. Es gibt verschiedene Möglichkeiten, gleiche Messwerte in Rangplätze zu transformieren. In der Regel wird der Mittelwert der Rangplätze einer Verbindungsgruppe vergeben. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 33 / 49
Spearman-Rangkorrelation Verbundene Ränge Beispiel verbundene Ränge Die Beobachtungen von 18 Individuen seien wie folgt (gleiche Beobachtungswerte liegen übereinander): Rangplätze: 1 2 3 5 6 7 11 12 13 14 17 18 4 8 15 9 16 10 Mittelwert: 7:2=3.5 34:4=8.5 45:3=15 Damit ergeben sich folgende Rangplätze mit drei Rangbindungsgruppen: 1, 2, 3.5, 3.5, 5, 6, 8.5, 8.5, 8.5, 8.5, 11, 12, 13, 15, 15, 15, 17, 18 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 34 / 49
Datenbeispiel Outline Datenbeispiel Fragestellung Daten Vergabe der Rangplätze Berechnung der Differenzpaare Berechnung von r s S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 35 / 49
Datenbeispiel Fragestellung Fragestellung An einem Assessment-Center haben zehn Bewerber teilgenommen. Unter anderem gab es eine Postkorb-Aufgabe und eine Sortier-Aufgabe. Die Testwerte beider Aufgaben sind nicht normalverteilt, zudem ist fraglich, ob die Testwerte intervallskaliert sind. Zur Berechnung des Zusammenhangs zwischen Postkorb- und Sortier-Aufgabe eignet sich daher die Spearman-Rang-Korrelation. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 36 / 49
Datenbeispiel Daten Daten Nr. Postkorb Rang Postkorb Sortier Rang Sortier 1 5 29 2 9 26 3 15 31 4 22 47 5 8 30 6 16 37 7 20 46 8 18 38 9 10 28 10 19 38 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 37 / 49
Datenbeispiel Vergabe der Rangplätze Vergabe der Rangplätze Nr. Postkorb Rang Postkorb Sortier Rang Sortier 1 5 10 29 2 9 8 26 3 15 6 31 4 22 1 47 5 8 9 30 6 16 5 37 7 20 2 46 8 18 4 38 9 10 7 28 10 19 3 38 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 38 / 49
Datenbeispiel Vergabe der Rangplätze Vergabe der Rangplätze Nr. Postkorb Rang Postkorb Sortier Rang Sortier 1 5 10 29 8 2 9 8 26 10 3 15 6 31 6 4 22 1 47 1 5 8 9 30 7 6 16 5 37 5 7 20 2 46 2 8 18 4 38 3.5 9 10 7 28 9 10 19 3 38 3.5 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 39 / 49
Datenbeispiel Berechnung der Differenzpaare Berechnung der Differenzpaare Nr. Rang Postkorb Rang Sortier Differenz d 2 i 1 10 8 2 4 2 8 10-2 4 3 6 6 0 0 4 1 1 0 0 5 9 7 2 4 6 5 5 0 0 7 2 2 0 0 8 4 3.5 0.5 0.25 9 7 9-2 4 10 3 3.5-0.5 0.25 d 2 i = 16.5 S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 40 / 49
Datenbeispiel Berechnung von r s Berechnung von r s d 2 = 16.5, n = 10, damit: r s = 1 6 n i=1 d2 i n (n 2 1) 6 16.5 = 1 10 (100 1) = 0.903 Schlusssatz: Zwischen den Variablen Postkorb-Aufgabe und Sortieraufgabe ergibt sich ein positiver Zusammenhang von r s = 0.9. Dies entspricht 81% erklärbarer Variation. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 41 / 49
Signifikanztest für Korrelationen Outline Signifikanztest für Korrelationen Hypothesen Prüfgröße für Korrelationen Berechnung von t emp S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 42 / 49
Signifikanztest für Korrelationen Hypothesen Hypothesen Ein Korrelationskoeffizient liegt zwischen 1 < r < 1. Ist r = 0, gibt es keinen Zusammenhang zwischen zwei Variablen: H 0 : ρ = 0 H 1 : ρ 0 Es kann natürlich auch gerichtet, also einseitig geprüft werden. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 43 / 49
Signifikanztest für Korrelationen Prüfgröße für Korrelationen Prüfgröße für Korrelationen Prüfgröße Korrelationen Zur Überprüfung von H 0 : ρ = 0 kann folgende Prüfgröße berechnet werden: t emp = r n 2 1 r 2 (7) ist unter H 0 t-verteilt mit n 2 Freiheitsgraden; wobei: r Korrelationskoeffizient r PM oder r s n Anzahl der Messwertpaare S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 44 / 49
Signifikanztest für Korrelationen Berechnung von t emp Berechnung von t emp Es sei n = 10, r PM = 0.9. Berechnung von t emp : t emp = r n 2 1 r 2 = 0.9 10 2 1 0.9 2 = 2.547 0.44 = 5.79 t krit,df=8,α=0.05,zweiseitig = 2.306. Damit t emp > t krit H 1! Schlussatz: Mit einer Irrtumswahrscheinlichkeit von 5% ist die Produkt-Moment-Korrelation statistisch signifikant. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 45 / 49
Weitere Korrelationstechniken Outline Weitere Korrelationstechniken Datenniveau und Korrelation Sind Korrelationen immer sinnvoll? S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 46 / 49
Weitere Korrelationstechniken Datenniveau und Korrelation Datenniveau und Korrelation Variable 1 Variable 2 Nominal Ordinal Intervall Nominal Phi, Kontingenzkoeffizient C Biseriale Rangkorrelation Spearman- Ordinal bei Rang- dichotomer Nominalskala Korrelation, Kendall s τ Intervall (Punkt-) Biseriale und Polyseriale Korrelation Empfehlung: Spearman- Rang- Korrelation (Pearson-) Produkt- Moment- Korrelation S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 47 / 49
Weitere Korrelationstechniken Sind Korrelationen immer sinnvoll? Sind Korrelationen immer sinnvoll? Korrelationskoeffizienten sind für alle möglichen Kombinationen von Skalenniveaus vorgeschlagen worden. Oft können Korrelationen durch einen anderen Test ersetzt werden, z. B. Phi-Korrelation durch den χ 2 -Test, biserale Korrelation durch den t-test. Oft sind Tests einfacher zu interpretieren als eine Korrelation. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 48 / 49
Weitere Korrelationstechniken Sind Korrelationen immer sinnvoll? Literaturverzeichnis Bortz, J. & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Auflage). Berlin: Springer. S. Garbade (SRH Heidelberg) Korrelationsrechnung Statistik 1 49 / 49