Assoziation & Korrelation

Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße im Falle quantitativer Merkmale spricht man von Korrelationsmaßen Bisher besprochene Assoziationsmaße: Cross-product ratio Assoziationskoeffizient nachyule 2 Marcus Hudec 1

Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des Wertes des anderen Merkmals ergeben (Goodman-Kruskal ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis von Y (X) = (E0-E1)/E0 = 1-E1/E0 ~ relative Fehlerreduktion 3 Beispiel katholisch evangelisch keine gesamt CDU 327 306 141 774 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 Quelle: Allbus 1996 katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% SPD 29,3% 34,9% 34,2% 32,9% FDP 7,2% 12,7% 6,5% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% Merkmale sind abhängig! 4 Marcus Hudec 2

Prognosefehler ohne Kenntnis des zweiten Merkmals katholisch evangelisch keine gesamt CDU 327 306 141 774 E0=2168-774=1394 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 E0 ist der Vorhersagefehler für die Wahlabsicht ohne Kenntnis des Merkmals bei Anwendung jener Regel, die die geringste Fehlerrate aufweist (tippe auf die Modalklasse!) Ohne Kenntnis der ist es am sinnvollsten auf CDU zu tippen (höchste Trefferquote ~ geringste Fehlerhäufigkeit) 5 Prognosefehler bei Kenntnis des zweiten Merkmals katholisch evangelisch keine gesamt CDU 327 306 141 774 E1=(676-327) + (860-306) + (632-216) = 1319 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 E1 ist der Vorhersagefehler der Wahlabsicht bei Kenntnis des Merkmals Bei Kenntnis der ist es am sinnvollsten bei den Ausprägungen katholisch h und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine auf SPD zu tippen 6 Marcus Hudec 3

Berechnung Sei X das Merkmal Wahlabsicht und Y das Merkmal, so gilt für (X) = 1-1319/1394=0.054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der szugehörigkeit um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist (Y) = 1-1198/1308 = 0,084 [siehe nächste Folie] Die Vorhersage der szugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 7 Vorhersage der szugehörigkeit bei Kenntnis der Wahlabsicht 8 Marcus Hudec 4

Symmetriesierung Ist man an der Stärke des Zusammenhangs interessiert kann man die beiden gerichteten Maße (X) und (Y) wie folgt symmetrisieren: E E E E (X) x x y y 0 1 0 1 (Y) x y E0 E0 x x y y 0 1 0 1 x y E0 E0 E E E E Im Beispiel ergibt sich: 9 (1394 1319) (13081198) 6,8% 1394 1308 Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: J I observed 2 2 ij expectedij j1 i1 expected Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. ij 10 Marcus Hudec 5

Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man 2 2 /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer 2x2 Tafel zwischen 0 und 1 normiert ist. 2 /N 11 Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V 2 N min(i 1, J 1) 12 Marcus Hudec 6

Beispiel: Beobachtete Häufigkeiten Erwartete Häufigkeiten katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 327 306 141 774 CDU 241,3 307,0 225,6 774 SPD 198 300 216 714 SPD 222,6 283,22 208,1 714 FDP 49 109 41 199 FDP 62,0 78,9 58,0 199 Grüne 92 129 134 355 Grüne 110,7 140,8 103,5 355 PDS 10 16 100 126 PDS 39,3 50,0 36,7 126 676 860 632 2168 676 860 632 2168 Quelle: Allbus 1996 katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 29,3% 34,9% 34,2% 32,9% SPD 32,9% 32,9% 32,9% 32,9% FDP 7,2% 12,7% 6,5% 9,2% FDP 9,2% 9,2% 9,2% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 15% 1,5% 19% 1,9% 15,8% 58% 5,8% PDS 58% 5,8% 58% 5,8% 58% 5,8% 58% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 13 Berechnung der erwarteten Häufigkeiten katholisch evangelisch keine gesamt CDU 241 307 226 774 SPD 223 283 208 714 FDP 62 79 58 199 Grüne 111 141 103 355 PDS 39 50 37 126 676 860 632 2168 79 199*860/2168 = 78,94 103 355*632/2168 = 103,49 14 Marcus Hudec 7

Berechnung katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD 2,7 1,0 0,3 FDP 2,7 11,4 5,0 Grüne 3,2 1,0 9,0 PDS 21,8 23,1 109,0 n=2168 I=5 J=3 observed 2 ij expectedij expected 252,4 Chi²-Wert 0,241 Cramer`s V ij Interpretation: 0,1 < V < 0,2... geringer Zusammenhang 0,2 < V < 0,4... mäßiger Zusammenhang V > 0,4...starker Zusammenhang 15 Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der 2 binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: = +1 2 2 n(ad bc) (a b)(a c))b d)(c d) ad bc (a b)(a c))b d)(c d) = 1 16 Marcus Hudec 8

Vierfeldertafel (2) cpr 1 ad/bc1 adbc Q cpr 1 ad / bc 1 ad bc Q = +1 Q = 1 17 Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet n n s XX 1 n i1 1 n x xx x x x nxx i i1 n n 1 1 XY i i i i n i 1 n i1 i s x x y y x y nxy Nachteil: keine Normierung i i 18 Marcus Hudec 9

Konzept der Kovarianz 19 Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert: r xy i nxy i i xiyi 2 2 i i i i i i x x y y x x y y cov( XY) corrxy Std. Abw.( X ) Std. Abw.( Y) 2 2 i 2 2 n x x n y y 20 Marcus Hudec 10

Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl hlder Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer Achse verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. 21 Hohe positive Korrelation Korrelation 0.91-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 22 Marcus Hudec 11

Hohe negative Korrelation Korrelation -0.97-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 23 Mittlere positive Korrelation Korrelation 0.47-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 24 Marcus Hudec 12

Korrelation nahe 0 Korrelation 0.05-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 25 Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang 26 Marcus Hudec 13

Verschiedene Szenarien 27 Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel 28 Marcus Hudec 14

Berechnung via Standardisierte Daten 29 Die Korrelation ist gleich der Kovarianz der standardisierten Daten Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, daß der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation vonnahenull Null nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang misst. 1.0 Die Punkte im linken Beispiel 0.8 0.6 haben Korrelation null! 0.4 0.2 00 0.0-0.2-0.4-0.6-0.8-1.2-0.7-0.2 0.3 0.8 Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 30 Marcus Hudec 15

Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Korrelation kann auch über Drittvariablen entstehen 31 Simpsons Paradoxon (heterogene Gruppen) 32 Marcus Hudec 16

Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Idee: Verwende den Rang der Beobachtung (aufgrund der Ordnung nach X bzw. Y) anstelle des Wertes der Beobachtung 33 Beispiel 34 Marcus Hudec 17

Trauen Sie der Korrelation? 35 Elimination des extremen Datenpunkts Keine Korrelation in den Daten!! 36 Marcus Hudec 18

Anwendung der Rangkorrelation Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust t Vergleichbar mit der Diskussion Median versus arithm. Mittel 37 Marcus Hudec 19