Assoziation & Korrelation

Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße im Falle quantitativer Merkmale spricht man von Korrelationsmaßen Bisher besprochene Assoziationsmaße: Cross-product ratio Assoziationskoeffizient nachyule Marcus Hudec 1

Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des anderen Merkmals ergeben (Goodman-Kruskal λ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis von Y λ(x) = (E0-E1)/E0 = 1-E1/E0 3 Beispiel Konfession katholisch evangelisch keine gesamt CDU 37 306 141 774 SPD 198 300 16 714 FDP 49 109 41 199 Grüne 9 19 134 355 PDS 10 16 100 16 676 860 63 168 Quelle: Allbus 1996 Konfession katholisch evangelisch keine gesamt CDU 48,4% 35,6%,3% 35,7% SPD 9,3% 34,9% 34,% 3,9% FDP 7,% 1,7% 6,5% 9,% Grüne 13,6% 15,0% 1,% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% 4 Marcus Hudec

Prognosefehler ohne Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU 37 306 141 774 E0=168-774=1394 SPD 198 300 16 714 FDP 49 109 41 199 Grüne 9 19 134 355 PDS 10 16 100 16 676 860 63 168 E0 ist der Vorhersagefehler für die Wahlabsicht ohne Kenntnis des Merkmals Konfession bei Anwendung jener Regel, die die geringste Fehlerrate aufweist (tippe auf die Modalklasse!) Ohne Kenntnis der Konfession ist es am sinnvollsten auf CDU zu tippen (höchste Trefferquote) 5 Prognosefehler bei Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU 37 306 141 774 E1=(676-37) + (860-306) + (63-16) = 1319 SPD 198 300 16 714 FDP 49 109 41 199 Grüne 9 19 134 355 PDS 10 16 100 16 676 860 63 168 E1 ist der Vorhersagefehler der Wahlabsicht bei Kenntnis des Merkmals Konfession Bei Kenntnis der Konfession ist es am sinnvollsten bei den Ausprägungen katholisch h und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine auf SPD zu tippen 6 Marcus Hudec 3

Berechnung Sei X das Merkmal Wahlabsicht und Y das Merkmal Konfession, so gilt für λ (X) = 1-1319/1394=0.054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der Konfessionszugehörigkeit um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist λ (Y) = 1-1198/1308 = 0,084 [siehe nächste Folie] Die Vorhersage der Konfessionszugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 7 Vorhersage der Konfessionszugehörigkeit bei Kenntnis der Wahlabsicht 8 Marcus Hudec 4

Symmetriesierung Ist man an der Stärke des Zusammenhangs interessiert kann man die beiden gerichteten Maße λ (X) und λ (Y) wie folgt symmetrisieren: E E E E λ (X) = λ = λ= x x y y 0 1 0 1 (Y) x y E0 E0 x x y y 0 1 + 0 1 x y E0 + E0 E E E E Im Beispiel ergibt sich: 9 (1394 1319) + (1308 1198) λ= = 6,8% 1394 + 1308 Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: J I ( observed ) ij expectedij χ = j= 1 i= 1 expected Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. ij 10 Marcus Hudec 5

Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man Φ =χ /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer x Tafel zwischen 0 und 1 normiert ist. Φ= χ /N 11 Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: φ = +1 n(ad bc) χ = (a + b)(a + c))b + d)(c + d) ad bc φ= (a + b)(a + c))b + d)(c + d) φ = 1 1 Marcus Hudec 6

Vierfeldertafel () cpr 1 ad/bc 1 ad bc Q = = = cpr + 1 ad / bc + 1 ad + bc Q = +1 Q = 1 13 Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V = χ N min(i 1, J 1) 14 Marcus Hudec 7

Beispiel: Beobachtete Häufigkeiten Erwartete Häufigkeiten Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 37 306 141 774 CDU 41,3 307,0 5,6 774 SPD 198 300 16 714 SPD,6 83, 08,1 714 FDP 49 109 41 199 FDP 6,0 78,9 58,0 199 Grüne 9 19 134 355 Grüne 110,7 140,8 103,5 355 PDS 10 16 100 16 PDS 39,3 50,0 36,7 16 676 860 63 168 676 860 63 168 Quelle: Allbus 1996 Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6%,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 9,3% 34,9% 34,% 3,9% SPD 3,9% 3,9% 3,9% 3,9% FDP 7,% 1,7% 6,5% 9,% FDP 9,% 9,% 9,% 9,% Grüne 13,6% 15,0% 1,% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 15% 1,5% 19% 1,9% 15,8% 58% 5,8% PDS 58% 5,8% 58% 5,8% 58% 5,8% 58% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 15 Berechnung Konfession katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD,7 1,0 0,3 FDP,7 11,4 5,0 Grüne 3, 1,0 9,0 PDS 1,8 3,1 109,0 n=168 I=5 J=3 5,4 Chi²-Wert 0,41 Cramer`s V Interpretation: 0,1 < V < 0,... geringer ZH 0, < V < 0,4... mäßiger ZH V > 0,4...starker ZH 16 Marcus Hudec 8

Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: φ = +1 n(ad bc) χ = (a + b)(a + c))b + d)(c + d) ad bc φ= (a + b)(a + c))b + d)(c + d) φ = 1 17 Vierfeldertafel () cpr 1 ad/bc 1 ad bc Q = = = cpr + 1 ad / bc + 1 ad + bc Q = +1 Q = 1 18 Marcus Hudec 9

Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet n n s XX 1 1 = i i n i= 1 n i= 1 ( x x)( x x) = x x nxx n n 1 1 XY ( i )( i ) i i n i 1 n = i= 1 s = x x y y = x y nxy Nachteil: keine Normierung i i 19 Konzept der Kovarianz 0 Marcus Hudec 10

Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert: r = xy = corr n x XY i n = ( xi x)( yi y) ( x x) ( y y) = i i xi yi xi yi ( xi ) n yi ( yi ) 1 Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl hl der Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer Achse verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. Marcus Hudec 11

Hohe positive Korrelation Korrelation 0.91-3 - -1 0 1 3-3 - -1 0 1 3 3 Hohe negative Korrelation Korrelation -0.97-3 - -1 0 1 3-3 - -1 0 1 3 4 Marcus Hudec 1

Mittlere positive Korrelation Korrelation 0.47-3 - -1 0 1 3-3 - -1 0 1 3 5 Korrelation nahe 0 Korrelation 0.05-3 - -1 0 1 3-3 - -1 0 1 3 6 Marcus Hudec 13

Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang 7 Verschiedene Szenarien 8 Marcus Hudec 14

Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel 9 Berechnung via Standardisierte Daten 30 Die Korrelation ist gleich der Kovarianz der standardisierten Daten Marcus Hudec 15

Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, daß der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang mißt. 1.0 0.8 0.6 0.4 0. 0.0-0. -0.4 Die Punkte im linken Beispiel haben Korrelation null! -0.6-0.8-1. -0.7-0. 0.3 0.8 Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 31 Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Korrelation kann auch über Drittvariablen entstehen 3 Marcus Hudec 16

Simpsons Paradoxon (heterogene Gruppen) 33 Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Idee: Verwende den Rang der Beobachtung (aufgrund der Ordnung nach X bzw. Y) anstelle des Wertes der Beobachtung 34 Marcus Hudec 17

Beispiel 35 Trauen Sie der Korrelation? 36 Marcus Hudec 18

Elimination des extremen Datenpunkts Keine Korrelation in den Daten!! 37 Anwendung der Rangkorrelation Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust t Vergleichbar mit der Diskussion Median versus arithm. Mittel 38 Marcus Hudec 19