Assoziation & Korrelation

Transkript

1 Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec

2 Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es systematische Zusammenhänge oder Abhängigkeiten zwischen den Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße im Falle quantitativer Merkmale spricht man von Korrelationsmaßen 2 Statistik 1 - Assoziation & Korrelation

3 Beispiel: Assoziation von Produktkäufen Information über 2 Produkte (2 univariate Randverteilungen) Produkt A Kauf % kein Kauf % % Produkt B Kauf % kein Kauf % % 3 Statistik 1 - Assoziation & Korrelation

4 Szenario: Keine Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 42% 28% 70% kein Kauf 18% 12% 30% Gesamt 60% 40% 100% Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten aus dem Produkt der Randverteilungen! 4 Statistik 1 - Assoziation & Korrelation

5 Szenario: Keine Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 60% 40% 100% kein Kauf 60% 40% 100% Gesamt 60% 40% 100% Bei Unabhängigkeit sind die bedingten Wahrscheinlichkeiten gleich der marginalen Wahrscheinlichkeit P(Kauf von B Kauf von A) = 420/700 = 0,60 P(Kauf von B kein Kauf von A) = 180/300 = 0,60 5 Statistik 1 - Assoziation & Korrelation

6 Szenario: Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 79% 21% 100% kein Kauf 17% 83% 100% Gesamt 60% 40% 100% P(Kauf von B Kauf von A) = 550/700 = 0,79 P(Kauf von B kein Kauf von A) = 50/300 = 0,17 P(kein Kauf von B kein Kauf von A) = 250/300 = 0,83 6 Statistik 1 - Assoziation & Korrelation

7 Szenario: Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 51% 49% 100% kein Kauf 80% 20% 100% Gesamt 60% 40% 100% P(Kauf von B Kauf von A) = 360/700 = 0,51 P(Kauf von B kein Kauf von A) = 240/300 = 0,80 7 Statistik 1 - Assoziation & Korrelation

8 Szenario: Maximale Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 86% 14% 100% kein Kauf 0% 100% 100% Gesamt 60% 40% 100% 8 Statistik 1 - Assoziation & Korrelation

9 Szenario: Maximale Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 43% 57% 100% kein Kauf 100% 0% 100% Gesamt 60% 40% 100% 9 Statistik 1 - Assoziation & Korrelation

10 Maßzahl für Stärke der Assoziation Wir betrachten 2 binäre Merkmale A (A1, A2) und B (B1, B2) B1 B2 Summe A1 a b a+b A2 c d c+d Summe a+c b+d N Kreuzproduktverhältnis (cross product ratio) cpr = a*d/b*c Wertebereich: 0 bis + Assoziationskoeffizient nach Yule: Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis Statistik 1 - Assoziation & Korrelation

11 Szenario: Keine Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 60% 40% 100% kein Kauf 60% 40% 100% Gesamt 60% 40% 100% cpr=420*120/280*180=1 Q=0 11 Statistik 1 - Assoziation & Korrelation

12 Szenario: Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 79% 21% 100% kein Kauf 17% 83% 100% Gesamt 60% 40% 100% cpr=250*550/(150*50)=18,33 Q=0,90 12 Statistik 1 - Assoziation & Korrelation

13 Szenario: Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 51% 49% 100% kein Kauf 80% 20% 100% Gesamt 60% 40% 100% cpr=360*60/(340*240)=0,26 Q=-0,58 13 Statistik 1 - Assoziation & Korrelation

14 Szenario: Maximale Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 86% 14% 100% kein Kauf 0% 100% 100% Gesamt 60% 40% 100% cpr=600*300/(0*100)=+ Q=1 14 Statistik 1 - Assoziation & Korrelation

15 Szenario: Maximale Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf kein Kauf Gesamt Produkt B Produkt A Kauf kein Kauf Kauf 43% 57% 100% kein Kauf 100% 0% 100% Gesamt 60% 40% 100% cpr=300*0/(300*400)= 0 Q=-1 15 Statistik 1 - Assoziation & Korrelation

16 Zur Interpretation der Cross Product Ratio Das Verhältnis von Chance zu Gegenchance nennt man odds odds:= p/(1-p) z.b. Würfelwurf odds(für einen 6er)=(1/6)/(5/6)=1/5 Man spricht auch die Chancen stehen 1 zu 5 Reziprokwert der Odds ist jene Auszahlung, die zu einer fairen Wette führt (Details späteres Kapitel) Die Cross Product Ratio ist das Verhältnis der Odds (odds-ratio) für zwei unterschiedliche Bedingungen a/b dividiert durch c/d 16 Statistik 1 - Assoziation & Korrelation

17 Zur Interpretation der Cross Product Ratio D+ D- Total T+ 0,64 0,36 0,289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 odds(d+ T+) = 0,64/0,36 = 25/14 = 1,78 odds(d+ T-) = 0,187/0,813= 18/78 = 0,23 odds-ratio(d+ T) = 1,78/0,23 = 7,74 Das Chancenverhältnis einer Erkrankung ist bei Vorliegen eines positiven Testbefundes 7,7 mal so hoch wie bei Vorliegen eines negativen Testbefundes. (25*78)/(14*18)=7,7 17 Statistik 1 - Assoziation & Korrelation

18 Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des Wertes des anderen Merkmals ergeben (Goodman-Kruskal ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis von Y (X) = (E0-E1)/E0 = 1-E1/E0 ~ relative Fehlerreduktion 18 Statistik 1 - Assoziation & Korrelation

19 Beispiel Konfession katholisch evangelisch keine gesamt CDU SPD FDP Grüne PDS Quelle: Allbus 1996 Konfession katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% SPD 29,3% 34,9% 34,2% 32,9% FDP 7,2% 12,7% 6,5% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% Merkmale sind abhängig! 19 Statistik 1 - Assoziation & Korrelation

20 Prognose-Fehler ohne Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU E0= =1394 SPD FDP Grüne PDS E0 ist der Vorhersagefehler für die Wahlabsicht ohne Kenntnis des Merkmals Konfession bei Anwendung jener Regel, die die geringste Fehlerrate aufweist (tippe auf die Modalklasse!) Ohne Kenntnis der Konfession ist es am sinnvollsten auf CDU zu tippen (höchste Trefferquote ~ geringste Fehlerhäufigkeit) 20 Statistik 1 - Assoziation & Korrelation

21 Prognosefehler bei Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU E1=( ) + ( ) + ( ) = 1319 SPD FDP Grüne PDS E1 ist der Vorhersagefehler der Wahlabsicht bei Kenntnis des Merkmals Konfession Bei Kenntnis der Konfession ist es am sinnvollsten bei den Ausprägungen katholisch und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine auf SPD zu tippen Anwendung der Regel Tippe auf die Modalklasse pro Spalte 21 Statistik 1 - Assoziation & Korrelation

22 Berechnung Sei X das Merkmal Wahlabsicht und Y das Merkmal Konfession, so gilt für (X) = /1394=0.054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der Konfessionszugehörigkeit um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist (Y) = /1308 = 0,084 [siehe nächste Folie] Die Vorhersage der Konfessionszugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 22 Statistik 1 - Assoziation & Korrelation

23 Vorhersage der Konfessionszugehörigkeit bei Kenntnis der Wahlabsicht (X) = (E0-E1)/E0 = 1-E1/E0 ( )/1308=0, Statistik 1 - Assoziation & Korrelation

24 Symmetriesierung Ist man an der Stärke des Zusammenhangs interessiert kann man die beiden gerichteten Maße (X) und (Y) wie folgt symmetrisieren: Im Beispiel ergibt sich: 24 E E E E (X) x x y y (Y) x y E0 E0 E E E E x x y y x y E0 E0 ( ) ( ) ,8% Statistik 1 - Assoziation & Korrelation

25 Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: J I 2 j 1 i 1 observed expected 2 ij expected ij ij Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. 25 Statistik 1 - Assoziation & Korrelation

26 Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man 2 2 /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer 2x2 Tafel zwischen 0 und 1 normiert ist. 2 /N 26 Statistik 1 - Assoziation & Korrelation

27 Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V Nmin(I 1,J 1) 2 27 Statistik 1 - Assoziation & Korrelation

28 Beispiel: Beobachtete Häufigkeiten Erwartete Häufigkeiten Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU CDU 241,3 307,0 225,6 774 SPD SPD 222,6 283,2 208,1 714 FDP FDP 62,0 78,9 58,0 199 Grüne Grüne 110,7 140,8 103,5 355 PDS PDS 39,3 50,0 36, Quelle: Allbus 1996 Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 29,3% 34,9% 34,2% 32,9% SPD 32,9% 32,9% 32,9% 32,9% FDP 7,2% 12,7% 6,5% 9,2% FDP 9,2% 9,2% 9,2% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 1,5% 1,9% 15,8% 5,8% PDS 5,8% 5,8% 5,8% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 28 Statistik 1 - Assoziation & Korrelation

29 Berechnung der erwarteten Häufigkeiten Konfession katholisch evangelisch keine gesamt CDU SPD FDP Grüne PDS *860/2168 = 78, *632/2168 = 103,49 29 Statistik 1 - Assoziation & Korrelation

30 Berechnung Konfession katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD 2,7 1,0 0,3 FDP 2,7 11,4 5,0 Grüne 3,2 1,0 9,0 PDS 21,8 23,1 109,0 n=2168 I=5 J=3 ² observed 2 ij expectedij expected 252,4 Chi²-Wert 0,241 Cramer`s V ij Interpretation: 0,1 < V < 0,2... geringer Zusammenhang 0,2 < V < 0,4... mäßiger Zusammenhang V > 0,4...starker Zusammenhang 30 Statistik 1 - Assoziation & Korrelation

31 Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der 2 binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: = n(ad bc) (a b)(a c))b d)(c d) ad bc (a b)(a c))b d)(c d) = 1 31 Statistik 1 - Assoziation & Korrelation

32 Vierfeldertafel (2) Assoziation nach Yule cpr 1 ad / bc 1 ad bc Q cpr 1 ad / bc 1 ad bc Q = +1 Q = 1 32 Statistik 1 - Assoziation & Korrelation

33 Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet s XX 1 n n i 1 n x x x x x x nxx n n 1 1 XY i i i i n i 1 n i 1 s x x y y x y nxy Nachteil: keine Normierung i i 1 n i 1 i i 33 Statistik 1 - Assoziation & Korrelation

34 Konzept der Kovarianz 34 Statistik 1 - Assoziation & Korrelation

35 Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert: r xy i i XY i i n xy i i xi yi 2 2 i i i i x x y y cov( XY) corr 2 2 Std. Abw.( X ) Std. Abw.( Y) x x y y 2 2 n x x n y y 35 Statistik 1 - Assoziation & Korrelation

36 Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer Achse verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. 36 Statistik 1 - Assoziation & Korrelation

37 Hohe positive Korrelation Korrelation Statistik 1 - Assoziation & Korrelation

38 Hohe negative Korrelation Korrelation Statistik 1 - Assoziation & Korrelation

39 Mittlere positive Korrelation Korrelation Statistik 1 - Assoziation & Korrelation

40 Korrelation nahe 0 Korrelation Statistik 1 - Assoziation & Korrelation

41 Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang 41 Statistik 1 - Assoziation & Korrelation

42 Verschiedene Szenarien 42 Statistik 1 - Assoziation & Korrelation

43 Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel 43 Statistik 1 - Assoziation & Korrelation

44 Berechnung via Standardisierte Daten Die Korrelation der Originaldaten ist gleich der Kovarianz der standardisierten Daten 44 Statistik 1 - Assoziation & Korrelation

45 Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, daß der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation von Nahe Null nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang misst. 1.0 Die Punkte im linken Beispiel haben Korrelation null! Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 45 Statistik 1 - Assoziation & Korrelation

46 Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Korrelation kann auch über Drittvariablen entstehen 46 Statistik 1 - Assoziation & Korrelation

47 Simpsons Paradoxon (heterogene Gruppen) 47 Statistik 1 - Assoziation & Korrelation

48 Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Idee: Verwende den Rang der Beobachtung (aufgrund der Ordnung nach X bzw. Y) anstelle des Wertes der Beobachtung 48 Statistik 1 - Assoziation & Korrelation

49 Beispiel 49 Statistik 1 - Assoziation & Korrelation

50 Trauen Sie der Korrelation? 50 Statistik 1 - Assoziation & Korrelation

51 Elimination des extremen Datenpunkts Keine Korrelation mehr in den Daten!! 51 Statistik 1 - Assoziation & Korrelation

52 Anwendung der Rangkorrelation Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust Vergleichbar mit der Diskussion Median versus arithm. Mittel 52 Statistik 1 - Assoziation & Korrelation