Assoziation & Korrelation

Transkript

1 Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec

2 Einleitung Bei gleichzeitiger Beobachtung von 2 Merkmalen für jeden Merkmalsträger stellt sich auch im Bereich der deskriptiven Statistik die Frage, ob es systematische Zusammenhänge oder Abhängigkeiten zwischen den beiden Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße, im Falle quantitativer Merkmale spricht man von Korrelationsmaßen. Ein Zusammenhangsmaß quantifiziert die Stärke und die Richtung eines Zusammenhangs zweier statistischer Variablen. 2 Statistik 1 - Assoziation & Korrelation

3 Beispiel: Assoziation von Produktkäufen Ausgangspunkt bildet eine Datenbasis von Rechnungsbelegen eines Warenhauses Daraus lassen sich zunächst für 2 Produkte unabhängig voneinander Information über 2 univariate Randverteilungen gewinnen: Produkt A Kauf % kein Kauf % % Produkt B Kauf % kein Kauf % % 3 Statistik 1 - Assoziation & Korrelation

4 Szenario: Keine Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 60% 40% 100% kein Kauf kein Kauf 60% 40% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 42% 28% 70% Kauf 70% 70% 70% kein Kauf 18% 12% 30% kein Kauf 30% 30% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% Beachte: Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten direkt aus dem Produkt der Randverteilungen! Bei Unabhängigkeit sind die bedingten Wahrscheinlichkeiten gleich der marginalen Wahrscheinlichkeit! 4 Statistik 1 - Assoziation & Korrelation

5 Szenario: Keine Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 60% 40% 100% kein Kauf kein Kauf 60% 40% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 42% 28% 70% Kauf 70% 70% 70% kein Kauf 18% 12% 30% kein Kauf 30% 30% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% P(Kauf von B Kauf von A) = 420/700 = 0,60 P(Kauf von B kein Kauf von A) = 180/300 = 0,60 P(Kauf von B) = 600/1.000 = 0,60 5 Statistik 1 - Assoziation & Korrelation

6 Szenario: Positive Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 79% 21% 100% kein Kauf kein Kauf 17% 83% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 55% 15% 70% Kauf 92% 38% 70% kein Kauf 5% 25% 30% kein Kauf 8% 63% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% Beispiel: Farbe + Pinsel Bei positiver Assoziation impliziert das Vorliegen einer positiven Merkmalsausprägung (im Beispiel Kauf) bei einem Merkmal, dass auch beim anderen Merkmal mit hoher Wahrscheinlichkeit eine positive Merkmalsausprägung vorliegt. P(Kauf von B Kauf von A) = 550/700 = 0,79 P(Kauf von A Kauf von B) = 550/600 = 0,92 6 Statistik 1 - Assoziation & Korrelation

7 Szenario: Negative Assoziation zwischen den Produkten Absolute Häufigkeiten Zeilenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Gesamt Produkt A Kauf kein Kauf Gesamt Kauf Kauf 51% 49% 100% kein Kauf kein Kauf 80% 20% 100% Gesamt Gesamt 60% 40% 100% Relative Häufigkeiten Spaltenprozent Produkt B Produkt B Produkt A Kauf kein Kauf Produkt A Kauf kein Kauf Kauf 36% 34% 70% Kauf 60% 85% 70% kein Kauf 24% 6% 30% kein Kauf 40% 15% 30% Gesamt 60% 40% 100% Gesamt 100% 100% 100% Beispiel: 2 Konkurrenzprodukte verschiedener Markenanbieter Bei negativer Assoziation impliziert das Vorliegen einer positiven Merkmalsausprägung (im Beispiel Kauf) bei einem Merkmal, dass beim anderen Merkmal mit hoher Wahrscheinlichkeit eine negative Merkmalsausprägung (kein Kauf) vorliegt. P(Kauf von B Kauf von A) = 360/700 = 0,51 P(Kauf von B kein Kauf von A) = 240/300 = 0,80 7 Statistik 1 - Assoziation & Korrelation

8 Szenario: Maximale Positive Assoziation zwischen den Produkten Maximale Häufigkeitsmasse auf der Hauptdiagonale Minimale Häufigkeitsmasse auf der Nebendiagonale Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt Statistik 1 - Assoziation & Korrelation

9 Szenario: Maximale Negative Assoziation zwischen den Produkten Minimale Häufigkeitsmasse auf der Hauptdiagonale Maximale Häufigkeitsmasse auf der Nebendiagonale Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt Statistik 1 - Assoziation & Korrelation

10 Maßzahl für Stärke der Assoziation Wir betrachten 2 binäre Merkmale A und B mit Ausprägungen (A1, A2) und (B1, B2) B1 B2 Summe A1 a b a+b A2 c d c+d Summe a+c b+d N Basis: Verhältnis der Haupt- zur Nebendiagonale Kreuzproduktverhältnis (cpr; cross product ratio) cpr = a*d/(b*c) Wertebereich: 0 bis + Assoziationskoeffizient nach Yule (Q): Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis Statistik 1 - Assoziation & Korrelation

11 Szenario: Keine Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=420*120/(280*180)=1 Q=(1-1)/(1+1)=0 11 Statistik 1 - Assoziation & Korrelation

12 Szenario: Positive Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=250*550/(150*50)=18,33 Q=(18,33-1)/(18,33+1) = 0,90 12 Statistik 1 - Assoziation & Korrelation

13 Szenario: Negative Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=360*60/(340*240)=0,26 Q=(0,26-1)/(0,26+1)=-0,58 13 Statistik 1 - Assoziation & Korrelation

14 Szenario: Maximale Positive Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=600*300/(0*100) + Q=( -1)/( +1)=1 14 Statistik 1 - Assoziation & Korrelation

15 Szenario: Maximale Negative Assoziation zwischen den Produkten Absolute Häufigkeiten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf kein Kauf Gesamt cpr=300*0/(300*400)= 0 Q=(0-1)/(0+1)=-1 15 Statistik 1 - Assoziation & Korrelation

16 Cross Product Ratio ~ odds ratio Das Verhältnis von Chance (p) zu Gegenchance (1-p) nennt man odds bzw. Chancenverhältnis odds= p/(1-p) Beispiel: Würfelwurf odds(für einen 6er)=(1/6)/(5/6)=1/5 Man spricht auch: die Chancen stehen 1 zu 5 Exkurs in die Spieltheorie: Der Reziprokwert der Odds ist jene Auszahlung, die zu einer fairen Wette führt (Details späteres Kapitel) Im Beispiel Gewinn des fünffachen Einsatzes beim Würfeln einer 6 - sonst Verlust des Einsatzes Langfristig kein Gewinn und kein Verlust 16 Statistik 1 - Assoziation & Korrelation

17 Cross Product Ratio ~ odds ratio B1 B2 Summe A1 a b a+b A2 c d c+d Summe a+c b+d N Die Cross Product Ratio cpr = a*d/(b*c) kann auch als das Verhältnis der Odds (odds-ratio) für zwei unterschiedliche Bedingungen interpretiert werden a a d b b c c d a/b ist das Chancenverhältnis von B1 zu B2 gegeben A1 ist eingetreten c/d ist das Chancenverhältnis von B1 zu B2 gegeben A2 ist eingetreten 17 Statistik 1 - Assoziation & Korrelation

18 Zur Interpretation der Cross Product Ratio D+ D- Total T+ 0,64 0,36 0,289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 odds(d+ zu D- T+) = 0,64/0,36 = 25/14 = 1,78 odds(d+ zu D- T-) = 0,187/0,813= 18/78 = 0,23 odds-ratio = 1,78/0,23 = 7,74 Das Chancenverhältnis (die odds) einer Erkrankung ist bei Vorliegen eines positiven Testbefundes 7,74 mal so hoch wie bei Vorliegen eines negativen Testbefundes. (25/14)/(18/78)=(25*78)/(14*18)=7,74 18 Statistik 1 - Assoziation & Korrelation

19 Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des Wertes des anderen Merkmals ergeben (Goodman-Kruskal ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis der Merkmalausprägung von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis der Merkmalausprägung von Y X (X) ~ Maß für die relative Fehlerreduktion 19 Statistik 1 - Assoziation & Korrelation

20 Beispiel Konfession katholisch evangelisch keine gesamt CDU SPD FDP Grüne PDS Quelle: Allbus 1996 Konfession katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% SPD 29,3% 34,9% 34,2% 32,9% FDP 7,2% 12,7% 6,5% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% Merkmale sind abhängig! Aufgabenstellung: berechne (x) als Maß für die prädiktive Stärke des Merkmals Y ~ Konfession zur Vorhersage des Merkmals X ~ Wahlabsicht 20 Statistik 1 - Assoziation & Korrelation

21 Prognose-Fehler ohne Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU E0= =1394 SPD FDP Grüne PDS E0 ist der Vorhersagefehler für die Wahlabsicht (X) ohne Kenntnis des Merkmals Konfession Y bei Anwendung jener Regel, die die geringste Fehlerrate aufweist. (Geringste Fehlerrate beim Tippen auf die Modalklasse <häufigste Klasse>!) Ohne Kenntnis der Konfession ist es offensichtlich am sinnvollsten auf CDU zu tippen (höchste Trefferquote ~ geringste Fehlerhäufigkeit) 21 Statistik 1 - Assoziation & Korrelation

22 Prognosefehler bei Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU E1=( ) + ( ) + ( ) = 1319 SPD FDP Grüne PDS E1 ist der Vorhersagefehler der Wahlabsicht X bei Kenntnis der Merkmalsausprägung des Merkmals Konfession Y. Bei Kenntnis der Konfession ist es nun am sinnvollsten nur bei den Ausprägungen katholisch und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine sollte man auf SPD tippen. Anwendung der Regel Tippe auf die Modalklasse pro Spalte 22 Statistik 1 - Assoziation & Korrelation

23 Berechnung des Maßes: (X) Sei X das Merkmal Wahlabsicht und Y das Merkmal Konfession, so gilt für (X) = (E0-E1)/E0 = 1-E1/E0 (X) = ( )/1394 =1-1319/1394=0,054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der Konfessionszugehörigkeit in unserem Datensatz um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist (Y) = /1308 = 0,084 [siehe nächste Folie] Die Vorhersagegüte der Konfessionszugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 23 Statistik 1 - Assoziation & Korrelation

24 Umkehrung der Abhängigkeiten Aufgabenstellung: Vorhersage der Konfessionszugehörigkeit (Y) bei Kenntnis der Wahlabsicht (X) Y) = (E0-E1)/E0 = 1-E1/E0 ( )/1308=0, Statistik 1 - Assoziation & Korrelation

25 Symmetrisierung Ist man nur an der Stärke des Zusammenhangs interessiert (unabhängig von der Richtung), kann man die beiden gerichteten Maße (X) und (Y) wie folgt symmetrisieren: E E E E (X) Im Beispiel ergibt sich: 25 x x y y (Y) x y E0 E0 E E E E x x y y x y E0 E0 ( ) ( ) ,8% Statistik 1 - Assoziation & Korrelation

26 Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird die Chi-Quadrat Statistik wie folgt definiert: J I 2 j 1 i 1 observed expected 2 ij expected ij ij Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. 26 Statistik 1 - Assoziation & Korrelation

27 Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man 2 2 /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer 2x2 Tafel zwischen 0 und 1 normiert ist. 2 /N 27 Statistik 1 - Assoziation & Korrelation

28 Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V Nmin(I 1,J 1) 2 Der Quotient in der Wurzel ist der berechnete Chi-Quadrat Wert, dividiert durch das Produkt aus der Anzahl der Beobachtungen N und dem kleineren Wert von Anzahl der Zeilen (I) minus 1 bzw. Anzahl der Spalten (J) minus 1 28 Statistik 1 - Assoziation & Korrelation

29 Berechnung der erwarteten Häufigkeiten (1) Beobachtete Häufigkeiten Erwartete Häufigkeiten Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU CDU 241,3 307,0 225,6 774 SPD SPD 222,6 283,2 208,1 714 FDP FDP 62,0 78,9 58,0 199 Grüne Grüne 110,7 140,8 103,5 355 PDS PDS 39,3 50,0 36, Quelle: Allbus 1996 Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 29,3% 34,9% 34,2% 32,9% SPD 32,9% 32,9% 32,9% 32,9% FDP 7,2% 12,7% 6,5% 9,2% FDP 9,2% 9,2% 9,2% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 1,5% 1,9% 15,8% 5,8% PDS 5,8% 5,8% 5,8% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 29 Statistik 1 - Assoziation & Korrelation

30 Berechnung der erwarteten Häufigkeiten (2) Konfession katholisch evangelisch keine gesamt CDU SPD FDP Grüne PDS *860/2168 = 78,94 N= *632/2168 = 103,49 30 Statistik 1 - Assoziation & Korrelation

31 Berechnung von Cramer s V J I ( ,3)²/241,3=30,4 observed 2 2 ij expectedij Konfession katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD 2,7 1,0 0,3 FDP 2,7 11,4 5,0 Grüne 3,2 1,0 9,0 PDS 21,8 23,1 109,0 N=2.168 n=2168 I=5 J=3 Beobachtete Häufigkeiten j 1 i 1 expected 252,4 Chi²-Wert 0,241 Cramer`s V ij Erwartete Häufigkeiten Interpretation: 0,1 < V < 0,2... geringer Zusammenhang 0,2 < V < 0,4... mäßiger Zusammenhang V > 0,4... starker Zusammenhang 31 Statistik 1 - Assoziation & Korrelation

32 Vierfeldertafel Im Falle der einfachsten Tabelle, bei der 2 binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: = n(ad bc) (a b)(a c))b d)(c d) ad bc (a b)(a c))b d)(c d) = 1 32 Statistik 1 - Assoziation & Korrelation

33 Zusammenhang von 2 metrischen Merkmalen Wir betrachten nun den Fall der Messung des Zusammenhangs von 2 metrischen Variablen. Ziel ist es die Stärke und die Richtung des Zusammenhangs zwischen zwei Variablen X und Y mittels einer statistischen Maßzahl zu quantifizieren. Wir sprechen von einem positiven Zusammenhang, wenn Aussagen der Art: Je größer X desto größer ist auch Y zutreffen Wir sprechen von einem negativen Zusammenhang, wenn Aussagen der Art: Je größer X desto kleiner ist Y zutreffen 33 Statistik 1 - Assoziation & Korrelation

34 Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet s XX 1 n n i 1 n x x x x x x nxx i i 1 n n n 1 1 XY i i i i n i 1 n i 1 s x x y y x y nxy i 1 i i Varianz von X Kovarianz von X und Y 34 Statistik 1 - Assoziation & Korrelation

35 Konzept der Kovarianz y x 35 Statistik 1 - Assoziation & Korrelation

36 Erklärung Jeder Beobachtungspunkt liefert einen Beitrag zur Summe. Grüne Punkte in den Quadranten I und III liefern positive Beiträge Rote Punkte in den Quadranten II und IV liefern negative Beiträge Die Größe des Beitrags entspricht der grau schraffierten Fläche Nachteil: Die Kovarianz ist nicht normiert und kann beliebige Werte aufweisen 36 Statistik 1 - Assoziation & Korrelation

37 Korrelationskoeffizient Der Korrelationskoeffizient nach Pearson ist das wichtigste Maß für den Zusammenhang zwischen zwei metrischen Variablen X und Y und ergibt sich durch die Normierung der Kovarianz. Er ist ein Maß für die lineare Korrelation! Alternative Bezeichnungen für dieses Maß in der Literatur: Produkt-Moment-Korrelation, Bravais-Pearson-Korrelation, Linearer Korrelationskoeffizient 37 Statistik 1 - Assoziation & Korrelation

38 Korrelationskoeffizient r xy Der Korrelationskoeffizient nach Pearson kann durch folgende äquivalente Formeln charakterisiert werden: i i x x y y x x y y cov( XY) corrxy Std. Abw.( X ) Std. Abw.( Y) i n xy x y i i i i 2 2 i i i i i n x x n y y Hinweis: wenn klar ist, um welche Korrelation es sich handelt wird oft auch nur r statt r XY geschrieben. 38 Statistik 1 - Assoziation & Korrelation

39 Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer der beiden Achsen verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. 39 Statistik 1 - Assoziation & Korrelation

40 Hohe positive Korrelation Korrelation Statistik 1 - Assoziation & Korrelation

41 Hohe negative Korrelation Korrelation Statistik 1 - Assoziation & Korrelation

42 Mittlere positive Korrelation Korrelation Statistik 1 - Assoziation & Korrelation

43 Korrelation nahe 0 Korrelation Statistik 1 - Assoziation & Korrelation

44 Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang Relevanz oder besser Signifikanz hängt von der Fallzahl ab (siehe Statistik 2). 44 Statistik 1 - Assoziation & Korrelation

45 Verschiedene Szenarien 45 Statistik 1 - Assoziation & Korrelation

46 Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel r xy n xy i i xi yi 2 2 i i i i 2 2 n x x n y y 46 Statistik 1 - Assoziation & Korrelation

47 Berechnung via Standardisierte Daten Die Korrelation der Originaldaten ist gleich der Kovarianz der standardisierten Daten 47 Statistik 1 - Assoziation & Korrelation

48 Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, dass der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation von nahe Null nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang 1.0 misst Die Punkte im linken Beispiel haben Korrelation null! Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 48 Statistik 1 - Assoziation & Korrelation

49 Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Kausalität setzt eine Richtung voraus Korrelation kann auch über Drittvariablen entstehen 49 Statistik 1 - Assoziation & Korrelation

50 Simpsons Paradoxon (heterogene Gruppen) 50 Statistik 1 - Assoziation & Korrelation

51 Correlation vs. Causality Empirische Daten zeigen, dass der Verzehr von Speiseeis das Risiko von einem Haifisch attackiert zu werden erhöht! Quelle: Eric Siegel. Predictive Analytics: Delivering on the Promise of Big Data. IBM Government Analytics Forum, May Statistik 1 - Assoziation & Korrelation

52 Scheinkorrelation 52 Statistik 1 - Assoziation & Korrelation

53 Nonsens-Korrelationen (1) 53 Statistik 1 - Assoziation & Korrelation

54 Nonsens-Korrelationen (2) 54 Statistik 1 - Assoziation & Korrelation

55 Korrelation bei ordinalen Daten Für ordinalskalierte Variablen, eignet sich der Rangkorrelationskoeffizient nach Spearman. Idee: Verwende bei der Berechnung des Korrelationskoeffizienten nicht den Wert der Beobachtungen X und Y sondern den Rang, den diese Beobachtung aufgrund des Wertes bei einer Sortierung nach X bzw. Y einnimmt. X i, Y i gemessene Werte für die i-te Beobachtung RX i,.. Rang, den die i-te Beobachtung bei Ordnung nach X einnimmt. RY i,.. Rang, den die i-te Beobachtung bei Ordnung nach Y einnimmt. 55 Statistik 1 - Assoziation & Korrelation

56 Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Die Formel links ergibt sich als Vereinfachung der Formel für den Korrelationskoeffizienten, wenn man mit den Rängen arbeitet 56 Statistik 1 - Assoziation & Korrelation

57 Beispiel 57 Statistik 1 - Assoziation & Korrelation

58 Rangkorrelation nach Spearman Vorteile: Bereits anwendbar auf zumindest ordinal-skalierte Daten Keine Annahme, dass die Beziehung zwischen den Variablen linear ist. Der Rangkorrelationskoeffizient ist robust gegenüber Ausreißern. Invariant gegenüber monotonen Transformationen Nachteile: Informationsverlust bei Vorliegen stetiger Merkmale Insbesondere bei normalverteilten Daten resultiert daraus ein Genauigkeitsverlust 58 Statistik 1 - Assoziation & Korrelation

59 Trauen Sie dieser Korrelation? 59 Statistik 1 - Assoziation & Korrelation

60 Elimination des extremen Datenpunkts Praktisch keine Korrelation mehr in den Daten nach Elimination einer einzigen Beobachtung! 60 Statistik 1 - Assoziation & Korrelation

61 Anwendung der Rangkorrelation Spearman s Rangkorrelation r S =0,1113 Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust Vorteil: Robust gegenüber Datenfehlern Vergleichbar mit der Diskussion Median versus arithmetisches Mittel 61 Statistik 1 - Assoziation & Korrelation