Assoziation & Korrelation

Ähnliche Dokumente

Assoziation & Korrelation

Assoziation & Korrelation

Assoziation & Korrelation

Assoziation & Korrelation

Kontingenzkoeffizient (nach Pearson)

Analyse bivariater Kontingenztafeln

Korrelation (II) Korrelation und Kausalität

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Zusammenhänge zwischen metrischen Merkmalen

Korrelation - Regression. Berghold, IMI

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Überblick über die Verfahren für Ordinaldaten

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Bauchgefühl oder kühle Berechnung Wer wird Fußball-Weltmeister 2014?

Korrelation. Übungsbeispiel 1. Übungsbeispiel 4. Übungsbeispiel 2. Übungsbeispiel 3. Korrel.dtp Seite 1

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Willkommen zur Vorlesung Statistik

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Einführung in statistische Analysen

Fortgeschrittene Statistik Logistische Regression

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

AUTOMATISIERTE HANDELSSYSTEME

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

1 Darstellen von Daten

Datenanalyse mit Excel. Wintersemester 2013/14

Statistische Auswertung:

Willkommen zur Vorlesung Statistik (Master)

Orientierungstest für angehende Industriemeister. Vorbereitungskurs Mathematik

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Professionelle Seminare im Bereich MS-Office

Beispiel Zusammengesetzte Zufallsvariablen

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

W-Rechnung und Statistik für Ingenieure Übung 11

Fachhochschule Düsseldorf Wintersemester 2008/09

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Tutorial: Homogenitätstest

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

1.3 Die Beurteilung von Testleistungen

Die Optimalität von Randomisationstests

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

5 Zusammenhangsmaße, Korrelation und Regression

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

einfache Rendite

Geneboost Best.- Nr Aufbau Der Stromverstärker ist in ein Isoliergehäuse eingebaut. Er wird vom Netz (230 V/50 Hz, ohne Erdung) gespeist.

Kapitalerhöhung - Verbuchung

Konzepte der Informatik

4. Erstellen von Klassen

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Bevölkerung mit Migrationshintergrund an der Gesamtbevölkerung 2012

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Melanie Kaspar, Prof. Dr. B. Grabowski 1

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

Lineare Gleichungssysteme

Lösen von linearen Gleichungssystemen mit zwei Unbekannten:

Binäre abhängige Variablen

Zeichen bei Zahlen entschlüsseln

6.2 Scan-Konvertierung (Scan Conversion)

Anwendungshinweise zur Anwendung der Soziometrie

Darstellungsformen einer Funktion

Einfache statistische Auswertungen mit dem TI-Nspire

Einfache statistische Auswertungen mit dem Programm SPSS

Portfoliotheorie. Von Sebastian Harder

Kapitalerhöhung - Verbuchung

Analyse von Querschnittsdaten. Regression mit Dummy-Variablen

Ohne Fehler geht es nicht Doch wie viele Fehler sind erlaubt?

Nullserie zur Prüfungsvorbereitung

Ist Excel das richtige Tool für FMEA? Steve Murphy, Marc Schaeffers

Prüfung: Vorlesung Finanzierungstheorie und Wertpapiermanagement

Wir machen neue Politik für Baden-Württemberg

Felix Klug SS Tutorium Deskriptive Statistik

Musterlösungen zur Linearen Algebra II Blatt 5

Linearen Gleichungssysteme Anwendungsaufgaben

sondern alle Werte gleich behandelt. Wir dürfen aber nicht vergessen, dass Ergebnisse, je länger sie in der Vergangenheit

How to do? Projekte - Zeiterfassung

Statistik I für Betriebswirte Vorlesung 5

Einfache Varianzanalyse für abhängige

Thermodynamik Wärmeempfindung

1. Mathematik-Schularbeit 6. Klasse AHS

Erfolg und Vermögensrückgänge angefertigt im Rahmen der Lehrveranstaltung Nachrichtentechnik von: Eric Hansen, am:

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

4. Versicherungsangebot

HIER GEHT ES UM IHR GUTES GELD ZINSRECHNUNG IM UNTERNEHMEN

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

Monte-Carlo-Simulationen mit Copulas. Kevin Schellkes und Christian Hendricks

Lösung. Prüfungsteil 1: Aufgabe 1

Fachdidaktik der Informatik Jörg Depner, Kathrin Gaißer

Mikroökonomik 9. Vorlesungswoche

Kapitel 7 und Kapitel 8: Gleichgewichte in gemischten Strategien. Einleitung. Übersicht Teil 2 2. Übersicht 3

Statistische Verfahren für das Data Mining in einem Industrieprojekt

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Transkript:

Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec

Einleitung Bei Beobachtung von 2 Merkmalen für jeden Merkmalsträger stellt sich die Frage, ob es systematische Zusammenhänge oder Abhängigkeiten zwischen den Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße im Falle quantitativer Merkmale spricht man von Korrelationsmaßen. 2 Statistik 1 - Assoziation & Korrelation

Beispiel: Assoziation von Produktkäufen Information über 2 Produkte aus der Umsatz-Statistik eines Warenhauses(2 univariate Randverteilungen). Produkt A Kauf 700 70% kein Kauf 300 30% 1000 100% Produkt B Kauf 600 60% kein Kauf 400 40% 1000 100% 3 Statistik 1 - Assoziation & Korrelation

Szenario: Keine Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf 420 280 700 kein Kauf 180 120 300 Gesamt 600 400 1000 Produkt B Produkt A Kauf kein Kauf Kauf 42% 28% 70% kein Kauf 18% 12% 30% Gesamt 60% 40% 100% Bei Unabhängigkeit ergeben sich die gemeinsamen Wahrscheinlichkeiten direkt aus dem Produkt der Randverteilungen! 4 Statistik 1 - Assoziation & Korrelation

Szenario: Keine Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf 420 280 700 kein Kauf 180 120 300 Gesamt 600 400 1000 Produkt B Produkt A Kauf kein Kauf Kauf 60% 40% 100% kein Kauf 60% 40% 100% Gesamt 60% 40% 100% Bei Unabhängigkeit sind die bedingten Wahrscheinlichkeiten gleich der marginalen Wahrscheinlichkeit P(Kauf von B Kauf von A) = 420/700 = 0,60 P(Kauf von B kein Kauf von A) = 180/300 = 0,60 5 Statistik 1 - Assoziation & Korrelation

Szenario: Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 550 150 700 kein Kauf 50 250 300 Gesamt 600 400 1000 Beispiel: Farbe + Pinsel Produkt B Produkt A Kauf kein Kauf Kauf 79% 21% 100% kein Kauf 17% 83% 100% Gesamt 60% 40% 100% P(Kauf von B Kauf von A) = 550/700 = 0,79 P(Kauf von B kein Kauf von A) = 50/300 = 0,17 P(kein Kauf von B kein Kauf von A) = 250/300 = 0,83 6 Statistik 1 - Assoziation & Korrelation

Szenario: Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 360 340 700 kein Kauf 240 60 300 Gesamt 600 400 1000 Beispiel: 2 Konkurrenzprodukte verschiedener Markenanbieter Produkt B Produkt A Kauf kein Kauf Kauf 51% 49% 100% kein Kauf 80% 20% 100% Gesamt 60% 40% 100% P(Kauf von B Kauf von A) = 360/700 = 0,51 P(Kauf von B kein Kauf von A) = 240/300 = 0,80 7 Statistik 1 - Assoziation & Korrelation

Szenario: Maximale Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 600 100 700 kein Kauf 0 300 300 Gesamt 600 400 1000 Maximale Häufigkeitsmasse auf der Hauptdiagonale Produkt B Produkt A Kauf kein Kauf Kauf 86% 14% 100% kein Kauf 0% 100% 100% Gesamt 60% 40% 100% 8 Statistik 1 - Assoziation & Korrelation

Szenario: Maximale Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 300 400 700 kein Kauf 300 0 300 Gesamt 600 400 1000 Minimale Häufigkeitsmasse auf der Hauptdiagonale Maximale Häufigkeitsmasse auf der Nebendiagonale Produkt B Produkt A Kauf kein Kauf Kauf 43% 57% 100% kein Kauf 100% 0% 100% Gesamt 60% 40% 100% 9 Statistik 1 - Assoziation & Korrelation

Maßzahl für Stärke der Assoziation Wir betrachten 2 binäre Merkmale A (A1, A2) und B (B1, B2) B1 B2 Summe A1 a b a+b A2 c d c+d Summe a+c b+d N Kreuzproduktverhältnis (cross product ratio) cpr = a*d/(b*c) Wertebereich: 0 bis + Assoziationskoeffizient nach Yule: Q=(cpr-1)/(cpr+1) Wertebereich: -1 bis +1 10 Statistik 1 - Assoziation & Korrelation

Szenario: Keine Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Gesamt Kauf 420 280 700 kein Kauf 180 120 300 Gesamt 600 400 1000 Produkt B Produkt A Kauf kein Kauf Kauf 60% 40% 100% kein Kauf 60% 40% 100% Gesamt 60% 40% 100% cpr=420*120/(280*180)=1 Q=0 11 Statistik 1 - Assoziation & Korrelation

Szenario: Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 550 150 700 kein Kauf 50 250 300 Gesamt 600 400 1000 Produkt B Produkt A Kauf kein Kauf Kauf 79% 21% 100% kein Kauf 17% 83% 100% Gesamt 60% 40% 100% cpr=250*550/(150*50)=18,33 Q=0,90 12 Statistik 1 - Assoziation & Korrelation

Szenario: Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 360 340 700 kein Kauf 240 60 300 Gesamt 600 400 1000 Produkt B Produkt A Kauf kein Kauf Kauf 51% 49% 100% kein Kauf 80% 20% 100% Gesamt 60% 40% 100% cpr=360*60/(340*240)=0,26 Q=-0,58 13 Statistik 1 - Assoziation & Korrelation

Szenario: Maximale Positive Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 600 100 700 kein Kauf 0 300 300 Gesamt 600 400 1000 Produkt B Produkt A Kauf kein Kauf Kauf 86% 14% 100% kein Kauf 0% 100% 100% Gesamt 60% 40% 100% cpr=600*300/(0*100)=+ Q=1 14 Statistik 1 - Assoziation & Korrelation

Szenario: Maximale Negative Assoziation zwischen den Produkten Produkt B Produkt A Kauf kein Kauf Kauf 300 400 700 kein Kauf 300 0 300 Gesamt 600 400 1000 Produkt B Produkt A Kauf kein Kauf Kauf 43% 57% 100% kein Kauf 100% 0% 100% Gesamt 60% 40% 100% cpr=300*0/(300*400)= 0 Q=-1 15 Statistik 1 - Assoziation & Korrelation

Cross Product Ratio ~ odds ratio Das Verhältnis von Chance zu Gegenchance nennt man odds odds:= p/(1-p) z.b. Würfelwurf odds(für einen 6er)=(1/6)/(5/6)=1/5 Man spricht auch die Chancen stehen 1 zu 5 Reziprokwert der Odds ist jene Auszahlung, die zu einer fairen Wette führt (Details späteres Kapitel) 16 Statistik 1 - Assoziation & Korrelation

Cross Product Ratio ~ odds ratio B1 B2 Summe A1 a b a+b A2 c d c+d Summe a+c b+d N Die Cross Product Ratio cpr = a*d/(b*c) kann auch als das Verhältnis der Odds (odds-ratio) für zwei unterschiedliche Bedingungen interpretiert werden a a d b b c c d a/b ist das Chancenverhältnis von B1 zu B2 gegeben A1 ist eingetreten c/d ist das Chancenverhältnis von B1 zu B2 gegeben A2 ist eingetreten 17 Statistik 1 - Assoziation & Korrelation

Zur Interpretation der Cross Product Ratio D+ D- Total T+ 0,64 0,36 0,289 T- 0,187 0,813 0,711 Total 0,318 0,682 1,000 odds(d+ T+) = 0,64/0,36 = 25/14 = 1,78 odds(d+ T-) = 0,187/0,813= 18/78 = 0,23 odds-ratio(d+ T) = 1,78/0,23 = 7,74 Das Chancenverhältnis einer Erkrankung ist bei Vorliegen eines positiven Testbefundes 7,7 mal so hoch wie bei Vorliegen eines negativen Testbefundes. (25/14)/(18/78)=(25*78)/(14*18)=7,74 18 Statistik 1 - Assoziation & Korrelation

Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des Wertes des anderen Merkmals ergeben (Goodman-Kruskal ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis der Merkmalausprägung von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis der Merkmalausprägung von Y (X) = (E0-E1)/E0 = 1-E1/E0 ~ relative Fehlerreduktion 19 Statistik 1 - Assoziation & Korrelation

Beispiel Konfession katholisch evangelisch keine gesamt CDU 327 306 141 774 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 Quelle: Allbus 1996 Konfession katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% SPD 29,3% 34,9% 34,2% 32,9% FDP 7,2% 12,7% 6,5% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% Merkmale sind abhängig! 20 Statistik 1 - Assoziation & Korrelation

Prognose-Fehler ohne Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU 327 306 141 774 E0=2168-774=1394 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 E0 ist der Vorhersagefehler für die Wahlabsicht ohne Kenntnis des Merkmals Konfession bei Anwendung jener Regel, die die geringste Fehlerrate aufweist (tippe auf die Modalklasse!) Ohne Kenntnis der Konfession ist es offensichtlich am sinnvollsten auf CDU zu tippen (höchste Trefferquote ~ geringste Fehlerhäufigkeit) 21 Statistik 1 - Assoziation & Korrelation

Prognosefehler bei Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU 327 306 141 774 E1=(676-327) + (860-306) + (632-216) = 1319 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 E1 ist der Vorhersagefehler der Wahlabsicht bei Kenntnis der Merkmalsausprägung des Merkmals Konfession Bei Kenntnis der Konfession ist es am sinnvollsten bei den Ausprägungen katholisch und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine auf SPD zu tippen Anwendung der Regel Tippe auf die Modalklasse pro Spalte 22 Statistik 1 - Assoziation & Korrelation

Berechnung Sei X das Merkmal Wahlabsicht und Y das Merkmal Konfession, so gilt für (X) = (E0-E1)/E0 = 1-E1/E0 (X) = (1394-1319)/1394 =1-1319/1394=0,054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der Konfessionszugehörigkeit um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist (Y) = 1-1198/1308 = 0,084 [siehe nächste Folie] Die Vorhersage der Konfessionszugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 23 Statistik 1 - Assoziation & Korrelation

Vorhersage der Konfessionszugehörigkeit bei Kenntnis der Wahlabsicht = (E0-E1)/E0 = 1-E1/E0 (1308-1198)/1308=0,084 24 Statistik 1 - Assoziation & Korrelation

Symmetriesierung Ist man an der Stärke des Zusammenhangs interessiert, kann man die beiden gerichteten Maße (X) und (Y) wie folgt symmetrisieren: Im Beispiel ergibt sich: 25 E E E E (X) x x y y 0 1 0 1 (Y) x y E0 E0 E E E E x x y y 0 1 0 1 x y E0 E0 (1394 1319) (1308 1198) 1394 1308 6,8% Statistik 1 - Assoziation & Korrelation

Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird die Chi-Quadrat Statistik wie folgt definiert: J I 2 j 1 i 1 observed expected 2 ij expected ij ij Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. 26 Statistik 1 - Assoziation & Korrelation

Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man 2 2 /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer 2x2 Tafel zwischen 0 und 1 normiert ist. 2 /N 27 Statistik 1 - Assoziation & Korrelation

Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V Nmin(I 1,J 1) 2 28 Statistik 1 - Assoziation & Korrelation

Berechnung der erwarteten Häufigkeiten (1) Beobachtete Häufigkeiten Erwartete Häufigkeiten Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 327 306 141 774 CDU 241,3 307,0 225,6 774 SPD 198 300 216 714 SPD 222,6 283,2 208,1 714 FDP 49 109 41 199 FDP 62,0 78,9 58,0 199 Grüne 92 129 134 355 Grüne 110,7 140,8 103,5 355 PDS 10 16 100 126 PDS 39,3 50,0 36,7 126 676 860 632 2168 676 860 632 2168 Quelle: Allbus 1996 Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 29,3% 34,9% 34,2% 32,9% SPD 32,9% 32,9% 32,9% 32,9% FDP 7,2% 12,7% 6,5% 9,2% FDP 9,2% 9,2% 9,2% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 1,5% 1,9% 15,8% 5,8% PDS 5,8% 5,8% 5,8% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 29 Statistik 1 - Assoziation & Korrelation

Berechnung der erwarteten Häufigkeiten (2) Konfession katholisch evangelisch keine gesamt CDU 241 307 226 774 SPD 223 283 208 714 FDP 62 79 58 199 Grüne 111 141 103 355 PDS 39 50 37 126 676 860 632 2168 79 199*860/2168 = 78,94 103 355*632/2168 = 103,49 30 Statistik 1 - Assoziation & Korrelation

Berechnung (327-241,3)²/241,3=30,4 Konfession katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD 2,7 1,0 0,3 FDP 2,7 11,4 5,0 Grüne 3,2 1,0 9,0 PDS 21,8 23,1 109,0 n=2168 I=5 J=3 ² observed 2 ij expectedij expected 252,4 Chi²-Wert 0,241 Cramer`s V ij Interpretation: 0,1 < V < 0,2... geringer Zusammenhang 0,2 < V < 0,4... mäßiger Zusammenhang V > 0,4...starker Zusammenhang 31 Statistik 1 - Assoziation & Korrelation

Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der 2 binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: = +1 2 2 n(ad bc) (a b)(a c))b d)(c d) ad bc (a b)(a c))b d)(c d) = 1 32 Statistik 1 - Assoziation & Korrelation

Vierfeldertafel (2) Assoziation nach Yule cpr 1 ad / bc 1 ad bc Q cpr 1 ad / bc 1 ad bc Q = +1 Q = 1 33 Statistik 1 - Assoziation & Korrelation

Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet s XX 1 n n i 1 n x x x x x x nxx n n 1 1 XY i i i i n i 1 n i 1 s x x y y x y nxy Nachteil: keine Normierung i i 1 n i 1 i i 34 Statistik 1 - Assoziation & Korrelation

Konzept der Kovarianz 35 Statistik 1 - Assoziation & Korrelation

Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert: r xy i i XY i i n xy i i xi yi 2 2 i i i i x x y y cov( XY) corr 2 2 Std. Abw.( X ) Std. Abw.( Y) x x y y 2 2 n x x n y y 36 Statistik 1 - Assoziation & Korrelation

Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer Achse verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. 37 Statistik 1 - Assoziation & Korrelation

Hohe positive Korrelation Korrelation 0.91-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 38 Statistik 1 - Assoziation & Korrelation

Hohe negative Korrelation Korrelation -0.97-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 39 Statistik 1 - Assoziation & Korrelation

Mittlere positive Korrelation Korrelation 0.47-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 40 Statistik 1 - Assoziation & Korrelation

Korrelation nahe 0 Korrelation 0.05-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 41 Statistik 1 - Assoziation & Korrelation

Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang 42 Statistik 1 - Assoziation & Korrelation

Verschiedene Szenarien 43 Statistik 1 - Assoziation & Korrelation

Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel 44 Statistik 1 - Assoziation & Korrelation

Berechnung via Standardisierte Daten Die Korrelation der Originaldaten ist gleich der Kovarianz der standardisierten Daten 45 Statistik 1 - Assoziation & Korrelation

Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, daß der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation von Nahe Null nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang misst. 1.0 Die Punkte im linken Beispiel 0.8 0.6 haben Korrelation null! 0.4 0.2 0.0-0.2-0.4-0.6-0.8-1.2-0.7-0.2 0.3 0.8 Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 46 Statistik 1 - Assoziation & Korrelation

Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Korrelation kann auch über Drittvariablen entstehen 47 Statistik 1 - Assoziation & Korrelation

Simpsons Paradoxon (heterogene Gruppen) 48 Statistik 1 - Assoziation & Korrelation

Correlation vs. Causality Empirische Daten zeigen, dass der Verzehr von Speiseeis das Risiko von einem Haifisch attackiert zu werden erhöht! Quelle: Eric Siegel. Predictive Analytics: Delivering on the Promise of Big Data. IBM Government Analytics Forum, May2014 49 Statistik 1 - Assoziation & Korrelation

Scheinkorrelation 50 Statistik 1 - Assoziation & Korrelation

Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Idee: Verwende den Rang der Beobachtung (aufgrund der Ordnung nach X bzw. Y) anstelle des Wertes der Beobachtung 51 Statistik 1 - Assoziation & Korrelation

Beispiel 52 Statistik 1 - Assoziation & Korrelation

Rangkorrelation nach Spearman Vorteile: Anwendbar auf zumindest ordinalskalierte Daten Keine Annahme, dass die Beziehung zwischen den Variablen linear ist. Der Rangkorrelationskoeffizient ist robust gegenüber Ausreißern. Invariant gegenüber monotonen Transformationen Nachteile: Informationsverlust bei Vorliegen stetiger Merkmale Bei normalverteilten Daten resultiert daraus ein Genauigkeitsverlust 53 Statistik 1 - Assoziation & Korrelation

Trauen Sie der Korrelation? 54 Statistik 1 - Assoziation & Korrelation

Elimination des extremen Datenpunkts Keine Korrelation mehr in den Daten!! 55 Statistik 1 - Assoziation & Korrelation

Anwendung der Rangkorrelation Spearman s Rangkorrelation r S =0,1113 Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust Vorteil: Robust gegenüber Datenfehlern Vergleichbar mit der Diskussion Median versus arithmetisches Mittel 56 Statistik 1 - Assoziation & Korrelation