Assoziation & Korrelation

Ähnliche Dokumente
Assoziation & Korrelation

Assoziation & Korrelation

Assoziation & Korrelation

Assoziation & Korrelation

11. Zusammenhangsmaße für nominale Variablen

2. Zusammenhangsmaße

Einführung in die sozialwissenschaftliche Statistik

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Bivariate Kreuztabellen

Statistische Methoden in den Umweltwissenschaften

Zusammenhangsanalyse in Kontingenztabellen

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Zusammenhangsmaße II

Was sind Zusammenhangsmaße?

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Zusammenhangsmaße II

Vl Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen. Absolute Häufigkeitstabelle

Skalenniveaus =,!=, >, <, +, -

Statistik I. Sommersemester 2009

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Grundlagen der empirischen Sozialforschung

5 Beschreibung und Analyse empirischer Zusammenhänge

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Modul G.1 WS 07/08: Statistik

Bivariate Verteilungen

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

W-Rechnung und Statistik für Ingenieure Übung 5

GRUPPE B Prüfung aus Statistik 1 für SoziologInnen

Statistik I für Betriebswirte Vorlesung 10

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

Parametrische vs. Non-Parametrische Testverfahren

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal

Mathematik 2 für Naturwissenschaften

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger. Merkmale

Institut für Soziologie Dipl. Soz. Maximilian Sonnauer. Methoden II. Zusammenhangsmaße für kategoriale und metrische Variablen

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Einführung in die Korrelationsrechnung

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Analyse bivariater Kontingenztafeln

Eine zweidimensionale Stichprobe

Medizinisches Beispiel

Kontingenzkoeffizient (nach Pearson)

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Statistik ohne Angst vor Formeln

Skriptteufel Klausurworkshop

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Bivariate Zusammenhänge

6. Multivariate Verfahren Übersicht

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

5.5 PRE-Maße (Fehlerreduktionsmaße)

Karl Entacher. FH-Salzburg

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Prüfung aus Statistik 1 für SoziologInnen

1 Einleitung und Grundlagen 1

Grundlagen der Statistik

Zusammenhänge zwischen metrischen Merkmalen

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Kreuztabellenanalyse und Assoziationsmaße. Assoziationsmaße. Allgemeines Beispiel Graphiken Notation. Risiken. Drittvariablenkontrolle.

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Deskriptive Statistik

Modelle diskreter Zufallsvariablen

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

5.3 (Empirische) Unabhängigkeit und χ 2

Statistik I für Betriebswirte Vorlesung 3

Brückenkurs Statistik für Wirtschaftswissenschaften

Die Beziehung zwischen ordinal skalierten Variablen

Wichtige statistische Koeffizienten und Formeln

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Deskriptive Beschreibung linearer Zusammenhänge

Einführung in die Statistik

Die folgende Tabelle 1 wurde im Rahmen einer Umfrage unter den Studenten eines Statistikseminars erstellt.

Statistik I für Betriebswirte Vorlesung 4

Bivariate Regressionsanalyse

Wiederholung. Statistik I. Sommersemester 2009

Kapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem

Statistik und Wahrscheinlichkeitsrechnung

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Korrelation, Regression und diagnostische Tests

Regression und Korrelation

Mathematik für Biologen

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Lösungen zur deskriptiven Statistik

Transkript:

Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße im Falle quantitativer Merkmale spricht man von Korrelationsmaßen Bisher besprochene Assoziationsmaße: Cross-product ratio Assoziationskoeffizient nachyule Marcus Hudec 1

Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des anderen Merkmals ergeben (Goodman-Kruskal λ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis von Y λ(x) = (E0-E1)/E0 = 1-E1/E0 3 Beispiel Konfession katholisch evangelisch keine gesamt CDU 37 306 141 774 SPD 198 300 16 714 FDP 49 109 41 199 Grüne 9 19 134 355 PDS 10 16 100 16 676 860 63 168 Quelle: Allbus 1996 Konfession katholisch evangelisch keine gesamt CDU 48,4% 35,6%,3% 35,7% SPD 9,3% 34,9% 34,% 3,9% FDP 7,% 1,7% 6,5% 9,% Grüne 13,6% 15,0% 1,% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% 4 Marcus Hudec

Prognosefehler ohne Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU 37 306 141 774 E0=168-774=1394 SPD 198 300 16 714 FDP 49 109 41 199 Grüne 9 19 134 355 PDS 10 16 100 16 676 860 63 168 E0 ist der Vorhersagefehler für die Wahlabsicht ohne Kenntnis des Merkmals Konfession bei Anwendung jener Regel, die die geringste Fehlerrate aufweist (tippe auf die Modalklasse!) Ohne Kenntnis der Konfession ist es am sinnvollsten auf CDU zu tippen (höchste Trefferquote) 5 Prognosefehler bei Kenntnis des zweiten Merkmals Konfession katholisch evangelisch keine gesamt CDU 37 306 141 774 E1=(676-37) + (860-306) + (63-16) = 1319 SPD 198 300 16 714 FDP 49 109 41 199 Grüne 9 19 134 355 PDS 10 16 100 16 676 860 63 168 E1 ist der Vorhersagefehler der Wahlabsicht bei Kenntnis des Merkmals Konfession Bei Kenntnis der Konfession ist es am sinnvollsten bei den Ausprägungen katholisch h und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine auf SPD zu tippen 6 Marcus Hudec 3

Berechnung Sei X das Merkmal Wahlabsicht und Y das Merkmal Konfession, so gilt für λ (X) = 1-1319/1394=0.054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der Konfessionszugehörigkeit um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist λ (Y) = 1-1198/1308 = 0,084 [siehe nächste Folie] Die Vorhersage der Konfessionszugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 7 Vorhersage der Konfessionszugehörigkeit bei Kenntnis der Wahlabsicht 8 Marcus Hudec 4

Symmetriesierung Ist man an der Stärke des Zusammenhangs interessiert kann man die beiden gerichteten Maße λ (X) und λ (Y) wie folgt symmetrisieren: E E E E λ (X) = λ = λ= x x y y 0 1 0 1 (Y) x y E0 E0 x x y y 0 1 + 0 1 x y E0 + E0 E E E E Im Beispiel ergibt sich: 9 (1394 1319) + (1308 1198) λ= = 6,8% 1394 + 1308 Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: J I ( observed ) ij expectedij χ = j= 1 i= 1 expected Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. ij 10 Marcus Hudec 5

Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man Φ =χ /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer x Tafel zwischen 0 und 1 normiert ist. Φ= χ /N 11 Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: φ = +1 n(ad bc) χ = (a + b)(a + c))b + d)(c + d) ad bc φ= (a + b)(a + c))b + d)(c + d) φ = 1 1 Marcus Hudec 6

Vierfeldertafel () cpr 1 ad/bc 1 ad bc Q = = = cpr + 1 ad / bc + 1 ad + bc Q = +1 Q = 1 13 Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V = χ N min(i 1, J 1) 14 Marcus Hudec 7

Beispiel: Beobachtete Häufigkeiten Erwartete Häufigkeiten Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 37 306 141 774 CDU 41,3 307,0 5,6 774 SPD 198 300 16 714 SPD,6 83, 08,1 714 FDP 49 109 41 199 FDP 6,0 78,9 58,0 199 Grüne 9 19 134 355 Grüne 110,7 140,8 103,5 355 PDS 10 16 100 16 PDS 39,3 50,0 36,7 16 676 860 63 168 676 860 63 168 Quelle: Allbus 1996 Konfession Konfession katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6%,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 9,3% 34,9% 34,% 3,9% SPD 3,9% 3,9% 3,9% 3,9% FDP 7,% 1,7% 6,5% 9,% FDP 9,% 9,% 9,% 9,% Grüne 13,6% 15,0% 1,% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 15% 1,5% 19% 1,9% 15,8% 58% 5,8% PDS 58% 5,8% 58% 5,8% 58% 5,8% 58% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 15 Berechnung Konfession katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD,7 1,0 0,3 FDP,7 11,4 5,0 Grüne 3, 1,0 9,0 PDS 1,8 3,1 109,0 n=168 I=5 J=3 5,4 Chi²-Wert 0,41 Cramer`s V Interpretation: 0,1 < V < 0,... geringer ZH 0, < V < 0,4... mäßiger ZH V > 0,4...starker ZH 16 Marcus Hudec 8

Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: φ = +1 n(ad bc) χ = (a + b)(a + c))b + d)(c + d) ad bc φ= (a + b)(a + c))b + d)(c + d) φ = 1 17 Vierfeldertafel () cpr 1 ad/bc 1 ad bc Q = = = cpr + 1 ad / bc + 1 ad + bc Q = +1 Q = 1 18 Marcus Hudec 9

Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet n n s XX 1 1 = i i n i= 1 n i= 1 ( x x)( x x) = x x nxx n n 1 1 XY ( i )( i ) i i n i 1 n = i= 1 s = x x y y = x y nxy Nachteil: keine Normierung i i 19 Konzept der Kovarianz 0 Marcus Hudec 10

Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert: r = xy = corr n x XY i n = ( xi x)( yi y) ( x x) ( y y) = i i xi yi xi yi ( xi ) n yi ( yi ) 1 Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl hl der Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer Achse verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. Marcus Hudec 11

Hohe positive Korrelation Korrelation 0.91-3 - -1 0 1 3-3 - -1 0 1 3 3 Hohe negative Korrelation Korrelation -0.97-3 - -1 0 1 3-3 - -1 0 1 3 4 Marcus Hudec 1

Mittlere positive Korrelation Korrelation 0.47-3 - -1 0 1 3-3 - -1 0 1 3 5 Korrelation nahe 0 Korrelation 0.05-3 - -1 0 1 3-3 - -1 0 1 3 6 Marcus Hudec 13

Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang 7 Verschiedene Szenarien 8 Marcus Hudec 14

Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel 9 Berechnung via Standardisierte Daten 30 Die Korrelation ist gleich der Kovarianz der standardisierten Daten Marcus Hudec 15

Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, daß der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang mißt. 1.0 0.8 0.6 0.4 0. 0.0-0. -0.4 Die Punkte im linken Beispiel haben Korrelation null! -0.6-0.8-1. -0.7-0. 0.3 0.8 Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 31 Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Korrelation kann auch über Drittvariablen entstehen 3 Marcus Hudec 16

Simpsons Paradoxon (heterogene Gruppen) 33 Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Idee: Verwende den Rang der Beobachtung (aufgrund der Ordnung nach X bzw. Y) anstelle des Wertes der Beobachtung 34 Marcus Hudec 17

Beispiel 35 Trauen Sie der Korrelation? 36 Marcus Hudec 18

Elimination des extremen Datenpunkts Keine Korrelation in den Daten!! 37 Anwendung der Rangkorrelation Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust t Vergleichbar mit der Diskussion Median versus arithm. Mittel 38 Marcus Hudec 19