Assoziation & Korrelation

Ähnliche Dokumente
Assoziation & Korrelation

Assoziation & Korrelation

Assoziation & Korrelation

Assoziation & Korrelation

11. Zusammenhangsmaße für nominale Variablen

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Statistische Methoden in den Umweltwissenschaften

Skalenniveaus =,!=, >, <, +, -

2. Zusammenhangsmaße

Zusammenhangsanalyse in Kontingenztabellen

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Einführung in die sozialwissenschaftliche Statistik

Zusammenhangsmaße II

Bivariate Kreuztabellen

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Eigene MC-Fragen (Teil II) "Kap. 9 Zusammenhangsmaße

Zusammenhangsmaße II

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Vl Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen. Absolute Häufigkeitstabelle

5 Beschreibung und Analyse empirischer Zusammenhänge

Was sind Zusammenhangsmaße?

Modul G.1 WS 07/08: Statistik

Ausführliche Lösungen zu ausgewählten Aufgaben von ÜB 5 und 6. Streudiagramm

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

GRUPPE B Prüfung aus Statistik 1 für SoziologInnen

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Grundlagen der empirischen Sozialforschung

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

3.1 Zusammenhang zwischen einem qualitativen und einem quantitativen Merkmal

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Statistik I. Sommersemester 2009

Parametrische vs. Non-Parametrische Testverfahren

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger. Merkmale

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

W-Rechnung und Statistik für Ingenieure Übung 5

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Einführung in die Korrelationsrechnung

Bivariate Verteilungen

Skriptteufel Klausurworkshop

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Karl Entacher. FH-Salzburg

Analyse bivariater Kontingenztafeln

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Prüfung aus Statistik 1 für SoziologInnen

1 Einleitung und Grundlagen 1

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Mathematik 2 für Naturwissenschaften

Eine zweidimensionale Stichprobe

Modelle diskreter Zufallsvariablen

Statistik I für Betriebswirte Vorlesung 10

Kontingenzkoeffizient (nach Pearson)

Einführung in die Statistik

Medizinisches Beispiel

Kreuztabellenanalyse und Assoziationsmaße. Assoziationsmaße. Allgemeines Beispiel Graphiken Notation. Risiken. Drittvariablenkontrolle.

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Korrelation, Regression und diagnostische Tests

Beschreibende Statistik Zweidimensionale (bivariate) Daten

Institut für Soziologie Dipl. Soz. Maximilian Sonnauer. Methoden II. Zusammenhangsmaße für kategoriale und metrische Variablen

Prof. Dr. Walter F. Tichy Dr. Matthias Müller Sommersemester 2006

Zusammenhänge zwischen metrischen Merkmalen

Modul 11: Zur gemeinsamen Analyse mehrerer Merkmale. Prof. Dr. W. Laufner Beschreibende Statistik

Klausur zu Methoden der Statistik I (mit Kurzlösung) Sommersemester Aufgabe 1

Bivariate Regressionsanalyse

Bivariate Zusammenhänge

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Statistik II: Signifikanztests /2

Mathematik für Biologen

Brückenkurs Statistik für Wirtschaftswissenschaften

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Deskriptive Statistik Lösungen zu Blatt 5 Christian Heumann, Susanne Konrath SS Lösung Aufgabe 27. f X Y (a i b j ) = f i j = f ij f j

Statistik ohne Angst vor Formeln

Statistik und Wahrscheinlichkeitsrechnung

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Chi Quadrat-Unabhängigkeitstest

1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.

Bivariate Zusammenhänge

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Häufigkeiten. Verteilungen. Lageparameter Mittelwert. oder

5.5 PRE-Maße (Fehlerreduktionsmaße)

Tabellarische und graphie Darstellung von univariaten Daten

Deskriptive Statistik

WISTA WIRTSCHAFTSSTATISTIK

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Grundlagen der Statistik

Bivariate Analyseverfahren

Wie kann ich überprüfen, welche Verteilung meinen Daten zu Grunde liegt? Chi-Quadrat-Test auf Normalverteilung

Transkript:

Statistik 1 für SoziologInnen Assoziation & Korrelation Univ.Prof. Dr. Marcus Hudec Einleitung Bei Beobachtung von 2 Merkmalen stellt sich die Frage, ob es Zusammenhänge oder Abhängigkeiten zwischen den Merkmalen gibt. Für die Messung der quantitativen Stärke des Zusammenhangs dienen im Falle qualitativer Merkmale die sog. Assoziationsmaße im Falle quantitativer Merkmale spricht man von Korrelationsmaßen Bisher besprochene Assoziationsmaße: Cross-product ratio Assoziationskoeffizient nachyule 2 Marcus Hudec 1

Maße der prädiktiven Assoziation Diese Maße basieren auf der proportionalen Fehlerreduktion, die sich bei der Vorhersage eines Merkmals bei Kenntnis des Wertes des anderen Merkmals ergeben (Goodman-Kruskal ) E0... Fehler bei Vorhersage von Merkmal X ohne Kenntnis von Y E1... Fehler bei Vorhersage von Merkmal X bei Kenntnis von Y (X) = (E0-E1)/E0 = 1-E1/E0 ~ relative Fehlerreduktion 3 Beispiel katholisch evangelisch keine gesamt CDU 327 306 141 774 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 Quelle: Allbus 1996 katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% SPD 29,3% 34,9% 34,2% 32,9% FDP 7,2% 12,7% 6,5% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% PDS 1,5% 1,9% 15,8% 5,8% 100,0% 100,0% 100,0% 100,0% Merkmale sind abhängig! 4 Marcus Hudec 2

Prognosefehler ohne Kenntnis des zweiten Merkmals katholisch evangelisch keine gesamt CDU 327 306 141 774 E0=2168-774=1394 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 E0 ist der Vorhersagefehler für die Wahlabsicht ohne Kenntnis des Merkmals bei Anwendung jener Regel, die die geringste Fehlerrate aufweist (tippe auf die Modalklasse!) Ohne Kenntnis der ist es am sinnvollsten auf CDU zu tippen (höchste Trefferquote ~ geringste Fehlerhäufigkeit) 5 Prognosefehler bei Kenntnis des zweiten Merkmals katholisch evangelisch keine gesamt CDU 327 306 141 774 E1=(676-327) + (860-306) + (632-216) = 1319 SPD 198 300 216 714 FDP 49 109 41 199 Grüne 92 129 134 355 PDS 10 16 100 126 676 860 632 2168 E1 ist der Vorhersagefehler der Wahlabsicht bei Kenntnis des Merkmals Bei Kenntnis der ist es am sinnvollsten bei den Ausprägungen katholisch h und evangelisch auf CDU zu tippen (höchste Trefferquote) bei der Ausprägung keine auf SPD zu tippen 6 Marcus Hudec 3

Berechnung Sei X das Merkmal Wahlabsicht und Y das Merkmal, so gilt für (X) = 1-1319/1394=0.054 Demgemäß verbessert sich die Vorhersage der Wahlabsicht bei Kenntnis der szugehörigkeit um 5,4%. Man beachte, dass dieses Maß gerichtet ist, d.h. dass es nicht symmetrisch in Bezug auf die Rollen der Variablen ist (Y) = 1-1198/1308 = 0,084 [siehe nächste Folie] Die Vorhersage der szugehörigkeit wird bei Kenntnis der Wahlabsicht um 8,4% gesteigert. 7 Vorhersage der szugehörigkeit bei Kenntnis der Wahlabsicht 8 Marcus Hudec 4

Symmetriesierung Ist man an der Stärke des Zusammenhangs interessiert kann man die beiden gerichteten Maße (X) und (Y) wie folgt symmetrisieren: E E E E (X) x x y y 0 1 0 1 (Y) x y E0 E0 x x y y 0 1 0 1 x y E0 E0 E E E E Im Beispiel ergibt sich: 9 (1394 1319) (13081198) 6,8% 1394 1308 Die Chi-Quadrat Statistik Basiert auf dem Vergleich von beobachteten und unter Unabhängigkeit erwarteten Häufigkeiten Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: J I observed 2 2 ij expectedij j1 i1 expected Dabei steht observed für die beobachtete absolute Häufigkeit und expected für jene absolute Häufigkeit, die sich bei Unabhängigkeit ergeben würde. ij 10 Marcus Hudec 5

Bezeichnungen Die Chi-Quadratstatistik wird auch als die quadratische Kontingenz bezeichnet Demgemäß bezeichnet man 2 2 /N auch als die mittlere quadratische Kontingenz Manchmal wird auch der Phi-Koeffizient verwendet, der bei einer 2x2 Tafel zwischen 0 und 1 normiert ist. 2 /N 11 Cramer`s V Entspricht einer Normierung der Chi-Quadrat Statistik für eine beliebige Tabellengröße Für eine Tabelle mit I Zeilen und J Spalten und N Beobachtungen wird wie folgt definiert: V 2 N min(i 1, J 1) 12 Marcus Hudec 6

Beispiel: Beobachtete Häufigkeiten Erwartete Häufigkeiten katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 327 306 141 774 CDU 241,3 307,0 225,6 774 SPD 198 300 216 714 SPD 222,6 283,22 208,1 714 FDP 49 109 41 199 FDP 62,0 78,9 58,0 199 Grüne 92 129 134 355 Grüne 110,7 140,8 103,5 355 PDS 10 16 100 126 PDS 39,3 50,0 36,7 126 676 860 632 2168 676 860 632 2168 Quelle: Allbus 1996 katholisch evangelisch keine gesamt katholisch evangelisch keine gesamt CDU 48,4% 35,6% 22,3% 35,7% CDU 35,7% 35,7% 35,7% 35,7% SPD 29,3% 34,9% 34,2% 32,9% SPD 32,9% 32,9% 32,9% 32,9% FDP 7,2% 12,7% 6,5% 9,2% FDP 9,2% 9,2% 9,2% 9,2% Grüne 13,6% 15,0% 21,2% 16,4% Grüne 16,4% 16,4% 16,4% 16,4% PDS 15% 1,5% 19% 1,9% 15,8% 58% 5,8% PDS 58% 5,8% 58% 5,8% 58% 5,8% 58% 5,8% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% 100,0% Bei Unabhängigkeit 13 Berechnung der erwarteten Häufigkeiten katholisch evangelisch keine gesamt CDU 241 307 226 774 SPD 223 283 208 714 FDP 62 79 58 199 Grüne 111 141 103 355 PDS 39 50 37 126 676 860 632 2168 79 199*860/2168 = 78,94 103 355*632/2168 = 103,49 14 Marcus Hudec 7

Berechnung katholisch evangelisch keine CDU 30,4 0,0 31,7 SPD 2,7 1,0 0,3 FDP 2,7 11,4 5,0 Grüne 3,2 1,0 9,0 PDS 21,8 23,1 109,0 n=2168 I=5 J=3 observed 2 ij expectedij expected 252,4 Chi²-Wert 0,241 Cramer`s V ij Interpretation: 0,1 < V < 0,2... geringer Zusammenhang 0,2 < V < 0,4... mäßiger Zusammenhang V > 0,4...starker Zusammenhang 15 Vierfeldertafel (1) Im Falle der einfachsten Tabelle, bei der 2 binäre Merkmale gekreuzt werden (~Vierfeldertafel) gibt es einfache Berechnungsmöglichkeiten: = +1 2 2 n(ad bc) (a b)(a c))b d)(c d) ad bc (a b)(a c))b d)(c d) = 1 16 Marcus Hudec 8

Vierfeldertafel (2) cpr 1 ad/bc1 adbc Q cpr 1 ad / bc 1 ad bc Q = +1 Q = 1 17 Kovarianz Kovarianz: Zusammenhangsmaß bei intervallskalierten Merkmalen, das sich unmittelbar aus der Varianz ableitet n n s XX 1 n i1 1 n x xx x x x nxx i i1 n n 1 1 XY i i i i n i 1 n i1 i s x x y y x y nxy Nachteil: keine Normierung i i 18 Marcus Hudec 9

Konzept der Kovarianz 19 Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert: r xy i nxy i i xiyi 2 2 i i i i i i x x y y x x y y cov( XY) corrxy Std. Abw.( X ) Std. Abw.( Y) 2 2 i 2 2 n x x n y y 20 Marcus Hudec 10

Korrelationskoeffizient Der Korrelationskoeffizient liegt stets zwischen -1 und +1. Korrelationskoeffizient nahe -1: Die Mehrzahl hlder Datenpunkte konzentrieren sich um eine Gerade mit negativer Steigung. Korrelationskoeffizient ungefähr 0: Die Datenpunkte sind entweder auf alle vier Quadranten ungefähr gleichmäßig verteilt oder sie liegen um eine Gerade die parallel zu einer Achse verläuft. Korrelationskoeffizient nahe +1: Die Mehrzahl der Datenpunkte konzentrieren sich um eine Gerade mit positiver Steigung. 21 Hohe positive Korrelation Korrelation 0.91-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 22 Marcus Hudec 11

Hohe negative Korrelation Korrelation -0.97-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 23 Mittlere positive Korrelation Korrelation 0.47-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 24 Marcus Hudec 12

Korrelation nahe 0 Korrelation 0.05-3 -2-1 0 1 2 3-3 -2-1 0 1 2 3 25 Was ist eine starke Korrelation? Vorschlag von Cohen: r ~ 0,1 schwacher Zusammenhang r ~ 0,3 mittlerer Zusammenhang r ~ 0,5 starker Zusammenhang Ist r deutlich größer als 0,5 spricht man von einem sehr starken Zusammenhang 26 Marcus Hudec 13

Verschiedene Szenarien 27 Beispiel: X Gewicht des Vaters, Y Gewicht des Sohnes Excel-Funktionen: Varianzen Kovar, Korrel 28 Marcus Hudec 14

Berechnung via Standardisierte Daten 29 Die Korrelation ist gleich der Kovarianz der standardisierten Daten Unabhängigkeit und Kausalität Sind zwei Variablen unabhängig, so folgt daraus, daß der Korrelationskoeffizient den Wert 0 annimmt. Umgekehrt kann aus einer Korrelation vonnahenull Null nicht auf Unabhängigkeit geschlossen werden, da die Korrelation nur den linearen Zusammenhang misst. 1.0 Die Punkte im linken Beispiel 0.8 0.6 haben Korrelation null! 0.4 0.2 00 0.0-0.2-0.4-0.6-0.8-1.2-0.7-0.2 0.3 0.8 Keinesfalls darf Korrelation mit Kausalität gleichgesetzt werden. Problem: Scheinkorrelation 30 Marcus Hudec 15

Kausalität Kausalität bezeichnet die Beziehung zwischen Ursache und Wirkung, wobei die Ursache ein Sachverhalt ist, der einen bestimmten anderen Sachverhalt (Wirkung) als Folge herbeiführt. Kausalität weist eine feste Richtung auf, die immer von der Ursache ausgeht, auf der die Wirkung folgt. Korrelation ist ungerichtet Korrelation kann auch über Drittvariablen entstehen 31 Simpsons Paradoxon (heterogene Gruppen) 32 Marcus Hudec 16

Korrelation bei ordinalen Daten Rang-Korrelation nach Spearman Idee: Verwende den Rang der Beobachtung (aufgrund der Ordnung nach X bzw. Y) anstelle des Wertes der Beobachtung 33 Beispiel 34 Marcus Hudec 17

Trauen Sie der Korrelation? 35 Elimination des extremen Datenpunkts Keine Korrelation in den Daten!! 36 Marcus Hudec 18

Anwendung der Rangkorrelation Durch die Reduktion der Skalierung erfolgt implizit eine schwächere Gewichtung extremer Beobachtungen Nachteil: Informationsverlust t Vergleichbar mit der Diskussion Median versus arithm. Mittel 37 Marcus Hudec 19