Bivariate Zusammenhänge

Ähnliche Dokumente
Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Einführung in die sozialwissenschaftliche Statistik

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Bivariate Verteilungen

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

Alternative Darstellung des 2-Stcihprobentests für Anteile

11. Zusammenhangsmaße für nominale Variablen

Skalenniveaus =,!=, >, <, +, -

Bivariate Kreuztabellen

Grundlagen der empirischen Sozialforschung

Kreuztabellenanalyse und Assoziationsmaße. Assoziationsmaße. Allgemeines Beispiel Graphiken Notation. Risiken. Drittvariablenkontrolle.

V a r i a b l e X x 1 x 2 x 3 x 4 Σ y y y Σ Variable Y. V a r i a b l e X

Was sind Zusammenhangsmaße?

Statistik Einführung // Kategoriale Daten 10 p.2/26

Statistik I. Sommersemester 2009

Alternative Darstellung des 2-Stichprobentests für Anteile

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Zusammenhangsanalyse in Kontingenztabellen

Chi Quadrat-Unabhängigkeitstest

Alternative Darstellung des 2-Stichprobentests für Anteile

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

9.1 Einleitung. Statistik. Qualitative 2-Weg Daten. Bsp: UCB Admissions. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Statistik I. Sommersemester 2009

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Institut für Soziologie Werner Fröhlich. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

Kreuztabellenanalyse. bedingte Häufigkeiten

2-Stichprobentest für Anteilswerte

Statistik I für Statistiker, Mathematiker und Informatiker Lösungen zu Blatt 6 Gerhard Tutz, Jan Ulbricht WS 05/06.

Alternative Darstellung des 2-Stichprobentests für Anteile

THEMA: ZUSAMMENHANGSANALYSEN FÜR KATEGORIALE VARIABLEN " TORSTEN SCHOLZ

Tutorial:Unabhängigkeitstest

Grundkurs Statistik für Politologen und Soziologen

5.3 (Empirische) Unabhängigkeit und χ 2

Einführung in die Statistik

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Der χ 2 -Test (Chiquadrat-Test)

Wichtige statistische Koeffizienten und Formeln

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Der χ2-test Der χ2-test

Institut für Soziologie Werner Fröhlich. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

Hypothesentests mit SPSS

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Der χ 2 -Test. Überblick. Beispiel 1 (χ 2 -Anpassungstest)

Statistisches Testen

2-Stichprobentest für Anteilswerte

= 0.445, also annähernd die Hälfte aller Männer zugelassen 557

Hypothesentests. Hypothese Behauptung eines Sachverhalts, dessen Überprüfung noch aussteht.

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Institut für Soziologie Sabine Düval. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Statistik II: Signifikanztests /1

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

Klassifikation von Signifikanztests

Chi-Quadrat Verfahren

Arbeitsbuch zur deskriptiven und induktiven Statistik

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Statistische Methoden in den Umweltwissenschaften

Bivariate Verteilungen [bivariate data]

2-Stichprobentest für Anteilswerte

1. Datei Informationen

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Vl Zweidimensionale Verteilungen Zusammenhangsmaße 3.1. Zwei dimensionale Häufigkeitstabellen. Absolute Häufigkeitstabelle

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Test auf den Erwartungswert

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Analyse von Querschnittsdaten. Arten von Variablen und Strategien der Datenanalyse

Bivariate Statistik: Kreuztabelle

Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten

5.3 (Empirische) Unabhängigkeit und χ 2

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Übungsblatt 3: Bivariate Deskription I (Sitzung 4)

Assoziation & Korrelation

Musterlösung zur Aufgabensammlung Statistik I Teil 3

Assoziation & Korrelation

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

W-Rechnung und Statistik für Ingenieure Übung 5

Vorlesung: Statistik II für Wirtschaftswissenschaft

Parametrische vs. Non-Parametrische Testverfahren

5 Assoziationsmessung in Kontingenztafeln

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

6. Multivariate Verfahren Übersicht

Chi² Test und Kontingenzkoeffizient. - aber keine natürliche Reihenfolge

Statistische Überlegungen: Eine kleine Einführung in das 1 x 1

Analyse von Kontingenztafeln bei ordinalskalierten Merkmalen

Aufgaben zu Kapitel 9

Kreuztabellen und Häufigkeitstabellen. Kreuztabellen: - unabhängige Variable in Zeilen (Ursache) - abhängige Variable in Spalten (Wirkung)

Kreuztabellen und Häufigkeitstabellen. Kreuztabellen: - unabhängige Variable in Zeilen (Ursache) - abhängige Variable in Spalten (Wirkung)

Statistik I für Betriebswirte Vorlesung 10

Forschungsmethoden in der Sozialen Arbeit

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Transkript:

Bivariate Zusammenhänge Tabellenanalyse: Kreuztabellierung und Kontingenzanalyse Philosophische Fakultät Institut für Soziologie Berufsverläufe und Berufserfolg von Hochschulabsolventen Dozent: Mike Kühne SS 2007 Martin Otto, Robert Pelz

Gliederung 1. Kreuztabellen 2. Tabellenanalyse Chi-Quadrat Chi-Quadrat-Unabhängigkeitstest Zusammenhangsmaße für nominale Daten Zusammenfassung Quellen

Die Kreuztabelle (Kontingenztabelle) i x j Kreuztabelle Merkmal 2 Ausprägung Zeilensummen Merkmal 1 1 2... j Ausprägung 1 n 11 n 12... n 1j n 1. Ausprägung 2 n 21 n 22... n 2j n 2. Ausprägung 3 n 31 n 32... n 3j n 3................... Ausprägung i n i1 n i2... n ij n i. Spaltensumme n. 1 n. 2... n. j n.. Tabelle 1

Vorteile der Kreuztabelle Übersichtliche Darstellung Einfache Auswertung Variablen unterschiedlicher Skalenniveaus können einfach auf ihren Zusammenhang untersucht werden

Beispiel: Analyse der Produktpräferenzen (absolute Werte) Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 23 45 68 städtisch 83 30 113 106 75 181 Tabelle 2

Wohnort ländlich städtisch Margarine 21,7% 78,3% 100% Butter 60% 40% 100% Tabelle 3: Darstellung mit Spaltenprozenten Wohnort Margarine Butter ländlich 33,8% 66,2% 100% städtisch 73,5% 26,5% 100% Tabelle 4: Darstellung mit Zeilenprozenten

Nachteile Drittvariableneinflüsse sind nicht erkennbar Tabellendesign kann Zusammenhänge verdecken Unübersichtlich bei vielen Ausprägungen

Tabellenanalyse Besteht eine Abhängigkeit zwischen den beobachteten Variablen? Wie ist die Stärke der Abhängigkeit messbar?

Abhängigkeit? Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 12,7% 24,9% 37,6% städtisch 45,9% 16,5% 62,4% 58,6% 41,4% 100% Tabelle 5 Gibt es einen Zusammenhang zwischen den Variablen Wohnort und Brotaufstrich?

Unabhängigkeit Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 37,6% städtisch 62,4% 58,6% 41,4% 100% Tabelle 5 Angenommen, es besteht kein Zusammenhang zwischen Brotaufstrich und Wohnort, dann müssten sich diese Verhältnisse in jeder Zeile bzw. Spalte widerspiegeln.

erwartete Werte Werte bei unterstellter Unabhängigkeit Über die Randhäufigkeiten lassen sich die erwarteten Werte errechnen. Erwarteter Wert = Zeilensumme Spaltensumme Gesamtsumme

beobachtete / erwartete Werte Bevorzugter Brotaufstrich Wohnort Margarine Butter ländlich 23 / 40 45 / 28 68 städtisch 83 / 66 30 / 47 113 106 75 181 Tabelle 6

a) Chi - Quadrat χ 2 χ 2 = i,j (n ij - ñ ij ) 2 ñ ij Maß für den Unterschied zwischen beobachteten und erwarteten Werten χ 2 = 0, Variablen X und Y sind unabhängig

b) χ 2 - Unabhängigkeitstest Aufstellen der Hypothesen: H 0 : Wohnort und Brotaufstrich sind unabhängig. H A : Brotaufstrich ist abhängig vom Wohnort Irrtumswahrscheinlichkeit festlegen: Signifikanzniveau: α = 0,05 Berechnung

b) χ 2 -Unabhängigkeitstest χ 2 = (23 40) 2 40 + (45 28) 2 28 + (83 66) 2 66 + (30 47) 2 47 27,47 χ 2 0, d.h. eine Abhängigkeit ist zu vermuten

b) χ 2 -Unabhängigkeitstest χ 2 0, d.h. eine Abhängigkeit ist zu vermuten Vergleichswert bei Signifkanzniveau α = 0,05 ist 3,84 (Bestimmung über χ 2 - Tabelle) χ 2 = 27,47 > 3,84, d.h. H 0 ist mit einer Irrtumswahrscheinlichkeit von 5% abzulehnen

b) χ 2 -Unabhängigkeitstest χ 2 = (23 40) 2 40 + (45 28) 2 28 + (83 66) 2 66 + (30 47) 2 47 27,47 χ 2 = (46 79,6) 2 79,6 + (90 56,4) 2 56,4 + (166 132,4) 2 132,4 + (60 93,6) 2 93,6 54,78 χ 2 0, d.h. eine Abhängigkeit ist zu vermuten, Stärke und Richtung des Zusammenhangs sind nicht erkennbar

Yates-Korrektur und exakter Ungenauigkeit des Fisher-Test χ 2 -Unabhängigkeitstest bei kleinen Stichprobenumfängen Yates-Korrektur bei Stichprobenumfang von 20-60 Exakter Fisher-Test bei n < 20

c) Zusammenhangsmaße für Prozentsatzdifferenz nominale Daten Phi Kontingenzkoeffizient C Cramer s V χ 2 -basierte Maßzahlen Odds Ratio Relative Risiken Spezielle Maßzahlen

Prozentsatzdifferenz Einfachste Art, die Stärke von Zusammenhängen zwischen Merkmalen zu messen Differenzen der relativen Häufigkeiten werden gebildet Bsp: Der Unterschied zwischen Butterkäufern auf dem Land (60%) und Butterkäufern in der Stadt (40%) beträgt 20%.

Phi ϕ= Beruht auf χ 2 Je größer ϕ, desto stärker der Zusammenhang Nimmt Werte zwischen 0 und 1 an Orientierung: ϕ > 0,3 mehr als triviale Abhängigkeit χ 2 N

Nachteile des ϕ-koeffizienten Unterschiedliche ϕ-koeffizienten lassen sich nicht vergleichen Transformation des Skalenniveaus haben Auswirkung auf ϕ Ist nur für Vier-Feldertafel geeignet (sonst ϕ > 1)

Kontingenzkoeffizient C Sinnvoll, bei mehreren Ausprägungen Modifikation von ϕ C = χ 2 χ 2 + N Nimmt Werte zwischen 0 und 1 an Erreicht nur selten 1

Kontingenzkoeffizient C Obergrenze ist abhängig von der Anzahl der Merkmalsausprägungen C = 0,362 C max = C max = 0,707 R -1 R R = min[i,j]

Cramer s V Anwendbar für alle i j - Kreuztabellen Identisch mit ϕ, falls Variablen binär V= χ 2 N (min[i,j] - 1) Nimmt Werte zwischen 0 und 1 an

Odds Ratio und Risk Krankheit Ja Nein Summe Placebo 52 255 307 Medikament 21 294 315 Summe 73 549 622

Odds Ratio Odds - Chancen Verhältnis der Wahrscheinlichkeit, dass ein Ereignis eintritt zu der, dass es nicht eintritt Odds Ratio - relative Chancen Maß für das Chancenverhältnis zwischen zwei Gruppen Odds der Gruppen werden ins Verhältnis zueinander gesetzt Nur für Vier-Feldertabellen geeignet

Odds Odds = p / (1-p) Chance, dass Placebogruppe Krankheit bekommt: O PK = 52 / 255 = 0,204 = 1 : 5 Chance, dass Medikamentengruppe Krankheit bekommt: O MK = 21 / 294 = 0,071 = 1 : 14

Odds Ratio Odds Ratio zwischen den Gruppen Placebo und Medikament Chancenverhältnis der Gruppen, die Krankheit zu bekommen OR = O PK O MK OR = 0,204 0,071 2,9 D.h.: Chancen der Placebogruppe die Krankheit zu bekommen ist 2,9 mal höher als die der Medikamentengruppe

Risk Risiko ist die Wahrscheinlichkeit für ein unerwünschtes Ereignis z.b.: Krankheit in der Placebogruppe bekommen: p = 52 / 307 = 0,169 Relatives Risiko Maß für das Risikoverhältnis zwischen zwei Gruppen Risiken der Gruppen werden ins Verhältnis zueinander gesetzt

Risiko Krankheit: Placebogruppe: 52 / 307 = 0,169 Medikamentengruppe 21 / 315 = 0,067 Relatives Risiko Verhältnis Placebogruppe zu Medikamentengruppe 0,169 / 0,067 2,5 D.h.: Risiko der Placebogruppe, Krankheit zu bekommen ist 2,5 mal höher als das der Medikamentengruppe.

3. Zusammenfassung Zu untersuchende Variablen auswählen Konstruktion der Kreuztabelle Signifikanztest zur Überprüfung einer Abhängigkeit Auswahl eines geeigneten Zusammenhangsmaßes Messniveau beachten

4. Quellen Backhaus, K.; Erichson, B.; Plinke, W.; Weiber, R. (1996): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. Berlin u.a.: Springer Bamberg, G.; Baur, F. (2001): Statistik. 11. Auflage. München: Oldenbourg Diekmann, A. (2003): Empirische Sozialforschung. Grundlagen, Methoden, Anwendungen. Hamburg: Rowohlt Janssen, J.; Laatz, W. (2005): Statistische Datenanalyse mit SPSS für Windows. 5., neu bearbeitet und erweiterte Auflage. Berlin u.a.: Springer Spiegel, M.R. (1990): Statistik. 2., überarb. und erw. Auflage. London u.a.: McGraw-Hill