Bivariate Verteilungen

Ähnliche Dokumente
Bivariate Analyse: Gemeinsame (bivariate) Häufigkeitstabelle. Sie wird auch Kontingenz-, Assoziations- oder Korrelationstabelle (f b )genannt.

V a r i a b l e X x 1 x 2 x 3 x 4 Σ y y y Σ Variable Y. V a r i a b l e X

Grundlagen der empirischen Sozialforschung

Einführung in die sozialwissenschaftliche Statistik

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Kreuztabellenanalyse. bedingte Häufigkeiten

Was sind Zusammenhangsmaße?

Bivariate Zusammenhänge

Übungsblatt 3: Bivariate Deskription I (Sitzung 4)

Bivariater Zusammenhang in der Mehrfeldertafel PEΣO

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

Bivariate Kreuztabellen

Mathematische und statistische Methoden I

Statistik I. Sommersemester 2009

Musterlösung zur Aufgabensammlung Statistik I Teil 3

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten

5.3 (Empirische) Unabhängigkeit und χ 2

Tutorial:Unabhängigkeitstest

Statistisches Testen

Statistik I. Sommersemester 2009

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

Chi-Quadrat Verfahren

Hypothesentests mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Statistik ohne Angst vor Formeln

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Skalenniveaus =,!=, >, <, +, -

Chi Quadrat-Unabhängigkeitstest

Zusammenhangsanalyse in Kontingenztabellen

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Zwei kategoriale Merkmale. Homogenität Unabhängigkeit

Bivariate Verteilungen [bivariate data]

Kontingenztabellen. Worum geht es in diesem Modul?

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Deskriptive Statistik Kapitel IX - Kontingenzkoeffizient

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

Assoziation & Korrelation

TEIL 11: BIVARIATE ANALYSE FÜR ORDNINALSKA- LIERTE VARIABLEN

Analyse bivariater Kontingenztafeln

2. Zusammenhangsmaße

Kreuztabellen und Häufigkeitstabellen. Kreuztabellen: - unabhängige Variable in Zeilen (Ursache) - abhängige Variable in Spalten (Wirkung)

Statistische Methoden in den Umweltwissenschaften

Wichtige statistische Koeffizienten und Formeln

Der χ 2 -Test (Chiquadrat-Test)

Lösungen zur deskriptiven Statistik

Assoziation & Korrelation

Grundlagen der empirischen Sozialforschung

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Kreuztabellen und Häufigkeitstabellen. Kreuztabellen: - unabhängige Variable in Zeilen (Ursache) - abhängige Variable in Spalten (Wirkung)

Bivariate Statistik: Kreuztabelle

Ergebnisse VitA und VitVM

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Dr. Matthias Rudolf: M3 Multivariate Statistik Vorlesung LogRA. Folie Nr. 1

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Graphische Darstellung einer univariaten Verteilung:

Institut für Soziologie Werner Fröhlich. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

3. ZWEI KATEGORIALE MERKMALE (bivariate kategoriale Daten)

5 Assoziationsmessung in Kontingenztafeln

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Kapitel 5 Wichtige Maßzahlen für den Zusammenhang zwischen Merkmalen

Prüfung aus Statistik 1 für SoziologInnen- Gruppe A

Assoziation & Korrelation

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Grundlagen der Statistik

3. Lektion: Deskriptive Statistik

Parametrische vs. Non-Parametrische Testverfahren

Grundlagen der empirischen Sozialforschung

Biometrieübung 11 Kontingenztafeln

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Statistik und Wahrscheinlichkeitsrechnung

5 Beschreibung und Analyse empirischer Zusammenhänge

1. Datei Informationen

Kontingenzkoeffizient (nach Pearson)

Grundlagen der Statistik I

Analytische Statistik II

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

6. Multivariate Verfahren Übersicht

5. Spezielle stetige Verteilungen

b) Bestimmen Sie die bedingten relativen Häufigkeiten mit dem Merkmal Abschluss als Bedingung.

Ausgewählte Lösungen zu den Tutoriumsaufgaben zu Statistik I

Institut für Soziologie Sabine Düval. Methoden 2. Kontingenztabellen Chi-Quadrat-Unabhängigkeitstest

Datenanalyse mit Excel. Wintersemester 2013/14

Statistik I. Zusammenfassung und wichtiges zur Prüfungsvorbereitung. Malte Wissmann. 9. Dezember Universität Basel.

Deskriptive Statistik Erläuterungen

Anwendungsaufgaben. Effektgröße bei df Zähler = df A = 1 und N = 40 (zu berechnen aus df Nenner ): Der aufgedeckte Effekt beträgt also etwa 23 %.

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Quantitative Auswertung II. Korpuslinguistik Heike Zinsmeister

Einführung in die Korrelationsrechnung

Mathematik IV für Maschinenbau und Informatik (Stochastik) Universität Rostock, Institut für Mathematik Sommersemester 2007

5. Kolmogorov-Smirnov-Test und χ 2 -Anpassungstest

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Zusammenhangsmaße II

8. Kreuztabellenanalyse

Transkript:

Bivariate Verteilungen Tabellarische Darstellung: Bivariate Tabellen entstehen durch Kreuztabulation zweier Variablen. Beispiel: X Y Student(in) Herkunft Fakultät 0001 Europa Jura 000 Nicht-Europa Medizin 0003 Nicht-Europa Philosophie 0004 Europa Sowi...... 140 Europa Wiwi

Tabelle: Herkunft und Studium Studierende an den Fakultäten der Universität zu Köln Herkunft (x) Europa Nicht-Europa Med 46 8 18 Fakultät Jura 38 0 58 (y) Phil 179 197 376 Sowi 38 189 47 Wiwi 97 154 51 598 64 140

Kontingenztabelle weiblich männlich Kein Unfall 300 (30%) 300 (30%) 600 (60%) Unfall ohne Personen- Schaden 75 (7,5%) 150 (15%) 5 (,5%) Unfall mit Personen- Schaden 5 (,5%) 150 (15%) 175 (17,5%) 400 (40%) 600 (60%) 1000 (100%)

300 400 75 400 Frauen: kein Unfall/weiblich => 75% Unfall ohne/weiblich => 18,75% 5 Unfall mit/ weiblich => 6,5% 400 Männer: kein Unfall 300 => 50% 600 Unfall ohne/männlich 150 => 5% 600 Unfall mit/männlich 150 => 5% 600

Tabelle: Die generelle Struktur der bivariaten Tabelle X1 X X 3 y 1. J11 J1 J13 n 1. y. J 1 J J 3 n. y 3. J31 J3 J33 n 3. y 4. J 41 J 4 J 43 n 4. y 5. J51 J5 J53 n 5. n.1 n. n.3 N

Aufgabe: 106 Studierende wurden vor der Klausur gebeten, ihre derzeitige psychische Verfassung einzuschätzen. Zur Beurteilung wurde ihnen eine vierstufige Skala von äußerst labil, labil, stabil und sehr stabil vorgelegt, und sie wurden gebeten, ihre psychische Lage anhand dieser Skala einzuordnen. Die Untersuchung kam zu folgendem Ergebnis: Von den 44 weiblichen und 6 männlichen Befragten beschrieben 16 Frauen und lediglich 3 Männer ihre Verfassung als äußerst labil. 18 Frauen und Männer ordneten sich der Kategorie labil ein. Stabil fühlten sich dagegen 9 Frauen und 3 Männer, sehr stabil lediglich 1 Frau und 5 Männer. a) Stellen Sie das Ergebnis in einer Kontingenztabelle dar.

b) Wie viel Prozent der Frauen beurteilen ihre psychische Situation als sehr stabil? c) Wie viel Prozent der befragten Studierenden, die ihre psychische Situation als äußerst labil bezeichnen, sind Frauen? d) Beurteilen Männer ihre psychische Situation häufiger als Frauen als labil?

e) Wie viel Prozent der befragten Studierenden sind männlich und beurteilen gleichzeitig ihre psychische Lage als stabil? f) Wie viel Prozent der Frauen beurteilt ihre Lage als stabil oder sehr stabil?

Tabelle: Verschiedene Grade der Beziehung in x-tabellen mit gleichen Randverteilungen a) Keine Beziehung c) starke Beziehung 5 5 50 5 5 50 50 50 100 b) Schwache Beziehung d) perfekte Beziehung 8 50 8 50 50 50 100 40 10 50 10 40 50 50 50 100 50 50 50 50 50 50 100

Die Analyse der Beziehung zwischen nominalen Variablen Assoziationsmaße 1. Die Prozentsatzdifferenz (d%). Chi-Quadrat 3. Phi-Koeffizient 4. Cramer s V 5. Kontingenzkoeffizient C

Die Prozentsatzdifferenz Beispiel: Berufstätigkeit in Jahren und Vorgesetztenfunktion Nein Ja bis 5 1 über 5 1 15 70.0 50.0 9 15 30.0 50.0 Row Total 36 60.0 4 40.0 Column 30 30 Total 50.0 50.0 60 100.0

Von den bis 5 Jahre lang Berufstätigen haben 70%, von den über 5 Jahre lang berufstätigen nur 50% keine Vorgesetztenfunktion. Diese Differenz zwischen den Prozentsätzen ist ein Maß der Beziehung zwischen den Variablen. Die Prozentsatzdifferenz ist wie folgt definiert: 100( ad bc) d % = ( a + c)( b + d )

Lösung d % = 100( ad bc) ( a + c)( b + d ) d % d % = = 100 (1 *15 15 * 9) (1 + 15 )(9 + 15 ) 0,83

Die Prozentsatzdifferenz beträgt 0 bei vollständiger Unabhängigkeit (Indifferenz) und +/- 100 bei vollständiger Abhängigkeit. Aus einem positiven Vorzeichen ist zu schließen, dass die Beziehung entlang der (ad)-diagonalen verläuft, aus einem negativen Vorzeichen ist zu schließen, dass das Übergewicht auf der (bc)-diagonalen liegt. Dieses Assoziationsmaß eignet sich nur für x Tabellen. Für größere Tabellen werden andere Assoziationsmaße benötigt.

Chi-Quadrat Hierbei vergleicht man die vorgefundenen Häufigkeiten in der Kontingenztabelle ( ) mit f den Häufigkeiten aus der Indifferenztabelle b ( ) In der Indifferenztabelle finden sich die f e Häufigkeiten, die man erwarten würde, wenn keine Beziehung zwischen den Variablen bestünde. Berechnung: ( f = b f ) χ e f e

Kontingenztabelle (fb) Berufswechsel/ Abitur ja nein ja 9 17 6 nein 4 10 34 33 7 60

Die Häufigkeiten der Indifferenztabelle werden auf Basis der Randhäufigkeiten der Kontingenztabelle berechnet. n n f = i.. j e ij N Randhäufigkeit der Zeile Randhäufigkeit der Spalte N

Indifferenztabelle (fe) Berufswechsel/ Abitur ja nein ja 14,3 11,7 6 nein 18,7 15,3 34 33 7 60

Berechnung von Chi-Quadrat ( f = b f ) χ e f e

Um die Differenz zwischen den beobachteten und den erwarteten Häufigkeiten festzustellen, muss Chi-Quadrat berechnet werden. Hierzu wird erstens die Differenz ( fb fe) zwischen der beobachteten Häufigkeit und der erwarteten Häufigkeit einer jeden Zelle berechnet, zweitens jede Differenz quadriert ( f ) b fe, drittens jede quadrierte Differenz durch die erwartete Häufigkeit dividiert ( f b fe) / fe und schließlich über alle Zellen summiert ( f ) b fe / fe = χ. Der Nachteil dieses Assoziationsmaßes liegt darin, dass eine Verdoppelung der Zellenhäufigkeiten bei identischen Verteilungen zu einer Verdoppelung des Chi-Quadrat- Wertes führt. Chi-Quadrat variiert also mit N.

Wenn die Kontingenztabelle gleich der der Indifferenztabelle ist, dann besteht zwischen x und y kein Zusammenhang Wenn die Kontingenztabelle ungleich der Indifferenztabelle ist, dann besteht ein Zusammenhang zwischen x und y.

Direkte Berechnung von Chi-Quadrat χ = ( a + N( ad bc) b)( c + d)( a + c)( b + d )

Arbeitstabelle zur Berechnung von chi-quadrat Zeile i Spalte j fb fe (fb-fe) (fb-fe)² (fb-fe)² /fe 1 1 9 14,3-5,3 8,09 1,96 1 17 11,7 5,3 8,09,40 1 4 18,7-5,3 8,09 1,50 10 15,3 5,3 8,09 1,84

( f f ) χ = b e f e χ = 7,7

Zur Berechnung des Chi-quadrat-basierten Assoziationsmaßes werden: 1. Im ersten Schritt die Häufigkeiten der Indifferenztabelle ermittelt;. Die Häufigkeiten der Kontingenztabelle mit den erwarteten/theoretischen Häufigkeiten aus der Indifferenztabelle verglichen. 3. Die Differenz zwischen den Häufigkeiten zur Berechnung des Assoziationsmaßes heranziehen. Es gilt, je größer die Differenz zwischen den Häufigkeiten der beiden Tabellen, desto größer ist die Abweichung von der statistischen Unabhängigkeit.

Phi-Koeffizient Der Phi-Koeffizient ist ein Maß, dass die Anzahl der Fälle (N) berücksichtigt. φ = χ N Die Formel zur direkten Berechnung des Phi Koeffizienten lautet: φ = ad bc ( a+ b)( c+ d)( a+ c)( b+ d)

Ein nach der ersten Formel berechneter Wert ist vorzeichenlos, ein nach der zweiten Formel berechneter Wert kann zwischen +1 und 1 variieren. Bei ordinalen und metrischen Daten könnte dieses Vorzeichen also auch inhaltlich interpretiert werden. Für x Tabellen ist Φ ein sensibles Assoziationsmaß. Es nimmt den Wert 0 an, wenn die beobachteten mit den erwarteten Häufigkeiten übereinstimmen. Phi erreicht den Wert 1, wenn Chi- Quadrat seinen maximalen Wert erreicht. Für größere als x Tabellen wird Φ > 1.

Cramer s V Cramer s V ist definiert als CramersV= χ N min( r 1, c 1) Dabei steht r für die Anzahl der Zeilen und c für die Anzahl der Spalten. Min steht für Minimum und besagt, dass zunächst zu prüfen ist, ob die Anzahl der Zeilen oder die der Spalten kleiner ist. Der kleinere Wert geht dann in die Berechnung des Koeffizienten ein.

Kontingenzkoeffizient C C = χ χ + N Er hat den Vorteil, dass er für beliebig große Tabellen angewendet werden kann. Sein Nachteil liegt darin, dass seine praktische Grenze unter 1 liegt. Er nähert sich der 1, wenn die Spalten- und Zeilenanzahl zunimmt.