Beeinflusst das Geschlecht das Erwerbseinkommen?



Ähnliche Dokumente
6Korrelationsanalyse:Zusammengangsanalysestetiger Merkmale

6 Korrelations- und Regressionsanalyse: Zusammenhangsanalyse stetiger Merkmale

5.2.3 Grafische Darstellung der gemeinsamen Verteilung. Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten

6 Korrelationsanalyse: Zusammenhangsanalyse stetiger. Merkmale

5 Assoziationsmessung in Kontingenztafeln

5.5 PRE-Maße (Fehlerreduktionsmaße) 6

Kontingenzkoeffizient (nach Pearson)

Zusammenhänge zwischen metrischen Merkmalen

5.3 (Empirische) Unabhängigkeit und χ 2

5.5 PRE-Maße (Fehlerreduktionsmaße)

5.3 (Empirische) Unabhängigkeit und χ 2

Warum reicht die Varianz nicht zur Konzentrationsmessung aus? Betrachtet man die Merkmale X A (

Analyse bivariater Kontingenztafeln

5 Zusammenhangsmaße, Korrelation und Regression

Korrelation (II) Korrelation und Kausalität

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Primzahlen und RSA-Verschlüsselung

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Willkommen zur Vorlesung Statistik

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

9.2. DER SATZ ÜBER IMPLIZITE FUNKTIONEN 83

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

50. Mathematik-Olympiade 2. Stufe (Regionalrunde) Klasse Lösung 10 Punkte

2. Deskriptive Statistik 2.1. Häufigkeitstabellen, Histogramme, empirische Verteilungsfunktionen

1 Mathematische Grundlagen

Fortgeschrittene Statistik Logistische Regression

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Datenanalyse mit Excel. Wintersemester 2013/14

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Überblick über die Verfahren für Ordinaldaten

Lineare Gleichungssysteme

Beispiel Zusammengesetzte Zufallsvariablen

Zeichen bei Zahlen entschlüsseln

Gleichungen Lösen. Ein graphischer Blick auf Gleichungen

Einführung in statistische Analysen

Professionelle Seminare im Bereich MS-Office

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Tipp III: Leiten Sie eine immer direkt anwendbare Formel her zur Berechnung der sogenannten "bedingten Wahrscheinlichkeit".

Austausch- bzw. Übergangsprozesse und Gleichgewichtsverteilungen

11.3 Komplexe Potenzreihen und weitere komplexe Funktionen

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Theoretische Grundlagen der Informatik WS 09/10

Korrelation - Regression. Berghold, IMI

0, v 6 = , v 4 = span(v 1, v 5, v 6 ) = span(v 1, v 2, v 3, v 4, v 5, v 6 ) 4. span(v 1, v 2, v 4 ) = span(v 2, v 3, v 5, v 6 )

3.1. Die komplexen Zahlen

Auswerten mit Excel. Viele Video-Tutorials auf Youtube z.b.

Vorlesung Diskrete Strukturen Graphen: Wieviele Bäume?

Statistische Auswertung:

Willkommen zur Vorlesung Statistik (Master)

5 Assoziationsmessung in Kontingenztafeln

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Grundbegriffe der Informatik

AUTOMATISIERTE HANDELSSYSTEME

Behörde für Bildung und Sport Abitur 2008 Lehrermaterialien zum Leistungskurs Mathematik

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Anhand des bereits hergeleiteten Models erstellen wir nun mit der Formel

6Korrelationsanalyse:Zusammenhangsanalysestetiger Merkmale

7 Rechnen mit Polynomen

Berechnung der Erhöhung der Durchschnittsprämien

Informationsblatt Induktionsbeweis

Einfache Varianzanalyse für abhängige

1.3 Die Beurteilung von Testleistungen

Repetitionsaufgaben Wurzelgleichungen

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Codierungstheorie Rudolf Scharlau, SoSe

Felix Klug SS Tutorium Deskriptive Statistik

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Was ist Sozial-Raum-Orientierung?

Erstellen von x-y-diagrammen in OpenOffice.calc

EINFACHES HAUSHALT- KASSABUCH

WAS finde ich WO im Beipackzettel

4. Erstellen von Klassen

Varianzanalyse (ANOVA: analysis of variance)

Einführung. Vorlesungen zur Komplexitätstheorie: Reduktion und Vollständigkeit (3) Vorlesungen zur Komplexitätstheorie. K-Vollständigkeit (1/5)

Lineare Gleichungssysteme

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Motivation. Formale Grundlagen der Informatik 1 Kapitel 5 Kontextfreie Sprachen. Informales Beispiel. Informales Beispiel.

Einfache statistische Auswertungen mit dem Programm SPSS

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

einfache Rendite

Was meinen die Leute eigentlich mit: Grexit?

LU-Zerlegung. Zusätze zum Gelben Rechenbuch. Peter Furlan. Verlag Martina Furlan. Inhaltsverzeichnis. 1 Definitionen.

Tutorial: Homogenitätstest

Dieses erste Kreisdiagramm, bezieht sich auf das gesamte Testergebnis der kompletten 182 getesteten Personen. Ergebnis

BONUS MALUS SYSTEME UND MARKOV KETTEN

Alle gehören dazu. Vorwort


Rekursionen. Georg Anegg 25. November Methoden und Techniken an Beispielen erklärt

Lösungshinweise zur Einsendearbeit 2 SS 2011

Mathematischer Vorbereitungskurs für Ökonomen

infach Geld FBV Ihr Weg zum finanzellen Erfolg Florian Mock

Transkript:

74

Kapitel 5 Analyse von Zusammenhängen 5.1 Multivariate Merkmale Gerade in der Soziologie ist die Analyse eindimensionaler Merkmale nur der allererste Schritt. Letztendlich kommt es auf die Analyse von Zusammenhängen an. Beispiele für typische Fragestellung: Beeinflusst das Geschlecht das Erwerbseinkommen? Gibt es einen Zusammenhang zwischen Schichtzugehörigkeit (als etwas veralteter, dennoch klassischer soziologischer Begriff) und Aggressionsneigung? Spielt die Stärke der Kirchenbindung eine Rolle bei der Parteienpräferenz? Haben Studierende mit guten Mathematikvorkenntnissen bessere Statistiknoten? Hierzu werden an jeder Einheit mehrere Variablen erhoben und ihre Ausprägungen auch gemeinsam analysiert (z.b. wird das Geschlecht der i-ten Person mit ihrem Einkommen in Beziehung gesetzt). Hat man z.b. die Merkmale X, Y, Z, so nennt man das Paar (X, Y ) bzw. das Tripel (X, Y, Z) ein zweidimensionales (bivariates) bzw. dreidimensionales Merkmal (trivariates) Merkmal. Allgemein spricht man von mehrdimensionalen Merkmalen. (X, Y ) : Ω (ω 1, ω ) X = ω (X(ω), Y (ω)) Y = 75 { 1 Hutträger 0 kein Hutträger { 1 Blumen ja 0 Blumen nein

76 5.. Assoziationsmessung in Kontingenztafeln Achtung: * ω 1 x 1 = 1 y 1 = 1 (1, 1)... ω x = 1 y = 0 (1, 0) * ω j x j 0 y j = 1 (0, 1) ω n x n = 1 y n = 0 (0, 0) Statistische Verfahren analysieren Zusammenhänge und machen keine Aussage über Kausalitäten! Kausalitäten können nur aus sachlogischen Überlegungen abgeleitet werden. 5. Assoziationsmessung in Kontingenztafeln 5..1 Gemeinsame Verteilung, Randverteilung, Kontingenztafel Betrachtet wird ein zweidimensionales Merkmal (X, Y ) bestehend aus den diskreten Merkmalen X und Y und die zugehörige Urliste (x 1, y 1 ), (x, y ),..., (x n, y n ). Wir wollen ferner annehmen, dass X und Y nur endlich viele (wenige), verschiedene Werte annehmen können. a 1,..., a i,..., a k bzw. b 1,..., b j,... b m Anmerkung: In vielen Büchern (v.a. zur induktiven Statistik) wird statt a 1,..., a k auch x 1,..., x k und statt b 1,..., b m analog y 1,..., y m geschrieben. Bei uns sind aber die (x i, y i ) Werte der Urliste, x i also der Wert der i-ten Einheit. Daraus ergibt sich zwar die Doppeldeutigkeit der Laufindizes i und j, wir bleiben jedoch bei dieser Notation um Einheitlichkeit mit Fahrmeir et al. (007) und Jann (00/005) herzustellen. Beispiel (fiktiv): Y X latente Aggressivität Schichtzugehörigkeit { 1, ja, nein 1, Unterschicht, Mittelschicht 3, Oberschicht Typische Urliste des zweidimensionalen Merkmals (X, Y ): (3, 1), (, ), (, 1), (3, 1), (3, ), (3, 1), (1, ), (1, 1), (1, 1), (1, ), (3, 1), (3, 1)

Kapitel 5. Analyse von Zusammenhängen 77 Achtung: Tupel sind im Gegensatz zu Mengen geordnete Anordnungen von Zahlen, d.h. die erste Stelle bezieht sich immer auf X, die zweite auf Y. Also bedeutet (1, ) etwas anderes als (, 1) (vgl. obiges Beispiel). Die Tupel sind gemeinsam indiziert, d.h. die Werte in einem Tupel beziehen sich immer auf dieselbe Einheit. Bei (x i, y i ) sind x i und y i also die Ausprägungen derselben Einheit i (z.b. der Person i). Nur so können Zusammenhänge zwischen den Merkmalen sichtbar werden! Gemeinsame relative und absolute Häufigkeitsverteilung: h ij = h(a i, b j ), i = 1,..., k, j = 1,..., m, = Anzahl von Beobachtungen mit x = a i und y = b j. f ij = h ij /n = f(a i, b j ), i = 1,..., k, j = 1,..., m, = Anteil von Beobachtungen mit x = a i und y = b j. Man nennt (h ij ), i = 1,..., k, j = 1,..., m und (f ij ) die gemeinsame Verteilung von (X, Y ) in absoluten bzw. relativen Häufigkeiten. Kontingenztafel / Kontingenztabelle / Kreuztabelle: in Form einer (k m)-dimensionalen Häufigkeitstabelle Darstellung der Häufigkeiten b 1 b j b m a 1 h 11 h 1j h 1m h 1 a h 1 h j h m h..... a i h i1 h ij h im h i..... a k h k1 h kj h km h k h 1 h j h m n mit den Randverteilungen h i = h i1 +... + h im = h(a i ), i = 1,..., k, für X und h j = h 1j +... + h kj = h(b j ), j = 1,..., m, für Y.

78 5.. Assoziationsmessung in Kontingenztafeln Kontigenztafel der relativen Häufigkeitsverteilung: b 1 b j b m a 1 f 11 f 1j f 1m f 1 a f 1 f j f m f..... a i f i1 f ij f im f i..... a k f k1 f kj f km f k f 1 f j f m n mit relativen Häufigkeiten f ij = h ij n und den Randverteilungen f i = h i n = f i1 +... + f im = f(a i ), i = 1,..., k, für X und f j = h j n = f 1j +... + f kj = f(b j ), j = 1,..., m, für Y. Beispiel: Aggressivität und Schichtzugehörigkeit In unserem Beispiel ist n = 1 a 1 = 1, a =, a 3 = 3 b 1 = 1, b = also k = 3 und m =. Als Kontingenztafel ergibt sich Y X 1 1 4 1 1 3 5 1 6 8 4 1 Randhäufigkeiten: Aus der gemeinsamen Verteilung kann man die eindimensionalen Verteilungen berechnen (aber nicht umgekehrt, s.u.). Man nennt sie in diesem Kontext Randverteilungen. Die absoluten Häufigkeiten von X bezeichnet man mit h 1, h,..., h i,..., h k, die von Y mit h 1, h,..., h j,..., h m, analog f i, f j. Der Punkt steht für Summation über den entsprechenden Index. Es gilt also: h i ist die absolute Häufigkeit von a i, h j ist die absolute Häufigkeit von b j.

Kapitel 5. Analyse von Zusammenhängen 79 und h i = h j = m h ij, j=1 k h ij. Also ist h i die i-te Zeilensumme, h j die j-te Spaltensumme (daher der Name Randhäufigkeiten). Völlig analog definiert sind die relativen Randhäufigkeiten f i := m f ij und f j := j=1 k f ij. Beispiel: Parteipräferenz bei unterschiedlichem Einkommen (Befragung von 7 Personen, 3.5.-5.5.004) Unabhängige und abhängige Variable: Hat man eine Vermutung über die Richtung einer potentiellen Wirkung, so bezeichnet man die Variablen entsprechend als unabhängige (wirkende, erklärende) und abhängige Variable, z.b.: möglicherweise: Schicht latente Aggresivität eindeutig: Geschlecht Einkommen allgemein: unabhängige abhängige Variable Konventionen in den Sozialwissenschaften: Um mit Fahrmeir (007) konsistent zu bleiben, werden wir die unabhängige Variable in die Zeilen und die abhängige Variable in den Spalten der Kontingenztafel platzieren. In den Sozialwissenschaften ist die Konvention jedoch umgekehrt: Die unabhängige Variable steht in den Spalten, die abhängige in den Zeilen. In praktisch allen statistischen Verfahren (insbesondere der Regression, Kapitel 6) wird die abhängige Variable mit Y und die unabhängige Variable mit X bezeichnet. Wir werden daher im folgenden dieser (der statistischen) Notation folgen. Wiederum ist die übliche Konvention in den Sozialwissenschaften umgekehrt: Die unabhängige Variable wird mit Y und die abhängige mit X bezeichnet.

80 5.. Assoziationsmessung in Kontingenztafeln Also im Folgenden: Y X abhängige Variable unabhängige Variable 5.. Ökologischer Fehlschluss Es gibt sehr viele gemeinsame Verteilungen, die zu denselben Randhäufigkeiten passen. Beispiel: Y X 1 3 1 0 6 8 4 0 0 4 4 6 1 Bei dieser Konstellation ist von den Unterschichtsangehörigen niemand latent aggressiv, von den Mittel- und Oberschichtsangehörigen alle. Die Schichtungszugehörigkeit würde hier also völlig die Aggressivität determinieren. Man sieht also, wie wichtig es zur Feststellung potentieller Zusammenhänge ist, die gemeinsame Verteilung h ij zu kennen, also tatsächlich die Paare (x i, y i ) zu betrachten. Der unzulässige Schluss von der Randverteilung auf Eigenschaften der gemeinsamen Verteilung, also von zwei univariaten Ergebnissen auf ein bivariates, von der Kollektiv- auf die Individualebene, heißt ökologischer Fehlschluss. Klassisches Beispiel für ökologischen Fehlschluss: Je größer der Anteil an Arbeitern in einer Region, desto mehr SPD-Wähler gibt es. = Arbeiter wählen eher SPD. Je größer der Anteil der Nichtdeutschstämmigen ( Ausländer zweiter Generation ) in einer Region, desto mehr Wähler rechtsradikaler Parteien gibt es. = Nichtdeutschstämmige wählen rechtsradikal? 5..3 Grafische Darstellung der gemeinsamen Verteilung Verschiedene Darstellungsarten, z.b. als 3D-Säulendiagramm der gemeinsamen Häufigkeiten h ij oder nach einer Variable aufgespalten, d.h. für jeden Wert a i von X werden jeweils die Häufigkeiten h ij bzw. f ij aufgetragen.

Kapitel 5. Analyse von Zusammenhängen 81 0.004 0.003 0.00 0.001 0.000 40 60 Wohnfläche 80 100 000 1500 1000 Miete 500 5..4 Bedingte Häufigkeitsverteilungen Beispiel: Habilitationen nach Geschlecht und Fach (aus Fahrmeir et al., 007). Grundgesamtheit: alle Habilitationen 1993 Geschlecht: Fächergruppe: X Y Absolute Häufigkeiten: Sprachw. Rechtsw. Naturw. Kunst Medizin Kulturw. Wirts., Soz. 1 3 4 5 Frauen 1 51 0 30 4 44 149 Männer 16 9 316 10 433 1067 Relative Häufigkeiten 67 11 346 14 477 116 Sprachw. Rechtsw. Naturw. Kunst Medizin Kulturw. Wirts., Soz. 1 3 4 5 Frauen 1 0.04 0.016 0.05 0.003 0.036 0.1 Männer 0.178 0.076 0.60 0.008 0.356 0.876 Zur Interpretation: 0.0 0.09 0.85 0.011 0.39

8 5.. Assoziationsmessung in Kontingenztafeln In Naturwissenschaften werden nur 30 Frauen habilitiert, in Kunst sogar nur 4. Ist das viel oder wenig? Das kommt ganz darauf an, wieviele Personen insgesamt dort habilitiert werden. (30 von 346 sehr wenig, 4 von 14 nicht so wenig). Man muss also die gemeinsamen Häufigkeiten bedingen. Man geht über zur sogenannten bedingten Verteilung. Sie gibt die Verteilung eines Merkmals an, unter der Bedingung ( wenn man weiß ), dass das andere Merkmal einen bestimmten Wert hat. z.b. Verteilung des Geschlechts unter den in Kunst bzw. Naturwissenschaften Habilitierten; Anteil der latent aggressiven Jugendlichen unter den Angehörigen der Oberschicht. Es wird also sozusagen die betrachtete Gesamtheit auf eine bestimmte Personengruppen eingeschränkt. Im Beispiel etwa Anzahl der Habil. von Frauen in Kunst Anzahl der Habil. in Kunst = h 14 h 4 Definition: Seien h i > 0 und h j > 0 für alle i, j. Für jedes i = 1,..., k heißt f Y (b 1 a i ) := h i1 = h(a i, b 1 ) h i h(a i ),..., f Y (b m a i ) := h im = h(a i, b m ) h i h(a i ) bedingte (relative) Häufigkeitsverteilung von Y unter der Bedingung X = a i. Analog heißt für jedes j = 1,..., m f X (a 1 b j ) := h 1j = h(a 1, b j ),..., f X (a k b j ) := h kj = h(a k, b j ) h j h(b j ) h j h(b j ) bedingte (relative) Häufigkeitsverteilung von X unter der Bedingung Y = b j. Im Beispiel: f Y (Frau Habil. in Kunst) = h 14 h 4 = 4 14 = 7 0.86 f Y (Frau Habil. in Naturw.) = h 13 = 30 h 3 346 0.087 Zu unterscheiden von f 13 = 0.05 = f(frau und Habil. in Naturw.) bzw. f X (Habil. in Kunst Frau) = h 14 = 4 h 1 149 = 0.07. Die Verwechslung von gemeinsamer und bedingter Verteilung ist eine häufige Fehlerquelle. Bei Vermutung über Richtung des Zusammenhangs betrachtet man vorwiegend die bedingte Verteilung der abhängigen Variablen gegeben die festen Werte der unabhängigen Variable. In diese Richtung geht ja auch die Prognose! Man kennt den Wert der unabhängigen Variablen und will Aussagen über die abhängige machen.

Kapitel 5. Analyse von Zusammenhängen 83 Beispiel: Bedingte Verteilung der Fächergruppen gegeben das Geschlecht (f(b j a i ) für verschiedene i). b j Sprachw. Rechtsw. Naturw. Kunst Medizin Kulturw. Wirts., Soz. 1 3 4 5 a i Frauen 1 0.191 0.179 0.087 0.86 0.09 Männer 0.809 0.81 0.913 0.714 0.908 1 1 1 1 1 f(rechtsw. Frau) = f(b a 1 ) = h 1 h 1 = 0 149 = 0.134 f(kunst Mann) = f(b 4 a ) = h 4 h = 0.0094 Bedingte Verteilung des Geschlechts gegeben die Fachgruppe (f(a i b j ) für verschiedene j). b j Sprachw. Rechtsw. Naturw. Kunst Medizin Kulturw. Wirts., Soz. 1 3 4 5 a i Frauen 1 0.34 0.13 0.10 0.03 0.30 1 Männer 0.0 0.09 0.30 0.01 0.41 1 Nochmals zur Interpretation: f(frau Rechtsw.) = f(a 1 b ) = h 1 h = 0 11 = 0.179 f(mann Kunst) = f(a b 4 ) = h 4 h 4 = 0.714 1. f(frau Medizin) = 0.09 100% = 9.%. 9.% aller erfolgreich in Medizin Habilitierten sind Frauen.. f(medizin Frau) = 30%. 30% aller Frauen, die sich habilitieren tun dies in der Medizin. 3. f 51 = f(medizin und Frau) = 0.036 = 3.6%. 3.6% aller Habilitationen stammen von Medizinerinnen, d.h. von Frauen in der Medizinischen Fakultät. Es liegt jeweils eine andere Grundgesamtheit zu Grunde: 1. Habilitationen in Medizin. Habilitationen von Frauen 3. Habilitationen insgesamt

84 5.. Assoziationsmessung in Kontingenztafeln Bedingte Verteilungen basieren immer auf relativen Häufigkeiten. Für die Berechnung gilt f(a i b j ) = h ij h j = h ij n h j n = f ij f j und analog f(b j a i ) = h ij h i = f ij f i. Beispiel: Parteipräferenzen. 5..5 (Empirische) Unabhängigkeit und χ Aus dem Vergleich der bedingten Häufigkeiten mit den Randhäufigkeiten kann man relativ gut Zusammenhänge beurteilen Beispiel: Aggression und Schichtzugehörigkeit. Bedingte Häufigkeiten: f(b j a i ) : relative Häufigkeit von b j, wenn man weiß, dass a i. Vergleiche zum Beispiel mit Gilt f(b 1 a 3 ): f 1 : Anteil der Personen mit Ausprägung b 1 (latent aggressiv) unter allen Personen mit Ausprägung a 3 (Oberschicht) Anteil der Personen mit b 1 (generell), also alle latent aggressiven Personen f(b 1 a 3 ) > f 1,

Kapitel 5. Analyse von Zusammenhängen 85 so erhöht a 3 die Tendenz von b 1 (erhöhte Aggressivität in der Oberschicht), gilt f(b 1 a 3 ) < f 1, so verringert a 3 die Tendenz von b 1 (geringere Aggressivität in der Oberschicht). Wäre hingegen f(b 1 a 3 ) = f 1, so wäre im Beispiel der Anteil der latent aggressiven Personen in der Oberschicht genauso groß wie in der Grundgesamtheit. Die Zugehörigkeit zur Oberschicht würde also nicht das Vorhandensein latenter Aggressivität beeinflussen. Gilt dies für alle Merkmalskombinationen, so beeinflussen sich die Variablen gegenseitig nicht. Die Merkmale sind voneinander sozusagen unabhängig. Empirische Unabhängigkeit: Die beiden Komponenten X und Y eines bivariaten Merkmals (X, Y ) heißen voneinander (empirisch) unabhängig, falls für alle i = 1,..., k und j = 1,..., m f(b j a i ) = f j = f(b j ) (5.1) und gilt. f(a i b j ) = f i = f(a i ) (5.) Also anschaulich: Genau bei empirischer Unabhängigkeit ist die Verteilung von Y in allen bezüglich Werten von X gebildeten Subgruppen identisch und umgekehrt. Satz: a) Es genügt, entweder (5.1) oder (5.) zu überprüfen: Mit einer der beiden Beziehungen gilt auch die andere. b) X und Y sind genau dann empirisch unabhängig, wenn für alle i = 1,... k und alle j = 1,... m gilt: f ij = f i f j (5.3) c) Gleichung (5.3) ist äquivalent zu h ij = h i h j n (5.4) Beweis zu b) : i, j beliebig vorgegeben, X, Y empirisch unabhängig. f(a i b j ) = f i für alle i, j f ij = f i f j für alle i, j f ij = f i f j für alle i, j

86 5.. Assoziationsmessung in Kontingenztafeln Zentrale Idee zur Analyse von Kontingenztafeln: Man beurteilt das Ausmaß der Abhängigkeit von X und Y dadurch, dass man die beobachtete Kontingenztafel mit der Tafel vergleicht, die sich bei denselben Randverteilungen ergeben würde, wenn X und Y (empirisch) unabhängig wären. Man vergleicht also für alle i und j die beobachteten Häufigkeiten h ij mit den unter Unabhängigkeit erwarteten Besetzungszahlen h ij (vgl. die rechte Seite von (5.4)): h ij := h i h j. n Je größer die Unterschiede zwischen h ij und h ij sind, umso stärker sind die Daten von der Unabhängigkeit entfernt, und umso stärker ist also der Zusammenhang zwischen X und Y. Als Maß verwendet man den sog. χ -Koeffizienten / χ -Abstand: χ := = k m (h ij h ij ) (5.5) h j=1 ij ( ) beob. Häufigk. unter Unabh. zu erwarten unter Unabh. zu erwarten alle Zellen Beispiel: Zusammenhang zwischen Geschlecht und Arbeitslosigkeit (fiktiv, nach Wagschal, 1999) Sei Y der Beschäftigungsstatus einer erwerbstätigen Person, X das Geschlecht mit Y = { 1 beschäftigt arbeitslos und X = { 1 weiblich männlich Gemeinsame Häufigkeitsverteilung: Zur Bestimmung des χ -Koeffizienten: 1. Bestimme die Randverteilung. Y X 1 1 40 5 65 80 5 85 10 30 150. Berechne die unter Unabhängigkeit zu erwartenden Häufigkeiten h ij. Indifferenztafel (bei empirischer Unabhängigkeit zu erwartende Kontingenztafel): h 11 = h 1 h 1 n h 1 = h h 1 n = = 65 10 150 = 5 85 10 150 = 68

Kapitel 5. Analyse von Zusammenhängen 87 Y X 1 1 5 13 65 68 17 85 10 30 150 Beim Vergleich der beoachteten Häufigkeitsverteilung mit der unter Unabhängigkeit zu erwartenden erkennt man: Es gibt weniger beschäftigte Frauen und arbeitslose Männer als unter Unabhängigkeit zu erwarten wäre und mehr arbeitslose Frauen und beschäftigte Männer. Also hat das Geschlecht einen Einfluss; Männer sind tendenziell eher beschäftigt. Man erhält χ = k m j=1 (h ij h ij ) h ij (40 5) (5 13) (80 68) (5 17) = + + + 5 13 68 17 =.769 + 11.077 +.118 + 8.471 = 4.435 Bei Vierfeldertafeln ( Zeilen, Spalten) gibt es eine handliche Alternative zur Berechnung von χ : χ = n (h 11h h 1 h 1 ) h 1 h h 1 h (5.6) (Merksatz: Hauptdiagonalenprodukt Nebendiagonalenprodukt). Veranschaulichung der Formel: In der Hauptdiagonalen stehen die gleichgerichteten (konkordanten) Paare (1,1), (,) (kleines Y zu kleinem X und hohes Y gehört zu hohem X), in der Nebendiagonalen die entgegengerichteten (diskordanten) Paare (1,), (,1). Je stärker der Zusammenhang, desto stärker überwiegt eine dieser beiden Möglichkeiten, d.h. desto größer ist (h 11 h h 1 h 1 ) Ceteris paribus Betrachtung bei gleichen Randverteilungen: +1 1 h 1 1 +1 h h 1 h Angenommen, es ist h 11 h > h 1 h 1. Dann erhöhen sich h 11 und h, h 1 und h 1 erniedrigen sich χ wird größer. Berechnung im Beispiel mit alternativer Formel: χ = n (h 11h h 1 h 1 ) h 1 h h 1 h (4 5 80 5) = 150 10 30 65 85 = 1800 1800 150 = 4.434 10 30 65 85 = 150 (00 000) 10 30 65 85

88 5.. Assoziationsmessung in Kontingenztafeln 5..6 χ -basierte Maßzahlen Bemerkungen zum χ -Abstand: Unter empirischer Unabhängigkeit gilt χ = 0 (nach Konstruktion). Je stärker χ von 0 abweicht, umso stärker ist ceteris paribus der Zusammenhang. Der χ -Abstand wird die Grundlage bilden für den in Statistik betrachteten χ - Test. χ ist aber direkt bestenfalls zum Vergleich von Tabellen gleichen Typs heranzuziehen, da es vom Stichprobenumfang n und von der Zeilen- und Spaltenzahl abhängt = geeignet normieren. Es gilt: χ n (min{k, m} 1). Gleichheit gilt genau dann, wenn sich in jeder Spalte bzw. Zeile nur ein von Null verschiedener Eintrag befindet, also z.b. perfekte Abhängigkeit: (ist aber gar nicht für zu jedem Y gehört genau ein X und umgekehrt. alle Randverteilungen möglich) χ -basierte Zusammenhangsmaße a) Kontingenzkoeffizient nach Pearson: χ K := n + χ. (5.7) b) Korrigierter Kontingenzkoeffizient: K := K K max (5.8) mit K max := min{k, m} 1 min{k, m} c) Kontingenzkoeffizient nach Cramér (Cramérs V): V = = χ n (min{k, m} 1) χ maximaler Wert (5.9) d) Bei der Vierfeldertafel (k = m = ) gilt χ V = n (min{k, m} 1) = χ n.

Kapitel 5. Analyse von Zusammenhängen 89 Hierfür ist auch die Bezeichnung Phi-Koeffizient Φ üblich. Mit (5.6) ergibt sich also Φ = h 11 h h 1 h 1. (5.10) h1 h h 1 h Lässt man die Betragsstriche weg, so erhält man den signierten Phi-Koeffizienten oder Punkt-Korrelationskoeffizienten Φ s = h 11h h 1 h 1, h1 h h 1 h der häufig ebenfalls als Phi-Koeffizient bezeichnet wird. Φ S kann im Prinzip Werte zwischen -1 und 1 annehmen (ohne -1 und 1 immer erreichen zu können (s.u.)). Vorteil gegenüber Φ: Zusätzlich ist die Richtung des Zusammenhangs erkennbar: Φ s > 0 bei gleichsinnigem Zusammenhang (1 bei X bewirkt eher 1 bei Y, ) und Φ s < 0 bei gegensinnigem Zusammenhang (1 bei X bewirkt eher bei Y, 1) Berechnung im Beispiel : Beschäftigungsstatus und Geschlecht. Zur Erinnerung: χ = 4.435, m = k =, n = 150 K = K max = besch. ja nein 1 Frauen 1 40 5 65 Männer 80 5 85 10 30 150 χ 4.435 n + χ = 150 + 4.435 = 0.374 min{k, m} 1 1 1 = = min{k, m} K K = = 0.374 = 0.59 K max χ 4.435 V = Φ = n = = 0.4036 150 Φ s = h 11h h 1 h 1 = h1 h h 1 h 40.5 80.5 10 30 65 35 = 0.4036 Schwerpunkt auf der Nebendiagonalen: Beschäftigte Männer, arbeitslose Frauen. Φ =0.4, deutet auf Zusammenhangs mittlerer Stärke hin.

90 5.. Assoziationsmessung in Kontingenztafeln K, K, V und Φ nehmen Werte zwischen 0 und 1 an. Aufgrund ihrer Unabhängigkeit von n und von k und m sind sie prinzipiell zum Vergleich verschiedener Tabellen geeignet. Allerdings kann bei gegebener Randverteilung der Wert 1 nicht immer erreicht werden. Im Beispiel können bei insgesamt nur 30 Arbeitslosen nicht alle 80 Männer oder alle 65 Frauen arbeitslos sein. Es kann deshalb aussagekräftiger sein, noch zusätzlich auf die für die gegebene Randverteilung maximal mögliche Abhängigkeit zu normieren. Korrekturverfahren für Φ (Wagschal) 1. Bilde die Extremtabelle mit Einträgen h ij, d.h. i. Ersetze die Zelle mit der kleinsten absoluten Häufigkeit durch 0 ii. Fülle die Tafel entsprechend der Randverteilung auf!. Berechne den zugehörigen Phi-Koeffizienten Φ extrem. 3. Berechne den korrigierten Phi-Koeffizienten Φ korr := Φ Φ extrem bzw. den zugehörigen korrigierten signierten Phi-Koeffizienten Φ s,korr := Φ s Φ extrem. Berechnung im Beispiel: Extremsituation: Alle Männer beschäftigt. besch. ja nein 1 Frauen 1 35 85 10 Männer 30 0 30 65 85 150 Mit (5.10) erhält man h Φ extrem = 11h h 1h 1 h 1 h h 1h = 35 0 30 85 0.5718 65 85 10 30 und damit Φ korr = Φ = 0.4036 Φ extrem 0.5718 0.7059 und Φ s,korr 0.7059 Relativ zum gegebenen Geschlechterverhältnis und zur Beschäftigungsrelation ergibt sich ein ziemlich starker Zusammenhang (Φ korr 0.7059). Wegen Φ s,korr < 0 gehören kleine Y - Werte eher zu großen X-Werten, also sind Frauen tendenziell stärker von Arbeitslosigkeit betroffen als Männer.

Kapitel 5. Analyse von Zusammenhängen 91 5..7 Weitere Methoden für Vierfeldertafeln Typische Fragestellung aus der Medizin: X Y an nicht an Krebs Krebs erkrankt erkrankt b 1 b exponiert: Schadstoffen a 1 h 11 h 1 ausgesetzt nicht exponiert: Schadstoffen a h 1 h nicht ausgesetzt In der Medizin bezeichnet man die bedingte relative Häufigkeit f(b j a i ) als Risiko für b j unter Bedingung a i : R(b j a i ) := f(b j a i ) = h ij h i i, j = 1,. In der Epidemiologie wird standardmäßig R(b 1 a 1 ) betrachtet. Dies ist das Erkrankungsrisiko für Personen, die exponiert waren. Als Zusammenhangsmaß zwischen X und Y in Vierfelder-Tafeln verwendet man auch das darauf aufbauende relative Risiko: Definition : Für eine Vierfelder-Tafel heißt RR(b 1 ) := f(b 1 a 1 ) f(b 1 a ) = h 11/h 1 h 1 /h relatives Risiko und ist das Verhältnis des Erkrankungsrisikos für Personen, die exponiert waren (im Zähler) und für Personen, die nicht exponiert waren (im Nenner). Eigenschaften: RR(b 1 ) kann Werte zwischen 0 und annehmen. RR(b 1 ) = 1 würde bedeuten: Personen, die exponiert waren, haben das gleiche Erkrankungsrisiko wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ). RR(b 1 ) = 5 würde bedeuten: Personen, die exponiert waren, haben ein 5-mal so großes Erkrankungsrisiko wie Personen, die nicht exponiert waren, d.h. das Erkrankungsrisiko wäre für exponierte Personen deutlich höher. RR(b 1 ) = 1 würde bedeuten: Personen, die exponiert waren, haben nur ein Fünftel 5 des Erkrankungsrisikos von Personen, die nicht exponiert waren, d.h. das Erkrankungsrisiko wäre für exponierte Personen deutlich niedriger.

9 5.. Assoziationsmessung in Kontingenztafeln In der Medizin bezieht sich Risiko meist auf negative Ereignisse wie z.b. Erkrankung. Grundsätzlich sind Risiken aber symmetrisch verwendbar, d.h. auch für positive Ereignisse wie z.b. Beschäftigung: beschäftigt ja nein 1 Frau 1 40 5 65 Mann 80 5 85 10 30 150 Gemessen wird jetzt das Risiko (bzw. die Tendenz), beschäftigt zu sein, wenn man dem (vermuteten) Nachteilsfaktor weiblich zu sein, ausgesetzt ist. R(beschäftigt Frau) = f(b 1 a 1 ) = h 11 h 1 = 40 65 = 8 13 Man sieht, dass das Risiko für sich genommen noch wenig aussagekräftig ist. RR(beschäftigt) = R(b 1 a 1 ) R(b 1 a ) = h 11/h 1 h 1 /h = 40/65 8 80/85 = 13 16 17 = 8 13 17 17 = 17 6 = 0, 65 3 Das Risiko, beschäftigt zu sein, ist bei den Frauen nur so groß wie bei den Männern, 3 also um (1 ) = 1 geringer. 3 3 Hier inhaltlich viel naheliegender: Die Risiken sind hier genau die Arbeitslosigkeitsquoten. RR(arbeitslos) = h 1/h 1 = 5/65 h /h 5/85 5 85 = 5 65 = 5 17 13 = 6.53. Das Arbeitslosigkeitsrisiko (die Arbeitslosigkeitsquoten) ist bei den Frauen 6.53 mal so groß wie bei den Männern. Es zeigt sich also ein deutlicher Gechlechtereinfluß. Bei den Frauen beträgt die Arbeitslosigkeitsquote 5 = 38.5%, bei den Männern hingegen nur 65 5.88%. Definition: Die Größe d%(b j ) := ( f(b j a 1 ) f(b j a ) ) 100, i = 1, heißt Prozentsatzdifferenz für b j. d%(b 1 ) heißt Prozentsatzdifferenz (schlechthin). Eigenschaften: d%(b 1 ) ist die Differenz aus den Erkrankungsrisiken für Personen, die exponiert waren, und für Personen, die nicht exponiert waren. d%(b j ) kann Werte zwischen 100 und 100 annehmen.

Kapitel 5. Analyse von Zusammenhängen 93 d%(b 1 ) = 0 würde bedeuten: Personen, die exponiert waren, haben das gleiche Erkrankungsrisiko wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ). d%(b 1 ) = 10 würde bedeuten: Personen, die exponiert waren, haben ein um 10 Prozentpunkte höheres Erkrankungsrisiko als Personen, die nicht exponiert waren. d%(b 1 ) = 10 würde bedeuten: Personen, die exponiert waren, haben ein um 10 Prozentpunkte niedrigeres Erkrankungsrisiko als Personen, die nicht exponiert waren. Beispiel: Beschäftigung von Männern und Frauen beschäftigt ja nein 1 Frau 1 40 5 65 Mann 80 5 85 10 30 150 d%(b 1 ) = (f(b 1 a 1 ) f(b 1 a )) 100 ( h11 = h ) 1 100 h 1 h = 40 65 80 85 100 = 8 13 16 100 = 0.615 0.941 100 = 3.6 17 Der Beschäftigtenanteil unter den Frauen beträgt 61.5%, der unter den Männer 94.1%. Es ergibt sich eine Differenz von 3.6%, die auf einen deutlichen Einfluss des Geschlechts hinweist. Offensichtlich gilt Bemerkungen: d%(b ) = (f(b a 1 ) f(b a )) 100 = = h 1 h 1 h h 100 = 3.6 d%(b 1 ) = (f(b 1 a 1 ) f(b 1 a )) = = (1 f(b a 1 )) (1 f(b a )) = (f(b a 1 )) f(b a 1 ) = = d%(b ) Den in diesem Abschnitt betrachteten Maßzahlen ist gemein, dass im Gegensatz zu den χ -basierten Maßzahlen das Vertauschen von Zeilen und Spalten die Maßzahl verändert. Das bedeutet für die Praxis: Man muss sich sehr genau überlegen, was man als abhängige und was als unabhängige Variable wählt.

94 5.. Assoziationsmessung in Kontingenztafeln Man kann die zwei Risiken in einer Vierfelder-Tafel auf zwei Arten vergleichen: durch den Quotienten: sind Zähler und Nenner eines Bruches gleich, hat er den Wert 1 (d.h. die 1 dient als Vergleichswert) der Bruch ist > 1, wenn der Zähler größer ist als der Nenner. der Bruch ist < 1, wenn der Zähler kleiner ist als der Nenner. durch die Differenz: sind die beiden Terme einer Differenz gleich, hat sie den Wert 0 (d.h. die 0 dient als Vergleichswert) die Differenz ist > 0, wenn der erste Term größer ist als der zweite. die Differenz ist < 0, wenn der erste Term kleiner ist als der zweite. Bei kleinen Risiken ist die Prozentsatzdifferenz nicht sensitiv, z.b.: f(b 1 a 1 ) = 0.4, f(b 1 a ) = 0.41 RR(b 1 ) = 1.0 d%(b 1 ) = 1 f(b 1 a 1 ) = 0.0, f(b 1 a ) = 0.01 RR(b 1 ) =.0 d%(b 1 ) = 1 In solchen Fällen muss man inhaltlich abwägen, ob der Quotient oder die Differenz aussagekräftiger ist. Definition: Die Größe O(a i ) := R(b 1 a i ) 1 R(b 1 a i ) i = 1, heißt Odds (engl. plural) oder Chance von a i. Eigenschaften: Die Odds für exponierte Personen sind das Verhältnis des Risikos, krank zu werden (im Zähler), zum Risiko, nicht krank zu werden, also 1 dem Risiko krank zu werden (im Nenner). Es gilt: O(a i ) = f(b 1 a i ) 1 f(b 1 a i ) = f(b 1 a i ) f(b a i ) = h i1/h i h i /h i = h i1 h i Interpretation: Odds O(a 1 ) = 3 bedeuten, dass exponierte Personen 3 häufiger krank werden, als dass sie gesund bleiben.

Kapitel 5. Analyse von Zusammenhängen 95 Interpretation als Wettchance: Odds O(a 1 ) = 3 bedeuten ich wäre bereit im Verhältnis 3 : 1 zu wetten, würde also jede Wette mit einem Einsatz von höchstens pro Euro Gewinn akzeptieren, dass eine exponierte Person krank wird. 3 3+1 Beispiel: Beschäftigung von Männern und Frauen beschäftigt ja nein 1 Frau 1 40 5 65 Mann 80 5 85 10 30 150 O(weiblich) = h 11 h 1 = 40 5 = 8 5 = 1.6 O(männlich) = h 1 h = 80 5 = 16 Unter den Frauen gibt es 1.6 mal so viele Beschäftigte wie Arbeitslose, unter den Männern sind es 16 mal so viele Beschäftigte wie Arbeitslose. Eine Chance für sich sagt noch nichts über den Zusammenhang zwischen X und Y aus. Wenn es unter den Exponierten halb so viele Kranke wie Gesunde gibt, so kann dies gut oder schlecht sein. Dies hängt von den Odds bei den Nichtexponierten ab. Daher verwendet man als Zusammenhangsmaß zwischen X und Y die relativen Odds, die als Odds Ratio bezeichnet werden. Definition: Die Größe OR := O(a 1) O(a ) heißt Odds Ratio und vergleicht die Odds von exponierten Personen (im Zähler) und nicht exponierten Personen (im Nenner). Eigenschaften: OR kann Werte zwischen 0 und annehmen. OR = 1 würde bedeuten: Personen, die exponiert waren, haben die gleichen Odds wie Personen, die nicht exponiert waren. Es besteht kein Zusammenhang zwischen Exposition (Merkmal X) und Erkrankung (Merkmal Y ). OR = 5 würde bedeuten: Personen, die exponiert waren, haben 5-mal so große Odds wie Personen, die nicht exponiert waren, d.h. die Chance zu erkranken wäre für exponierte Personen deutlich höher. OR = 1 würde bedeuten: Personen, die exponiert waren, haben nur ein Fünftel 5 der Odds von Personen, die nicht exponiert waren, d.h. die Chance zu erkranken wäre für exponierte Personen deutlich niedriger. Um die Asymmetrie des Wertebereichs ([0; 1) bei gegenläufigem Zusammenhang und (1, ] bei gleichgerichtetem Zusammenhang) zu umgehen, wird gelegentlich auch ln OR betrachtet. Sein Wertebereich ist (, ), wobei nun bei 0 auf keinen Zusammenhang hinweist.

96 5.. Assoziationsmessung in Kontingenztafeln Der Odds Ratio wird auch als Kreuzproduktverhältnis bezeichnet, denn es gilt: OR = O(a 1) O(a ) = R(b 1 a 1 ) 1 R(b 1 a 1 ) R(b 1 a ) 1 R(b 1 a ) = f(b 1 a 1 ) f(b a 1 ) f(b 1 a ) f(b a ) = h 11 /h 1 h 1 /h 1 h 1 /h h /h = h 11/h 1 h 1 /h = h 11 h h 1 h 1 Hieraus erkennt man auch die Parallele zu den früheren Zusammenhangsmaßen Φ und χ für 4-Felder-Tafeln, die ebenfalls auf dem Unterschied in den Produkten der Diagonalelemente h 11 h und der Nebendiagonalelemente h 1 h 1 aufbauen. Für χ gilt χ = n (h 11 h h 1 h 1 ) h 1 h h 1 h. An dieser Formel erkennt man, dass die Differenz im Zähler h 11 h h 1 h 1 groß wird, wenn die Häufigkeiten h 11 und h auf der Hauptdiagonalen groß, und die Häufigkeiten h 1 und h 1 auf den Nebendiagonalen klein sind. Im umgekehrten Fall wird die Differenz klein. Durch das Quadrieren des Zählers in der Formel für χ (bzw. durch den Übergang zum Betrag in der Formel für Φ) spielt die Richtung aber keine Rolle mehr, und χ und Φ werden insgesamt groß, wenn oder h 11 h h 1 h 1 h 11 h h 1 h 1 gilt, d.h wenn eine Diagonalstruktur vorliegt, die auf einen Zusammenhang zwischen den Merkmalen Y und X hinweist. Im OR werden dieselben Häufigkeiten nicht in einer Differenz, sondern in einem Bruch verwendet. Deshalb ist hier nicht von Interesse, ob der Koeffizient von 0 abweicht, wie bei den auf der Differenz aufbauenden Maßzahlen χ und Φ, sondern uns interessiert, ob der OR von 1 abweicht. Beispiel: Beschäftigung von Männern und Frauen beschäftigt ja nein 1 Frau 1 40 5 65 Mann 80 5 85 10 30 150 OR = O(a 1) O(a ) = 1 10