Mathematische und statistische Methoden I

Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 2010/2011 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Recap: Kontingenztabellen Wir haben Kontingenztabellen empirischen Verbundhäufigkeiten kennen gelernt. Schreibt man statt h(x i, y j ) kurz n ij, so lautet die vereinfachte Notation für Kontingenztabellen: y 1 y 2 y m Σ x 1 n 11 n 12 n 1m n 1 x 2 n 21 n 22 n 2m n 2 Zeilen x Spalten x k n k1 n k2 n km n k Σ n 1 n 2 n m n Analoge Notation für relative Häufigkeiten (mit f ij statt n ij )

Auf Nominalskalenniveau für 2x2 Kontingenztabellen Viele psychologische Fragestellungen über Zusammenhänge von Variablen beziehen sich auf 2 Merkmale mit je 2 Ausprägungen. Beispiele: Auftreten von Schizophrenie bei Frauen/Männern In solchen 2x2 Situationen kann jeder beiden Variablen durch zwei Werte abgebildet werden. X x : 0, wenn Gesund x : 1, wenn Schizophrenie 1 1 = 2 y : 1, wenn Frau Y = y2: 2, wenn Mann

Auf Nominalskalenniveau für 2x2 Kontingenztabellen Weil hier de facto eine Intervallskala erzwungen wird (genau ein Abstand zwischen Skalenwerten = konstanter Abstand zwischen Skalenwerten), kann immer die Produkt-Moment- Korrelation r als Zusammenhangsmaß berechnet werden Idee: Der 2x2 Fall bei Nominaldaten kann immer auf den ja/nein bzw. 0/1 Fall zurückgeführt werden Die Berechnungsformel für r vereinfacht sich dadurch erheblich X Y 0 1 0 1 1 2 0 2 1 2 1 2 0 1

Auf Nominalskalenniveau für 2x2 Kontingenztabellen Der Phi-Koeffizient (φ) beschreibt die Stärke des Zusammenhangs zweier dichotomer Variablen Der lässt sich nach folgender Formel berechnen: φ = n n n n nnnn 11 22 12 21 1 2 1 2 φ liegt zwischen -1 und 1. x 1 x 2 y 1 n 11 n 12 n 1 y 2 n 21 n 22 n 2 n 1 n 2 n

Auf Nominalskalenniveau für 2x2 Kontingenztabellen Problem: Bei schiefen Randverteilungen kann der φ- Koeffizient selbst bei maximalem Zusammenhang zwischen den Variablen die Grenze 1 nicht erreichen Bei schiefen Randverteilungen sollte φ daher an der maximal möglichen Korrelation normiert werden. Diese berechnet sich als min( n, n ) min( n, n ) max(, ) max(, ) 1 1 2 2 φ max = n1 n 1 n2 n 2 Und damit gilt für den normierten en φ n φ = φ max

Auf Nominalskalenniveau für k m Kontingenztabellen Ansatz: Vergleich der beobachteten Kontingenztabelle mit einer fiktiven Kontingenztabelle, die entstanden wäre, hätte kein Zusammenhang zwischen den Variablen bestanden. Abweichungen der beobachteten von den erwarteten Häufigkeiten sind dann als Abweichungen von der Unabhängigkeit aufzufassen Zur Konstruktion der Indifferenztabelle rechnet man für hx ( i, ) h(, yj) hx ( i, yj) = absolute Häufigkeiten aus n n Beobachtungen: ( ~ = erwartet ) Und bei relativen Häufigkeiten: f ( x, y ) = f( x, ) f(, y ) i j i j

Auf Nominalskalenniveau für k m Kontingenztabellen Die Indifferenztabelle konstruiert sich also durch y 1 y 2 y m Σ x 1 ñ 11 ñ 12 ñ 1m n x 2 ñ 21 ñ 22 ñ 2m n x k ñ k1 ñ k2 ñ km n k Σ n 1 n 2 n m n hx (, y) = Mit bzw. i j hx (, ) h(, y) i n j n ij = n n i j n

Auf Nominalskalenniveau der Aus den beobachteten und unter der Annahme eines nicht vorhandenen Zusammenhangs (Indifferenz) erwarteten Häufigkeiten berechnet sich nun: χ 2 k m = ( nij n ij ) n i= 1 j= 1 ij 2 ( beob - erw) 2 erw χ² ist Null bei perfekter Unabhängigkeit, ansonsten größer Null χ² kann beliebig große Werte annehmen, abhängig von der Anzahl der Ausprägungen und der Beobachtungen Für den Koeffizienten gibt es statistische Tests, mit der auf Abhängigkeit der ZVn geprüft werden kann.

Auf Nominalskalenniveau Um aus dem nicht normierten en ein als Korrelationskoeffizient interpretierbares Maß zu berechnen, wird folgende Formel verwendet: V = χ 2 n min( p 1, q 1) ist wie χ² Null bei perfekter Unabhängigkeit, ansonsten größer Null V schwankt zwischen 0 und 1

Assoziation Kausalität Interpretation Interpretation von Korrelationen Eine vorhandene (hohe) Korrelation zwischen zwei Zufallsvariablen X und Y darf nicht ohne weiteres als Kausalität zwischen den Variablen interpretiert werden. Eine signifikante Korrelation zeigt zunächst nur eine Assoziation an. Diese kann viele Ursachen haben, z.b. X X X Z Y Y Y Assoziation (Korrelation) ist nicht Kausalität

Assoziation Kausalität Interpretation Interpretation von Korrelationen Frage: Wann darf in einer psychologischen Untersuchung auf Kausalität geschlossen werden? 1. Die betrachteten Variablen müssen kovariieren die Korrelation muss ungleich Null sein Probleme: Standards ( wann ist eine Korrelation ungleich Null ) sind normativ Je kleiner n, desto größere Korrelationen können per Zufall auftreten

Assoziation Kausalität Interpretation Interpretation von Korrelationen Frage: Wann darf in einer psychologischen Untersuchung auf Kausalität geschlossen werden? 1. Die betrachteten Variablen müssen kovariieren die Korrelation muss ungleich Null sein 2. Die Ursache muss der Wirkung zeitlich vorausgehen (z.b. Pretest Treatment Posttest) 3. Andere plausible Erklärungen für die Kovariation müssen ausgeschlossen werden können 4. Die Kovariation muss raum-zeitlich indifferent sein Generalisierung auf eine Population zu jeder Zeit