6. Multivariate Verfahren Übersicht

Größe: px

Ab Seite anzeigen:

Download "6. Multivariate Verfahren Übersicht"

Hartmut Kirchner
vor 6 Jahren
Abrufe

1 6. Multivariate Verfahren 6. Multivariate Verfahren Übersicht 6.1 Korrelation und Unabhängigkeit 6.2 Lineare Regression 6.3 Nichtlineare Regression 6.4 Nichtparametrische Regression 6.5 Logistische Regression 6.6 Zufallszahlen 6.7 Clusteranalyse 6.8 Hauptkomponentenanalyse 6.9 Faktorenanalyse 6.10 Diskriminanzanalyse W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 468 / 420

2 Korrelation und Unabhängigkeit Unabhängigkeit und Unkorreliertheit, Wdh. Die Zufallsvariablen X 1,...,X N heißen unabhängig, falls für alle x 1,...,x N R P(X 1 < x 1,...,X N < x N ) = P(X 1 < x 1 ) P(X N < x N ) Die Zufallsvariablen X 1,...,X N heißen unkorreliert, falls E(X 1 X N ) = E(X 1 ) E(X N ). Unabhängigkeit Unkorreliertheit Unabhängigkeit Unkorreliertheit falls X i N W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 469 / 420

3 Korrelation und Unabhängigkeit Fall a) Stetige (metrische) Merkmale Seien (X i, Y i ), i = 1,...,N unabhängige bivariate Zufallsvariablen. Pearson-Korrelation r XY = (Xi X)(Y i Y) (Xi X) 2 (Y i Y) 2 T = N 2 r XY 1 r 2 XY t N 2 wird in SAS zur Berechnung der p-werte verwendet. Weitere Korrelationskoeffizienten: Spearman, Kendall wenn keine NV vorliegt, so diese nehmen! W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 471 / 420

4 Korrelation und Unabhängigkeit a) Metrisch skalierte Merkmale PROC CORR PEARSON SPEARMAN KENDALL; VAR vars; RUN; b) Ordinal oder nominal skalierte Merkmale PROC FREQ; TABLES var1*var2 / CHISQ; RUN; Descr_Scatter.sas Descr_Scatter_Heroin.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 473 / 420

5 Korrelation und Unabhängigkeit Ordinal oder nominal skalierte Merkmale Frage: Bestehen Abhängigkeiten? Geschlecht - Studienfach Studiengang - Note Geburtsmonat - IQ Antwort: χ 2 - Unabhängigkeitstest (Pearson, 1908) Annahme: X hat Ausprägungen a 1,..., a m Y hat Ausprägungen b 1,...,b l (sind die Daten metrisch, so wird automatisch eine Klasseneinteilung vorgenommen.) P(X = a i ) = p i. P(Y = b j ) = p.j P(X = a i, Y = b j ) = p ij W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 474 / 420

6 Unabhängigkeitstests Häufigkeitstabelle (= Kontingenztafel) 6. Multivariate Verfahren Korrelation und Unabhängigkeit X Y b 1 b 2 b j b l a 1 h 11 h 12 h 1j h 1l h 1. h ij : Häufigkeiten a 2 h 21 h 22 h 2j h 2l h 2. a i h i1 h i2 h ij h in h i. a m h m1 h m2 h mj h ml h m. h.1 h.2 h.j h.l h.. =N W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 475 / 420

7 Unabhängigkeitstests 6. Multivariate Verfahren Korrelation und Unabhängigkeit Die Häufigkeiten h ij werden verglichen mit den theoretischen Häufigkeiten np ij. H 0 : p ij = p i. p.j, i = 1,..., m, j = 1,...l H 1 : p ij p i. p.j, für ein Paar(i, j) H 0 : H 1 : X und Y sind unabhängig. X und Y sind abhängig. Betrachten zunächst die Stichprobenfunktion T = i (h ij np ij ) 2 np j ij W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 476 / 420

8 Unabhängigkeitstests Konstruktion der Teststatistik 6. Multivariate Verfahren Korrelation und Unabhängigkeit Problem: p i. und p.j sind unbekannt. Sie müssen also geschätzt werden, das sind m + l 2 Parameter ( p i. = p.j = 1) ˆp i. = h i. N ˆp.j = h.j N h i. = l h ij h.j = j=1 m i=1 h ij W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 477 / 420

9 Unabhängigkeitstests 6. Multivariate Verfahren Korrelation und Unabhängigkeit Einsetzen der Schätzungen in T (unter H 0 ) Q P = (h ij nˆp i.ˆp.j ) 2 nˆp i j i. ˆp.j = n (h ij h i.h.j n )2 h i j i. h.j χ 2 (m 1)(l 1) approx. unterh 0 Die Anzahl der Freiheitsgrade ergibt sich aus: m l 1 (m + l 2) }{{} #geschätzte Werte H 0 ablehnen, falls Q P > χ 2 (m 1)(l 1), bzw. falls p-wert < α W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 478 / 420

10 Korrelation und Unabhängigkeit Faustregel für die Anwendung des χ 2 -Unabhängigkeitstests: alle h ij > 0. h ij 5 für mindestens 80% der Zellen, sonst Klassen zusammenfassen. Descr_Freq_Heroin_Unabhaengigkeitstest W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 480 / 420

11 Korrelation und Unabhängigkeit Weitere Unabhängigkeitstests (1) LQ-χ 2 - Unabhängigkeitstest G 2 = 2 h ij ln h ij χ 2 (m 1)(l 1) h i j i. h.j Continuity Adjusted χ 2 (bei SAS nur: 2x2-Tafel) Q c = N i j max(0, h ij h i.h.j N 0.5)2 h i. h.j Mantel-Haenszel (r XY : Pearson-Korrelation) Phi-Koeffizient Φ = Q MH = (N 1)r 2 XY χ2 1 { h11 h1. h 22 h 12 h 21 h 2. h.1 h.2 m = l = 2 Qp /n sonst χ 2 (m 1)(l 1) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 481 / 420

12 Weitere Unabhängigkeitstests (2) Kontingenzkoeffizient Q P P = Q P + N Fishers Exact Test (bei 2x2-Tafeln) durch Auszählen aller Tafel-Möglichkeiten bei gegebenen Rändern. (gilt als etwas konservativ.) Cramers V V = { Φ falls 2x2 Tafel QP /N min(m 1,l 1) sonst W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 482 / 420

13 Weitere Unabhängigkeitstests (2) Anmerkungen Mantel- Haenszel Test verlangt ordinale Skalierung, vgl. (N 1)r 2 XY gut gegen lineare Abhängigkeit. Der χ 2 Unabhängigkeitstest testet gegen allg. Unabhängigkeit. Der LQ-Test G 2 ist plausibel und geeignet. Der LQ-Test G 2 und der χ 2 Unabhängigkeitstest sind asymptotisch äquivalent. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 483 / 420

14 Unabhängigkeitstests 6. Multivariate Verfahren Korrelation und Unabhängigkeit Φ-Koeffizient (2x2 Tafel) Y X Sportler Nichtsportler Summe w p 11 p 12 p 1. m p 21 p 22 p 2. Summe p.1 p.2 1 X Bi(1, p.2 ) Y Bi(1, p 2. ) E(X) = p.2 var(x) = p.2 (1 p.2 ) = p.2 p.1 E(Y) = p 2. var(y) = p 2. (1 p 2. ) = p 2. p 1. cov(x, Y) = E(X Y) E(X)E(Y) = p 22 p.2 p 2. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 484 / 420

15 Unabhängigkeitstests 6. Multivariate Verfahren Korrelation und Unabhängigkeit Korrelationskoeffizient in einer 2x2 Tafel ρ = p 22 p.2 p 2. p.2 p 1. p 2. p.1 = p 11p 22 p 12 p 21 p.2 p 2. p 1. p.1 p 22 p 2. p.2 = p 22 (p 21 + p 22 )(p 12 + p 22 ) = p 22 (p 21 p 12 + p 22 p 12 + p 21 p 22 + p 2 22 ) = p 22 (1 p 12 p 21 p 22 ) p 21 p 12 = p 22 p 11 p 21 p 12 Für m = l = 2 ist der Phi-Koeffizient eine Schätzung des Korrelationskoeffizienten. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 485 / 420

Ähnliche Dokumente

5.8 Anpassungstests. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 419

5.8 Anpassungstests. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 419 5.8 8.1 Einführung empirische Verteilungsfunktion 8.2 EDF- Kolmogorov-Smirnov-Test Anderson-Darling-Test Cramer-von Mises-Test 8.3 Anpassungstest auf Normalverteilung - Shapiro-Wilk-Test 8.4. auf weitere