Hermann Singer Multivariate Statistik 1 Auflage 15 Oktober 2012
Seite: 12 KAPITEL 1 FALLSTUDIEN Abbildung 12: Logistische Regression: Geschätzte Wahrscheinlichkeit für schlechte und gute Kredite (rot/blau) als Funktion des Alters Mit steigendem Alter sinkt die Wahrscheinlichkeit, dass der Kredit ausfällt, also p(kredit = schlecht Alter) Beispiel 12 (OECD-Daten) Ein interessanter Datensatz, der auf OECD-Erhebungen beruht 2, soll im folgenden diskutiert werden Er ist auf der Kurs-CD enthalten (als Excel-, SPSS- und JMP-Datei), kann jedoch auch im Internet als Excel- Tabelle gefunden werden (siehe http://oecdbetterlifeindexorg/) Die Excel-Tabelle kann in SPSS importiert und anschließend als SPSS- Datensatz (sav) wieder gespeichert werden (siehe Abb 13) SPSS/Datei/Öffnen/Daten/Format Excel auswählen Abb 14 zeigt die sogenannte Daten- und Variablenansicht des Datensatzes BetterLifeIndexsav Der Datensatz wird mit Hilfe des Menüs SPSS/Datei/Öffnen/Daten 2 Organisation for Economic Cooperation and Development
Seite: 20 KAPITEL 1 FALLSTUDIEN Abbildung 19: SAS/JMP: Farbmatrix der Korrelationen und Cluster (diagonales Ordnen)
17 GESICHTSPUNKTE BEI MULTIVARIATEN ANALYSEN Seite: 43 Asymmetrische Verfahren Y = f(x) UV = X AV = Y diskret stetig diskret Kreuztabellen, log-lineare Modelle kategoriale Regression kategoriale Regression Diskriminanz-Analyse stetig Varianz-Analyse Regressions-Analyse Sind die abhängigen Variablen stetig und hat man gemischte stetige und diskrete unbhängige Variablen, so spricht man auch vom allgemeinen linearen Modell Nimmt man bei der Varianz-Analyse (diskrete UV) noch stetige Kovariablen (dh weitere UV) hinzu, so ergibt sich das Modell der Kovarianzanalyse Verfahren, bei denen Objekte (Zeilen der Datenmatrix) anhand der Spalten (Variablen) gruppiert werden, entstammen dem Bereich der Clusteranalyse Hat man eine große Zahl korrelierter Variablen, so kann eine Dimensionsreduktion auf wenige latente Faktoren angestrebt werden (Faktorenanalyse) Auch sind Kombinationen von Regressions- und Faktorenanalyse möglich Dies wird als Strukturgleichungs-Modellierung bezeichnet allgemeines lineares Modell Kovarianzanalyse Clusteranalyse Faktorenanalyse Strukturgleichungs- Modellierung
Seite: 46 KAPITEL 2 MULTIVARIATE VERTEILUNGEN UND ZUFALLSVARIABLEN Abbildung 21: Bivariate Normalverteilungsdichte Obere Zeile: ρ xy = 0, σ x = 1, σ y = 2 Mittlere Zeile: ρ xy = 08 σ x = 1, σ y = 1 Untere Zeile: ρ xy = 09 σ x = 1, σ y = 1 Von Links: Regler, 3D-Graphik, Höhenlinien und simulierte Daten (N = 100) http://wwwfernuni-hagende/ls statistik/lehre/
Seite: 56 KAPITEL 2 MULTIVARIATE VERTEILUNGEN UND ZUFALLSVARIABLEN [X 1,, X p ] : p 1 für den Zufallsvektor x (wird klein geschrieben, um eine Verwechslung mit der Matrix X zu vermeiden), so ist die p-variate Normalverteilungsdichte für x N(µ, Σ) durch folgenden Ausdruck gegeben: φ(x) = det(2πσ) 1/2 exp { 1 2 (x µ) Σ 1 (x µ) } (249) Hierbei ist x = [x 1,, x p ] ein p-vektor und E(X 1 ) µ 1 µ = E[x] = = (250) E(X p ) µ p sowie Σ = Cov(X 1, X 1 ) Cov(X 1, X p ) (251) Cov(X p, X 1 ) Cov(X p, X p ) sind die Parameter (Vektoren und Matrizen) der p-variaten Normalverteilung Als Abkürzung kann man auch σ ij = Cov(X i, X j ), i, j = 1,, p schreiben Hierbei ist σ ii = σ 2 i = Var(X i ) die Varianz und σ i = σ ii die Standardabweichung Der Korrelationskoeffizient zwischen den Variablen X i und X j, i, j = 1,, p, ρ ij = σ ij σ i σ j (252) kann als Matrix P zusammengefasst werden Schreibt man alle Standardabweichungen in eine Diagonalmatrix σ 1 0 D = = diag(σ 1,, σ p ) (253) 0 σ p
32 EIN-STICHPROBEN-FALL Seite: 83 Abbildung 33: OECD-Daten Unbekanntes Σ Konfidenz-Ellipsen zu den Niveaus 1 α = 04, 09, 095, 099 Außerdem ist die Nullhypothese H 0 : µ 0 = [6, 6] eingezeichnet χ 2 -Verteilung und der Hotelling-T 2 -Verteilung ist in Abb 34, unten) zu sehen Die Quantile der Hotelling-T 2 -Verteilung sind immer größer, da ja Σ nur geschätzt wurde (analog zur Normal- und t-verteilung) Wählt man als Nullhypothese H 0 : µ = µ 0 = [7, 55], so ergibt sich [ ] [ ] 0151 0063 0846 t 2 = 32 34 [ 0846, 0947] = 6135 66 0063 0182 0947 Damit muß H 0 auf dem 5%-Niveau abgelehnt werden (vgl Abb 36) Der Stoff wird in Aufgabe 32 vertieft
Seite: 92 KAPITEL 3 TESTS UND KONFIDENZINTERVALLE Abbildung 37: Applet für simultane Konfidenz-Intervalle http://wwwfernuni-hagende/ls statistik/lehre/
Seite: 132 KAPITEL 4 REGRESSIONSANALYSE Abbildung 412: Berechnung der abhängigen Variablen y Die wahren Parameterwerte sind β 0 = 1, β 2 = 2, β 1 = 4, β 3 = 10, σ = 5
52 EINFAKTORIELLE VARIANZANALYSE MIT FIXEN EFFEKTEN Seite: 149 Das lineare Modell in Effekt-Kodierung lautet explizit: Y 11 1 1 0 0 0 Y 1J 1 1 0 0 0 Y 21 1 0 1 0 0 Y 2J 1 0 1 0 0 µ α 1 = Y I 1,1 1 0 0 0 1 Y I 1,J 1 0 0 0 1 Y I1 1 1 1 1 1 1 1 1 1 1 Y IJ α I 1 + ɛ 11 ɛ 1J ɛ 21 ɛ 2J ɛ I 1,1 ɛ I 1,J ɛ I1 Der Parameter α I, der in µ nicht vorkommt, ergibt sich als α I = I 1 i=1 α i Dies wird durch die negativen Einsen der letzten J Zeilen bewirkt Etwas kompakter kann man schreiben [ [ ] ] [ ] II 1 µ y = 1 I 1 J, 1 1 J + ɛ (556) I 1 α [ ] µ := [X 0, X α ] + ɛ (557) α Die Abkürzung ɛ IJ 1, i = i < I x α ii = 1, i = I 0, sonst (558) Effektkodierung i = 1,, I, i = 1,, I 1 bzw als Matrix 1 0 0 0 [ ] 0 1 0 0 x α II 1 = 1 = I 1 0 0 0 : I (I 1) (559) 0 0 0 1 1 1 1
61 DICHOTOME ABHÄNGIGE VARIABLEN Seite: 165 10 08 06 04 02 00 4 2 0 2 4 Abbildung 61: Responsefunktionen: Logistische (rot), Normalverteilung (orange), Gleichverteilung (grün) Die Varianzen wurden auf den Wert π 2 /3 der logistischen Funktion adjustiert Probit-Modell p(y = 1 x) = Φ(x β) (616) Probit-Modell Die unterschiedlichen Modell sind in Abb 61 dargestellt Zum besseren Vergleich wurden die Varianzen auf den Wert π 2 /3 der logistischen Funktion adjustiert Dies ist sinnvoll, da die Funktionen h(β 0 + β 1 x) = h( β 0 + β 1 x) auf eine äquivalente Modellierung führen Daher kann die Funktion verschoben und das Argument mit einem Faktor skaliert werden (vgl Fahrmeir et al, 1996, S 249) Die Unterschiede in den Funktionen sind recht gering, wobei die logistische Funktion im Gegensatz zur Normalverteilung leichter zu berechnen ist Generell muß die Response-Funktion zwischen 0 und 1 liegen, es ist nicht notwendig, daß es sich um eine kumulative Verteilungsfunktion handelt Man kann jedoch das binäre Regressions-Modell durch eine latente Variable Y = x β + ɛ motivieren, die nicht direkt beobachtet werden
73 SPEZIELLE DISTANZMASSE Seite: 215 15 10 x m d 2 05 00 x n d 1 05 05 00 05 10 15 20 25 Abbildung 73: Vergleich von euklidischer Distanz d 2 und City-Block-Metrik d 1 Diese bleibt invariant, wenn andere kürzeste Wege entlang des Rasters genommen werden 6 4 2 0 2 2 0 2 4 Abbildung 74: Daten und Abstände Translationsinvarianz der Distanzen Bei um φ rotierten Daten bleiben die Abstände invariant
Seite: 226 KAPITEL 7 CLUSTER-ANALYSE C j C k Abbildung 711: Abstand von 2 Klassen beim average-linkage-verfahren 20 15 10 5 0 1 2 3 4 5 6 Abbildung 712: Dendrogramm beim average-linkage-verfahren
83 MATHEMATISCHER EINSCHUB: HAUPTACHSENTRANSFORMATION Seite: 245 3 2 1 0-1 -2-2 -1 0 1 2 3 Abbildung 82: Simulierte [ normalverteilte ] Daten x n, n = 1,, N = 1000 1 09 mit Kovarianz-Matrix R = Die Hauptachsen zeigen in Richtung 09 1 der Winkelhalbierenden Daher sind die gedrehten Koordinaten (Hauptkomponenten) y 1, y 2 unkorreliert Die quadratische Form (Ellipse) der Matrix R x Rx = ij x i ρ ij x j = x 2 1 + 2ρx 1 x 2 + x 2 2 (844) ist diagonal im gedrehten System: x Rx = x PP RPP x (845) = y My = µ 1 y 2 1 + µ 2 y 2 2 = (1 + ρ)y 2 1 + (1 ρ)y 2 2 (846) Die im Bild gezeigte Ellipse ist allerdings x R 1 x = y M 1 y (847) = y2 1 + y2 2 (848) µ 1 µ 2 = y 2 1 1 + ρ + y2 2 1 ρ (849) = y2 1 19 + y2 2 01, (850)