Musterlösung Modulklausur 31821 Multivariate Verfahren 27. März 2015
Aufgabe 1 Kennzeichnen Sie die folgenden Aussagen über die beiden Zufallsvektoren ([ ] [ ]) ([ ] [ ]) 2 1 0 1 25 2 x 1 N, x 3 0 1 2 N, 0 2 1 mit R für richtig oder F für falsch. (15 Punkte) Die Differenz der beiden Zufallsvektoren, also x R 1 x 2, ist normalverteilt. R [ ] 5 6 E[x 1 x 1] = 6 10 F ( [ ]) [ ] 2 1 0 Cov x 1, = 3 0 1 R [ ] 26 2 Wenn x 1 und x 2 unkorreliert sind, gilt Var(x 1 + x 2 ) = 2 2 F Cov ([ 1 1 ] x 1, [ 1 1 ] [ ] ) 26 2 x 2 = 2 26 Hinweis: Für jede korrekte Kennzeichnung werden 3 Punkte vergeben. Jede falsche Kennzeichnung sowie nicht oder unlesbar gekennzeichnete Felder werden mit 0 Punkten bewertet. Die minimale Punktzahl der Aufgabe beträgt 0 Punkte. 2
Aufgabe 2 (27 Punkte) Eins soll eine Clusteranalyse durchgeführt werden. Der folgenden Tabelle können Sie die zwei gemessenen Merkmale der drei interessierenden Objekte entnehmen: Objekt Merkmal 1 Merkmal 2 A 5 7 B 2 3 C 3 7 D 2 6 a) Bestimmen Sie die euklidische Distanzmatrix. (10 P.) D = 0 5 2 3.2 5 0 4.1 3 2 4.1 0 1.4 3.2 3 1.4 0 b) Wie verändert sich die Distanzmatrix, wenn die Merkmalsausprägung von Merkmal 1 jeweils um 1 erhöht und die Ausprägung von Merkmal 2 um 1 vermindert wird? (2 P.) Gar nicht (Translationsinvarianz) c) Konstruieren Sie agglomerativ eine Hierarchie. Verwenden Sie die Complete-Linkage- Methode und geben Sie auch den Indexwert der Fusionierung an. (10 P.) C 0 = {{A}, {B}, {C}, {D}} C 1 = {{A}, {B}, {C, D}} C 2 = {{A, C, D}, {B}} C 3 = {{A, B, C, D}} {A} {B} {C} {D} {A} 0 5 2 3.2 {B} 5 0 4.1 3 {C} 2 4.1 0 1.4 {D} 3.2 3 1.4 0 {A} {B} {C, D} {A} 0 5 3.2 {B} 5 0 4.1 {C, D} 3.2 4.1 0 {A, C, D} {B} {A, C, D} 0 5 {B} 5 0 h 1 = 1.4 h 2 = 3.2 h 2 = 5 3
d) Zeichnen Sie das Dendrogramm. Auf Seite 3 der Lösungsbögen finden Sie kariertes Papier. (5 P.) 5 4 3 2 1 Aufgabe 3 (25 Punkte) Auf der nächsten Seite finden Sie ein SPSS-Output, in dem verschiedene Statistiken über das Brutto-Inlandsproduktes pro Kopf in Te (GDPproKopf) und den Promille-Anteil der Militärausgaben am BIP (MilitaryPromille) der EU-Mitgliedsstaaten. Betrachten Sie die Daten als Realisationen des Zufallsvektors [ GDPproKopf MilitaryPromille ]. a) Geben Sie den Mittelwertsvektor und die empirische Kovarianzmatrix an! (8 P.) µ = [ ] 35.6 17.9 Σ = [ 509 ] 47 47 69 b) Ist der Korrelationskoeffizient signifikant von 0 verschieden (5%-Niveau)? (2 P.) Nein, da p-wert 0.201 > 0.05 ist. c) Sind die Mittelwerte zum 5%-Niveau signifikant von 0 verschieden? (3 P.) Ja, da beide einen p-wert von 0.00 < 0.05 haben. d) Die Inverse der empirischen Kovarianzmatrix ist Σ 1 = 1 10 000 [ ] 21 14. Testen Sie 14 155 zum 5%-Konfidenzniveau, ob der Mittelwert gleich [ 35 20 ] ist. (12 P.) T 2 = 27 2 [ ] [ ] [ ] 0.6 26 2 27 1 21 14 0.6 = 0.85 3, 39 = F (0.95; 2, 25) 2.1 10 000 14 155 2.1 Die H 0 : µ 0 = [ 35 20 ] muss damit zum 5%-Niveau beibehalten werden. 4
5
Aufgabe 4 (33 Punkte) Auf den nächsten Seiten finden Sie die Ergebnisse einer Faktorenanalyse, die von einer Bank durchgeführt wurde. Es wurden die Daten von 1000 Kreditkunden erhoben: Laufzeit des Kredits Höhe des Kredits Alter des Kunden/der Kundin Kontostand des Girokontos des Kunden/der Kundin Ratenhöhe des Kredits in % des monatlichen Einkommens Kunden/der Kundin Die Daten wurden standardisiert, so dass Σ = R gilt. a) Wie viele Faktoren sollten verwendet werden, wenn man sich am Screeplot orientiert? Und wie viele sind notwendig, wenn 75% der Varianz erklärt werden sollen? (4 P.) Screeplot: 1; Varianz-Argument: 3 b) Interpretieren Sie den ersten Faktor vor der Rotation! (3 P.) Da nur die Variablen Laufzeit und Höhe eine Ladung mit Betrag > 0.5 haben, könnte man den Faktor bspw. Kreditkonditionen nennen. 6
c) Es sollen zwei Faktoren verwendet werden. Geben Sie die unrotierte Ladungsmatrix an! Bestimmen Sie die Kommunalitäten und die spezifischen Varianzen der Variablen Laufzeit und Höhe. (14 P.) Hinweis: Die quadrierte Ladungsmatrix ist 0.81 0.79 0.14 0.08 0.02 0.79 0.83 0.00 0.20 0.18 Λ 2 Λ 2 = 0.14 0.00 0.36 0.29 0.39 0.08 0.20 0.29 0.28 0.36 0.02 0.18 0.39 0.36 0.47 0.852 0.288 0.908 0.056 Λ 2 = 0.042 0.595 0.248 0.47 0.241 0.644 h Laufzeit = 0.81 h Höhe = 0.83 v Laufzeit = 0.19 v Höhe = 0.17 d) Ist es möglich und sinnvoll, mit der Maximum-Likelihood-Methode das Modell für 2 Faktoren zu schätzen? Begründen Sie Ihre Antwort und gehen Sie auch auf mögliche Modellrestriktionen ein. (5 P.) Ohne Restriktionen ist das Schätzen aller freien Parameter möglich, aber sinnlos. Wegen s 1 (p, q) = s 1 (5, 2) = 0 werden gleich viele Parameter zur Erklärung der Daten ohne Faktorenmodell und mit Faktorenmodell verwendet, so dass die Modellbildung und -schätzung zwar möglich ist, aber nicht zur einer sparsameren Beschreibung der Daten führt. Mit Restriktionen (z.b. der in (8.115) im Kurs genannten) ist eine Modellbildung möglich und sinnvoll (s 2 (p, q) = 1). e) Wozu dient die untere Matrix auf Seite 11? (2 P.) Rotationsmatrix. Multipliziert man sie von rechts auf die Ladungsmatrix (obere Tabelle), erhält man die rotierte Ladungsmatrix (mittlere Tabelle). f) Die Matrix der Eigenvektoren (geordnet nach absteigenden Eigenwerten) der Kovarianz- Matrix ist 0.66 0.28 0.23 0.11 0.65 0.70 0.05 0.17 0.06 0.69 P = 0.03 0.57 0.52 0.63 0.08 0.19 0.45 0.41 0.77 0.01. 0.19 0.62 0.69 0.04 0.31 7
Verwenden Sie nur einen Faktor, und schätzen Sie den Faktorwert der zweiten Messung durch die optimale lineare Prognose nach Thompson. Berücksichtigen Sie, dass die Matrix M 1 bei nur einem Faktor ein Skalar ist! (5 P.) E[ξ x] = M 1/2 1 (P 1x) = 0.99 1 [ ] 0.17 0.66 0.70 0.03 0.19 0.19 1.672 0.04 0.16 = 0.43 1.00 8
9
10
11