Aufgaben zur Multivariaten Statistik

Prof. Dr. Reinhold Kosfeld Fachbereich Wirtschaftswissenschaften Universität Kassel Aufgaben zur Multivariaten Statistik Teil : Aufgaben zur Einleitung. Was versteht man unter einer univariaten, bivariaten und multivariaten Analyse?. ennen Sie typische univariate und bivariate Auswertungsmethoden! 3. ennen Sie multivariate Verfahren der Dependenz- und Interdependenzanalyse! Worin bestehen die Unterschiede? 5. Wodurch unterscheidet sich die Clusteranalyse von der Diskriminanzanalyse? 6. Gegeben sind die Daten der Arbeitsproduktivität (X) und der Löhne (X) in fünf Regionen: 4. Erläutern Sie den Unterschied des Begriffs Faktor in der Faktoren- und Varianzanalyse! Region A B C D E Arbeitsproduktivität 3,8 4,,8 3, 3,0 Löhne 0, 4,6,6 3,,4 Berechnen Sie den Korrelationskoeffizienten und interpretieren Sie ihn! 7. ach welchem Ordnungsprinzip ist ein Datensatz in einem Dateneditor eines Statistikprogramms wie z.b. SPSS typischerweise angeordnet? 8. Welche Informationen über die Variablen werden typischerweise in einem Dateneditor festgehalten? Teil : Aufgaben zur Faktorenanalyse. Worin besteht der Unterschied zwischen einer Hauptkomponentenanalyse und der Faktorenanalyse im engeren Sinne?. Was geben Eigenwerte in einer Faktorenanalyse wieder? 3. Was spiegeln Kommunalitäten wider? 4. Was drückt das Fundamentaltheorem der Faktorenanalyse aus?

5. Worin besteht das Kommunalitätenproblem? 6. Was ist in der Faktorenanalyse mit einer Einfachstruktur gemeint? 7. Was versteht man unter dem Rotationsproblem? 8. Auf welche Art führt die Varimax-Methode zu einer Einfachstruktur? 9. Welche Voraussetzung im Hinblick auf das Skalenniveau wird hier bei der Durchführung einer Faktorenanalyse gemacht? 0. Gegeben sind die aus den Testergebnissen (=Punkte) von 0 Schülern in sechs Schulfächern ermittelten Korrelationen: Signifikanz (-seitig) Signifikanz (-seitig) Signifikanz (-seitig) Signifikanz (-seitig) Signifikanz (-seitig) Signifikanz (-seitig) Korrelationen **. Die Korrelation ist auf dem iveau von 0,0 (-seitig) signifikant. *. Die Korrelation ist auf dem iveau von 0,05 (-seitig) signifikant. -.580**.794** -.35.68** -.73.007.000.76.00.45 0 0 0 0 0 0 -.580** -.49*.77** -.56*.546*.007.08.000.00.03 0 0 0 0 0 0.794** -.49* -.339.857** -.56.000.08.44.000.76 0 0 0 0 0 0 -.35.77** -.339 -.477*.59**.76.000.44.034.006 0 0 0 0 0 0.68** -.56*.857** -.477* -.48.00.00.000.034.9 0 0 0 0 0 0 -.73.546* -.56.59** -.48.45.03.76.006.9 0 0 0 0 0 0 a) Welche Anhaltspunkte für die Durchführung einer Faktorenanalyse liefert die Korrelationsmatrix? b) Testen Sie den Korrelationskoeffizienten der Mathematik und Englischpunkte auf Signifikanz (=0,05)!

. Bei einer Faktorenanalyse der Punkte in Schulfächern (Korrelationsmatrix s. Aufg. 0) unter Verwendung der Hauptkomponentenmethode gibt SPSS die folgende Tabelle Erklärte Varianz aus: Komponente 3 4 5 6 Anfängliche Eigenwerte Erklärte Gesamtvarianz Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % 3.67 60.76 60.76 3.67 60.76 60.76.80.33 8.608.80.33 8.608.477 7.958 89.566.384 6.405 95.97.39.35 98.96.0.704 00.000 Extraktionsmethode: Hauptkomponentenanalyse. Summen von quadrierten Faktorladungen für Extraktion Erläutern Sie anhand der SPSS-Tabelle Erklärte Gesamtvarianz das Kaiser- Kriterium! Welches kumulierte Varianzkriterium würde hier zum selben Ergebnis im Hinblick auf die Faktorenextraktion führen?. Gegeben ist die von SPSS ausgewiesene Faktormatrix (Komponentenmatrix): Komponentenmatrix a Komponente.804.39 -.838.34.88.477 -.736.53.835.37 -.586.60 Extraktionsmethode: Hauptkomponentenanalyse. a. Komponenten extrahiert a) Wie lassen sich die beiden größten Eigenwerte aus der nachstehenden Tabelle der Faktorladungen (=Komponentenladungen) reproduzieren? b) Wie lassen sich die beiden extrahierten Faktoren (Komponenten) aus der in Teil b) angegebenen Faktormatrix (Komponentenmatrix) interpretieren? 3. Welche anfänglichen Werte für die Kommunalitäten sind bei der Faktorenextraktion mit der Hauptkomponentenmethode und Hauptachsen-Faktorenanalyse verwendet worden? Inverse Korrelationsmatrix 3.396.557 -.43 -.944 -.08.060.557 3.73.050 -.387 -.39 -.80 -.43.050 5.75 -.768-3.76.39 -.944 -.387 -.768 3.54.538 -.854 -.08 -.39-3.76.538 4.66 -.59.060 -.80.39 -.854 -.59.646 3

Kommunalitäten Anfänglich Extraktion?.800?.807?.93?.85?.836?.75 Extraktionsmethode: Hauptkomponentenanalyse. Kommunalitäten Anfänglich Extraktion?.659?.774?.999?.834?.73?.43 4. Bei Durchführung einer Faktorenanalyse i. e. S. (Hauptachsen-Faktorenanalyse) gibt SPSS im Beispiel der Punktnoten in Schulfächern (Korrelationsmatrix s. Aufg. 0) die nachfolgende Tabelle Erklärte Gesamtvarianz aus: Faktor 3 4 5 6 Erklärte Gesamtvarianz Summen von quadrierten Faktorladungen Anfängliche Eigenwerte für Extraktion Rotierte Summe der quadrierten Ladungen Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % 3.67 60.76 60.76 3.387 56.447 56.447.46 40.49 40.49.80.33 8.608.03 7.056 73.50.984 33.074 73.50.477 7.958 89.566.384 6.405 95.97.39.35 98.96.0.704 00.000 a) Warum unterscheiden sich die Werte in der Spalte Kumulierte % vor und nach der Extraktion? b) Vergleichen Sie die Kommunalitäten der unrotierten und rotierten Faktormatrix miteinander! Erläutern Sie den Befund! Faktorenmatrix a Faktor.757.93 -.807.350.863.505 -.79.563.806.87 -.50.400 a. Es wurde versucht, Faktoren zu extrahieren. Es werden mehr als 3 Iterationen benötigt. (Konvergenz=. 00). Die Extraktion wurde abgebrochen. Rotierte Faktorenmatrix a Faktor.770 -.57 -.398.785.986 -.6 -.94.89.804 -.9 -.3.69 Rotationsmethode: Varimax mit Kaiser-ormalisierung. a. Die Rotation ist in 3 Iterationen konvergiert. c) Interpretieren Sie das in Teil b) durch die rotierte Faktormatrix wiedergegebene Faktormuster! 4

5. Welche Informationen können Sie der Transformationsmatrix entnehmen? Faktor-Transformationsmatrix Faktor.770 -.638.638.770 Rotationsmethode: Varimax mit Kaiser-ormalisierung. 6. Interpretieren Sie die Koeffizientenmatrix der Faktorwerte: Koeffizientenmatrix der Faktorw erte Faktor -.09 -.08 -.048.30.4.3.30.65 -.075.003.076.6 Rotationsmethode: Varimax mit Kaiser-ormalisierung. Methode für Faktorwerte: Regression. a) Woraus besteht die Koeffizientenmatrix der Faktorwerte? Wie erhält man hiermit die Matrix der Faktorwerte? b) Für drei ausgewählte Schüler sind folgende Faktorwerte ermittelt worden: Faktor Faktor Schüler -0,708-0,64 Schüler 4 0,890,4 Schüler 0,96 0,08 Hinweis: Die hier neu ausgewiesenen Faktorwerte ergeben sich nach Rotation der Faktormatrix. Interpretieren Sie die Faktorwerte! c) Der Schüler hat in den 6 Fächern folgende Punktwerte erzielt: -0,67 0,087-0,48-0,638 0,5 -,57 Reproduzieren Sie die für diesen Schüler in Teil b) ausgewiesenen Faktorwerte! 5

7. Gegeben ist die Korrelationsmatrix R 0,8 0,8 der beiden Variablen X und X, aus der zwei Faktoren nach der Hauptkomponentenmethode zu extrahieren sind. a) Welche Eigenwerte hat die Korrelationsmatrix? b) Bestimmen Sie den ersten Faktorvektor! c) Bestimmen Sie den zweiten Faktorvektor! d) Zeigen Sie, dass die beiden extrahierten Faktoren orthogonal sind! 8. Der Preis eines Produktes A sei durch die Einflussgrößen Produktivität (X), Lohn (X) und achfrage (X3) bestimmt). Mit den Variablenwerten von 30 Unternehmen, die das Produkt A anbieten, ergibt sich die Korrrelationsmatrix der 3 Einflussgrößen: 0,7 0,3 R 0,7 0. 0,3 0 a) Ermitteln Sie die Eigenwerte der Korrelationsmatrix! b) Geben Sie die Anzahl der zu extrahierenden Faktoren nach dem kumulierten Varianzkriterium von 90% an! c) Bestimmen Sie die Faktormatrix (=Matrix der Faktorladungen) für das in Teil b) angegebene kumulative Varianzkriterium nach der Hauptkomponentenmethode! d) Wie lassen sich die extrahierten Faktoren (Hauptkomponenten) interpretieren? Teil 3: Aufgaben zur Varianzanalyse. Worauf bezieht sich der Unterschied zwischen einer einfaktoriellen und mehrfaktoriellen Varianzanalyse?. Zur Eingliederung von Langzeitarbeitslosen in den Arbeitsmarkt sind zwei Methoden Fitness for the Job eingesetzt worden. Eine Evaluation der Trainingsmethoden nach einem Jahr hat Aufschluss über die Verweildauern in der Arbeitslosigkeit (in Mon.) erbracht: Trainingsmethode 0, 8, 6, Trainingsmethode 4, 3, 6, 5, 8, 6 Ist eine unterschiedliche Wirksamkeit der beiden Trainingsmethoden auf einem Signifikanzniveau von 5% statistisch gesichert? 6

3. Begründen Sie die Anzahl der Freiheitsgrade der Abweichungsquadratsummen in der einfaktoriellen Varianzanalyse! 4. Erläutern Sie die unterschiedlichen Effekte im vollständigen Modell einer zweifachen Varianzanalyse! 5. Was versteht man unter einem balanciertem Design? Welches Schätzproblem tritt bei einem unbalancierten Designs auf? 6. Überprüfen Sie die beiden Haupteffekte einer Varianzanalyse der Umsätze (=abhängige Variable) auf Signifikanz! (=0,05) Preisstrategie Werbe- Strategie 0, 8, 6, 4, 8 4, 9, 3 7, 6, 8 7. Wie ist der Interaktionseffekt in Aufg. 6 zu bewerten? (=0,05) Teil 4: Aufgaben zur Clusteranalyse. Erläutern Sie, wie das Konstrukt der Ähnlichkeit von Objekten bei qualitativen und quantitativen Merkmalen in der Clusteranalyse operationalisiert wird!. Bei verschiedenen Kunden sind 6 binäre Klassifikationsmerkmale erhoben worden. Welche Werte nehmen der Simple-Matching-Koeffizient, der Jaccard-Koeffizient und der RR-Koeffizient für die ersten beiden Kunden an, deren Objektvektoren durch x = ( 0 ) und x = ( 0 0 0 0 ) gegeben sind? 3. Bestimmen Sie die in Aufg. genannten Ähnlichkeitsmaße für die beiden ersten Kunden für den Fall, dass die vier letzten Komponenten der Objektvektoren Dummy- Variablen zweier dreiwertiger Merkmale sind, wenn die originären Merkmale als gleichwertig zu betrachten sind! 4. Erläutern Sie den beiligenden SPSS-Output (Zuordnungsübersicht, Dendrogramm) einer hierarchischen Klassifikation von 8 Kunden! Wie lässt sich hieraus die Wahl einer adäquaten Clusterzahl begründen? 7

Zuordnungsübersicht Schritt 3 4 5 6 7 Zusammengeführte Erstes Vorkommen Cluster Koeffizienten des Clusters ächster Cluster Cluster (Jaccard) Cluster Cluster Schritt 5.000 0 0 5 6 7.750 0 0 4 4.667 0 0 5 3 6.583 0 6.47 3 6 3.85 5 4 7 8.000 6 0 0 5. Die Objektvektoren der beiden Regionen B und C sind im Hinblick auf die Merkmale Bevölkerungsdichte (X) und BIP pro Einwohner (X) durch xb = (,709,54) und xc = (-,343 -,653) gegeben. Visualisieren Sie euklidische Distanz, die City-Block-Distanz und die Tschebyscheff-Distanz zwischen den beiden Objekte im zweidimensionalen Merkmalsraum! 6. Berechnen Sie die drei in Aufg. 5 genannten Distanzmaße für die beiden Regionen B und C! 7. Wodurch unterscheiden sich die Partitionsverfahren von den hierarchischen Klassifikationsverfahren? 8

8. Erläutern Sie die Gruppierung von 8 Konsumenten anhand des vorliegenden Dendrogramms! 9. Gegeben ist die die Distanzmatrix 0 0,8 D 0,3 0, 0, 0 0,7 0,6 0,4 0 0,9 0,85 0 0,75 0 von 5 Konsumenten. Ermitteln Sie hierarchische Klassifikationen nach dem - Single-Linkage-Verfahren, - Complete-Linkage-Verfahren, - Average-Linkage-Verfahren! 0. Für 4 Käufer liegen die standardisierten Werte des Einkommens und Alters und eine Klassifikation vor: i (Käufer) Einkommen Alter Cg, 0,8 C -0,6 -,3 C 3-0,8 0, C 4 0, 0,3 C Ermitteln Sie die Minimal-Distanz-Partition unter Anwendung des K-Means- Verfahrens! 9

Teil 5: Aufgaben zur Diskriminanzanalyse Gegeben sind die Daten von zwei Gruppen von Käufern im Hinblick auf die Merkmale Einkommen und Alter: Gruppe Gruppe Einkommen 40, 55, 65, 70 30, 30, 35, 45 Alter 40, 4, 63, 55 4, 4, 38, 36. Geben Sie die beiden fehlenden Elemente der Streuungsmatrix innerhalb der Gruppen (W), W 675 385...... an und interpretieren Sie sie!. Wie lauten die fehlenden Elemente der Streuungsmatrix zwischen der Gruppen (B): B 0,5...... 450? 3. Berechnen Sie den größten Eigenwert des Produktmatrix W - B,35346 0,306 0,883564 0,044 und interpretieren Sie ihn! Warum muss der zweite Eigenwert hier gleich null sein? 4. Ermitteln Sie die normierten Diskriminanzkoeffizienten (ormierung der gepoolten Varianz der Diskriminanzwerte auf )! 5. Wie lautet die normierte Diskriminanzfunktion (mit absol. Glied)? 6. Zeigen Sie, dass der Trennwert auf der Diskriminanzachse im Falle von Aufg. 5 gleich 0 ist! 7. Geben Sie die standardisierten Diskriminanzkoeffizienten und Strukturkoeffizienten an und interpretieren Sie sie! 8. Testen Sie die Eignung der beiden Merkmalsvariablen Einkommen und Alter zur Diskrimination der beiden Gruppen unter Verwendung ihrer Mittelwertvektoren auf Signifikanz (=0,05)! (Interpretation) 9. Testen Sie die gemeinsame Trennfähigkeit der beiden Klassifikationsmerkmale Einkommen und Alter unter Verwendung von Wilks Lambda auf Signifikanz (=0,05)! (Interpretation) 0