Multivariate Analysemethoden Dipl.-Volksw. Rafael Rucha Klausur erster Termin im Wintersemester 2006/2007 3. Januar 2007 Das Arbeitsministerium beauftragte ein sozialwissenschaftliches Institut, eine Studie zu den Einstellungen der Bevölkerung hinsichtlich der Frauenerwerbstätigkeit durchzuführen. Zu diesem Zweck führte dieses - nachdem alle relevanten Daten erhoben wurden - zunächst eine Faktorenanalyse, darauffolgend eine multidimensionale Skalierung durch..) Beurteilen Sie die Studienskizze, indem Sie Fehler der Skizze aufzeigen und kurz falsche Aussagen korrigieren. 2.) Nehmen Sie kurz zu folgenden Aussagen Stellung: a.) Der F-Test im linearen Regressionsmodell testet, ob der Koeffizient β der unabhängigen Variablen x gleich 0 ist, d.h. ob diese unabhängige Variable signifikant zur Erklärung der abhängigen Variablen beiträgt. b.) Die Interpretation der Ergebnisse im multinomialen logistischen Regressionsmodell erfolgt stets unter Berücksichtigung der Referenzkategorie J =. c.) Bei der exploratorischen Faktorenanalyse unter Verwendung der Hauptkomponentenmethode beträgt die Kommunalität 2 h i der i-ten Variable bei standardisierten Ausgangsvariablen nach Faktorenextraktion stets, und vor der Faktorenextraktion liegt dieser Wert immer zwischen 0 und. d.) Der Ähnlichkeitskoeffizient von Russel-Rao ist immer echt größer ( > ) als der Ähnlichkeitskoeffizient von Tanimoto (bzw. Jaccard) e.) Die kophenetische Matrix ist Basis für den Complete-Linkage-Fusionierungsalgorithmus. f.) Erfolgt bei der multidimensionalen Skalierung die Messung der (Un-)Ähnlichkeiten von n Objekten über die Ankerpunktmethode, so werden diese (Un-)Ähnlichkeiten auf einer Skala von bis bewertet. n
STUDIENSKIZZE Bei der Faktorenanalyse wurde als Extraktionsmethode die Hauptkomponentenmethode gewählt. Es bedurfte im Vorfeld allerdings der Überprüfung, ob diese überhaupt durchgeführt werden konnte, was zunächst anhand der Korrelationsmatrix bestimmt wurde. Hier ergaben sich zwischen allen betrachteten Variablen keine Signifikanzen, aber durchweg sehr hohe Korrelationen. Da dieses Kriterium zur Durchführung uneindeutig war, wurden anschließend noch weitere Kriterien zur Entscheidungsfindung herangezogen. Da die Determinante der inversen Korrelationsmatrix den Wert 0,048 annahm, sprach dies eher für eine Durchführung, wohingegen der Bartlett-Test und das Kaiser-Meyer-Olkin-Kriterium eher auf eine Unterlassung der Faktorenanalyse hinwiesen. Nichtsdestotrotz wurde am Institut die gewünschte Analyse fortgeführt. Die berechneten Werte bei der erklärten Gesamtvarianz verwunderten: Hinsichtlich der zweiten Komponente betrug die erklärte Varianz über 0 % (genau: 5,277 %), dennoch wurde diese nicht bei der Extraktion berücksichtigt. Zufriedenstellend war hingegen das Ergebnis des kumulierten prozentualen Anteils der Summen der quadrierten Faktorenladungen der Extraktion. Dieser Wert betrug mehr als 50 %, was schließlich die Mindestanforderung dieses Verfahrens ist. Unbeirrt wurde die Analyse fortgeführt, und es wurde der Scree-Plot zu Rate gezogen. Auch hier entdeckte man Widersprüchliches: Die Differenz zwischen dem ersten und dritten Faktor bezüglich der Eigenwerte war größer als die Differenz zwischen dem zweiten und vierten. Man hoffte schließlich, dass sich nach der Rotation der Faktoren wenigstens das Ergebnis gut interpretieren lassen würde. Schließlich blickten Sie zufrieden auf die Ergebnisse: Da die extrahierte Komponente nach einer Varimax-Rotation hoch und positiv auf alle zu Grunde liegenden Variablen lud, konnte man schließen, dass die Komponente einen positiven kausalen Einfluss auf die betrachteten Variablen hatte. Um die abgefragten Items im Wahrnehmungsraum der befragten Personen darzustellen, wurde anschließend eine multidimensionale Skalierung durchgeführt. Da alle Optionen bezüglich der Darstellung offen gehalten werden sollten, ist neben der ein- und zweidimensionalen Darstellung des Wahrnehmungsraums auch eine dreidimensionale Darstellungsmöglichkeit gegeben gewesen. Was den Algorithmus zur Auffindung einer Lösung im Wahrnehmungsraum anbelangte, entschied man sich, den Algorithmus entweder nach 33 Iterationsschritten, nach dem Kovergenzkriterium, das den Veränderungswert 0,0020 unterschreiten sollte, oder nach dem STRESS-Wert, der dann den Wert 0,0020 unterschreiten sollte, abzubrechen. Hinsichtlich der gefundenen eindimensionalen Lösung entschied man sich, diese als hervorragend zu beurteilen, da der STRESS-Wert nach 24 Iterationen kleiner war als 0,05.
ANHANG I. Variablen a. Namen und Variablenlabel (die Zustimmung zu den Items wurde abgefragt) v72 v73 v74 v75 v76 v77 BERUFST.FRAU: HERZL. VERHAELT. ZUM KIND IST WICHTIG FRAU, LIEBER MANN BEI D.KARRIERE HELFEN? FRAU, NICHT ARBEITEN, SONDERN BEI KLEINKIND? FRAU, ZU HAUSE BLEIBEN+KINDER VERSORGEN? FRAU, BESSERE MUTTER BEI BERUFSTAETIGK.? FRAU, NACH HEIRAT ARBEITSPL. FREIMACHEN? b. Wertelabels 2 3 4 8 9 STIMME VOLL ZU STIMME EHER ZU STIMME EHER NICHT ZU STIMME GAR NICHT ZU WEISS NICHT KEINE ANGABE
II. Ergebnisse Faktorenanalyse (SPSS-Output) Korrelationen(a,b) Spearman-Rho BE- RUFST.FRAU: HERZL. VERHAELT. ZUM KIND FRAU, LIE- BER MANN BEI D.KARRIERE HELFEN? FRAU, NICHT ARBEITEN BEI KLEINKIND? FRAU, ZU HAUSE BLEI- BEN+KIN DER VER- SORGEN? FRAU, BES- SERE MUT- TER BEI BERUFSTAE- TIGK.? FRAU, NACH HEIRAT AR- BEITSPL. FREIMA- CHEN? BERUFST.FRAU: HERZL. Korrelationskoeffizient,000 -,265(**) -,434(**) -,386(**),426(**) -,27(**) VERHAELT. ZUM KIND Sig. (2-seitig).,000,000,000,000,000 FRAU, LIEBER MANN BEI D.KARRIERE HELFEN? Korrelationskoeffizient -,265(**),000,367(**),553(**) -,307(**),458(**) Sig. (2-seitig),000.,000,000,000,000 FRAU, NICHT ARBEITEN Korrelationskoeffizient -,434(**),367(**),000,558(**) -,50(**),403(**) BEI KLEINKIND? Sig. (2-seitig),000,000.,000,000,000 FRAU, ZU HAUSE BLEI- Korrelationskoeffizient -,386(**),553(**),558(**),000 -,496(**),564(**) BEN+KINDER VERSOR- Sig. (2-seitig) GEN?,000,000,000.,000,000 FRAU, BESSERE MUT- Korrelationskoeffizient,426(**) -,307(**) -,50(**) -,496(**),000 -,340(**) TER BEI BERUFSTAE- Sig. (2-seitig) TIGK.?,000,000,000,000.,000 FRAU, NACH HEIRAT Korrelationskoeffizient -,27(**),458(**),403(**),564(**) -,340(**),000 ARBEITSPL. FREIMA- Sig. (2-seitig) CHEN?,000,000,000,000,000. ** Die Korrelation ist auf dem 0,0 Niveau signifikant (zweiseitig). a Listenweises N= 266 b Determinante =,048 KMO- und Bartlett-Test Maß der Stichprobeneignung nach Kaiser-Meyer-Olkin.,837 Bartlett-Test auf Sphärizität Ungefähres Chi-Quadrat 5084,395 df 5 Signifikanz nach Bartlett,000
Erklärte Gesamtvarianz Anfängliche Eigenwerte Summen von quadrierten Faktorladungen für Extraktion Komponente Gesamt % der Varianz Kumulierte % Gesamt % der Varianz Kumulierte % 3,44 52,403 52,403 3,44 52,403 52,403 2,97 5,277 67,680 3,577 9,64 77,294 4,540 8,994 86,288 5,480 8,00 94,289 6,343 5,7 00,000 Extraktionsmethode: Hauptkomponentenanalyse. Screeplot 3 Eigenwert 2 0 2 3 Faktor 4 5 6
Komponentenmatrix(a) Komponen te BERUFST.FRAU: HERZL. VERHAELT. ZUM KIND -,622 FRAU, LIEBER MANN BEI D.KARRIERE HELFEN?,675 FRAU, NICHT ARBEITEN BEI KLEINKIND?,767 FRAU, ZU HAUSE BLEI- BEN+KINDER VERSOR- GEN? FRAU, BESSERE MUT- TER BEI BERUFSTAE- TIGK.? FRAU, NACH HEIRAT ARBEITSPL. FREIMA- CHEN?,842 -,72,706 Extraktionsmethode: Hauptkomponentenanalyse. a Komponenten extrahiert III. Ergebnisse multidimensionale Skalierung (SPSS-Output) Alscal Procedure Options Data Options- Number of Rows (Observations/Matrix). 6 Number of Columns (Variables)... 6 Number of Matrices...... Measurement Level....... Ordinal Data Matrix Shape....... Symmetric Type........... Dissimilarity Approach to Ties....... Leave Tied Conditionality........ Matrix Data Cutoff at........,000000 Model Options- Model........... Euclid Maximum Dimensionality..... 2 Minimum Dimensionality..... Negative Weights....... Not Permitted Output Options- Job Option Header....... Data Matrices........ Configurations and Transformations. Output Dataset........ Initial Stimulus Coordinates... Printed Printed Plotted Not Created Computed
Algorithmic Options- Maximum Iterations...... 33 Convergence Criterion.....,00020 Minimum S-stress.......,00020 Missing Data Estimated by.... Ulbounds Tiestore.......... C 5 Optimally scaled data (disparities) for subject 2 3 4 5,000 2 3,277,000 3 2,864,478,000 4 3,277,34,7,000 5,7 2,470 2,606 2,606,000 6 3,72,34,7,34 2,470 6 6,000 Iteration history for the dimensional solution (in squared distances) Young's S-stress formula is used. Iteration S-stress Improvement,0565 2,0444,0200 3,0359,00823 4,0300,0058 5,0265,00394 6,02344,0027 7,0258,0086 8,0200,0056 9,0885,006 0,0796,00089,0725,0007 2,0667,00058 3,068,00049 4,0576,00042 5,0540,00036 6,0508,00032 7,0479,00029 8,0452,00027 9,0427,00025 20,0404,00023 2,0382,00022 22,036,0002 23,034,00020 24,0322,0009 Iterations stopped because S-stress improvement is less than,000200
Stress and squared correlation (RSQ) in distances RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are Kruskal's stress formula. For matrix Stress =,06974 RSQ =,98992 Configuration derived in dimensions Stimulus Coordinates Dimension Stimulus Stimulus Number Name C v72,6305 2 v73 -,7020 3 v74 -,6996 4 v75 -,7034 5 v76,732 6 v77 -,6988 Konfiguration des abgeleiteten Stimulus Euklidisches Distanzmodell 2,0 v72,5 v76 Dimension,0 0,5 0,0-0,5 -,0 v75 v74 v73 v77 -,0-0,5 0,0 0,5,0 Eindimensionales Diagramm