Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung
Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf den Markt gebracht werden soll. Es stehen die 3 Strategien Niedrigpreis-Politik (unter dem Preis der Konkurrenzprodukte), Normalpreis-Politik und Hochpreis-Politik (über dem Preis der Konkurrenzprodukte) zur Auswahl. Es ergaben sich in 6 zufällig ausgewählten Supermärkten folgende Verkaufszahlen: niedrig 85 90 mittel 65 70 hoch 40 46 1.1 Prüfen Sie, ob sich die Verkaufszahlen in den 3 Bedingungen signifikant voneinander unterscheiden (α = 0.01). Tragen Sie die Werte in eine ANOVA-Tafel ein. (8 P.) Die Hypothese H 0 : µ 1 = µ 2 = µ 3 wird mit Hilfe eines F -Tests überprüft. Gruppen und Gruppengröße: I = 3, J = 2 Gruppenmittelwerte und Gesamtmittel ȳ i+ = J 1 j y ij = {87.5, 67.5, 43.0}, ȳ ++ = I 1 i ȳi+ = 66 Hilfsgrößen: J i ȳ2 i+ = 28123.0, IJȳ 2 ++ = 26136.0, ij y2 ij = 28166 Die Quadratsummen lauten: SQE = J i ȳ2 i+ IJȳ 2 ++ = 1987.0 SQT = ij y2 ij IJȳ 2 ++ = 2030 SQR = SQT SQE = 43.0 Mittlere Quadratsummen: MQE = SQE/(I 1) = 993.5 1
MQR = SQR/(IJ I) = 14.3333 F -Test: F = MQE/MQR = 69.314 α = 0.01; F (1 α, I 1, IJ I) = 30.817 (30.8 in der Tabelle). ANOVA-Tafel: SQ Wert df F -Statistik SQE (zwischen) 1987.0 2 SQR (innerhalb) 43.0 3 F = 69.314 SQT (total) 2030 5 F (1 α, I 1, IJ I) = 30.817 Damit muß die Nullhypothese verworfen werden: Die Verkaufszahlen sind ungleich. 1.2 Geben Sie die Designmatrix in Effektkodierung explizit an. (4 P.) X = 1 1 0 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 Begründung (nicht bewertungsrelevant): Die Varianzanalyse läßt sich auch als lineares Modell y = Xβ + ɛ darstellen. In Effektdarstellung sind die Parameter β = [µ, α 1, α 2 ] und die Designmatrix in Effektkodierung ist: X = [1 I 1 J, x α 1 J ] = [1 I, x α ] 1 J 2
Explizit gilt: X = = 1 1 1, 1 1 0 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 [ 1 1 ] 1.3 Berechnen Sie die kleinste-quadrate-schätzer der Effekte α 1, α 2, α 3 sowie des globalen Erwartungswerts µ. (4 P.) Die kleinste-quadrate-schätzer der Effekte α 1, α 2, α 3 sowie des globalen Erwartungswerts µ ergeben sich in Matrix-Form als ˆβ = (X X) 1 X y Hierbei enthält y = y ij, i = 1,..., 3, j = 1, 2 alle Verkaufzahlen. Es gilt X X = 6 0 0 0 4 2 0 2 4 1 0 0 6, (X X) 1 = 0 1 6 1 0 1 3 6 1 3 und somit ˆβ = [ˆµ, ˆα 1, ˆα 2 ] = [66.0, 21.5, 1.5]. ˆα 3 = ˆα 1 ˆα 2 = 23 ergibt sich aus der Restriktion i α i = 0. Alternativ ergeben sich die Schätzungen aus den bereits berechneten Größen als: ˆµ = ȳ ++, ˆα 1 = ȳ 1+ ȳ ++, ˆα 2 = ȳ 2+ ȳ ++, ˆα 3 = ȳ 3+ ȳ ++. 3
1.4 Prüfen Sie, welche der Preisbedingungen sich signifikant voneinander unterscheiden. Berechnen Sie dazu Konfidenzintervalle für Paarvergleiche nach Bonferroni und Scheffé (α = 0.01). (12 P.) Konfidenzintervalle für Paarvergleiche nach Bonferroni haben die Form: ( [ ] 1/2 MQR c i Ȳ i+ ) ± t(1 α r /2, IJ I) c 2 i J i i Hierbei sind die Kontrastvektoren c von der Form [1, 1, 0], [1, 0, 1], [0, 1, 1] (Vergleich der Preispolitik). Es gilt i c2 i = 2. Die möglichen Differenzen c i Ȳ i+ sind also Ȳ1+ Ȳ2+, Ȳ1+ Ȳ 3+, Ȳ2+ Ȳ3+, in Tabellenform 1 2 3 1 20 44.5 2 24.5 3 Die Grenzen ergeben sich aus t(1 α r /2, IJ I) mit α r = α/3 (Bonferroni-Adjustierung), d.h. t(1 0.01/(2 3), 3) = 8.575 (8.58 in der Tabelle), std = [ ] 2 MQR 1/2 J = 3.786 als b = t std = 32.465. Somit lauten die Konfidenzintervalle in Tabellenform 1 2 3 1 [ 12.465, 52.465] [12.035, 76.965] 2 [ 7.965, 56.965] 3 Nur das Intervall für den Vergleich 1 mit 3 überdeckt die Null nicht, daher ist der Vergleich signifikant. Konfidenzintervalle für Paarvergleiche nach Scheffé haben die Form: ( [ c i Ȳ i+ ) ± [(I 1)F (1 α, I 1, IJ I)] 1/2 MQR c 2 i J i i ] 1/2 Die F -Quantile lauten F (0.99, 2, 3) = 30.817 (30.8 in der Tabelle), d = (I 1)F = 7.851, b = d std = 29.724. Somit lauten die Konfidenzintervalle in Tabellenform 4
1 2 3 1 [ 9.724, 49.724] [14.776, 74.224] 2 [ 5.224, 54.224] 3 Man erhält das analoge Ergebnis, daß sich nur Bedingung 1 und 3 unterscheiden. Die Verkaufszahlen bei Niedrigpreispolitik sind signifikant höher als bei Hochpreispolitik, während sich die anderen Vergleiche nicht signifikant voneinander unterscheiden. Insgesamt sind die Scheffé-Intervalle etwas enger. Aufgabe 2 (24 Punkte) Ein Unternehmen untersucht, wie die Mitarbeiter(innen) zum Arbeitsplatz kommen. Zu diesem Zweck wird die Entfernung zwischen Wohnung und Arbeitsplatz erhoben und ob der Weg motorisiert oder zu Fuß/mit dem Fahrrad zurückgelegt wird. Die erhobenen Daten finden Sie auf der dem Kurs beigelegten CD in der Datei Entfernung.sav oder hier zum Download. 2.1 Führen Sie mit SPSS eine logistische Regression durch. Kodieren Sie dafür zunächst die Variable Verkehrsart mit motorisiert (0) bzw. zu Fuß/Fahrrad (1), wählen dann einen geeigneten Menübefehl und führen die Analyse durch. (4 P.) 5
6
7
Hinweise zum Erzeugen der Lösung: 8
9
2.2 Geben Sie die Schätzwerte für das Intercept und β 1 an! Sind die Schätzwerte zum 5%-Niveau signifikant von 0 verschieden? (4 P.) ˆβ 0 = 1.412, ˆβ1 = 0.478 Beide Parameter sind zum 5%-Niveau signifikant von 0 verschieden (Sig. < 0.05) 2.3 Geben Sie das 95%-Konfidenzinterwall für β 1 an. (4 P.) ˆβ 1 ± 1.96 0.106 = 0.478 ± 0.20776, 0.68576 β 1 0.27024 2.4 Die Schätzung wurde von SPSS mit der Maximum-Likelihood-Methode vorgenommen. Geben Sie den Log-Likelihood-Wert an! (2 P.) 0.5 110.857 = 55.43 2.5 Nehmen Sie an, eine neue Mitarbeiterin wird eingestellt. Sie wohnt 5 km von ihrer neuen Arbeitsstelle entfernt. Wie hoch ist die Wahrscheinlichkeit, dass sie ihren Arbeitsweg motorisiert zurücklegt? (4 P.) ˆπ = 1 1 1 + e = 1 1 = 0.727 x ˆβ 0 1 + e [1 5][1.412.478] 2.6 In Ihrem Output finden Sie die Wald-Statistiken für H 0 : β j = 0 gegen H 1 : β j 0 mit j = 0, 1. Testen Sie nun, ob β 1 = 0.6! (6 P.) W = ( ˆβ 1 ξ) 2 s 2 1 χ 2 (1) = 3.841 = ( 0.478 ( 0.6))2 0.106 2 = 1.32467 W χ 2 (1) H 0 kann nicht abgelehnt werden. 10
Abbildung 1: SPSS-Output zu Aufgabe 3 Aufgabe 3 (24 Punkte) Abb. 1, oben, zeigt den Natrium- und Kaliumgehalt von 6 Heilwasser-Sorten. 3.1 Berechnen Sie die euklidischen Abstände (Distanzen) der Sorten Adelheidquelle, Adelholzener und Hirschquelle (auf 3 Nachkommastellen genau). (6 P.) Der euklidische Abstand der Sorten Adelheidquelle und Adelholzener ist d = x 1 x 2 = [945.400, 46.700], d d = 895962.000, d 12 = d d = 946.553. Analog ergibt sich d 15 = 689.190 und d 25 = 256.640. 11
3.2 Führen Sie mit Hilfe der Abstandsmatrix in Abb. 1, unten, eine hierarchische Klassifikation mit der Complete Linkage-Methode durch (ohne Nachkommastellen). (12 P.) Startpartition C 0 = {{1}, {2}, {3}, {4}, {5}, {6}}. Distanzmatrix {1} {2} {3} {4} {5} {6} {1} 0 947 948 646 690 377 {2} 947 0 5 301 257 570 {3} 948 5 0 302 258 571 {4} 646 301 302 0 44 269 {5} 690 257 258 44 0 313 {6} 377 570 571 269 313 0 Fusion: {2, 3}, Indexwert h 1 = 5 Folgetableau: {1} {2, 3} {4} {5} {6} {1} 0 948 646 690 377 {2, 3} 948 0 302 258 571 {4} 646 302 0 44 269 {5} 690 258 44 0 313 {6} 377 571 269 313 0 Fusion: {4, 5}, Indexwert h 2 = 44 Folgetableau: {1} {2, 3} {4, 5} {6} {1} 0 948 690 377 {2, 3} 948 0 302 571 {4, 5} 690 302 0 313 {6} 377 571 313 0 Fusion: {2, 3, 4, 5}, Indexwert h 3 = 302 Folgetableau: {1} {2, 3, 4, 5} {6} {1} 0 948 377 {2, 3, 4, 5} 948 0 571 {6} 377 571 0 Fusion: {1, 6}, Indexwert h 4 = 377 12
Folgetableau: {1, 6} {2, 3, 4, 5} {1, 6} 0 948 {2, 3, 4, 5} 948 0 Fusion: {1, 6, 2, 3, 4, 5}, Indexwert h 5 = 948 Folgetableau: Ende. {1, 6, 2, 3, 4, 5} {1, 6, 2, 3, 4, 5} 0 3.3 Zeichnen Sie ein Dendrogramm der Klassenbildung. Welche Clusterzahl halten Sie für sinnvoll? (6 P.) Ein Dendrogramm der Klassenbildung ist in Abb. 2 zu sehen. Die Wässer (2,3) mit niedrigem Mineraliengehalt werdem zuerst fusioniert, dann diejenigen mit mittlerem Gehalt (4,5), anschließend die mit hohem Gehalt (1,6). Die Wässer mit niedrig/mittlerem Gehalt bilden ein Cluster ab Indexwert h 3 = 302. Eine 2-Cluster-Lösung erscheint sinnvoll. 800 600 400 200 0 1 6 2 3 4 5 Abbildung 2: Dendrogramm zu Afg. 3.3. 13
Aufgabe 4 (24 Punkte) Es soll eine Faktorenanalyse durchgeführt werden, um festzustellen, welche Faktoren beim Fahrzeugkauf berücksichtigt werden. Dazu wird die Datei car sales.sav verwendet, die bei der Installation von SPSS mitgeliefert und standardmäßig unter C:\Program Files\IBM\SPSS\Statistics\22\Samples\German abgespeichert wird. Sie enthält hypothetische Verkaufsschätzungen, Listenpreise und physische Spezifikationen für verschiedene Fahrzeugfabrikate und -modelle. 4.1 Führen Sie eine Hauptkomponentenanalyse durch, bei der 3 Komponenten extrahiert werden. Verwenden Sie dabei die folgenden Variablen: Verkaufszahl in Tausend Wiederverkaufswert nach 4 Jahren Preis in Tausend Dollar Hubraum PS Radstand Breite Länge Gewicht Tankinhalt Kraftstoffverbrauch Rotieren Sie danach mit der Varimax-Methode. Lassen Sie folgende Informationen ausgeben: Anfangslösung, nicht rotierte Lösung, rotierte Lösung Ladungsdiagramme Univariate, deskriptive Statistiken Screeplot (8 P.) 14
15
16
17
Hinweise zum Erzeugen der Lösung: 18
4.2 Welcher Anteil der Varianz wird durch die 3 Komponenten erklärt? Wieviel trägt die dritte Komponente bei? (2 P.) 84.162% der Varianz wird erklärt. 6.776% der Varianz wird vom dritten Faktor erklärt. 4.3 Was bezeichnet man als Kommunalität, und warum ist die anfängliche Kommunalitätenschätzung für alle Variablen gleich 1? (3 P.) Der Anteil der Varianz, der von den Faktoren erklärt wird. Da zunächst die vollständige Korrelationsmatrix (und damit gleich viele Faktoren wie Variablen) verwendet wird, wird die gesamte Varianz erklärt. 19
4.4 Auf welche Komponente lädt die Variable Preis in Tausend Dollar hauptsächlich? Geben Sie die Ladungen vor und nach der Rotation an. (4 P.) Vorher: Komponente 1 mit der Ladung 0.674 Nachher: Komponente 2 mit der Ladung 0.948 4.5 Wieviele Komponenten müssen extrahiert werden, wenn man sich am Screeplot orientiert? (2 P.) 2 (Der Punkt vor dem Knick) 4.6 Angenommen, Sie führen mit den Daten eine Maximum-Likelihood- Faktorenanalyse durch. Können mit den vorhandenen Variablen 6 Faktoren geschätzt werden, ohne Restriktionen zu setzen? Und wie beantworten Sie diese Frage für die Hauptkomponentenanalyse? (5 P.) ML-Analyse: Nein, eine Schätzung ist ohne Restriktionen nicht möglich. Mit p = 12 und q = 6 ergibt sich p(p + 1)/2 = 78 84 = pq + p. Hauptkomponenten: Ja, eine Schätzung ist möglich. Da nur die Korrelationsmatrix zerlegt wird, besteht das Problem nicht. 20