Multivariate Verfahren

Ähnliche Dokumente

Multivariate Verfahren

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Name (in Druckbuchstaben): Matrikelnummer: Unterschrift:

Tutorial: Homogenitätstest

Willkommen zur Vorlesung Statistik

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Zeichen bei Zahlen entschlüsseln

Musterlösung. Modulklausur Multivariate Verfahren

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

W-Rechnung und Statistik für Ingenieure Übung 11

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Einfache Varianzanalyse für abhängige

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Stochastische Eingangsprüfung,

OECD Programme for International Student Assessment PISA Lösungen der Beispielaufgaben aus dem Mathematiktest. Deutschland

Statistische Auswertung:

Berechnung der Erhöhung der Durchschnittsprämien

Univariates Chi-Quadrat-Verfahren für ein dichotomes Merkmal und eine Messwiederholung: Test nach McNemar

y P (Y = y) 1/6 1/6 1/6 1/6 1/6 1/6

Webergänzung zu Kapitel 10

Einfache statistische Auswertungen mit dem Programm SPSS

UNIVERSITÄT LEIPZIG WIRTSCHAFTSWISSENSCHAFTLICHE FAKULTÄT DIPLOM-PRÜFUNG

Lichtbrechung an Linsen

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Erfahrungen mit Hartz IV- Empfängern

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Aufgabe 6 Excel 2013 (Fortgeschrittene) Musterlösung

Kosten-Leistungsrechnung Rechenweg Optimales Produktionsprogramm

Fortgeschrittene Statistik Logistische Regression

Statistische Thermodynamik I Lösungen zur Serie 1

Abb. 30: Antwortprofil zum Statement Diese Kennzahl ist sinnvoll

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

V 2 B, C, D Drinks. Möglicher Lösungsweg a) Gleichungssystem: 300x y = x + 500y = 597,5 2x3 Matrix: Energydrink 0,7 Mineralwasser 0,775,

Theoretische Grundlagen der Informatik WS 09/10

E-TESTS IMPORTIEREN. von Harald Jakobs Stand:

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

teamsync Kurzanleitung

Computeria Rorschach Mit Excel Diagramme erstellen

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Klausur Nr. 1. Wahrscheinlichkeitsrechnung. Keine Hilfsmittel gestattet, bitte alle Lösungen auf dieses Blatt.

Angewandte Ökonometrie, WS 2012/13, 1. Teilprüfung am Lösungen. Das folgende Modell ist ein GARCH(1,1)-Modell:

Beispiel überschießendes Kindergeld:

Kurzanleitung MAN E-Learning (WBT)

4. Erstellen von Klassen

Prozentrechnung. Wir können nun eine Formel für die Berechnung des Prozentwertes aufstellen:

Multivariate Statistik

Daten sammeln, darstellen, auswerten

Direkter Verkauf von Produkten Antwortprofil

Historical Viewer. zu ETC5000 Benutzerhandbuch 312/15

9. Schätzen und Testen bei unbekannter Varianz

SICHERN DER FAVORITEN

Info zum Zusammenhang von Auflösung und Genauigkeit

Professionelle Seminare im Bereich MS-Office

Downloadfehler in DEHSt-VPSMail. Workaround zum Umgang mit einem Downloadfehler

Physik & Musik. Stimmgabeln. 1 Auftrag

Klausur zur Vorlesung Stochastische Modelle in Produktion und Logistik im SS 09

Kurzanleitung. MEYTON Aufbau einer Internetverbindung. 1 Von 11

Elexis-BlueEvidence-Connector

Varianzanalyse (ANOVA: analysis of variance)

Installation OMNIKEY 3121 USB

1. Man schreibe die folgenden Aussagen jeweils in einen normalen Satz um. Zum Beispiel kann man die Aussage:

Studieren- Erklärungen und Tipps

Version 0.3. Installation von MinGW und Eclipse CDT

Aufgaben zur Flächenberechnung mit der Integralrechung

Installationsleitfaden zum Fakturierungsprogramm

Übungen zur Experimentalphysik 3

Das sogenannte Beamen ist auch in EEP möglich ohne das Zusatzprogramm Beamer. Zwar etwas umständlicher aber es funktioniert

Mathematik. UND/ODER Verknüpfung. Ungleichungen. Betrag. Intervall. Umgebung

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Advoware mit VPN Zugriff lokaler Server / PC auf externe Datenbank

Internet online Update (Internet Explorer)

Abituraufgabe zur Analysis, Hessen 2009, Grundkurs (TR)

Was ist Sozial-Raum-Orientierung?

Kapitalerhöhung - Verbuchung

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

Anwendungshinweise zur Anwendung der Soziometrie

Messung von Veränderungen. Dr. Julia Kneer Universität des Saarlandes

Straße. Tiefgarage. Planung einer Tiefgarageneinfahrt Arbeitsblatt

Eine der Aktien hat immer einen höheren Gewinn als die andere Aktie. Ihre Aufgabe ist es diese auszuwählen.

Ordner Berechtigung vergeben Zugriffsrechte unter Windows einrichten

Microsoft PowerPoint Präsentationen in MP4 (H.264) umwandeln

Anwendungsbeispiele Buchhaltung

Bedienungsanleitung. Matthias Haasler. Version 0.4. für die Arbeit mit der Gemeinde-Homepage der Paulus-Kirchengemeinde Tempelhof

Statistik für Studenten der Sportwissenschaften SS 2008

Grundlagen der Inferenzstatistik

Derivate und Bewertung

Was meinen die Leute eigentlich mit: Grexit?

So richten Sie Outlook Express ein. Einrichten von Outlook Express (hier am Beispiel von Outlook Express 6) für den Empfang meiner s

Nicht über uns ohne uns

Das Mathematik-Abitur im Saarland

Sie werden sehen, dass Sie für uns nur noch den direkten PDF-Export benötigen. Warum?

Vorkurs Mathematik Übungen zu Polynomgleichungen

Wie oft soll ich essen?

Transkript:

Selbstkontrollarbeit 2 Multivariate Verfahren Musterlösung

Aufgabe 1 (28 Punkte) Der Marketing-Leiter einer Lebensmittelherstellers möchte herausfinden, mit welchem Richtpreis eine neue Joghurt-Marke auf den Markt gebracht werden soll. Es stehen die 3 Strategien Niedrigpreis-Politik (unter dem Preis der Konkurrenzprodukte), Normalpreis-Politik und Hochpreis-Politik (über dem Preis der Konkurrenzprodukte) zur Auswahl. Es ergaben sich in 6 zufällig ausgewählten Supermärkten folgende Verkaufszahlen: niedrig 85 90 mittel 65 70 hoch 40 46 1.1 Prüfen Sie, ob sich die Verkaufszahlen in den 3 Bedingungen signifikant voneinander unterscheiden (α = 0.01). Tragen Sie die Werte in eine ANOVA-Tafel ein. (8 P.) Die Hypothese H 0 : µ 1 = µ 2 = µ 3 wird mit Hilfe eines F -Tests überprüft. Gruppen und Gruppengröße: I = 3, J = 2 Gruppenmittelwerte und Gesamtmittel ȳ i+ = J 1 j y ij = {87.5, 67.5, 43.0}, ȳ ++ = I 1 i ȳi+ = 66 Hilfsgrößen: J i ȳ2 i+ = 28123.0, IJȳ 2 ++ = 26136.0, ij y2 ij = 28166 Die Quadratsummen lauten: SQE = J i ȳ2 i+ IJȳ 2 ++ = 1987.0 SQT = ij y2 ij IJȳ 2 ++ = 2030 SQR = SQT SQE = 43.0 Mittlere Quadratsummen: MQE = SQE/(I 1) = 993.5 1

MQR = SQR/(IJ I) = 14.3333 F -Test: F = MQE/MQR = 69.314 α = 0.01; F (1 α, I 1, IJ I) = 30.817 (30.8 in der Tabelle). ANOVA-Tafel: SQ Wert df F -Statistik SQE (zwischen) 1987.0 2 SQR (innerhalb) 43.0 3 F = 69.314 SQT (total) 2030 5 F (1 α, I 1, IJ I) = 30.817 Damit muß die Nullhypothese verworfen werden: Die Verkaufszahlen sind ungleich. 1.2 Geben Sie die Designmatrix in Effektkodierung explizit an. (4 P.) X = 1 1 0 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 Begründung (nicht bewertungsrelevant): Die Varianzanalyse läßt sich auch als lineares Modell y = Xβ + ɛ darstellen. In Effektdarstellung sind die Parameter β = [µ, α 1, α 2 ] und die Designmatrix in Effektkodierung ist: X = [1 I 1 J, x α 1 J ] = [1 I, x α ] 1 J 2

Explizit gilt: X = = 1 1 1, 1 1 0 1 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 [ 1 1 ] 1.3 Berechnen Sie die kleinste-quadrate-schätzer der Effekte α 1, α 2, α 3 sowie des globalen Erwartungswerts µ. (4 P.) Die kleinste-quadrate-schätzer der Effekte α 1, α 2, α 3 sowie des globalen Erwartungswerts µ ergeben sich in Matrix-Form als ˆβ = (X X) 1 X y Hierbei enthält y = y ij, i = 1,..., 3, j = 1, 2 alle Verkaufzahlen. Es gilt X X = 6 0 0 0 4 2 0 2 4 1 0 0 6, (X X) 1 = 0 1 6 1 0 1 3 6 1 3 und somit ˆβ = [ˆµ, ˆα 1, ˆα 2 ] = [66.0, 21.5, 1.5]. ˆα 3 = ˆα 1 ˆα 2 = 23 ergibt sich aus der Restriktion i α i = 0. Alternativ ergeben sich die Schätzungen aus den bereits berechneten Größen als: ˆµ = ȳ ++, ˆα 1 = ȳ 1+ ȳ ++, ˆα 2 = ȳ 2+ ȳ ++, ˆα 3 = ȳ 3+ ȳ ++. 3

1.4 Prüfen Sie, welche der Preisbedingungen sich signifikant voneinander unterscheiden. Berechnen Sie dazu Konfidenzintervalle für Paarvergleiche nach Bonferroni und Scheffé (α = 0.01). (12 P.) Konfidenzintervalle für Paarvergleiche nach Bonferroni haben die Form: ( [ ] 1/2 MQR c i Ȳ i+ ) ± t(1 α r /2, IJ I) c 2 i J i i Hierbei sind die Kontrastvektoren c von der Form [1, 1, 0], [1, 0, 1], [0, 1, 1] (Vergleich der Preispolitik). Es gilt i c2 i = 2. Die möglichen Differenzen c i Ȳ i+ sind also Ȳ1+ Ȳ2+, Ȳ1+ Ȳ 3+, Ȳ2+ Ȳ3+, in Tabellenform 1 2 3 1 20 44.5 2 24.5 3 Die Grenzen ergeben sich aus t(1 α r /2, IJ I) mit α r = α/3 (Bonferroni-Adjustierung), d.h. t(1 0.01/(2 3), 3) = 8.575 (8.58 in der Tabelle), std = [ ] 2 MQR 1/2 J = 3.786 als b = t std = 32.465. Somit lauten die Konfidenzintervalle in Tabellenform 1 2 3 1 [ 12.465, 52.465] [12.035, 76.965] 2 [ 7.965, 56.965] 3 Nur das Intervall für den Vergleich 1 mit 3 überdeckt die Null nicht, daher ist der Vergleich signifikant. Konfidenzintervalle für Paarvergleiche nach Scheffé haben die Form: ( [ c i Ȳ i+ ) ± [(I 1)F (1 α, I 1, IJ I)] 1/2 MQR c 2 i J i i ] 1/2 Die F -Quantile lauten F (0.99, 2, 3) = 30.817 (30.8 in der Tabelle), d = (I 1)F = 7.851, b = d std = 29.724. Somit lauten die Konfidenzintervalle in Tabellenform 4

1 2 3 1 [ 9.724, 49.724] [14.776, 74.224] 2 [ 5.224, 54.224] 3 Man erhält das analoge Ergebnis, daß sich nur Bedingung 1 und 3 unterscheiden. Die Verkaufszahlen bei Niedrigpreispolitik sind signifikant höher als bei Hochpreispolitik, während sich die anderen Vergleiche nicht signifikant voneinander unterscheiden. Insgesamt sind die Scheffé-Intervalle etwas enger. Aufgabe 2 (24 Punkte) Ein Unternehmen untersucht, wie die Mitarbeiter(innen) zum Arbeitsplatz kommen. Zu diesem Zweck wird die Entfernung zwischen Wohnung und Arbeitsplatz erhoben und ob der Weg motorisiert oder zu Fuß/mit dem Fahrrad zurückgelegt wird. Die erhobenen Daten finden Sie auf der dem Kurs beigelegten CD in der Datei Entfernung.sav oder hier zum Download. 2.1 Führen Sie mit SPSS eine logistische Regression durch. Kodieren Sie dafür zunächst die Variable Verkehrsart mit motorisiert (0) bzw. zu Fuß/Fahrrad (1), wählen dann einen geeigneten Menübefehl und führen die Analyse durch. (4 P.) 5

6

7

Hinweise zum Erzeugen der Lösung: 8

9

2.2 Geben Sie die Schätzwerte für das Intercept und β 1 an! Sind die Schätzwerte zum 5%-Niveau signifikant von 0 verschieden? (4 P.) ˆβ 0 = 1.412, ˆβ1 = 0.478 Beide Parameter sind zum 5%-Niveau signifikant von 0 verschieden (Sig. < 0.05) 2.3 Geben Sie das 95%-Konfidenzinterwall für β 1 an. (4 P.) ˆβ 1 ± 1.96 0.106 = 0.478 ± 0.20776, 0.68576 β 1 0.27024 2.4 Die Schätzung wurde von SPSS mit der Maximum-Likelihood-Methode vorgenommen. Geben Sie den Log-Likelihood-Wert an! (2 P.) 0.5 110.857 = 55.43 2.5 Nehmen Sie an, eine neue Mitarbeiterin wird eingestellt. Sie wohnt 5 km von ihrer neuen Arbeitsstelle entfernt. Wie hoch ist die Wahrscheinlichkeit, dass sie ihren Arbeitsweg motorisiert zurücklegt? (4 P.) ˆπ = 1 1 1 + e = 1 1 = 0.727 x ˆβ 0 1 + e [1 5][1.412.478] 2.6 In Ihrem Output finden Sie die Wald-Statistiken für H 0 : β j = 0 gegen H 1 : β j 0 mit j = 0, 1. Testen Sie nun, ob β 1 = 0.6! (6 P.) W = ( ˆβ 1 ξ) 2 s 2 1 χ 2 (1) = 3.841 = ( 0.478 ( 0.6))2 0.106 2 = 1.32467 W χ 2 (1) H 0 kann nicht abgelehnt werden. 10

Abbildung 1: SPSS-Output zu Aufgabe 3 Aufgabe 3 (24 Punkte) Abb. 1, oben, zeigt den Natrium- und Kaliumgehalt von 6 Heilwasser-Sorten. 3.1 Berechnen Sie die euklidischen Abstände (Distanzen) der Sorten Adelheidquelle, Adelholzener und Hirschquelle (auf 3 Nachkommastellen genau). (6 P.) Der euklidische Abstand der Sorten Adelheidquelle und Adelholzener ist d = x 1 x 2 = [945.400, 46.700], d d = 895962.000, d 12 = d d = 946.553. Analog ergibt sich d 15 = 689.190 und d 25 = 256.640. 11

3.2 Führen Sie mit Hilfe der Abstandsmatrix in Abb. 1, unten, eine hierarchische Klassifikation mit der Complete Linkage-Methode durch (ohne Nachkommastellen). (12 P.) Startpartition C 0 = {{1}, {2}, {3}, {4}, {5}, {6}}. Distanzmatrix {1} {2} {3} {4} {5} {6} {1} 0 947 948 646 690 377 {2} 947 0 5 301 257 570 {3} 948 5 0 302 258 571 {4} 646 301 302 0 44 269 {5} 690 257 258 44 0 313 {6} 377 570 571 269 313 0 Fusion: {2, 3}, Indexwert h 1 = 5 Folgetableau: {1} {2, 3} {4} {5} {6} {1} 0 948 646 690 377 {2, 3} 948 0 302 258 571 {4} 646 302 0 44 269 {5} 690 258 44 0 313 {6} 377 571 269 313 0 Fusion: {4, 5}, Indexwert h 2 = 44 Folgetableau: {1} {2, 3} {4, 5} {6} {1} 0 948 690 377 {2, 3} 948 0 302 571 {4, 5} 690 302 0 313 {6} 377 571 313 0 Fusion: {2, 3, 4, 5}, Indexwert h 3 = 302 Folgetableau: {1} {2, 3, 4, 5} {6} {1} 0 948 377 {2, 3, 4, 5} 948 0 571 {6} 377 571 0 Fusion: {1, 6}, Indexwert h 4 = 377 12

Folgetableau: {1, 6} {2, 3, 4, 5} {1, 6} 0 948 {2, 3, 4, 5} 948 0 Fusion: {1, 6, 2, 3, 4, 5}, Indexwert h 5 = 948 Folgetableau: Ende. {1, 6, 2, 3, 4, 5} {1, 6, 2, 3, 4, 5} 0 3.3 Zeichnen Sie ein Dendrogramm der Klassenbildung. Welche Clusterzahl halten Sie für sinnvoll? (6 P.) Ein Dendrogramm der Klassenbildung ist in Abb. 2 zu sehen. Die Wässer (2,3) mit niedrigem Mineraliengehalt werdem zuerst fusioniert, dann diejenigen mit mittlerem Gehalt (4,5), anschließend die mit hohem Gehalt (1,6). Die Wässer mit niedrig/mittlerem Gehalt bilden ein Cluster ab Indexwert h 3 = 302. Eine 2-Cluster-Lösung erscheint sinnvoll. 800 600 400 200 0 1 6 2 3 4 5 Abbildung 2: Dendrogramm zu Afg. 3.3. 13

Aufgabe 4 (24 Punkte) Es soll eine Faktorenanalyse durchgeführt werden, um festzustellen, welche Faktoren beim Fahrzeugkauf berücksichtigt werden. Dazu wird die Datei car sales.sav verwendet, die bei der Installation von SPSS mitgeliefert und standardmäßig unter C:\Program Files\IBM\SPSS\Statistics\22\Samples\German abgespeichert wird. Sie enthält hypothetische Verkaufsschätzungen, Listenpreise und physische Spezifikationen für verschiedene Fahrzeugfabrikate und -modelle. 4.1 Führen Sie eine Hauptkomponentenanalyse durch, bei der 3 Komponenten extrahiert werden. Verwenden Sie dabei die folgenden Variablen: Verkaufszahl in Tausend Wiederverkaufswert nach 4 Jahren Preis in Tausend Dollar Hubraum PS Radstand Breite Länge Gewicht Tankinhalt Kraftstoffverbrauch Rotieren Sie danach mit der Varimax-Methode. Lassen Sie folgende Informationen ausgeben: Anfangslösung, nicht rotierte Lösung, rotierte Lösung Ladungsdiagramme Univariate, deskriptive Statistiken Screeplot (8 P.) 14

15

16

17

Hinweise zum Erzeugen der Lösung: 18

4.2 Welcher Anteil der Varianz wird durch die 3 Komponenten erklärt? Wieviel trägt die dritte Komponente bei? (2 P.) 84.162% der Varianz wird erklärt. 6.776% der Varianz wird vom dritten Faktor erklärt. 4.3 Was bezeichnet man als Kommunalität, und warum ist die anfängliche Kommunalitätenschätzung für alle Variablen gleich 1? (3 P.) Der Anteil der Varianz, der von den Faktoren erklärt wird. Da zunächst die vollständige Korrelationsmatrix (und damit gleich viele Faktoren wie Variablen) verwendet wird, wird die gesamte Varianz erklärt. 19

4.4 Auf welche Komponente lädt die Variable Preis in Tausend Dollar hauptsächlich? Geben Sie die Ladungen vor und nach der Rotation an. (4 P.) Vorher: Komponente 1 mit der Ladung 0.674 Nachher: Komponente 2 mit der Ladung 0.948 4.5 Wieviele Komponenten müssen extrahiert werden, wenn man sich am Screeplot orientiert? (2 P.) 2 (Der Punkt vor dem Knick) 4.6 Angenommen, Sie führen mit den Daten eine Maximum-Likelihood- Faktorenanalyse durch. Können mit den vorhandenen Variablen 6 Faktoren geschätzt werden, ohne Restriktionen zu setzen? Und wie beantworten Sie diese Frage für die Hauptkomponentenanalyse? (5 P.) ML-Analyse: Nein, eine Schätzung ist ohne Restriktionen nicht möglich. Mit p = 12 und q = 6 ergibt sich p(p + 1)/2 = 78 84 = pq + p. Hauptkomponenten: Ja, eine Schätzung ist möglich. Da nur die Korrelationsmatrix zerlegt wird, besteht das Problem nicht. 20