Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 9A a.

Ähnliche Dokumente
Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Kapitel 1: Deskriptive Statistik

Hypothesentests mit SPSS. Beispiel für einen t-test

Kapitel 1: Deskriptive Statistik

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

Jost Reinecke. 7. Juni 2005

Kapitel 38 Verteilungsdiagramme

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Chi-Quadrat Verfahren

Kapitel 5: Einfaktorielle Varianzanalyse

Kapitel 4: Merkmalszusammenhänge

Aufgabenblock 4. Da Körpergröße normalverteilt ist, erhalten wir aus der Tabelle der t-verteilung bei df = 19 und α = 0.05 den Wert t 19,97.

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Einführung in SPSS. 1. Die Datei Seegräser

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Mathematische und statistische Methoden II

Angewandte Statistik 3. Semester

Fortgeschrittene Statistik Logistische Regression

Kapitel 35 Histogramme

Projekt Kaffeemaschine Welche Faktoren beeinflussen das Geschmacksurteil?

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Evaluation der Normalverteilungsannahme

Kommentierter SPSS-Ausdruck zur logistischen Regression

Statistik II. Statistische Tests. Statistik II

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

VS PLUS

Kapitel 4: Merkmalszusammenhänge

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

SPSS-Skriptum. 1. Vorbereitungen für die Arbeit mit SPSS (im Seminar)

Wiederholung Hypothesentests Zusammenfassung. Hypothesentests. Statistik I. Sommersemester Statistik I Hypothesentests I (1/36)

Datenanalyse mit Excel und Gretl

Trendlinien in Diagrammen (Excel 2010)

Weitere (wählbare) Kontraste in der SPSS Prozedur Allgemeines Lineares Modell

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Übungsbuch Statistik für Dummies

Statistik II Übung 2: Multivariate lineare Regression

SPSS III Mittelwerte vergleichen

SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben

Kapitel 5: Einfaktorielle Varianzanalyse

Aussagen hierzu sind mit einer unvermeidbaren Unsicherheit behaftet, die statistisch über eine Irrtumswahrscheinlichkeit bewertet wird.

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Literatur: Glantz, S.A. (2002). Primer of Biostatistics. New York: McGraw-Hill.

Mittelwertvergleiche, Teil I: Zwei Gruppen

Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser

Institut für Soziologie Benjamin Gedon. Methoden 2. Regressionsanalyse IV: Transformation und Interaktion

Lösungen zu den Übungsaufgaben in Kapitel 10

Analytische Statistik II

I. Deskriptive Statistik 1

Mögliche Fehler beim Testen

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Sozialwissenschaftliche Datenanalyse mit R

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Einleitung 19. Teil I SPSS kennen lernen 25. Kapitel 1 In 25 Minuten zum SPSS-Profi 27

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Biostatistik Erne Einfuhrung fur Biowissenschaftler

Datenanalyse mit SPSS spezifische Analysen

Vorlesung Wirtschaftsstatistik 2 (FK ) Multiple lineare Regression. Dipl.-Ing. Robin Ristl Wintersemester 2012/13

Lösungen zur Biomathe-Klausur Gruppe A Montag, den 16. Juli 2001

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Willkommen zur Vorlesung Statistik (Master)

Auswertung von kritischen Daten Vorgehensweise anhand eines Beispiels Visual-XSel 10.0

Kapitel 5: Einfaktorielle Varianzanalyse

Aufgaben zu Kapitel 9

8. Konfidenzintervalle und Hypothesentests

Statistik. Jan Müller

Das Dialogfeld für die Regressionsanalyse ("Lineare Regression") findet sich im Statistik- Menu unter "Regression"-"Linear":

Biomathematik für Mediziner, Klausur SS 2001 Seite 1

Marketing III - Angewandte Marktforschung (SS 2016)

SPSS-Beispiel zum Kapitel 4: Deskriptivstatistische Evaluation von Items (Itemanalyse) und Testwertverteilungen

Willkommen zur Vorlesung Statistik

Bivariate Kreuztabellen

SPSS 20 für Dummies. Bearbeitet von Felix Brosius

Datenauswertung mit Hilfe von Pivot-Tabellen in Excel

90-minütige Klausur Statistik für Studierende der Kommunikationswissenschaft

1 Installieren von SPSS Anforderungen an die Hard- und Software Die Installation durchfuhren Weitere Hinweise 3

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Statistische Datenanalyse mit SPSS

Hypothesentest, ein einfacher Zugang mit Würfeln

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

Willkommen zur Vorlesung Statistik (Master)

SPSS 16 für b ummies

Überblick über die Verfahren für Ordinaldaten

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Prüfgröße: Ist die durch eine Schätzfunktion zugeordnete reelle Zahl (etwa Mittelwert 7 C).

KATA LOGO Mathematik Statistik Roadmap: Von der Hypothese zum p-wert

Kapitel 7: Varianzanalyse mit Messwiederholung

Transkript:

LÖSUNG 9A a. Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1 Das Regressionsmodell soll nur für Büropersonal angewendet werden Management- und Bewachungspersonal (MIND =0) soll nicht einbezogen werden. Mit "Daten", "Fälle auswählen", "Falls Bedingung zutrifft" wird die Bedingung für die Auswahl der Bankangestellten definiert: TAETIG = 1 & MIND = 0. Man kann plausibel davon ausgehen, dass mit längerer Ausbildungszeit sowie mit längerer Dauer der Beschäftigung und mit längerer Berufserfahrung das Gehalt größer sein wird. Für die Regressionskoeffizienten werden daher positive Vorzeichen erwartet. Mit Analysieren, "Regression", "Linear" wird die Dialogbox "Lineare Regression" aufgerufen. Die Variable GEHALT wird in das Eingabefeld abhängige Variable und die unabhängigen Variablen AUSBILD, DAUER und ERFAHR werden in das entsprechende Eingabefeld übertragen. Als Methode wird "Einschluss" gewählt. Das Bestimmtheitsmaß beträgt R 2 = 0,313. In sozialwissenschaftlichen Untersuchungen zählt man das zu schwachen bis mittelstarken Zusammenhängen. Nur weniger als ein Drittel der Varianz von GEHALT wird durch die Erklärungsvariablen vorhergesagt (erklärt). Es handelt sich also um ein Regressionsmodell mit schwacher Vorhersage(Erklärungs-)kraft. Die aufgrund von Plausibilitätsüberlegungen erwarteten positiven Vorzeichen der Regressionskoeffizienten b i von Ausbildungs- und Beschäftigungsdauer werden empirisch gestützt. Das Vorzeichen des Regressionskoeffizienten von Berufserfahrung ist negativ und entspricht somit nicht der Erwartung. Variable mit falschem Vorzeichen sollte man i.d.r. nicht in das Modell aufnehmen. Zur Prüfung, ob die Regressionskoeffizienten i sich signifikant von 0 unterscheiden, wird ein einseitiger t-test durchgeführt. Der Test soll zur Entscheidung führen, ob die H 0 -Hypothese i

b. Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 2 = 0 oder die H 1 -Hypothese (Alternativhypothese) i > 0 angenommen werden soll. Die Prüfvariable bi i t sb ( s b = geschätzte Standardabweichung des geschätzten Regressionskoeffizienten). bzw. unter Annahme der H 0 -Hypothese i = 0: bi sb t hat eine t-verteilung mit n-m-1 Freiheitsgraden [n = Anzahl der Beobachtungen (Fälle), m = Anzahl der erklärenden Variablen]. Bei einem angenommenen Signifikanzniveau von α = 0,025 und Freiheitsgraden = n-m-1= 276-3 - 1 = 272 ergibt sich ein kritischer Wert für t in Höhe von 1,969 (berechnet mit der Funktion IDF.T(0.975,272). Für n > 30 kann die t-verteilung durch eine Standardnormalverteilung approximiert werden. Aus der Standardnormalverteilungstabelle ergibt sich ein kritischer Wert von 1,96. Da der empirische t-wert der Prüfgröße für AUSBILD und DAUER größer ist als der kritische, wird die H 0 -Hypothese ( i = 0) abgelehnt und die Alternativhypothese angenommen. Ausbildungs- und Beschäftigungsdauer haben demgemäß einen signifikanten Einfluss auf die Höhe des Gehalts. Dies ergibt sich auch aus Sig. < 0, 025. Der Regressionskoeffizient von Berufserfahrung hingegen erweist sich als nicht signifikant ( Sig = 0,10 > = 0,05). Dies ist ein zweiter Grund, die Variable wieder aus dem Modell zu entfernen. Um die Prüfungen vornehmen zu können, muss man die Vorhersage- und die Residualwerte speichern. Dazu öffnet man durch Klicken auf die Schaltfläche "Speichern" in der Dialogbox "Lineare Regression" die Dialogbox "Lineare Regression: Speichern" und wählt in den Feldern "Vorhersagte Werte" und "Residuen" die Option "Nicht standardisiert". Die Vorhersage- und die Residualwerte werden als PRE_1 und RES_1 den Variablen im Dateneditor hinzugefügt. Außerdem wird eine Ausgabetabelle mit dem Mittelwert und der Standardabweichung und weitere Daten für die Residualwerte und Vorhersagewerte (standardisiert und nicht standardisiert) erstellt. Eine Möglichkeit zu prüfen, ob die Residualwerte annähernd normalverteilt sind, bietet das Erstellen eines Histogramms der Residualwerte ("Grafik", Diagrammerstellung, Wählen von "Histogramm", Doppelklicken auf das Symbol für Einfaches Histogramm, Ziehen von RES_1 auf X-Achse?. In der Unterdialogbox Elementeigenschaften (öffnen durch Klicken auf die Schaltfläche Elementeigenschaften ) in Eigenschaften bearbeiten von für Balken1 das Auswahlkästchen "Normalverteilungskurve anzeigen" markieren). Aus dem Histogramm wird deutlich, dass die Verteilung der Residualwerte linkssteil und spitzer ist als eine Normalverteilung. Die Abweichung von der Normalverteilung ist aber nicht gravierend.

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 3 Ergänzend kann man ein QQ-Diagramm der Residualvariable erstellen. ( Analysieren, Deskriptive Statistiken, QQ-Diagramme, RES_1 in Variable(n): übertragen, als Testverteilung Normalverteilung wählen). Auch in dieser Darstellung werden Abweichungen von der Normalverteilung sichtbar. Auch eine Bewertung der Schiefe- und der Wölbungmaße kann hilfreich sein (s. Lösung zu Aufgabe 3a). Mit der Prozedur "Explorative Datenanalyse" kann man auch Tests zur Prüfung auf Normalverteilung durchführen. Dabei sollte man den Shapiro-Wilk-Test bevorzugen. Auf das Testergebnis, das eine signifikante Abweichung der Residualwerte von der Normalverteilung anzeigt, sollte man aber wegen der relativ hohen Fallzahl nicht vertrauen. Besser ist es, sich auf deskriptive Analysen zu stützen (s. Lösung zu Aufgabe 3a).

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 4 Wird die Bedingung der Normalverteilung der Residualwerte verletzt, dann sind die t-tests zur Prüfung auf Signifikanz der Regressionskoeffizienten unzuverlässig. Obwohl die Abweichung der Residualwerte von der Normalverteilung nicht gravierend ist, könnte man prüfen, ob eventuell eine logarithmische Transformation von GEHALT zu einem besseren Regressionsmodell führt. Zum Prüfen der Frage, ob die Residualwerte sich mit der Höhe der Vorhersagewerte verändern, wird ein einfaches Streudiagramm erstellt ("Grafik", "Diagrammerstellung " Auswählen von Streu-/Punktdiagramm. Durch Doppelklicken auf das Symbol für Einfaches Streudiagramm" dieses in die Diagrammvorschau übertragen. Ziehen von RES_1 auf Y-Achse? und PRE_1 auf X-Achse? ). Aus dem Streudiagramm ist tendenziell zu erkennen, dass die Streuung der Residualwerte mit der Höhe der Vorhersagewerte zunimmt. Eine derartige Zunahme der Streuung der Residualwerte bedeutet eine Verletzung einer Modellvoraussetzung der klassischen linearen Regression. Man spricht von Heteroskedastizität der Residualwerte. Erforderlich ist Homoskedastizität (die Streuung der Residualwerte sollte mit größer werdenden Vorhersagewerten konstant bleiben). Bei Vorliegen von Heteroskedastizität sind die Signifikanztests zur Prüfung der Regressionskoeffizienten nicht zuverlässig und können zu falschen Testergebnissen führen. Daher sollte man versuchen, ein besseres Regressionsmodell zu entwickeln. Als Lösung bietet es sich an, die abhängige Variable zu transformieren. So könnte z.b. geprüft werden, ob eine Logarithmierung oder ein Quadratwurzelziehen von GEHALT ein besseres Modell ermöglicht.

c. Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 5 Damit die nominalskalierte Variable GESCHL als eine erklärende Variable in ein Regressionsmodell aufgenommen werden kann, muss sie als Dummy-Variable (als 0/1-Variable) kodiert sein (s. Kapitel 18.3). Die Variable GESCHL ist eine Stringvariable mit den Variablenwerten m (männlich) und w (weiblich) und kann daher für die Regressionsanalyse zunächst nicht als erklärende Variable genutzt werden. Sie wird daher in die Variable GESCHL1 umkodiert: aus den alten Variablenwerten m und w von GESCHL werden die neuen Werte von GESCHL1 1 für m und 0 für w ("Transformieren", "Umkodieren in andere Variable", "Eingabevar:" GE- SCHL; "Ausgabevar:" GESCHL1, Ändern. Schaltfläche "Alte und neue Werte", öffnet eine Unterdialogbox. Dort "Alter Wert": m, "Neuer Wert": 1 eintragen und "Hinzufügen" klicken sowie "Alter Wert": w, "Neuer Wert": 0 eintragen und "Hinzufügen". Mit Weiter und OK ausführen.). Durchführen der Analyse wie oben (aber ohne ERFAHR) und unter Hinzunehmen von GE- SCHL1 als weitere unabhängige Variable. Bei Ergänzung der Erklärungsvariablen DAUER und AUSBILD um GESCHL1 erhöht sich das Bestimmtheitsmaß R 2 von 0,306 auf 0,374. Entscheidender für die Modellbewertung aber ist, dass sich das korrigierte Bestimmtheitsmaß erhöht (von 0,301 auf 0,367) und das Maß Standardfehler des Schätzers wesentlich kleiner wird (von 6682,174 auf 6362,485). Das Modell hat eine höhere Erklärungskraft. Diese ist aber nach wie vor gering bis mittel. Zum Vergleich: Modellzusammenfassung für Erklärungsvariable DAUER und AUSBILD Alle Regressionskoeffizienten haben das erwartete positive Vorzeichen. Ausbildungs- und Beschäftigungsdauer erhöhen das Gehalt. Dieses gilt auch für die Variable GESCHL1, da man für die Männer ein höheres Einkommen bei gleicher Ausbildungs- und Beschäftigungsdauer erwartet. Es gibt also keinen Widerspruch zum erwarteten Ergebnis. Alle Regressionskoeffizienten sind signifikant (s. ausführlicher oben). Der Regressionskoeffizient der Dummy-Variable GESCHL1 gibt an, um wie viel das Gehalt der Männer im Durchschnitt höher ist als bei den Frauen bei gleicher Ausbildungs- und Beschäftigungsdauer (um 4.537,46 $).

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 6 Das Streudiagramm mit den Residualwerten des neuen Modells auf der Y-Achse und den Vorhersagewerten auf der X-Achse zeigt, dass auch in diesem Modell Heteroskedastizität vorliegt. Auch für die Residualvariable gibt es weiterhin wenn auch keine gravierenden Abweichungen von der Normalverteilung. Es war auch nicht zu erwarten, dass hinsichtlich dieser Kriterien mit dem Einschluss von GE- SCHL1 eine Modellverbesserung eintritt. Oben wurde als eventueller Lösungsweg zur Verbesserung des Modells eine Transformation von GEHALT vorgeschlagen. Insgesamt kann man hinsichtlich einer Verbesserung des Modells also nur auf eine etwas höhere Erklärungskraft des Modells verweisen; das Modell hat einen etwas besseren "Fit".

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 7 d. Das Vorzeichen des Regressionskoeffizienten von GESCHL1 wechselt von positiv zu negativ, wenn Frauen mit 1 und Männer mit 0 kodiert werden. Der Regressionskoeffizient gibt nun an, um wie viel im Durchschnitt das Gehalt der Frauen kleiner ist als das der Männer bei gleicher Länge der Ausbildungs- und Beschäftigungsdauer.