Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3

Ähnliche Dokumente
Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Standardab er des. Testwert = % Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere

Aufgaben zu Kapitel 4

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

Syntax. Ausgabe *Ü12. *1. corr it25 with alter li_re kontakt.

SPSS-Ausgabe 1: Univariate Varianzanalyse. Profildiagramm. [DatenSet1] D:\Sozialwiss2006_7\STAT2\Daten\mathsalaries.sav. Seite 1

EVA. Anhang. I2- Intelligente Infrastruktur 125 / 189

Kapitel 4: Merkmalszusammenhänge

Hypothesentests mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Testen von Unterschiedshypothesen mit parametrischen Verfahren Der t-test

Projekt Kaffeemaschine Welche Faktoren beeinflussen das Geschmacksurteil?

Statistik I für Studierende der Wirtschaftswissenschaften Übungsblatt 12 Prof. Dr. Christian Heumann WS 2015/16

Einführung in die Statistik für Politikwissenschaftler Wintersemester 2011/2012

Kreuztabellen mit Häufigkeiten und Prozenten

Statistik II Übung 3: Hypothesentests

1. Inhaltsverzeichnis. 2. Abbildungsverzeichnis

entschieden hat, obwohl die Merkmalsausprägungen in der Grundgesamtheit voneinander abhängig sind.

Einfache statistische Auswertungen mit dem Programm SPSS

B. Regressionsanalyse [progdat.sav]

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Statistik II Übung 3: Hypothesentests Aktualisiert am

Anhang A: Fragebögen und sonstige Unterlagen

Master: Quantitative Methoden

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Bestimmen Sie die Absatzmenge eines Unternehmens, die sich bei Werbeausgaben in Höhe von ergeben wird. Werbeausgaben ( 1000)

Gliederung. 1. Einführung. Heute schon Musik gehört?

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Statistik II Übung 2: Multivariate lineare Regression

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Methoden empirischer Sozial- und Wirtschaftsforschung

Statistik II Übung 2: Multivariate lineare Regression

Kapitel 5: Einfaktorielle Varianzanalyse

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Hypothesentests mit SPSS

Kreuzvalidierung. 1. Schritt: Aufteilung der Stichprobe in ungefähr gleiche Hälften nach dem Zufall. SPSS:

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

SPSS V Gruppenvergleiche ( 2 Gruppen) abhängige (verbundene) Stichproben

Empirische Analysen mit dem SOEP

Statistik II Übung 1: Einfache lineare Regression

Zusammenhangsanalyse mit SPSS. Messung der Intensität und/oder der Richtung des Zusammenhangs zwischen 2 oder mehr Variablen

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

Unterschiedshypothesen für maximal 2 Gruppen, wenn die Voraussetzungen für parametrische Verfahren nicht erfüllt sind

SPSS III Mittelwerte vergleichen

Korrelation - Regression. Berghold, IMI

SPSS (20.0) Hilfe Version 1

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

3.1 Ergebnisse der statischen Gesichtsfeldanalyse (Statpac I)

Materialband. Marktforschung

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06

Ergebnisse VitA und VitVM

Hypothesentests mit SPSS. Beispiel für einen t-test

Teil: lineare Regression

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

SozialwissenschaftlerInnen II

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Sozialer Abstieg und Konsum

Kapitel 3: Der t-test

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

2. Deskriptive Datenanalyse

Häufigkeitsauszählungen, zentrale statistische Kennwerte und Mittelwertvergleiche

Anhang. Anhang 1: Verwendete Plasmide

Aufgaben zu Kapitel 8

Grundlagen der empirischen Sozialforschung

FRAGENKATALOG: EMPIRISCHE SOZIALFORSCHUNG HERBERT NAGEL

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Hypothesentests mit SPSS

Lösungen zum SPSS-Buch zweiter Teil Einführung in das quantitativ orientierte Forschen

Statistik mit MAXQDA Stats

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

3 Diskriminationsanalyse 3.1 Diskriminationsanalyse mit zwei Gruppen

Statistik II Übung 1: Einfache lineare Regression

Vertiefung der. Wirtschaftsmathematik. und Statistik (Teil Statistik)

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

2.1 Einführung in das Testen von Hypothesen

Einfache lineare Regressionsanalyse

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Statistisches Testen

2.5 Lineare Regressionsmodelle

Statistische Methoden in den Umweltwissenschaften

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

2. Korrelation, lineare Regression und multiple Regression

B.Heger / R. Prust WS 2010/11 Master Modul 1.3: Quantitative Methoden der empirischen Sozialforschung

Bivariate Kreuztabellen

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

erwartete Häufigkeit n=80 davon 50% Frauen fe=40 davon 50% Männer fe=40 Abweichung der beobachteten von den erwarteten Häufigkeiten:

Transkript:

Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3 Geschlecht + Anfangsgehalt 14000 399 403 7000 12000 335 Anfangsgehalt 10000 8000 6000 4000 2000 N = 28 63 185 291 227 52 215 158 88 284 193 383 371 364 394 389 391 372 398 395 390 393 400 401 380 338 357 402 388 376 375 350 247 374 351 Männer 381 352 387 329 327 314 213 331 299 148 210 Frauen 95% CI Anfangsgehalt 6000 5000 4000 N = 193 Männer 210 Frauen Geschlecht Geschlecht T-Test für das Anfangsgehalt Gruppenstatistiken Anfangsgehalt hl Geschlecht N Mittelwert Standardabw eichung er des Mittelwertes Männer 193 6472.54 1249.096 89.912 Frauen 210 5152.64 1037.448 71.591

Test bei unabhängigen Stichproben Anfangsgehalt Levene-Test der Varianzgleichheit T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Differenz F Signifikanz T df Sig. (2-seitig) Mittlere Differenz hler der Differenz Untere Obere Varianzen sind gleich.017.896 11.574 401.000 1319.90 114.043 1095.703 1544.098 Varianzen sind nicht gleich 11.484 374.383.000 1319.90 114.932 1093.907 1545.894 Regression (Produziert analoge Ergebnisse wie der T-Test bei Varianzgleichheit) Modellzusammenfassung Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.500(a).250.249 1143.683 a Einflußvariablen : (Konstante), Geschlecht Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten Modell B hler Beta T Signifikanz 1 (Konstante) 6472.539 82.324 78.623.000 Geschlecht -1319.901 114.043 -.500-11.574.000 a Abhängige Variable: Anfangsgehalt

Explorative Datenanalyse: Wiederholung für das aktuelle Gehalt Aktuelles Gehalt 22000 20000 18000 16000 403 401 402 400 397 385 387 381 379 363 366 358 361 14000 13000 14000 12000 Aktuelles Gehalt 12000 10000 8000 6000 4000 N = 193 Männer 210 Frauen 95% CI Aktuelles Gehalt 11000 10000 9000 N = 193 Männer 210 Frauen Geschlecht Geschlecht T-Test Aktuelles Gehalt Gruppenstatistiken hl Geschlecht N Mittelwert Standardabw eichung er des Mittelwertes Männer 193 12690.63 2607.988 187.727 Frauen 210 10081.70 2326.804 160.565

Test bei unabhängigen Stichproben Aktuelles Gehalt Levene-Test der Varianzgleichheit T-Test für die Mittelwertgleichheit 95% Konfidenzintervall der Differenz F Signifikanz T df Sig. (2-seitig) Mittlere Differenz hler der Differenz Untere Obere Varianzen sind gleich 2.928.088 10.612 401.000 2608.93 245.844 2125.624 3092.231 Varianzen sind nicht gleich 10.561 385.931.000 2608.93 247.027 2123.240 3094.615 Regression Modellzusammenfassung Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.468(a).219.217 2465.441 a Einflußvariablen : (Konstante), Geschlecht Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten Modell B hler Beta T Signifikanz 1 (Konstante) 12690.632 177.466 71.510.000 Geschlecht -2608.927 245.844 -.468-10.612.000

Korrelationen: Der metrischen Grössen und das dummykodierten Geschlechts: Korrelationen Aktuelles Gehalt Anfangsge halt Geschlecht Dienstalter Alter Berufserfa hrung Aktuelles Gehalt Korrelation nach Pearson 1.743(**) -.468(**).114(*) -.264(**) -.104(*) Signifikanz (2-seitig).000.000.022.000.036 N 403 403 403 403 403 403 Anfangsgehalt Korrelation nach Pearson.743(**) 1 -.500(**) -.082 -.033.111(*) Signifikanz (2-seitig).000.000.100.513.026 N 403 403 403 403 403 403 Geschlecht Korrelation nach Pearson -.468(**) -.500(**) 1 -.060.042 -.204(**) Signifikanz (2-seitig).000.000.233.400.000 N 403 403 403 403 403 403 Dienstalter Korrelation nach Pearson.114(*) -.082 -.060 1.039 -.001 Signifikanz (2-seitig).022.100.233.440.986 N 403 403 403 403 403 403 Alter Korrelation nach Pearson -.264(**) -.033.042.039 1.797(**) Signifikanz (2-seitig).000.513.400.440.000 N 403 403 403 403 403 403 Berufserfahrung Korrelation nach Pearson -.104(*).111(*) -.204(**) -.001.797(**) 1 Signifikanz (2-seitig).036.026.000.986.000 N 403 403 403 403 403 403 ** Die Korrelation ist auf dem Niveau von 0,01 (2-seitig) signifikant. * Die Korrelation ist auf dem Niveau von 0,05 (2-seitig) signifikant.

Streudiagramme: Anfangsgehalt 14000 12000 10000 8000 6000 4000 2000 Aktuelles Gehalt 22000 20000 18000 16000 14000 12000 10000 8000 6000 Geschlecht Frauen Männer Total Population Dienstalter 100 90 80 70 60 Aktuelles Gehalt 22000 20000 18000 16000 14000 12000 10000 8000 6000 Geschlecht Frauen Männer Total Population Alter 70 60 50 40 30 20 Aktuelles Gehalt 22000 20000 18000 16000 14000 12000 10000 8000 6000 Geschlecht Frauen Männer Total Population Berufserfahrung 50 40 30 20 10 0-10 Aktuelles Gehalt 22000 20000 18000 16000 14000 12000 10000 8000 6000 Geschlecht Frauen Männer Total Population

70 60 50 40 Geschlecht 30 Frauen Männer Alter 20-10 0 10 20 30 40 50 Total Population Berufserfahrung Explorative Datenanalyse: Boxplots zu den Jobkatekorien -> Gruppenbildung? -> 6. und 7. Kategorie hat keine Ausprägungen! Jobkategorie Verarbeitete Fälle Aktuelles Gehalt Fälle Gültig Fehlend Gesamt Jobkategorie N Prozent N Prozent N Prozent Büroangestellte 222 100.0% 0.0% 222 100.0% Büro-Trainees 135 100.0% 0.0% 135 100.0% Sicherheitsdienst 27 100.0% 0.0% 27 100.0% College-Trainees 13 100.0% 0.0% 13 100.0% Freie Mitarbeiter 6 100.0% 0.0% 6 100.0%

Aktuelles Gehalt 22000 20000 18000 9 5 % C I A k tu e lle s G e h a lt 16000 14000 12000 10000 8000 N = 222 135 27 13 6 Büroangestellte Sicherheitsdienst Freie Mitarbeiter Büro-Trainees College-Trainees Jobkategorie Fazit: Die bestehenden Jopkategorien sind nicht anzuwenden, da es keine Arbeitnehmer im Datensatz gibt, die Techniker oder MBA-Trainiees sind. Neue Kategorisierung muss gefunden werden!

Regression: Der metrischen Grössen und das dummykodierten Geschlechts: Aufgenommene/Entfernte Variablen(b) Modell 1 Aufgenommen e Variablen Anfangsgehalt, Alter, Dienstalter, Geschlecht, Berufserfahrun g(a) Entfernte Variablen Methode. Eingeben a Alle gewünschten Variablen wurden aufgenommen. Modellzusammenfassung(b) Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.807(a).651.647 1656.090 a Einflußvariablen : (Konstante), Anfangsgehalt, Alter, Dienstalter, Geschlecht, Berufserfahrung ANOVA(b) Modell Quadratsu mme df Mittel der Quadrate F Signifikanz 1 Regression 20331465 5 406629318. 93.227 645 148.262.000(a) Residuen 10888254 89.711 397 2742633.47 5 Gesamt 31219720 82.938 402 a Einflußvariablen : (Konstante), Anfangsgehalt, Alter, Dienstalter, Geschlecht, Berufserfahrung

Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten 95%-Konfidenzintervall für B Kollinearitätsstatistik Modell B hler Beta T Signifikanz Untergrenze Obergrenze Toleranz VIF 1 (Konstante) 1078.542 924.295 1.167.244-738.583 2895.667 Geschlecht -566.874 204.233 -.102-2.776.006-968.388-165.360.654 1.530 Dienstalter 48.447 8.366.174 5.791.000 31.999 64.894.972 1.029 Alter -50.444 11.744 -.226-4.295.000-73.532-27.356.317 3.150 Berufserfahrung -6.839 16.414 -.022 -.417.677-39.108 25.431.305 3.276 Anfangsgehalt 1.483.073.702 20.321.000 1.339 1.626.736 1.358 Kollinearitätsdiagnose(a) Varianzanteile Modell Dimension Eigenwert Konditionsi ndex (Konstante) Geschlecht Dienstalter Alter Berufserfa hrung Anfangsge halt 1 1 4.968 1.000.00.01.00.00.00.00 2.636 2.795.00.24.00.00.12.00 3.335 3.851.00.33.00.00.15.02 4.033 12.247.00.32.06.27.22.55 5.022 14.902.02.01.20.69.49.14 6.005 30.139.98.09.73.04.01.29

Fallweise Diagnose(a) Nicht standardisie Fallnummer Standardisiert e Residuen Aktuelles Gehalt rter vorhergesa gter Wert Nicht standardisiert e Residuen 335-3.221 13848 19181.51-5333.508 392 3.073 18060 12970.38 5089.618 396 3.503 18400 12599.29 5800.707 397 3.301 18750 13282.47 5467.528 Residuenstatistik(a) Minimum Maximum Mittelwert Standardabw eichung N Nicht standardisierter vorhergesagter Wert 6575.04 22122.87 11331.14 2248.906 403 Nicht standardisierte Residuen -5333.508 5800.707.000 1645.759 403 Standardisierter vorhergesagter Wert -2.115 4.799.000 1.000 403 Standardisierte Residuen -3.221 3.503.000.994 403

Regression: Jetzt wurden die obigen 4 Ausreisser entfernt! Fälle auswählen, dann Eingabe der zu den Fallnummern gehöhrenden ids in folgender Form: id ~= 1042 and id ~= 653 and id ~= 875 and id ~= 966 and id ~= 978: Aufgenommene/Entfernte Variablen(b) Modell 1 Aufgenommen e Variablen Anfangsgehalt, Alter, Dienstalter, Geschlecht, Berufserfahrun g(a) Entfernte Variablen Methode. Eingeben a Alle gewünschten Variablen wurden aufgenommen. Modellzusammenfassung(b) Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.820(a).673.669 1569.952 a Einflußvariablen : (Konstante), Anfangsgehalt, Alter, Dienstalter, Geschlecht, Berufserfahrung ANOVA(b) Modell Quadratsu mme df Mittel der Quadrate F Signifikanz 1 Regression 19952939 5 399058787. 37.500 500 161.907.000(a) Residuen 96864608 8.144 393 2464748.31 6 Gesamt 29639400 25.644 398 a Einflußvariablen : (Konstante), Anfangsgehalt, Alter, Dienstalter, Geschlecht, Berufserfahrung

Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten 95%-Konfidenzintervall für B Kollinearitätsstatistik Modell B hler Beta T Signifikanz Untergrenze Obergrenze Toleranz VIF 1 (Konstante) 1059.314 886.401 1.195.233-683.368 2801.995 Geschlecht -510.967 194.965 -.094-2.621.009-894.271-127.662.652 1.535 Dienstalter 44.393 7.974.163 5.567.000 28.716 60.071.972 1.028 Alter -49.160 11.143 -.226-4.412.000-71.067-27.254.318 3.148 Berufserfahrung -4.923 15.577 -.016 -.316.752-35.548 25.703.306 3.273 Anfangsgehalt 1.522.071.724 21.451.000 1.382 1.661.731 1.368 Kollinearitätsdiagnose(a) Varianzanteile Modell Dimension Eigenwert Konditionsi ndex (Konstante) Geschlecht Dienstalter Alter Berufserfa hrung Anfangsge halt 1 1 4.972 1.000.00.01.00.00.00.00 2.635 2.798.00.24.00.00.13.00 3.333 3.863.00.34.00.00.15.02 4.033 12.323.00.32.05.30.24.51 5.022 14.934.02.00.22.66.47.16 6.005 30.298.98.09.72.04.01.31

Fallweise Diagnose(a) Nicht standardisie Fallnummer Standardisiert e Residuen Aktuelles Gehalt rter vorhergesa gter Wert Nicht standardisiert e Residuen 402 3.003 19600 14885.29 4714.713 In id 402 wird ein neuer Ausreisser entdeckt, der im vorherigen Modell noch im 3-sigma Band der vorhergesagten Werte (ydach) lag! Residuenstatistik(a) Minimum Maximum Mittelwert Standardabw eichung N Nicht standardisierter vorhergesagter Wert 6613.68 22406.65 11271.66 2239.040 399 Nicht standardisierte Residuen -3833.343 4714.713.000 1560.059 399 Standardisierter vorhergesagter Wert -2.080 4.973.000 1.000 399 Standardisierte Residuen -2.442 3.003.000.994 399

Regression: Jobkategoriene als Dummyvariable, 1 Büroangestellte + Trainees, 0 sonst! Berufserfahrung wurde entfernt: Aufgenommene/Entfernte Variablen(b) Modell 1 Aufgenommen e Variablen Bürobeschäftigt e, Dienstalter, Alter, Geschlecht, Anfangsgehalt( a) Entfernte Variablen Methode. Eingeben a Alle gewünschten Variablen wurden aufgenommen. Modellzusammenfassung(b) Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.824(a).679.675 1588.749 a Einflußvariablen : (Konstante), Bürobeschäftigte, Dienstalter, Alter, Geschlecht, Anfangsgehalt ANOVA(b) Modell Quadratsu mme df Mittel der Quadrate F Signifikanz 1 Regression 21198948 5 423978972. 64.787 957 167.971.000(a) Residuen 10020772 18.151 397 2524123.97 5 Gesamt 31219720 82.938 402 a Einflußvariablen : (Konstante), Bürobeschäftigte, Dienstalter, Alter, Geschlecht, Anfangsgehalt

Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten 95%-Konfidenzintervall für B Kollinearitätsstatistik Modell B hler Beta T Signifikanz Untergrenze Obergrenze Toleranz VIF 1 (Konstante) 3745.675 980.824 3.819.000 1817.417 5673.934 Geschlecht -418.991 185.454 -.075-2.259.024-783.586-54.395.730 1.370 Dienstalter 48.052 8.001.173 6.005.000 32.322 63.782.978 1.023 Alter -63.541 6.543 -.285-9.711.000-76.404-50.677.941 1.062 Anfangsgehalt 1.342.074.635 18.156.000 1.196 1.487.661 1.514 Bürobeschäftigte -1651.313 280.909 -.189-5.878.000-2203.568-1099.057.785 1.274 Kollinearitätsdiagnose(a) Varianzanteile Modell Dimension Eigenwert Konditionsi ndex (Konstante) Geschlecht Dienstalter Alter Anfangsge halt Bürobesch äftigte 1 1 5.322 1.000.00.01.00.00.00.00 2.457 3.412.00.63.00.00.01.00 3.124 6.539.00.07.00.27.00.44 4.069 8.798.00.15.00.57.16.21 5.023 15.151.01.05.36.09.45.20 6.005 33.349.98.10.64.06.38.15 Kondition verschlimmert sich!

Fallweise Diagnose(a) Nicht standardisie Fallnummer Standardisiert e Residuen Aktuelles Gehalt rter vorhergesa gter Wert Nicht standardisiert e Residuen 358 3.059 15060 10199.92 4860.079 386 3.095 17364 12446.89 4917.108 392 3.356 18060 12728.85 5331.155 396 3.785 18400 12385.97 6014.034 402 3.363 19600 14256.60 5343.395 Residuenstatistik(a) Minimum Maximum Mittelwert Standardabw eichung N Nicht standardisierter vorhergesagter Wert 6456.76 22503.90 11331.14 2296.382 403 Nicht standardisierte Residuen -4257.589 6014.034.000 1578.838 403 Standardisierter vorhergesagter Wert -2.123 4.865.000 1.000 403 Standardisierte Residuen -2.680 3.785.000.994 403

Regression: Alle Ausreisser entfernt: Aufgenommene/Entfernte Variablen(b) Modell 1 Aufgenommen e Variablen Bürobeschäftigt e, Dienstalter, Alter, Geschlecht, Anfangsgehalt( a) Entfernte Variablen Methode. Eingeben a Alle gewünschten Variablen wurden aufgenommen. Modellzusammenfassung(b) Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.838(a).702.698 1491.045 a Einflußvariablen : (Konstante), Bürobeschäftigte, Dienstalter, Alter, Geschlecht, Anfangsgehalt ANOVA(b) Modell Quadratsu mme df Mittel der Quadrate F Signifikanz 1 Regression 20513952 5 410279047. 38.025 605 184.543.000(a) Residuen 87150088 3.794 392 2223216.54 0 Gesamt 29228961 21.819 397 a Einflußvariablen : (Konstante), Bürobeschäftigte, Dienstalter, Alter, Geschlecht, Anfangsgehalt

Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten 95%-Konfidenzintervall für B Kollinearitätsstatistik Modell B hler Beta T Signifikanz Untergrenze Obergrenze Toleranz VIF 1 (Konstante) 4081.449 921.941 4.427.000 2268.882 5894.017 Geschlecht -347.823 175.061 -.064-1.987.048-691.999-3.647.731 1.368 Dienstalter 46.532 7.567.171 6.150.000 31.655 61.409.981 1.020 Alter -63.887 6.160 -.295-10.371.000-75.998-51.776.941 1.062 Anfangsgehalt 1.313.070.640 18.838.000 1.176 1.450.660 1.515 Bürobeschäftigte -1803.822 264.525 -.213-6.819.000-2323.887-1283.756.781 1.280 Kollinearitätsdiagnose(a) Varianzanteile Modell Dimension Eigenwert Konditionsi ndex (Konstante) Geschlecht Dienstalter Alter Anfangsge halt Bürobesch äftigte 1 1 5.324 1.000.00.01.00.00.00.00 2.454 3.424.00.63.00.00.01.00 3.125 6.524.00.07.00.27.00.44 4.070 8.750.00.14.00.57.16.21 5.023 15.237.01.05.36.09.45.20 6.005 33.208.98.09.64.06.38.15

Fallweise Diagnose(a) Nicht standardisie Fallnummer Standardisiert e Residuen Aktuelles Gehalt rter vorhergesa gter Wert Nicht standardisiert e Residuen 384 3.133 16920 12248.42 4671.577 386 3.379 17364 12325.62 5038.384 SPSS entdeckt 2 neue Ausreisser! Das Entfernen der Ausreisser bringt neue Koeffizientenschätzungen hervor, woraufhin sich natürlich auch die vorhergesagten Werte (y dach) ändern. Dies hat zur Folge, dass das 3-sigma Band um y dach enger wird und neue Werte herausfallen. Man könnte versuchen weiter die Ausreisser zu entfernen bis es keine mehr gibt, allerdings stellt sich dann die Frage, ob man nicht zu viele wertvolle Informationen einfach ignoriert. Residuenstatistik(a) Minimum Maximum Mittelwert Standardabw eichung N Nicht standardisierter vorhergesagter Wert 6467.25 22355.29 11255.30 2273.157 398 Nicht standardisierte Residuen -3984.612 5038.384.000 1481.626 398 Standardisierter vorhergesagter Wert -2.106 4.883.000 1.000 398 Standardisierte Residuen -2.672 3.379.000.994 398

Explorative Datenanalyse: Erklärungsversuch des Anstiegs der Konditionszahl nach der Aufnahme des neuen Dummies: Aktuelles Gehalt Kreuztabellen Anzahl Geschlecht * Bürobeschäftigte Kreuztabelle Bürobeschäftigte Büroangest ellte und - sonst trainees Gesamt Geschlecht Männer 40 153 193 Frauen 6 204 210 Gesamt 46 357 403

Chi-Quadrat-Tests Wert df Asymptotische Signifikanz (2- seitig) Chi-Quadrat nach Pearson 31.756(b) 1.000 a Wird nur für eine 2x2-Tabelle berechnet b 0 Zellen (.0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 22.03. Symmetrische Maße Näherungs weise Wert Signifikanz Nominal- bzgl. Phi.281.000 Nominalmaß Cramer-V.281.000 Kontingenzkoeffizient.270.000 Anzahl der gültigen Fälle 403 a Die Null-Hyphothese wird nicht angenommen. b Unter Annahme der Null-Hyphothese wird der asymptotische hler verwendet. Risikoschätzer Quotenverhältnis für Geschlecht (Männer / Frauen) 95%-Konfidenzintervall Wert Untere Obere 8.889 3.675 21.501 Anzahl der gültigen Fälle 403 Diese Analyse deutet auf einen starken Zusammenhang zwischen dem Geschlecht und der gewählten Jobkategorisierung hin. Der Grossteil der Frauen der Firma arbeitet im Büro und nur 6 arbeiten in sonstigen Jobs. 40 von 193 Männern haben einen anderen Job als die Bürotätigkeit.

Regression: Mal ohne Geschlecht: Aufgenommene/Entfernte Variablen(b) Modell 1 Aufgenommen e Variablen Bürobeschäftigt e, Dienstalter, Alter, Anfangsgehalt( a) Entfernte Variablen Methode. Eingeben a Alle gewünschten Variablen wurden aufgenommen. Modellzusammenfassung(b) Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.822(a).675.672 1596.920 a Einflußvariablen : (Konstante), Bürobeschäftigte, Dienstalter, Alter, Anfangsgehalt ANOVA(b) Modell Quadratsu mme df Mittel der Quadrate F Signifikanz 1 Regression 21070110 4 526752755. 22.046 511 206.557.000(a) Residuen 10149610 60.893 398 2550153.41 9 Gesamt 31219720 82.938 402 a Einflußvariablen : (Konstante), Bürobeschäftigte, Dienstalter, Alter, Anfangsgehalt

Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten 95%-Konfidenzintervall für B Kollinearitätsstatistik Modell B hler Beta T Signifikanz Untergrenze Obergrenze Toleranz VIF 1 (Konstante) 3025.009 932.275 3.245.001 1192.210 4857.809 Dienstalter 50.141 7.989.180 6.277.000 34.436 65.846.991 1.009 Alter -64.408 6.565 -.289-9.810.000-77.315-51.501.944 1.059 Anfangsgehalt 1.416.067.670 21.248.000 1.285 1.547.821 1.218 Bürobeschäftigte -1720.623 280.665 -.197-6.131.000-2272.394-1168.852.794 1.259 Kollinearitätsdiagnose(a) Varianzanteile Modell Dimension Eigenwert Konditionsi ndex (Konstante) Dienstalter Alter Anfangsge halt Bürobesch äftigte 1 1 4.755 1.000.00.00.00.00.00 2.136 5.917.00.00.17.02.45 3.080 7.733.00.00.61.20.05 4.024 13.952.02.33.14.47.30 5.005 30.041.98.67.08.30.19

Fallweise Diagnose(a) Nicht standardisie Fallnummer Standardisiert e Residuen Aktuelles Gehalt rter vorhergesa gter Wert Nicht standardisiert e Residuen 386 3.198 17364 12256.93 5107.067 392 3.449 18060 12551.88 5508.123 396 3.888 18400 12191.96 6208.038 402 3.392 19600 14183.61 5416.387 Residuenstatistik(a) Minimum Maximum Mittelwert Standardabw eichung N Nicht standardisierter vorhergesagter Wert 6475.03 22863.88 11331.14 2289.393 403 Nicht standardisierte Residuen -4419.967 6208.039.000 1588.955 403 Standardisierter vorhergesagter Wert -2.121 5.037.000 1.000 403 Standardisierte Residuen -2.768 3.888.000.995 403

Regression: Geschlecht rein, Dienstalter raus: Aufgenommene/Entfernte Variablen(b) Modell 1 Aufgenommen e Variablen Geschlecht, Alter, Bürobeschäftigt e, Anfangsgehalt( a) Entfernte Variablen Methode. Eingeben a Alle gewünschten Variablen wurden aufgenommen. Modellzusammenfassung(b) Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.806(a).650.646 1657.260 a Einflußvariablen : (Konstante), Geschlecht, Alter, Bürobeschäftigte, Anfangsgehalt ANOVA(b) Modell Quadratsu mme df Mittel der Quadrate F Signifikanz 1 Regression 20288602 4 507215070. 80.290 072 184.676.000(a) Residuen 10931118 02.648 398 2746512.06 7 Gesamt 31219720 82.938 402 a Einflußvariablen : (Konstante), Geschlecht, Alter, Bürobeschäftigte, Anfangsgehalt

Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten 95%-Konfidenzintervall für B Kollinearitätsstatistik Modell B hler Beta T Signifikanz Untergrenze Obergrenze Toleranz VIF 1 (Konstante) 7999.019 707.793 11.301.000 6607.539 9390.500 Alter -62.153 6.821 -.278-9.112.000-75.562-48.744.942 1.061 Anfangsgehalt 1.285.076.609 16.811.000 1.135 1.436.671 1.490 Bürobeschäftigte -1675.387 292.993 -.191-5.718.000-2251.394-1099.380.785 1.274 Geschlecht -547.706 192.155 -.098-2.850.005-925.472-169.939.740 1.352 Kollinearitätsdiagnose(a) Varianzanteile Modell Dimension Eigenwert Konditionsi ndex (Konstante) Alter Anfangsge halt Bürobesch äftigte Geschlecht 1 1 4.354 1.000.00.00.00.00.01 2.444 3.131.00.01.01.00.63 3.124 5.917.00.26.00.45.07 4.067 8.044.01.54.21.17.15 5.010 21.178.99.19.78.38.13

Fallweise Diagnose(a) Nicht standardisie Fallnummer Standardisiert e Residuen Aktuelles Gehalt rter vorhergesa gter Wert Nicht standardisiert e Residuen 384 3.163 16920 11677.45 5242.546 392 3.569 18060 12145.76 5914.242 396 4.056 18400 11677.45 6722.546 Residuenstatistik(a) Minimum Maximum Mittelwert Standardabw eichung N Nicht standardisierter vorhergesagter Wert 6632.80 22983.30 11331.14 2246.534 403 Nicht standardisierte Residuen -3983.512 6722.546.000 1648.995 403 Standardisierter vorhergesagter Wert -2.091 5.187.000 1.000 403 Standardisierte Residuen -2.404 4.056.000.995 403

Regression: Merkmal Job kann auch durch 3 Gruppen charakterisiert werden, vergleiche Grafiken oben! 1. Gruppe Büro, 2. Gruppe Sicherheit und 3 Gruppe College-Trainees und Freie Mitarbeiter. Hier also zwei Dummies für den Job: Modell 1 Aufgenommene/Entfernte Variablen(b) Aufgenommen e Variablen Sicherheit, Anfangsgehalt, Alter, Geschlecht, Bürobeschäftigt e(a) Entfernte Variablen Methode. Eingeben a Alle gewünschten Variablen wurden aufgenommen. Modellzusammenfassung(b) Modell R R-Quadrat Korrigiertes R- Quadrat hler des Schätzers 1.806(a).650.646 1657.980 a Einflußvariablen : (Konstante), Sicherheit, Anfangsgehalt, Alter, Geschlecht, Bürobeschäftigte ANOVA(b) Modell Quadratsu mme df Mittel der Quadrate F Signifikanz 1 Regression 20306598 5 406131979. 98.591 718 147.744.000(a) Residuen 10913121 84.347 397 2748897.19 0 Gesamt 31219720 82.938 402 a Einflußvariablen : (Konstante), Sicherheit, Anfangsgehalt, Alter, Geschlecht, Bürobeschäftigte

Koeffizienten(a) Nicht standardisierte Koeffizienten Standardisiert e Koeffizienten 95%-Konfidenzintervall für B Kollinearitätsstatistik Modell B hler Beta T Signifikanz Untergrenze Obergrenze Toleranz VIF 1 (Konstante) 8491.465 933.716 9.094.000 6655.819 10327.111 Alter -60.679 7.063 -.272-8.592.000-74.564-46.794.880 1.137 Anfangsgehalt 1.249.089.591 14.071.000 1.075 1.424.499 2.006 Bürobeschäftigte -1982.045 479.128 -.226-4.137.000-2923.990-1040.101.294 3.403 Geschlecht -610.609 207.364 -.110-2.945.003-1018.278-202.940.636 1.573 Sicherheit -486.509 601.285 -.044 -.809.419-1668.610 695.591.302 3.313 Kollinearitätsdiagnose(a) Varianzanteile Modell Dimension Eigenwert Konditionsi ndex (Konstante) Alter Anfangsge halt Bürobesch äftigte Geschlecht Sicherheit 1 1 4.401 1.000.00.00.00.00.01.00 2 1.073 2.025.00.00.00.00.02.22 3.387 3.373.00.00.01.00.58.05 4.069 8.013.01.95.06.01.06.08 5.065 8.255.00.03.13.30.08.19 6.005 28.363.99.01.81.68.24.46

Fallweise Diagnose(a) Nicht standardisie Fallnummer Standardisiert e Residuen Aktuelles Gehalt rter vorhergesa gter Wert Nicht standardisiert e Residuen 384 3.147 16920 11702.35 5217.650 392 3.560 18060 12157.76 5902.237 396 4.040 18400 11702.35 6697.650 Residuenstatistik(a) Minimum Maximum Mittelwert Standardabw eichung N Nicht standardisierter vorhergesagter Wert 6713.93 23041.83 11331.14 2247.530 403 Nicht standardisierte Residuen -4021.832 6697.650.000 1647.637 403 Standardisierter vorhergesagter Wert -2.054 5.210.000 1.000 403 Standardisierte Residuen -2.426 4.040.000.994 403