Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Ähnliche Dokumente
Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Übungsblätter zu Methoden der Empirischen Sozialforschung IV: Regressionsanalyse. Lösungsblatt zu Nr. 2

Hypothesentests mit SPSS

Bivariater Zusammenhang bei metrischen Variablen: Regression und Korrelation

Drittvariablenkontrolle in der linearen Regression: Trivariate Regression

Korrelation - Regression. Berghold, IMI

Schätzen und Testen von Populationsparametern im linearen Regressionsmodell PE ΣO

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.

VS PLUS

Statistik II Übung 2: Multivariate lineare Regression

Kreuzvalidierung. 1. Schritt: Aufteilung der Stichprobe in ungefähr gleiche Hälften nach dem Zufall. SPSS:

Empirische Analysen mit dem SOEP

Statistik II Übung 2: Multivariate lineare Regression

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. 21. Juni 2007: Pfadanalyse und lineare Strukturgleichungsmodelle

SPSS-Ausgabe 1: Univariate Varianzanalyse. Profildiagramm. [DatenSet1] D:\Sozialwiss2006_7\STAT2\Daten\mathsalaries.sav. Seite 1

Test von Hypothesen: Signifikanz des Zusammenhangs (F-Test)

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Aufgaben zu Kapitel 4

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Instrument zur Untersuchung eines linearen Zusammenhangs zwischen zwei (oder mehr) Merkmalen.

Statistik II Übung 1: Einfache lineare Regression

Kapitel 4: Merkmalszusammenhänge

Teil: lineare Regression

Bestimmen Sie die Absatzmenge eines Unternehmens, die sich bei Werbeausgaben in Höhe von ergeben wird. Werbeausgaben ( 1000)

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

2. Generieren Sie deskriptive Statistiken (Mittelwert, Standardabweichung) für earny3 und kidsunder6yr3 und kommentieren Sie diese kurz.

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester 2009, Statistik mit SPSS

Lineare Regression II

Gliederung. 1. Einführung. Heute schon Musik gehört?

Übungsblatt 10: Lineare Regression (Sitzung 11)

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3

SozialwissenschaftlerInnen II

B. Regressionsanalyse [progdat.sav]

Seminar: Multivariate Verfahren g Dr. Thomas Schäfer Referenten: Wiebke Hoffmann, Claudia Günther

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Statistik II Übung 1: Einfache lineare Regression

Inhaltsverzeichnis. Teil 1 Basiswissen und Werkzeuge, um Statistik anzuwenden

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Intervallschätzung. 5 Hypothesentests.

6.2 Regressionsanalyse I: Die lineare Einfachregression

Einfache lineare Regressionsanalyse

Die Funktion f wird als Regressionsfunktion bezeichnet.

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

2.5 Lineare Regressionsmodelle

Statistik III Regressionsanalyse, Varianzanalyse und Verfahren bei Messwiederholung mit SPSS

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Einführung in die Statistik für Politikwissenschaftler Wintersemester 2011/2012

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Probeklausur für die Abschlussklausur Statistik II

Statistik II. Lineare Regressionsrechnung. Wiederholung Skript 2.8 und Ergänzungen (Schira: Kapitel 4) Statistik II

Heinz Holling & Günther Gediga. Statistik - Deskriptive Verfahren

Prüfung aus Statistik 2 für SoziologInnen

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

Statistik II (Sozialwissenschaften)

Lineare Regression I

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Das Lineare Regressionsmodell

Institut für Soziologie Dipl.-Soz. Benjamin Gedon. Methoden 2. Logistische Regression II

Multiple Regressionsanalyse - Kurzabriss

Einführung in Quantitative Methoden

1 Übungsaufgaben zur Regressionsanalyse

Biostatistik 101 Korrelation - Regressionsanalysen

Methoden empirischer Sozial- und Wirtschaftsforschung

Institut für Soziologie Christian Ganser. Methoden 2. Regressionsanalyse II: Lineare multiple Regression

Übung V Lineares Regressionsmodell

Vorlesung: Multivariate Statistik für Psychologen

Bivariate Regressionsanalyse

Wiederholung Qualitätssicherung Drittvariablen. Regression II. Statistik I. Sommersemester Statistik I Regression II (1/33) Wiederholung

Kapitel 4: Merkmalszusammenhänge

Name Vorname Matrikelnummer Unterschrift

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2013

Korrelation Regression. Wenn Daten nicht ohne einander können Korrelation

Seminar zur Energiewirtschaft:

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Standardab er des. Testwert = % Konfidenzintervall. T df Sig. (2-seitig) Differenz Untere Obere

Statistik II: Signifikanztests /2

Regression ein kleiner Rückblick. Methodenseminar Dozent: Uwe Altmann Alexandra Kuhn, Melanie Spate

Die Regressionsanalyse

Klausurvorbereitung - Statistik

Einführung in die Induktive Statistik: Regressionsanalyse

Anwendungsaufgaben. a. Anhand des Streudiagramms (. Abb. 1) lässt sich ein linearer Zusammenhang vermuten. Aufgabe 1. Anhang 1: Lösungen der Aufgaben

Vorlesung: Multivariate Statistik für Psychologen

I.V. Methoden 4: Regressionsund Pfadanalyse WiSe 02/03

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Projekt Kaffeemaschine Welche Faktoren beeinflussen das Geschmacksurteil?

Statistik II Übung 3: Hypothesentests

Forschungspraktikum Gruppenbezogene Menschenfeindlichkeit. Lineare Regression Statistisches Modell Realisierung mit der SPSS-Prozedur Regression

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1. LÖSUNG 9A a.

1 Beispiel zur Methode der kleinsten Quadrate

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Transkript:

Sommersemester 2009 Statistik mit SPSS 15. Mai 2009 15. Mai 2009 Statistik Dozentin: mit Esther SPSSOchoa Fernández 1

Überblick 1. Korrelation vs. Regression 2. Ziele der Regressionsanalyse 3. Syntax für den Regressionsbefehl 4. Interpretation 4.a. Modellzusammenfassung: R, R² 4.b. Anova-Tabelle: Varianzzerlegung 4.c. Koeffizientenblock 2

1. Korrelation vs. Regression a) Korrelation: symmentrisches Maß Größe Gewicht b) Regression (Einfachregression): asymmetrisches Maß Größe (UV) Gewicht (AV) 3

2. Ziele der Regressionsanalyse Durch die Regressionsanalyse wird eine Variable (AV) durch eine oder mehrere andere Variablen (UV) erklärt oder prognostiziert. Die AV und die UV sind metrische Variablen. Ausnahmsweise werden als UV Dummy-Variablen zugelassen (0-1 codiert). Nominale oder ordinale Variablen können in Dummy-Variablen rekodiert werden und als UV analysiert werden. Grundvoraussetzung ist die Linearitätsannahme, nach der das lineare Regressionsmodell in der Population für alle Ausprägungen der UV gilt. 4

Regressionsgerade mit Y 10 8 Regressionskonstante α = 2 Regressionsgewicht β = 0.5 6 4 2 0-10 -8-6 -4-2 0 2 4 6 8 10-2 X -4-6 -8-10 α = 2 β = +0.5 µ(y X=5) = 2 +0.5 5 = 4.5 µ(y X) = 2 +0.5 X. Wenn X = 0, Y = 2. Wenn X um +1 Einheit ansteigt, steigt Y um +0.5 Einheiten an. 5 5

2. Ziele der Regressionsanalyse Es wird angenommen, dass sich die bedingten Populationsmittelwerte der abhängigen Variable durch eine lineare Funktion der Ausprägungen der erklärenden Variable beschreiben lassen. Ŷ i =f(x i )=a+bx i a b Y i =a+bx i + e i e i = Y i -Ŷ i Vorhersage/ Prognose ist die Regressionskonstante und gibt den Mittelwert von Y an, wenn X=0 ist das Regressionsgewicht und gibt die Steigung der Geraden an Tatsächliche Werte Residuen oder nicht erklärte Abweichung 6

e (175) = 62 (a+b61) Alter der Partnerin (Y) ( ) E = Y Yˆ = Y a + b X e (103) = 16 (a+b34) e (175) = 62 (a+b61) e (175) = 62 (1.623 + 0.876 61)=62 55,06= 6,94 e (103) = 16 (a+b34) e (103) = 16 (1.623 + 0.876 34)=16 31,41 = -15,41 Alter des Partners (X) 7

2. Ziele der Regressionsanalyse Die Regressionsanalyse ermöglicht Aussage zu folgenden Fragestellungen: Wie stark ist der Einfluss einer einzelnen unabhängigen Variablen auf die abhängige Variable? Wie ändert sich die abhängige Variable bei einer Veränderung der unabhängigen Variablen (Prognose)? Bei multipler Regression: Wie groß ist die Erklärungskraft aller unabhängigenvariablen zusammen? 8

3. Syntax für den Regressionsbefehl REGRESSION [MATRIX=[IN(file)] [OUT(file)]] [/VARIABLES={varlist }] {(COLLECT)**} Command Syntax {ALL } [/DESCRIPTIVES=[DEFAULTS][MEAN][STDDEV][CORR][COV] [VARIANCE][XPROD][SIG][N][BADCORR] [ALL][NONE**]] [/SELECT={varname relation value} [/MISSING=[{LISTWISE** }] [INCLUDE]] {PAIRWISE } {MEANSUBSTITUTION} [/REGWGT=varname] [/STATISTICS=[DEFAULTS**][R**][COEFF**] [ANOVA**][OUTS**] [ZPP][CHA][CI][F][BCOV] [SES][XTX][COLLIN] [TOL][SELECTION][ALL]] /DEPENDENT=varlist [/METHOD=]{STEPWISE [varlist] } {FORWARD [varlist] } {BACKWARD [varlist] } {ENTER [varlist] } {REMOVE varlist } {TEST(varlist)(varlist)...} [/RESIDUALS=[DEFAULTS][ID(varname 9

4. Interpretation Einfachregression mit SPSS Regression des Gewichtes (AV) auf die Körpergröße (UV). ***Lineare Regression, Beispiel 1, Allbus 2004. regr /dep v307 /enter v305. 10

4.a. Ausgabe Modellzusammenfassung: R Modell 1 a. Modellzusammenfassung Standardf Korrigiertes ehler des R R-Quadrat R-Quadrat Schätzers,513 a,263,263 13,288 Einflußvariablen : (Konstante), v305 KOERPERGROESSE IN CM, BEFRAGTE<R> R entspricht im bivariaten Modell dem Korrelationskoeffizienten (Pearson s r) 11

4.a. Ausgabe Modellzusammenfassung: R² Modell 1 a. Modellzusammenfassung Standardf Korrigiertes ehler des R R-Quadrat R-Quadrat Schätzers,513 a,263,263 13,288 Einflußvariablen : (Konstante), v305 KOERPERGROESSE IN CM, BEFRAGTE<R> R²: Determinationskoeffizient (Bestimmtheitsmaß) - Er gibt Auskunft über die Güte des Modells (Maß für die Erklärungskraft des Modells insgesamt), d.h. - R² gibt an, wie viel Varianz der abhängigen Variablen durch die unabhängige Variable erklärt wird, - hier wird 26,3 % der Varianz des Gewichtes (AV) durch die Varianz der Körpergröße (UV) erklärt. 12

4.a. Ausgabe Modellzusammenfassung: R² als PRE-Maß Modell 1 a. Modellzusammenfassung Standardf Korrigiertes ehler des R R-Quadrat R-Quadrat Schätzers,513 a,263,263 13,288 Einflußvariablen : (Konstante), v305 KOERPERGROESSE IN CM, BEFRAGTE<R> R² als PRE-Maß: Bei Kenntnis der Var. Körpergröße (UV) werden die Vorhersagefehler im Vergleich zur Vorhersage des Gewichtes (AV) ohne Kenntnis dieser Var. um 26,3% reduziert. Standardfehler: bestimmt die Genauigkeit der Schätzung. 13

4.b. Ausgabe Anova-Tabelle: Varianzzerlegung Wie gut beschreibt das Regressionsmodell die beobachteten Daten? Die Güte oder Erklärungskraft des Regressionsmodells (R²) kann mithilfe der Varianzanalyse geschätzt werden. In der Varianzanalyse wird die Gesamtvarianz der abhängigen Variable zerlegt in einen erklären Teil und in einen unerklärten Teil der Varianz bzw. der Variation. Die erklärte Varianz ist der Teil der Varianz, der durch Kenntnis der Werte der unabhängigen Variable erklärt wird. D.h.: je größer der Anteil der erklärten Varianz, desto größer ist R² und damit die Erklärungskraft des Regressionsmodells. 14

4.b. Ausgabe Anova-Tabelle: Varianzzerlegung Modell 1 Regression Residuen Gesamt ANOVA b Quadratsu Mittel der mme df Quadrate F Signifikanz 181534,306 1 181534,306 1028,092,000 a 509239,227 2884 176,574 690773,533 2885 a. Einflußvariablen : (Konstante), v305 KOERPERGROESSE IN CM, BEFRAGTE<R> b. Abhängige Variable: v307 GEWICHT IN KG, BEFRAGTE<R> Gesamt: Gesamtstreuung Regression: Anteil der Gesamtstreuung, der durch das Regressionsmodell erklärt wird Residuen: Anteil der Gesamtstreuung, der durch das Regressionsmodell nicht erklärt wird 15

4.b. Ausgabe Anova-Tabelle: Varianzzerlegung Modell 1 Regression Residuen Gesamt ANOVA b Quadratsu Mittel der mme df Quadrate F Signifikanz 181534,306 1 181534,306 1028,092,000 a 509239,227 2884 176,574 690773,533 2885 a. Einflußvariablen : (Konstante), v305 KOERPERGROESSE IN CM, BEFRAGTE<R> b. Abhängige Variable: v307 GEWICHT IN KG, BEFRAGTE<R> F-Test: Das Regressionsmodell ist hochsignifikant, d.h. der Determinationskoeffizient ist in der Grundgesamtheit mit einer Irrtumswahrscheinlichkeit von weniger als 0,1% (p < 0,001) von null verschieden. 16

Irrtumswahrscheinlichkeit Irrtumswahrscheinlichkeit Bedeutung Symbol P> 0,05 (>5%) nicht signifikant n.s. P<= 0,05 (<= 5%) signifikant * P<= 0,01 (<= 1%) sehr signifikant ** P<= 0,001 (<= 0,1%) höchst signifikant *** 17

4.c. Ausgabe Koeffizientenblock Modell 1 (Konstante) v305 KOERPERGROESSE IN CM, BEFRAGTE<R> Koeffizienten a Nicht standardisierte Koeffizienten Standardisier te Koeffizienten Standar B dfehler Beta T Signifikanz -71,617 4,613-15,526,000,862,027,513 32,064,000 a. Abhängige Variable: v307 GEWICHT IN KG, BEFRAGTE<R> Regressionskonstante: Schnittpunkt der Regressionsgerade mit der y-achse, wenn x=0 (s. Streudiagramm). 18

Konstante: Schnittpunkt der Regressionsgerade mit der y-achse, wenn x=0 (s. Streudiagramm). 19

Modell 1 4.c. Ausgabe Koeffizientenblock (Konstante) v305 KOERPERGROESSE IN CM, BEFRAGTE<R> Koeffizienten a Nicht standardisierte Koeffizienten Standardisier te Koeffizienten Standar B dfehler Beta T Signifikanz -71,617 4,613-15,526,000 a. Abhängige Variable: v307 GEWICHT IN KG, BEFRAGTE<R>,862,027,513 32,064,000 Unstandardisierter Regressionskoeffizient (Regressionsgewicht/Steigung): Wenn X (UV) um eine Einheit ansteigt, dann steigt Y (AV) um 0,86 Einheiten an. D.h. hier: Wenn die Körpergröße um einen Zentimeter ansteigt (cm als Einheit), dann steigt das Körpergewicht im Durchschnitt um 0,86 kg an. 20

4.c. Ausgabe Koeffizientenblock Modell 1 (Konstante) v305 KOERPERGROESSE IN CM, BEFRAGTE<R> Koeffizienten a Nicht standardisierte Koeffizienten Standardisier te Koeffizienten Standar B dfehler Beta T Signifikanz -71,617 4,613-15,526,000 a. Abhängige Variable: v307 GEWICHT IN KG, BEFRAGTE<R>,862,027,513 32,064,000 T-Test: Dient der Signifikanzprüfung des Regressionskoeffizienten. Signifikanz: empirische Signifikanz, d.h. mit einer Irrtumswahrscheinlichkeit von <0,1% (p < 0,001) ist der Regressionskoeffizient von Null verschieden (oder: der Koeffizient ist höchst signifikant). 21

Zusammenfassung Einfachregression R² : Anteil erklärter Varianz, PRE-Maß F-Test und Sign.: Konstante: testet Nullhypothese, dass der Determinationskoeffizient in der GG null ist; Signifikanz des Modells. Schnittpunkt der Regressionsgerade mit der y-achse, wenn x=0 B: Stärke des Effektes von X (UV) auf Y (AV), T-Test und Sign.: testet Nullhypothese, dass der Regressionskoeffizient in der GG null ist; Signifikanz der Regressionskoeffizienten 22

Weitere Beispiele mit dem Allbus 2004 23

Morgen: Klausurvorbereitung In der Übung behandelte SPSS-Befehle (jeweils inkl. Unterbefehle) DATENTRANSFORMATION FREQUENCIES VARIABLE LABELS VALUE LABELS MISSING VALUES COMMENT RECODE EXAMINE EXECUTE COMPUTE IF COUNT DISPLAY DICTIONARY RENAME DATENMANAGEMENT SELECT IF SORT CASES SPLIT FILE WEIGHT TEMPORARY DATENANALYSE GRAPH T-TEST CROSSTABS CORRELATIONS REGRESSION 24