Sommersemester 2009, Statistik mit SPSS 25. August 2009 25. August 2009 Statistik Dozentin: mit Anja SPSS Mays 1
Überblick: 1. Hilfsbefehl und Datentransformationsbefehl (EXECUTE und COMPUTE) 2. Möglichkeiten und Aufgabe der deskriptiven (univariaten) Statistik 3. SPSS- Prozeduren zur univariaten Statistik: a) Für nominale und ordinale Daten (FREQENCIES) b) metrische Daten (EXAMINE) 2
1a. Hilfsbefehl EXECUTE 3
1a. Hilfsbefehl EXECUTE SPSS-Befehle zur Datenbeschreibung, Transformationen und Auswahl von Daten werden vom Programm nicht sofort ausgeführt, sondern zunächst nur auf Syntaxfehler hin überprüft. Erst bei der nächsten Statistikprozedur (z.b. fre) wird der Befehl ausgeführt und das Ergebnis (z.b. die neue Variable) in der Arbeitsdatei gespeichert. Soll ein Befehl (z.b. recode, compute) sofort umgesetzt werden, dann muss nach dem betreffenden Befehl die SPSS- Anweisung EXECUTE folgen. 4
1b. Datentransformationsbefehl COMPUTE (Legt neue Variablen an, berechnet neue Variablen) (Wahlstudie 2005) 5
Variablen berechnen: COMPUTE Anwendungsbeispiele: Viele benötigte Variablen existieren im Datensatz nicht, z.b.: Alter (berechnet aus Geburtsjahr und Befragungsjahr) Additiver Index Rechtsextremismus (Addition versch. Items) Berechnung Fernsehdauer in Stunden pro Tag BMI (berechnet aus Körpergröße und Gewicht) 6
Variablen berechnen: COMPUTE Beispiel 1: Aus der Variable vjahr (Geburtsjahr) soll das Alter der Befragten errechnet werden COMPUTE zielvariable = arithmetischer Ausdruck. compute alter =???? 7
Beispiel 1: Berechnung Alter in Jahren Geburtsjahr vjahr Befragungszeitpunkt 2005 Formel für die Berechnung des Alters: 2005-vjahr Befehl zur Erstellung einer neuen Variable Vollständiger SPSS-Befehl: COMPUTE alter = 2005-vjahr. Ausdruck Zielvariable 8
Beispiel 1: Berechnung Alter in Jahren 9
Gültig 18,00 19,00 20,00 21,00 22,00 23,00 24,00 25,00 26,00 27,00 28,00 29,00 30,00 31,00 32,00 33,00 34,00 35,00 36,00 37,00 38,00 39,00 40,00 41,00 Sozialwissenschaftliche 63,00 Fakultät der Universität Göttingen 68,00 69,00 alter 70,00 71,00 Gültige 72,00 Kumulierte Häufigkeit Prozent Prozente 73,00 Prozente 32 1,2 1,3 74,00 1,3 21,8,9 75,00 2,1 30 1,2 1,2 76,00 3,3 19,7,7 77,00 4,1 25 1,0 1,0 78,00 5,1 23,9,9 79,00 6,0 24 1,0 1,0 80,00 7,0 30 1,2 1,2 81,00 8,2 34 1,3 1,3 82,00 9,5 29 1,2 1,2 83,00 10,7 31 1,2 1,3 84,00 11,9 38 1,5 1,5 85,00 13,5 38 1,5 1,5 86,00 15,0 44 1,7 1,8 87,00 16,7 39 1,5 1,6 89,00 18,3 36 1,4 1,5 90,00 19,8 35 1,4 1,4 91,00 21,2 46 1,8 1,8 92,00 23,0 49 1,9 2,0 94,00 24,9 54 2,1 2,2 Gesamt 27,1 69 2,7 Fehlend 2,8 System 29,9 49 1,9 Gesamt 2,0 31,8 51 2,0 2,0 33,8 45 1,8 1,8 35,6 47 1,9 1,9 37,5 42,00 43,00 64,00 65,00 66,00 67,00 60 2,4 2,4 40,0 63 2,5 2,5 73,8 53 2,1 2,1 75,9 42 1,7 1,7 77,6 52 2,1 2,1 79,7 38 1,5 1,5 81,2 43 1,7 1,7 83,0 Beispiel 1: Berechnung Alter in Jahren 23,9,9 83,9 42 1,7 1,7 85,6 40 1,6 1,6 87,2 22,9,9 88,1 38 1,5 1,5 89,6 30 1,2 1,2 90,8 23,9,9 91,7 20,8,8 92,5 29 1,1 1,2 93,7 25 1,0 1,0 94,6 20,8,8 95,5 27 1,1 1,1 96,5 11,4,4 97,0 13,5,5 97,5 16,6,7 98,1 13,5,5 98,7 13,5,5 99,2 7,3,3 99,5 4,2,2 99,7 1,0,0 99,7 2,1,1 99,8 2,1,1 99,8 2 Überprüfen,1,1 ob 99,9 2 Missings,1 gesetzt,1 100,0 2492 98,1 100,0 48 sind! 1,9 2540 100,0 10
Häufigkeit Sozialwissenschaftliche Fakultät der Universität Göttingen Beispiel 1: Berechnung Alter in Jahren Histogramm 120 100 80 60 40 20 0 0,00 20,00 40,00 alter 60,00 80,00 100,00 Mittelwert =49,93 Std.-Abw. =17,397 N =2.491,831 Fälle gewichtet nach proportionales Personengewicht 11
Beispiel 1: Berechnung Alter in Jahren ***Beispiel 1: Alter berechnen, Wahlstudie 2005 (BTW05). fre s02a. compute alter = 2005-s02a. exe. fre alter/histo. 12
Beispiel 1: Berechnung Alter in Jahren alter Aus dem Geburtsjahr wird das Alter Gültig 18,00 19,00 20,00 21,00 22,00 23,00 24,00 25,00 26,00 27,00 28,00 29,00 30,00 31,00 32,00 33,00 34,00 35,00 36,00 37,00 38,00 39,00 Gültige Kumulierte Häufigkeit Prozent Prozente Prozente 32 1,2 1,3 1,3 21,8,9 2,1 30 1,2 1,2 3,3 19,7,7 4,1 25 1,0 1,0 5,1 23,9,9 6,0 24 1,0 1,0 7,0 30 1,2 1,2 8,2 34 1,3 1,3 9,5 29 1,2 1,2 10,7 31 1,2 1,3 11,9 38 1,5 1,5 13,5 38 1,5 1,5 15,0 44 1,7 1,8 16,7 39 1,5 1,6 18,3 36 1,4 1,5 19,8 35 1,4 1,4 21,2 46 1,8 1,8 23,0 49 1,9 2,0 24,9 54 2,1 2,2 27,1 69 2,7 2,8 29,9 49 1,9 2,0 31,8 13
Zusatz: Struktur des Compute-Befehls COMPUTE zielvariable = arithmetischer Ausdruck. Arithmetischer Ausdruck (mathematische Formel): - Bereits definierte Variablen - Zahlen - arithmetische Operationen: Potenzfunktion (**), Multiplikation (*), Division (/), Addition (+), Subtraktion (-) - Klammern - Funktionen 14
Zusatz: Struktur des Compute-Befehls COMPUTE zielvariable = arithmetischer Ausdruck. Abarbeitungsreihenfolge beim arithmetischen Ausdruck: 1. Klammern 2. Funktionen 3. ** 4. *, / 5. +, - 15
Beispiel 2: Indexerstellung Index: Zusammenfassung mehrerer Items zu einer neuen Variable. Neue Variable beinhaltet verschiedene Aspekte eines theoretischen Konstruktes. Aufgabe: Aus den sechs Variablen f062_1 bis f062_6 (Wahlstudie 2005) soll ein additiver Index Rechtsextremismus erstellt werden. f062_1 Rechtsextr: herausragende Leistung deutsche n Volke s Gültig Fehlend Gesamt Gültige Kumulierte Häufigkeit Prozent f062_2 Rechtsextr: Prozente unwertes Prozente Le ben 1 lehne voellig ab 624 24,6 26,6 26,6 2 lehne eher ab 912 35,9 38,8 65,4 Gültige Kumulierte Häufigkeit Prozent Prozente Prozente 3 stimme eher zu Gültig 1 633 lehne voellig 24,9 ab 26,9 92,3 1647 64,8 68,8 68,8 4 stimme voellig zu 2 181 lehne eher ab 7,1 7,7 100,0 330 13,0 13,8 82,5 Gesamt 2349 3 stimme eher 92,5 zu 100,0 250 9,8 10,4 93,0 8 weiss nicht 4173 stimme voellig 6,8zu 168 6,6 7,0 100,0 9 keine Angabe Gesamt 18,7 2395 94,3 100,0 Gesamt Fehlend 8191 weiss nicht 7,5 114 4,5 2540 9 keine Angabe 100,0 30 1,2 Gesamt 145 5,7 Gesamt 2540 100,0 16
Beispiel 2: Indexerstellung Beachte: vor dem Compute-Befehl: Sind missing values definiert? alle Items müssen den gleichen Wertebereich aufweisen (hier: 1 bis 4) alle Items müssen die gleiche Polung aufweisen (hier: je höher der Wert, desto rechtsextremer die Einstellung) Wertebereich der neuen Variable: 6 bis 24, d.h. Wert 6 = keine rechtsextreme Einstellung, Wert 24 = stärkste rechtsextreme Einstellung 17
Beispiel 2: Indexerstellung 18
Häufigkeit Beispiel 2: Indexerstellung rex_idx Index Re chtse xtremismus Gültig Fehlend Gesamt 6,00 keine rechtsextreme Einstellung 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00 16,00 17,00 18,00 19,00 20,00 21,00 22,00 23,00 24,00 starke rechtsextreme Einstellung Gesamt System Häufigkeit Prozent Gültige Prozente Kumulierte Prozente 251 9,9 12,8 12,8 235 9,2 11,9 Histogramm 24,7 242 9,5 12,3 37,0 212 300 8,4 10,8 47,8 169 6,7 8,6 56,4 158 6,2 8,0 64,5 150 5,9 7,6 72,1 113 4,4 5,7 77,8 116 200 4,6 5,9 83,7 83 3,3 4,2 87,9 59 2,3 3,0 91,0 55 2,2 2,8 93,8 51 2,0 2,6 96,4 18 100,7,9 97,3 18,7,9 98,2 12,5,6 98,8 11,5,6 99,4 2,1,1 99,5 0 5,00 10,00 15,00 20,00 25,00 10,4,5 100,0 Index Rechtsextremismus 1967 77,4 100,0 573 22,6 Fälle gewichtet nach proportionales Personengewicht 2540 100,0 Mittelwert =10,61 Std.-Abw. =3,845 N =1.966,8 19
Übungsaufgaben 1 3 (Allbus 2004) 20
2. Möglichkeiten und Aufgabe der deskriptiven (univariaten) Statistik 21
Möglichkeiten und Aufgabe der univariaten Statistik Überblick über univariate Verteilungen: Häufigkeitstabellen und graphische Darstellung Zusammenfassung der Eigenschaften einer Verteilung in einem Wert (bzw. wenigen Werten): Kennwerte univariate Verteilungen wie z.b. Lagemaße, Streuungsmaße, Schiefe, Kurtosis Insbesondere Verteilung, Lage, Streuung und Schiefe der sollten untersucht werden: Fehler im Datensatz (z.b. Alter) sind fehlende Werte definiert? zu schiefe Verteilungen häufig problematisch Ausreißeridentifikation Anwendungsvoraussetzungen erfüllt? 22
SPSS Prozeduren zur univariaten Statistik 1. Häufigkeiten (FREQUENCIES): Analysieren Deskriptive Statistiken Häufigkeiten 2. Explorative Datenanalyse (EXAMINE): Analysieren Deskriptive Statistiken Explorative Datenanalyse 23
1. Die Prozedur FREQUENCIES 24
FREQUENCIES [VARIABLES=]varlist [/FORMAT=[{DVALUE}] [{NOTABLE }]] {AFREQ } {LIMIT(n)} {DFREQ } [/MISSING=INCLUDE] [/BARCHART=[MIN(n)][MAX(n)][{FREQ(n) }]] {PERCENT(n)} [/PIECHART=[MIN(n)][MAX(n)][{FREQ }] {PERCENT} [{MISSING }]] {NOMISSING} [/HISTOGRAM=[MIN(n)][MAX(n)][{FREQ(n) }] {PERCENT(n)} [{NONORMAL}][INCREMENT(n)]] {NORMAL } [/NTILES=n] [/PERCENTILES=value list] [/STATISTICS=[DEFAULT][MEAN][STDDEV][SUM] [MINIMUM][MAXIMUM][RANGE] [SEMEAN][VARIANCE][SKEWNESS][SESKEW] [MODE][KURTOSIS][SEKURT][MEDIAN] [ALL][NONE]] [/GROUPED=varlist [{(width) }]] {(boundary list)} [/ORDER = [{ANALYSIS}] [{VARIABLE}] 25
1. FREQENCIES (Nominale Daten) Für die Variable f012c (Wahlentscheidung, Nachwahlbefragung) soll der Modus und ein Tortendiagramm ausgegeben werden. 26
Statistiken f012c BTW 05 Nachwahlbefragung Zweitstimme N Modus Gültig Fehlend 2024 516 10 Gültig Fehlend Gesamt f012c BTW 05 Nachwahlbefragung Zweitstimme 10 SPD 11 CDU/CSU 12 Bd90/Die Gruenen 13 FDP 14 Die Linke.PDS 15 Rep 16 NPD 17 Graue 18 andere 19 ungueltig gewaehlt Gesamt -1 trifft nicht zu 98 kann mich nicht erinnern 99 verweigert Gesamt Gültige Kumulierte Häufigkeit Prozent Prozente Prozente 778 30,6 38,4 38,4 632 24,9 31,2 69,6 178 7,0 8,8 78,4 194 7,6 9,6 88,0 170 6,7 8,4 96,4 18,7,9 97,3 26 1,0 1,3 98,6 6,2,3 98,9 11,4,6 99,4 11,4,6 100,0 2024 79,7 100,0 318 12,5 10,4 188 7,4 516 20,3 2540 100,0 BTW 05 Nachwahlbefragung Zweitstimme Fälle gewichtet nach proportionales Personengewicht SPD CDU/CSU Bd90/Die Gruenen FDP Die Linke.PDS Rep NPD Graue andere ungueltig gewaehlt Fehlend 27
1. FREQENCIES (Ordinale Daten ) Für die Variable f003 (Demokratiezufriedenheit) sollen Modus, Median und Quartile und zusätzlich ein Balkendiagramm ausgegeben werden. 28
Prozent Statistiken f003 Demokratie: Zufriedenheit mit tatsaechlicher Demokratie in BRD N Gültig 2530 40 Fehlend 10 Median 4,00 30 Modus 5 Minimum 1 20 Maximum 6 Perzentile 25 10 3,00 50 4,00 75 5,00 0 Demokratie: Zufriedenheit mit tatsaechlicher Demokratie in BRD sehr unzufrieden ziemlich unzufrieden etwas unzufrieden etwas zufrieden ziemlich zufrieden sehr zufrieden Demokratie: Zufriedenheit mit tatsaechlicher Demokratie in BRD Fälle gewichtet nach proportionales Personengewicht 29
2. Die Prozedur EXAMINE 30
EXAMINE VARIABLES=varlist [[BY varlist] [varname BY varname]] [/COMPARE={GROUP** }] {VARIABLE} [/ID={$CASENUM**}] {varname } [/PERCENTILES[(value list)=[{haverage }] [NONE]] {WAVERAGE } {ROUND } {AEMPIRICAL} {EMPIRICAL } [/PLOT=[STEMLEAF**] [BOXPLOT**] [NPPLOT]] [SPREADLEVEL(value)] [HISTOGRAM] [{ALL }] {NONE} [/STATISTICS=[DESCRIPTIVES**] [EXTREME({5})]] {n} [{ALL }] {NONE} [{/TOTAL }] {/NOTOTAL}. [/MISSING={LISTWISE**} [INCLUDE]] {REPORT } {PAIRWISE } **Default if the subcommand is omitted. 31
2. EXAMINE (Metrische Daten) 32
De Ve skriptive rarbe itete Statistik Fälle f057_c Merkel: glaubwuerdig f057_c Merkel: glaubwuerdig Fälle Standardf Gültig Fehlend Statistik Gesamt ehler Mittelwert 3,17,032 N Prozent N Prozent N Prozent 95% Konfidenzintervall Untergrenze 3,11 des 2430 Mittelwerts 95,7% Obergrenze 110 4,3% 2540 100,0% 3,24 5% getrimmtes Mittel Median Varianz Standardabweichung Minimum Maximum Spannweite Interquartilbereich Schiefe Kurtosis Schiefe: Wert 0 = symmetrische Verteilung Wert > 0 = rechtsschiefe Verteilung Wert < 0 = linksschiefe Verteilung 3,19 3,00 2,566 1,602 0 6 6 2 -,249,050 -,577,099 Kurtosis: Wert 0 = symmetrische Verteilung Wert > 0 = schmale (steile) Verteilung Wert < 0 = breite (flache) Verteilung 33
Häufigkeit f057_c Merkel: glaubwuerdig a. Größte Werte Kleinste Werte Extremwe rte 1 2 3 4 5 1 2 3 4 5 600,000 400,000 Fallnummer Wert 21 6 44 6 74 Histogramm 6 83 6 86 6 a 2533 0 2523 0 2516 0 2513 0 2505 0 b Nur eine partielle Liste von Fällen mit dem Wert 6 wird in der Tabelle der oberen Extremwerte angezeigt. b. Nur eine partielle Liste von Fällen mit dem Wert 0 wird in der 200,000 Tabelle der unteren Extremwerte angezeigt. 0,000 0 1 2 3 4 Merkel: glaubwuerdig 5 6 Mittelwert =3,17 Std.-Abw. =1,602 N =2.429,738 Fälle gewichtet nach proportionales Personengewicht 34
Übungsaufgaben 4 und 5 (Allbus 2004) 35