Einführung in die Datenanalyse mit SPSS

Einführung in die Datenanalyse mit SPSS - Allgemeines - Dateneingabe - Datenbereinigung/ Auswahl - Datenbeschreibung und exploration - Statistische Tests

Geschichtliches Lizenzen Installation Versionen Allgemeines Benutzeroberfläche Daten-Editor Viewer

Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe vor. Frage 1: Einfachantwort, man braucht eine Zeile in SPSS. Messung kategorisch, also Kategorie 1-5 möglich. Frage 2: Mehrfachantwort möglich, man braucht also pro Abfrage (hier: Stadt) eine Spalte in SPSS (hier 7). Antwortmöglichkeiten sind nein (=0) und ja (=1). Frage 3: beinhaltet 6 Abfragen mit jeweils 5 Antwortkategorien, es werden also 6 Zeilen in SPSS benötigt. Hier auch als Kodierung 1= trifft voll zu bis 5=trifft überhaupt nicht zu. Frage 4: offene Antwort, Angabe ist metrisch, also Skalenniveau. Hiermit kann man am meisten rechnen, also Informationsgehalt am höchsten.

Dateneingabe in SPSS Frage 5: auch offene Antwort, aber nominal. Schwierig auszuwerten! Daten von 20 befragten Personen stehen in einer Excel- Datei zur Verfügung. Eine Möglichkeit der Dateneingabe in SPSS ist, in ein bestehendes Tabellenblatt per copy/ paste Daten aus Excel einzufügen. Aufgabe: Kopieren Sie die Daten der Excel Datei Fragebogen_Daten.xlsx in das bereits vorbereitete Tabellenblatt.

Struktur der Datensätze In den Spalten stehen die einzelnen gemessenen Merkmale (Variablen), d.h. alle Messungen für das Gewicht stehen in einer Spalte In einer Zeile stehen alle stehen alle Messungen einer Beobachtungseinheit (z.b. Patient, Pflanze) Keine freien Zeilen zur besseren Übersichtlichkeit Werteeingaben immer einheitlich, also entweder nur Text oder nur Zahl (Empfehlung: immer als Zahl kodieren) Bei fehlenden Werten Zellen frei lassen Variablenname muss mit Buchstaben beginnen, keine Leerund Sonderzeichen SPSS ist nicht case-sensitiv, d.h. Alter = alter = ALTER

Struktur der Datensätze falsch Männer Frauen Größe Gewicht Größe Gewicht 1 180 78 161 53 2 166 86 161 58 3 186 80 157 59 4 191 88 170 75 5 179 85 166 57 6 188 95 168 k.a. 7 175 70 166 65 8 186 77 175 61 9 180 86 168 62 10 190 90 170 61 richtig Geschlecht Größe Gewicht m 180 78 m 166 86 m 186 80 m 191 88 m 179 85 m 188 95 m 175 70 m 186 77 m 180 86 m 190 90 w 161 53 w 161 58 w 157 59 w 170 75 w 166 57 w 168 w 166 65 w 175 61 w 168 62 w 170 61

Datenerzeugung in SPSS Beispiel anhand des Datensatzes atemwege.xlsx (Quelle: http://www.statistik.lmu.de/service/datenarchiv/atem/atem.html) Laden einer Excel-Datei in SPSS: Datei Öffnen Daten Auswahl des Dateityps, hier.xlsx die gewünschte Datei kann ausgewählt werden. Dann Abfrage, ob in erster Zeile die Variablennamen stehen (in unserem Fall ist das so). Empfehlung: kurz visuell überprüfen, ob Daten sinnig sind. Angabe der Variablenlabels und Wertelabels Aufgabe: Vervollständigen Sie die Variablen- und Wertelabels gemäß den Angaben. Beachten: fehlende Werte! Tipp: gleiche Wertelabels können über copy & paste schneller eingegeben werden!

Datenbereinigung In vielen Fällen möchte man an den bestehenden Variablen noch etwas verändern bzw. neu Variablen erzeugen/ berechnen. Hierzu gibt es unter dem Menüpunkt Transformieren diverse Möglichkeiten: Variable berechnen: Man möchte in dem vorliegenden Datensatz eine Variable erhalten, die über die Anzahl der Vorerkrankungen (Allergie, Kehlkopfentzündung, Schnupfen, Husten) Auskunft gibt, also kann hier die neue Variable Anz_Vorerkr durch Addition erzeugt werden.

Datenbereinigung Bei dem Menüpunkt Variable berechnen besteht auch die Möglichkeit auf eine Vielzahl von Funktionen zurück zu greifen. Bei dem vorherigen Beispiel hätte man hier auch die Funktion SUM auswählen können.

Datenbereinigung Für die gleiche Aufgabe wäre auch ein andere Lösung möglich gewesen: Werte in Fällen zählen Unter dem Punkt Werte definieren muss man dann noch den Wert 1 eingeben. Bei dieser Funktion kann man sich jede Merkmalsausprägung, fehlende Werte oder auch Bereiche durchzählen lassen!

Datenbereinigung Umkodieren von Variablen: Bei dieser Funktion (entweder Umkodieren in dieselben Variablen oder Umkodieren in andere Variablen) können folgende Operationen durchgeführt werden: einfaches Umbenennen, z.b. sollen die mit -1 kodierten fehlenden Werte in 99 umgewandelt werden. Klassifizierung von Werten, z.b. möchte man Analysen nach Altersklassen durchführen, abgefragt wurde aber der Geburtsjahrgang. Bei der Variable gebja treten Jahrgänge von 73 82 auf. Man möchte hier die Einteilung vornehmen von alt(1) und jung(2): 1: Jahrgänge 73 77 2: Jahrgänge 78 82 Name der neuen Variable: gebja_klass Bedingte Umkodierung von Fällen (s. nächstes Blatt)

Datenbereinigung Bedingte Umkodierung einer Variable Man möchte die Kinder in Größengruppen einteilen, die Grenzen setzt man aber je nach Geschlecht unterschiedlich an. 1 = klein = Größe unterhalb des 25% Quartils 2 = mittel = Größe zwischen 25% und 75% Quartil 3= groß = Größe oberhalb des 75% Quartils Die Quartile für die Mädchen sind 25: 128,00 50: 138,00 75: 151,00 für die Jungen 25: 131,25 50: 142,00 75: 153,00 Transformieren Umkodieren in andere Variablen Im sich öffnenden Fenster Auswahl der Variable gross, Benennung der Ausgabevariable als gross_klass, Bezeichnung Größe in Klassen nach Geschlecht

Datenbereinigung Durch Drücken der Schaltfläche Alte und neue Werte öffnet sich ein weiteres Fenster, in das nacheinander die vorher festgelegten Bereiche zuerst für die Mädchen eingefügt werden. Durch Drücken von Weiter kehrt man wieder zu dem vorherigen Fenster zurück.

Datenbereinigung Im nächsten Schritt muss man angeben, dass die eingegebenen Werte nur für die weiblichen Probanden gelten; dies geschieht durch Drücken des Feldes Falls und Eintragen der Bedingung sex=2, wie im neben stehenden Fenster gezeigt. Aufgabe: Führen Sie die Einteilung für die Jungen durch

Exkurs Syntax Man möchte eine Variable über die örtliche Belastung des Kindes einführen, dabei wird berücksichtigt der Wohnort des Kindes (Variable zone) Ob die Mutter raucht (raumu) Ob der Vater raucht (rauva) Die neue Variable soll belast heißen und soll folgende Werte annehmen können: 1: geringe Belastung (bei zone 2 raumu 0 rauva 0, 2 0 1, 2 1 0, 1 0 0, 3 0 0) 2: hohe Belastung (bei 2 1 1, 1 0 1, 1 1 0, 1 1 1, 3 0 1, 3 1 0, 3 1 1)

Exkurs Syntax Es besteht die Möglichkeit, diese Variable über das Menü zu erzeugen (Transformieren Variable berechnen), dies ist allerdings etwas umständlich! Möglich wäre auch der Weg über den Syntax: IF (zone = 2 & raumu = 0 & rauva = 0) (zone = 2 & raumu = 0 & rauva = 1) (zone = 2 & raumu = 1 & rauva = 0) (zone = 1 & raumu = 0 & rauva = 0) (zone = 3 & raumu = 0 & rauva = 0) belast=1. IF (zone = 2 & raumu = 1 & rauva = 1) (zone = 1 & raumu = 0 & rauva = 1) (zone = 1 & raumu = 1 & rauva = 0) (zone = 1 & raumu = 1 & rauva=1) (zone = 3 & raumu = 1 & rauva = 0) (zone = 3 & raumu = 0 & rauva = 1) (zone = 3 & raumu = 1 & rauva = 1) belast=2. EXECUTE.

Exkurs Syntax Vorteile zur Dokumentation der Analysen, z.b. bei Abschlussarbeiten Bei sich regelmäßig wiederholenden Analysen (Empfehlung: Kommentare schreiben) Nachteil es hat den Charakter einer Programmiersprache Öffnen des Syntax-Editors über Datei Neu Syntax oder bei Durchführung einer Aufgabe durch Drücken der Schaltfläche Einfügen (anstatt OK ), der durchzuführende Befehl wird gleich in den Syntax-Editor eingetragen und kann jederzeit erneut durch geführt werden.

Datenauswahl Man möchte in einer Analyse nur die Kinder früherer Jahrgänge untersuchen. Von der selbst erstellten Variable gebja_klass sollen daher nur die Fälle 1 ausgewählt werden. Daten Fälle auswählen Beachten: dieser Filter bleibt auch nach Deaktivierung als eigene Variable erhalten Zur besseren Übersichtlichkeit sollen die Daten dann nach der Variable gebja_klass aufsteigend sortiert werden. Daten Fälle sortieren

Übung Sortieren Sie die Fälle zurück in die alte Ordnung. Setzen Sie einen Filter: wählen Sie die Fälle von männlichen Kindern aus, die als Anzahl an Vorerkrankungen (Anz_Vorerkr) mindestens 2 haben Erzeugen Sie eine Variable, die die Differenz zwischen fef50 und fef75 angibt, Name: diff_fef, Berechnung: fef50 fef75 Erzeugen Sie eine Variable geb_jz (Jahreszeit Geburt) ausgehend von der Variable gebmo: 12, 1, 2 Winter 3-5 Frühjahr 6-8 Sommer 9-11 Herbst

Hilfe Öffnen des Lernprogramms beim Start von SPSS Menüpunkt Hilfe Themen öffnet online-hilfe sortiert nach Themen Fallstudien zu diversen Analysemethoden (Englisch) Statistik Assistent, ist quasi Ratgeber zur Auswahl des statistischen Verfahrens Arbeiten mit R Anleitung zur Integration von R Befehlen Befehlssyntax-Referenz Beschreibung der Syntaxsprache SPSS Community verbindet zu IBM Seite mit FAQ s Algorithmen Beschreibung der mathematischen Formeln, die den Prozeduren zugrunde liegen Hilfe zu Prozeduren: im Fenster findet sich eine Schaltfläche Hilfe, es öffnet sich online eine Beschreibung mit Beispielen. Benutzerhandbücher von SPSS beim Installationsmedium bei gelegt

Datenbeschreibung Menüpunkt Analysieren Deskriptive Statistik am Beispiel der Variable Körpergröße In einem vorherigen Beispiel wurden die Quartile (25%, 50%, 75%) der Körpergröße von Mädchen und Jungen benötigt. Wie erhält man diese? Unter Analysieren Deskriptive Statistik Explorative Datenanalyse wird die Variable gross als abhängige Variable ausgewählt, die Variable sex in die Faktorenliste gesetzt. Im Fenster Statistiken muss noch ein Häkchen bei den Perzentilen gesetzt werden, die Ausgabe sieht u.a. so aus:

Datenbeschreibung Pivot-Tabellen Die Formatvorlage kann verändert werden unter Bearbeiten Optionen Pivot-Tabellen. Die Pivot-Tabelle an sich kann durch Doppelklicken im Pivot- Tabellen-Editor bearbeitet werden, z.b. kann die eben gezeigte Tabelle noch etwas reduziert werden:

Datenbeschreibung Kreuztabellen ermöglichen eine zwei- bis mehrfache Aufteilung der Daten, einfache statistische Tests können auch verwendet werden. Beispiel: Besteht ein Zusammenhang zwischen der Anzahl an Vorerkrankungen und der Umweltbelastung am Wohnort? Erstellen einer Kreuztabelle mit den Variablen zone und Anz_Vorerkr. Analysieren Deskriptive Statistik Explorative Datenanalyse Bei der Schaltfläche Zellen wurde bei Häufigkeiten Beobachtet und Erwartet ausgewählt.

Datenbeschreibung Hat man bei der Schaltfläche Statistiken ein Häkchen bei Chi- Quadrat gesetzt, erhält man noch folgende Ausgabe. Beim Chi-Quadrat Test nach Pearson ist der p-wert <0,05, d.h. es besteht ein signifikanter Einfluss der Umweltbelastung am Wohnort auf die Anzahl der Vorerkrankungen. Man kann auch noch eine weitere Aufschachtelung der Kreuztabelle vornehmen, z.b. das Geschlecht als Schichtvariable hinzu fügen.

Datenbeschreibung Bei der explorativen Datenanalyse können für Variablen mit Skalenniveau auch diverse Diagramme mit erstellt werden, z.b. Boxplots und Normalverteilungsdiagramme (Q-Q-Plot) sowie statistische Tests zur Überprüfung der Normalverteilungsannahme durch geführt werden. Dieses ist für die spätere Auswahl eines geeigneten Testverfahrens von Bedeutung (Explorative Datenanalyse, Diagramme, Häkchen setzen bei Normalverteilungstests mit Diagrammen ). Auch diese Diagramme können durch Doppelklicken im Diagramm- Editor geöffnet und bearbeitet werden, hierzu später.

Diagrammerstellung Mithilfe eines Balkendiagramms sollen die Häufigkeiten der Anzahlen an Vorerkrankungen dargestellt werden. Diagramme Diagrammerstellung. Per Drag and Drop wird die gewünschte Diagrammart und die Variable in das Vorschaufeld gezogen. Zum Bearbeiten des Diagramms doppelt klicken, es öffnet sich der Diagrammeditor. Durch Doppelklicken auf das zu ändernde Element (z.b. Balken) öffnet sich das Eigenschaften-Fenster

Diagrammerstellung Aufgaben: - Ändern der Dicke der Balken - Ändern der Balken in 3D - Ändern der Hintergrundfarbe - Ändern der Schriftgröße der Achsenbeschriftungen - Verkleinern des y-achsenabschnitts auf 0 bis 1050 - Fügen Sie eine Anmerkung ein

Einfache Testverfahren Auswahl eines geeigneten Tests zum Vergleich zweier Stichproben: - welcher Art sind die Daten (ordinal, metrisch, ) - kann man eine Verteilungsannahme machen (sind Daten normalverteilt?) - sind die Varianzen der beiden Stichproben homogen? Um bei metrischen Variablen die Normalverteilungsannahme zu untersuchen, verwendet man wie bereits vorgestellt Analysen Deskriptive Statistik Explorative Datenanalyse Die erstellten Boxplots sowie das Ergebnis des Shapiro-Wilk bzw. des Kolmogorov-Smirnov Tests geben einen Aufschluss über die Verteilungsannahme. Die Annahme der Varianzhomogenität (z.b. Levene Test) wird automatisch beim Durchführen eines T-Tests überprüft.

Einfache Testverfahren Die Tests zum Vergleich zweier Stichproben finden sich unter Analysen Mittelwerte vergleichen sowie unter Nichtparametrische Tests Beispiel: Es soll festgestellt werden, ob sich Jungen und Mädchen hinsichtlich des fef75 unterscheiden. Der fef75 ist eine metrische Variable, wir prüfen vorerst, ob diese normalverteilt ist. -> Boxplots -> Q-Q- Diagramm -> Teststatistiken Bei den Q-Q-plots zeigt sich eine deutliche Abweichung des fef75 von der Normalverteilung, das Ergebnis des Shapiro-Wilk Tests bestätigt dies (p- Wert < 0,05). Die Verteilung ist rechtsschief, dies kann man anhand eines Histogramms oder des Schiefe -Wertes, der deutlich größer als 0 ist, sehen. Die Verteilung ist auch steilgipflig, angezeigt durch den deutlich positiven Kurtosis -Wert. Ein weiterer Hinweis auf eine Abweichung von der Normalverteilung ist ein deutlicher Unterschied zwischen Mittelwert und Median.

Einfache Testverfahren In diesem Fall würden wir also nicht von einer Normalverteilung ausgehen. Daher wählen wir einen nichtparametrischen Test: Analysieren Nichtparametrische Tests unabhängige Stichproben. SPSS verwendet den Mann-Whitney-U-Test für den Vergleich der zwei Stichproben. Dieser Test hat als Voraussetzung, dass die Verteilungen der beiden Stichproben gleich sind, was wir beim Betrachten der Boxplots bestätigen können (Levene-Test p-wert 0,809). Ergebnis: Der p-wert von 0,414 ist deutlich über dem Signifikanzniveau von 0,05, daher können keine geschlechterbedingten Unterschiede hinsichtlich des fef75 festgestellt werden.

Korrelation Untersucht, ob ein kausaler Zusammenhang zwischen zwei Variablen besteht. Beispiel: Es wird ein Zusammenhang zwischen der Vitalkapazität fvc und dem maximalen Ausatemstrom pef vermutet. Auch hier müssen die Variablen auf Normalverteilung untersucht werden, um das geeignete Verfahren auszuwählen. Beide Variablen folgen nicht der Normalverteilung, es kann daher nicht der Pearsonsche Korrelationskoeffizient verwendet werden, wir greifen daher auf den Spearman Rangkorrelationskoeffizienten zurück, der sich unter Analysieren Korrelation Bivariate Korrelationen findet. Als Ergebnis erhalten wir als Spearman-Rho-Wert 0,86, was eine starke, positive Korrelation anzeigt, die auf dem 1% Niveau signifikant ist.

Regression Erlaubt eine Aussage über den funktionalen Zusammenhang zweier metrischer, voneinander unabhängiger, (normalverteilter) und varianzhomogener Variablen. Wir möchten z.b. anhand des Gewichts der Kinder deren Körpergröße vorhersagen. Eine Korrelation zeigt einen starken positiven Zusammenhang dieser beiden Variablen auf (Spearman-rho= 0,923). Unter Analysieren Regression Linear erzeugen wir unser Regressionsmodell: abhängige Variable=Körpergröße, Unabhängige=Gewicht. Für die Bewertung des Modells sind folgende Angaben wichtig: das R² beträgt 0.794, d.h. fast 80% der Gesamtstreuung der Variable Körpergröße werden durch unser Modell, also die Variable Gewicht erklärt, die übrigen 20% ergeben die Residuen (nicht erklärte Streuung).

Regression Unser Modell ist mit einem p-wert<0.001 signifikant. Ausgehend von den Koeffizienten ergibt sich ein Regressionsmodell mit folgenden Werten: (y = mx + b) gross = 1.081*gewi + 102.278 Anschließend muss aber noch untersucht werden, ob das Modell geeignet ist, um diesen Zusammenhang zu beschreiben. Hierzu müssen die Residuen folgende Bedingungen erfüllen:

1. Unabhängig voneinander sein 2. Normalverteilt sein Regression 3. Homogene Varianzen aufweisen Um dieses zu überprüfen, wählt man bei dem Diagrammfenster der Regression die Schaltfläche Diagramme aus: 1. Häkchen setzen bei Histogramm und/ oder Normalverteilungsdiagramm 2. Streudiagramm der standardisierten vorhergesagten Werte (ZPRED) und standardisierten Residuen (ZRESID) Zusätzlich unter Schaltfläche Statistiken Auswahl des Durbin- Watson Tests.

Regression Histogramm sowie Normalverteilungsdiagramm zeigen eine Normalverteilung der standardisierten Residuen. Das Streudiagramm der stand. Residuen gegen die stand. geschätzten Werte zeigt keine regelmäßige Verteilung der Punkte, die auf eine Autokorrelation hinweisen.

Regression Der Durbin Watson Test auf Autokorrelation der Werte zeigt mit 1,665 einen unauffälligen Wert, es kann also davon ausgegangen werden, dass keine Autokorrelation der Werte vorliegt. Allerdings scheinen die Varianzen der Residuen nicht ganz homogen zu sein, es zeigt sich eine leichte Krümmungstendenz der Punktwolke, d.h. vor allem größere Werte zeigen geringere Varianz.