Matthias Gabriel. Kurze Einführung in SPSS 11.5

Ähnliche Dokumente
Matthias Gabriel. Kurze Einführung in SPSS 11.5

3 Zusammenhangsmaße Zusammenhangshypothesen

Kapitel 1: Deskriptive Statistik

Kapitel 5 FRAGESTELLUNG 1. Öffne die Datei alctobac.sav.

Signifikanztests zur Prüfung von Unterschieden in der zentralen Tendenz -Teil 1-

Statistik II Übung 3: Hypothesentests

Einfache statistische Auswertungen mit dem Programm SPSS

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Bivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.154

ÜBUNGSAUFGABEN ZU INFERENZSTATISTIK II

SPSS (20.0) Hilfe Version 1

Eigene MC-Fragen SPSS. 1. Zutreffend auf die Datenerfassung und Datenaufbereitung in SPSS ist

Statistik II Übung 4: Skalierung und asymptotische Eigenschaften

Hypothesentests mit SPSS. Beispiel für eine einfaktorielle Varianzanalyse Daten: museum_m_v05.sav

Biometrisches Tutorial III

Computergestützte Methoden. Master of Science Prof. Dr. G. H. Franke WS 07/08

Statistik II Übung 3: Hypothesentests Aktualisiert am

Herzlich willkommen zum Thema SPSS

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Gibt es einen Zusammenhang zwischen Merkmalen? Korrelationen

Multivariate lineare Regression. Statistik für SozialwissenschaftlerInnen II p.167

Statistische Grundlagen I

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Angewandte Statistik 3. Semester

Tutorial: Regression Output von R

Einstieg in SPSS. Man kann auch für jede Ausprägung einer Variablen ein Wertelabel vergeben.

Hypothesentests mit SPSS

I.3. Computergestützte Methoden 1. Deskriptive Statistik. Master of Science Prof. Dr. G. H. Franke WS 2009/ 2010

Elisabeth Raab-Steiner/ Michael Benesch. Der Fragebogen. Von der Forschungsidee zur SPSS-Auswertung. 3., aktualisierte und überarbeitete Auflage

Statistik. Jan Müller

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Im ersten Schritt müssen die Daten in die Datenansicht eingelesen werden.

Lösung Aufgabe 1 (Regression) Es wurden in einer Befragung zwei metrische Merkmale X und Y erhoben. Betrachten Sie dazu die

Parametrische vs. Non-Parametrische Testverfahren

Kapitel 4: Merkmalszusammenhänge

Übersicht über verschiedene Signifikanztests und ihre Voraussetzungen

Statistische Methoden in den Umweltwissenschaften

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Kapitel 5: Einfaktorielle Varianzanalyse

Formale Methoden der Ökonomik: Einführung in die empirische Wirtschaftsforschung

Kapitel 4: Merkmalszusammenhänge

Klausur Statistik I Dr. Andreas Voß Wintersemester 2005/06

Kapitel 1: Deskriptive Statistik

Forschungsmethodik II Mag.rer.nat. M. Kickmeier-Rust Karl-Franzens-Universität Graz. Lisza Gaiswinkler, Daniela Gusel, Tanja Schlosser

beruflicher Bildungsabschluss incl. Hochschulabschl. 4Kat.(m) Häufigkeit Prozent Gültig Lehre/Beruffachgesundh.Schule ,2 59,2 59,2

Statistik II Übung 2: Multivariate lineare Regression

Statistik II Übung 2: Multivariate lineare Regression

Hypothesentests mit SPSS

Kapitel 5: Einfaktorielle Varianzanalyse

B. Regressionsanalyse [progdat.sav]

Excel Grundkurs kompakt. Sabine Spieß, Peter Wies 1. Ausgabe, Juni 2013 K-EX2013-G

SPSS III Mittelwerte vergleichen

Statistik mit MAXQDA Stats

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Dateneingabe und -aufbereitung

Eigene MC-Fragen SPSS

Inferenzstatistik (=schließende Statistik)

Geschlecht + Anfangsgehalt. T-Test für das Anfangsgehalt Gruppenstatistiken. Der SPSS Output der aktuellen Computerübung zum Aufgabenblatt 3

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Methodik der multiplen linearen Regression

Aufgaben zu Kapitel 1

Kurzanleitung für SPSS Statistics 22

Aufgaben zu Kapitel 1

Lösungen zum Aufgabenblatt 2: Bivariate Kreuztabellen mit nominalem Messniveau

Lösung 1. die 1 angeben. Alternativ kann man auch. Variable berechnen wählen und dann die Summe von Q2_6 und Q2_7 wählen.

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

LÖSUNG 2C a. Bei HHEINK handelt es sich um eine metrische Variable.

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

SPSS Grundlagen. David A. Peters M.A. Koordinierungsstelle Evaluation. Hochschule Niederrhein

Basis-Kurs Statistik und SPSS für Mediziner Lösungen. SPSS-Übung Korrelation, Regression und diagnostische Tests

Ergebnisse VitA und VitVM

Hypothesentests mit SPSS

5. Lektion: Einfache Signifikanztests

Aufgaben zu Kapitel 8

Befehl: Analysieren > Deskriptive Statistiken > Häufigkeiten. Unter: Statistiken: Angabe Kurtosis/ Schiefe/ andere Lagemasse

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Modul G.1 WS 07/08: Statistik

Klausur Statistik I. Dr. Andreas Voß Wintersemester 2005/06

Aufgaben zu Kapitel 4

Testen von Unterschiedshypothesen mit parametrischen Verfahren Der t-test

Statistik II Übung 1: Einfache lineare Regression

Karl Entacher. FH-Salzburg

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp 7.-9.

Unterschiedshypothesen für maximal 2 Gruppen, wenn die Voraussetzungen für parametrische Verfahren nicht erfüllt sind

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Um eine Korrelation in MAXQDA Stats zu berechnen, wählen Sie im Hauptmenü entweder

Transkript:

Kurze Einführung in SPSS 11.5 001 überarbeitet Oktober 003 1

Inhaltsverzeichnis 1 Datenaufbereitung 4 1.1 Die SPSS-Matrix 4 1. Variablen definieren 5 1.3 Variablen verschieben, einfügen 5 1.4 Fälle (Personen) einfügen 5 1.5 Fälle, Variablen löschen 5 1.6 Daten sortieren (sort) 5 1.7 Dateien aufteilen (split) 6 1.8 Fälle auswählen bzw. filtern (select) 6 1.9 Variablen kategorisieren 6 1.10 Zählen... 7 1.11 Variablen umkodieren (recode) 7 1.1 Der Befehl Berechnen (compute) 9 Deskriptive Statistik 10.1 Tabellen 10.1.1 einfache Tabellen 10.1. Häufigkeitstabellen 10.1.3 allgemeine Tabellen 11. statistische Kennwerte (deskriptive Statistiken) 13..1 Mittelwert, Varianz, Median, Standardabweichung...+ Diagramme 13.3 Diagramme 14 3 Zusammenhangsmaße Zusammenhangshypothesen 16 3.1 Arten von Korrelationen 16 3. Beispiele 17 4 Die einfache/multiple lineare Regression 1 4.1 Zweck der Regression: 1 4. Stichworte: 1 4.3 Theoretisches Beispiel 3 4.4 Praktisches Beispiel 3 5 Unterschiedshypothesen 7 5.1 Vergleich zweier Mittelwerte bzw. zentraler Tendenzen 7 5.1.1 t-test (unabhängige Stichproben) 8 5.1. t-test (abhängige Stichproben) 30 5.1.3 u-test ( unabhängige Stichproben, parameterfrei) 33 5.1.4 Wilcoxon-Vorzeichen-Rang-Test ( abhängige Stichproben, parameterfrei) 34 5. Vergleich von mehr als zwei Mittelwerten bzw. zentraler Tendenzen 35 5..1 einfache Varianzanalyse (unabhängige Stichproben) 36 5.. einfache Varianzanalyse (abhängige Stichproben) 43

5..3 mehrfache Varianzanalyse (unabhängige Stichproben) 49 5.1.3 Kruskal-Wallis-Test (mehr als unabhängige Stichproben, parameterfrei) 56 5.1.4 Friedman-Test (mehr als abhängige Stichproben, parameterfrei) 59 6 Die Reliabilitätsanalyse 6 6.1 Objektivität 6 6. Validität (Gültigkeit) 6 6.3 Reliabilität 6 6.3.1 Paralleltest-Reliabilität 6 6.3. Retest-Reliabilität (=Stabilität) 63 6.3.3 Innere Konsistenz 63 7 Die Faktorenanalyse 68 7.1 Grundidee 68 7. Stichworte 68 7.3 Bestimmung der Faktorenanzahl bzw. Abbruchkriterium 69 7.4 Voraussetzungen der FA 69 7.5 Probleme der FA 70 7.6 Berechnung der FA mittels SPSS 70 3

Legende: Im folgenden Text entsprechen die Wörter zwischen Anführungszeichen den Befehlen bzw. Menüoptionen im SPSS z.b: Berechnen, Zählen, Umkodieren... 1 Datenaufbereitung 1.1 Die SPSS-Matrix Der SPSS Editor ist in eine Datenansicht und eine Variablenansicht geteilt (links unten am Bildschirm). Zwischen den beiden Ansichten kann beliebig gewechselt werden. 1) Die Datenansicht zeigt die vom Benutzer eingegeben Daten an, wobei die Personen (Fälle) senkrecht angereiht sind und die Variablen waagrecht. Jede Person i hat also eine ganze Zeile Z i in der ihre Ausprägungen in allen Variablen k sichtbar werden. Jede Variable j hat eine Spalte S j in der die Ausprägungen aller Personen n in dieser Variable sichtbar werden. ) Die Variablenansicht gibt Auskunft über die Definitionen und Merkmale der einzelnen Variablen Vj, wobei in dieser Ansicht die Variablen senkrecht aufgereiht sind (jede Zeile = eine Variable) und jedes Merkmal, jede Einstellung dieser Variable eine Spalte darstellt. Folgende Einstellungen (jede Spalte ist eine Einstellung) werden angeboten: a) Name: hier wird der Variablenname eingegeben (max. 8 Zeichen, der Name muss mit einem Buchstaben beginnen), der in der Datenansicht dann über der Spalte erscheint und somit die Überschrift der Variable darstellt. b) Typ: Numerisch (für Zahlen), Währung (für Geld), Datum, String (für Zeichen, Buchstabenketten, alphanumerische Kombination)... c) Spaltenformat (benutzerdefiniert je nach Variable) d) Dezimalstellen e) Variablenlabel: Der hier eingeschriebene Name der Variable wird beim Output automatisch verwendet; z.b. bei Tabellen, Diagrammen, Tests...(der Name aus Punkt a) wird also nicht(!) beim Output verwendet) f) Wertelabels: Hier kann man Werte einer Variablen definieren (meist bei nominalskalierten bzw qualitiativen Variablen). z.b: Wert 0 für männlich, Wert 1 für weiblich (bei Geschlecht), oder 16-0 für jung und 1-5 für mittel... (bei Altersklassen). Erscheint ebenfalls im Output (wie das Variablenlabel). g) Fehlende Wert: Definition des missing-wertes : Falls Personen in verschiedenen Zellen, Variablen keine Werte haben, wird diese Zelle nicht einfach ausgelassen! Der missing-wert wird eingegeben. (z.b: -1 oder 99, damit er nicht mit anderen Werten leicht vertauscht werden kann). Diese Eingabe ist ebenfalls wichtig für die Auswertung. h) Spalten: für Spaltenbreite (benutzerdefiniert je nach Variable) i) Ausrichtung: wo die Werte in der Zelle angeordnet sein sollen (rechts, links...) j) Messniveau: Nominal (z.b: Geschlecht, Bildung, Hobby...) Ordinal (= Rangskala z.b: Noten, Dienstgrad...) Metrisch (= Verhältnisskala z.b: Größe, Gewicht, Längen und u.a. auch Rohwerte...) 4

1. Variablen definieren Definition: Die oben genannten Einstellungen (a bis j) für eine Variable modifizieren. Dies geschieht in der Regel gleich zu Beginn der Dateneingabe. Beispiel: Variable Geschlecht defineren a) Name: Gender b) Typ: numerisch c) Spaltenformat: 8 d) Dezimalstellen: 0 e) Variablenlabel: Geschlecht f) Wertelabels: Wert 0 hat Wertelabel männlich und Wert 1 hat Wertelabel weiblich ( hinzufügen nicht vergessen!) g) fehlende Wert -1 h) Spalten: 8 i) Ausrichtung: rechts j) Messniveau: nominal 1.3 Variablen verschieben, einfügen Verschieben: Variable markieren (beim Variablennamen), mit linker Maustaste nochmals anklicken, Taste halten und dann weiterschieben. Erst wenn richtige Stelle erreicht ist, Mausknopf loslassen. (eine andere Möglichkeit besteht mit kopieren und einfügen) Einfügen: In der Datenansicht Variable rechts neben der neu einzufügenden Variable markieren (beim Variablennamen), dann rechter Mausklick und Variable einfügen. 1.4 Fälle (Personen) einfügen In der Datenansicht die Zeile unter der neu einzufügenden Zeile markieren (bei Fallnummer), dann rechter Mausklick und Fälle einfügen. 1.5 Fälle, Variablen löschen Zeile bzw. Spalte markieren (wie unter 1.3 bzw. 1.4) und entfernen drücken. 1.6 Daten sortieren (sort) Definition: Sortiert alle Fälle nach einer bestimmten Variable auf- oder absteigend. Beispiel: Alle Personen nach Alter aufsteigend sortieren (also vom Jüngsten zum Ältesten) Daten Fälle sortieren In sortieren nach die gewünschte Variable eingeben nach der sortiert werden soll (hier Alter) aufsteigend ok 5

1.7 Dateien aufteilen (split) Definition: Um den Datensatz (imaginär) in Untergruppen zu teilen, z.b: Frauen und Männer trennen, nach Altersklassen aufteilen... Anwendung: z.b. bei der Normalverteilungsprüfung, bei Diagrammen, Tabellen und anderen deskriptiven Auswertungen Beispiel: Die Daten bezüglich Geschlecht aufteilen Daten Datei aufteilen Ausgabe nach Gruppen aufteilen anklicken und die gewünschte split-variable eingeben (hier Geschlecht) ok Die Daten werden jetzt für alle Berechnungen immer als gesplittet angesehen, dementsprechend gibt es auch im Output immer getrennte Ergebnisse. Nicht vergessen die Aufteilung wieder aufzuheben, falls sie nicht mehr gebraucht wird. 1.8 Fälle auswählen bzw. filtern (select) Definition: Um nur bestimmte Fälle in die Berechnungen einzubeziehen 1) Fälle nach bestimmten Kriterien auswählen Beispiel: Es werden nur jene Fälle für die Auswertung benötigt, die älter als 35 Jahre sind. Daten Fälle auswählen Falls Bedingung zutrifft anklicken Falls Bedingungsvariable hinzufügen (hier Alter) und Bedingung festlegen (hier >35 dazuschreiben) weiter ok ) Zufallsstichprobe Definition: um aus den Daten eine repräsentative Stichprobe auszuwählen (meist nur für große Datensätze) Daten Fälle auswählen Zufallsstichprobe anklicken 3) Aufgrund einer Filtervariablen filtern Beispiel: Daten nach Geschlecht filtern Daten Fälle auswählen Filtervariable verwenden anklicken gewünschte Filtervariable hinzufügen (hier Geschlecht) nicht ausgewählte Fälle : löschen oder (besser) filtern auswählen Die Daten werden jetzt für alle Berechnungen immer als gefiltert angesehen, daher nicht vergessen die Filterung wieder aufzuheben, falls sie nicht mehr gebraucht wird. 1.9 Variablen kategorisieren Definition: Kategorisiert eine gewünschte Variable in k (selbst wählbare) Klassen. Die Wahl der Klassengrößen erfolgt automatisch! 6

Anmerkung: Falls die Klassengrößen selbst definiert werden wollen (besser): siehe unter 1.11 Variablen umkodieren Beispiel: Das Alter soll in 4 Klassen eingeteilt werden Transformieren Variablen kategorisieren In Kategorien erstellen für gewünschte Variable hinzufügen (hier Alter) die Anzahl der Kategorien festlegen (hier 4) ok Ergebnis: Eine neue Variable (hier nalter) mit 4 Kategorien wird erzeugt. 1.10 Zählen... Definition: Zählt zeilenweise bestimmte Werte nach benutzerdefiniert aufgestellten Formeln. Das Ergebnis wird in einer neuen Variablen angegeben. Dieser Befehl kann sehr hilfreich sein, etwa bei der Frage: Wie oft hat eine Person bei bestimmten Items/Variablen bestimmte Werte gewählt? oder Wie oft hat eine Person bei den 0 Items die Antwortmöglichkeit A gewählt? Anwendungsbeispiele: Darstellung des Antwortverhaltens der einzelnen Personen Häufigkeiten von Werten in Zeilen (also pro Person) zählen Beispiel: Ein Persönlichkeitsfragebogen mit 10 Fragen, 5 kategorielles Antwortmuster. Wie oft hat eine Versuchsperson Antwort 1,, 3, 4, bzw. 5 angekreuzt? Transformieren Zählen... In Zielvariable den Namen der neuen Variable eingeben (z.b: Antw_1 für Antwortmöglichkeit 1) In Label den Variablennamen eingeben (zb: Häufigkeit Antwort 1 ) (siehe auch 1.1) In Variablen jene Variablen eingeben, die für den Zählvorgang berücksichtigt werden sollen (hier: Item1 bis Item 10) Werte definieren unter Wert den gewünschten zu zählenden Wert eingeben (hier: 1 ) hinzufügen weiter ok Ergebnis: Eine neue Variable (hier: Antw_1 ) wird erzeugt in der die Häufigkeiten der Antwortalternative 1 in den 10 Items für jede Person dargestellt wird. analog erfolgt die Darstellung der anderen 4 Antwortmöglichkeiten in 4 neuen Variablen. Im Alert-Fenster Werte definieren besteht auch die Möglichkeit nicht nur konkrete einzelne Werte, sondern auch Wertbereiche und missing Werte, die zu zählen sind, anzugeben. 1.11 Variablen umkodieren (recode) Ein sehr wichtiger Befehl. Anwendungsbeispiele: Das Alter in einer neuen Variable in Altersklassen einteilen, Die Kodierung einzelner Items umdrehen (bei Rating- Likertskalen), also z.b: die Werte 1,,3,4,5 in 5,4,3,,1 umdrehen. 7

Bestehende Kodierungen umändern: zb: 4 Schulformkategorien (AHS, HTL, HBLA, HAK) in umkodieren (AHS und Andere ), sodass unter Andere HTL, HBLA und HAK enthalten sind. Die Umkodierung wird in derselben Variablen durchgeführt, oder (besser) es wird eine neue Variable mit der neuen Kodierung erzeugt. Beispiel 1: Das Alter (stetige Variable) in die Altersklassen (qualitativ dreikategorielle Variable) 15-30, 31-39 und 40+ umkodieren. Dafür soll eine neue Variable erzeugt werden. Transformieren Umkodieren in andere Variablen gewünschte umzukodierende Variable hinzufügen (hier Alter) in Ausgabevariable Name den Namen der neuen Variablen eingeben (z.b: alter) und ändern (!) drücken Label einschreiben (z.b: Alter dreikategoriell ) (siehe auch 1.1) alte und neue Werte alter Wert Bereich anklicken (weil ein Altersbereich angegeben werden muss) die ersten Klassengrenzen eingeben (hier: 15 und 30) unter neuer Wert neuen Wert angeben (hier: 1 für 1.Altersklasse) hinzufügen analog den zweiten Bereich (31 bis 39) eingeben und für. Altersklasse als neuen Wert für die letzte (offene!!) Klasse (40+) Bereich kleinster Wert bis anklicken und 40 eingeben als neuen Wert 3 (für 3. Klasse) hinzufügen weiter ok Ergebnis: am Ende der Datenmatrix in der Datenansicht wird nun die neue Variable ( alter ) hinzugefügt, welche die Variable Alter in 3 Klassen einteilt. ( 1 für 15-13, für 31-39 und 3 für 40 und älter) Die neue Variable muss noch definiert werden (siehe 1.1) Beispiel : Die Werte des 5 kategoriellen Items 1 sollen umkodiert werden, in einer anderen Variable; also 5 zu 1, 4 zu, 3 zu 3, zu 4 und 1 zu 5. Transformieren Umkodieren in andere Variablen gewünschte umzukodierende Variable hinzufügen (hier Item1) in Ausgabevariable Name den Namen der neuen Variablen eingeben (z.b: Item1_a) und ändern (!) drücken Label einschreiben (z.b: Item1 umkodiert ) alte und neue Werte alter Wert 1 eingeben neuer Wert 5 eingeben hinzufügen analog für die anderen 4 Werte ( zu 4; 3 zu 3; 4 zu und 5 zu 1) weiter ok Ergebnis: am Ende der Datenmatrix wird nun die neue Variable ( Item1_a ) mit den umkodierten Werten hinzugefügt. Die neue Variable muss noch definiert werden (siehe 1.1) Automatisch umkodieren Das obige Beispiel kann auch einfacher gelöst werden mit automatisch umkodieren Fortsetzung Beispiel : Transformieren automatisch umkodieren gewünschte umzukodierende Variable hinzufügen (hier Item1) in Neuer Name den Namen der neuen Variablen eingeben (z.b: Item1_a ) und Neuer Name (!) drücken Umkodieren beginnen bei größtem Wert wählen ok Ergebnis: Am Ende der Datenmatrix wird nun die neue Variable ( Item1_a ) hinzugefügt Die neue Variable muss noch definiert werden (siehe 1.1) 8

1.1 Der Befehl Berechnen (compute) Der Berechnen -Befehl ist ebenfalls eine sehr hilfreiche Anwendung. Definition: (zumeist zeilenweise) Berechnung von bestimmten statistischen Kennwerten, Formeln, deren Ergebnis in einer neuen Variable aufscheint. Anwendungsbeispiele: Welchen Rohscore haben die Personen in den k Items (Variablen) (also eine zeilenweise Summierung der Werte der k Items für jede Person, in einer neuen Variablen ausgegeben) Welchen Mittelwert, welche Varianz, Standardabweichung... hat jeder Fall in den k Variablen Viele weitere Berechnungen (z.b: Body-Maß-Index, relative Lösungshäufigkeiten, Summen, Wurzel, Potenzen, Logarithmen, Median, Modalwert...) Beispiel 1: Welche relative Lösungshäufigkeit weist jede Peson in den 10 Items auf? Transformieren Berechnen In Zielvariable gewünschten Namen der neuen Variable einschreiben (z.b. relhfgkt) im Feld numerischer Ausdruck werden alle gewünschten Berechnungen eingetragen. Dafür muss man einfach die benötigten Variablen aus der Variablenliste einfügen und mit den erwünschten Rechenoperatoren verknüpfen. Dieses Beispiel verlangt die Anzahl der gelösten Items (Variable rohscore ) dividiert durch die Anzahl aller n Items für jede Zeile: Man schreibt bzw. fügt ins Berechnungsfeld also folgendes ein: rohscore / 10 ok Ergebnis: Eine neue Variable relhfgkt wird nun erzeugt, die für jede Person die relative Lösungswahrscheinlichkeit angibt. Berechnen mittels Funktionen Verschiedene vorprogrammierte Berechnungen (wie Mittelwert, Median, Varianz, Standardabweichung...) sind den vorprogrammierten Funktionen zu entnehmen. Diese vereinfachen den Rechenprozess oft wesentlich. Beispiel : Mittelwertsberechnung mittels vorprogrammierter Funktion Die Funktionen sind im Feld Funktionen ersichtlich und mit englischen Wörtern abgekürzt. Für eine Direkthilfe braucht man nur die gewünschte Funktion markieren und die rechte Maustaste klicken. Für unser Beispiel wäre es die Funktion unter M wie Mean (Mittelwert) also Mean(numausdr, numausdr,...) Die gewünschten 10 Items müssen noch eingefügt und mit einem Beistrich getrennt(!) werden. Dies sieht so aus: MEAN(item1,item,item3,item4,item5,item6,item7,item8item9,item10) ok Dies wäre die Berechnung des Mittelwertes mittels Funktion. Ergebnis: Eine neue Variable wird nun erzeugt, die für jeden Fall den Mittelwert der Werte der 10 Items angibt. 9

Deskriptive Statistik.1 Tabellen.1.1 einfache Tabellen Definition: zur einfachen, übersichtlichen Darstellung bzw. Zusammenfassung der Werte (Häufigkeiten) von Variablen nach ihren Ausprägungen (z.b.: Ja/Nein; Geschlecht; Alter...) Befehl: Analysieren Tabellen einfache Tabellen gewünschte Variable(n) in Zeilen oder/und Spalten geben ok Beispiel: Zeilen: Semester in denen sich die Vps befinden (1-9) Spalten: Unterteilung Geschlecht (dichotom) Geschlecht männlich weiblich aktuelles Semester 1 4 37 1 33 3 6 55 4 4 7 5 1 11 6 7 1 9 1 Variationen: separate Tabellen (z.b.: je eine Tabelle für Männer/Frauen): gewünschte Variable (z.b.: Geschlecht) in separate Tabellen geben um separate Tabellen für 1) Männer ) Frauen zu erhalten gestapelte/verschachtelte Tabellen Zeilen/Spaltenprozente, Prozentangaben...: Statistik die Anordnung der Zeilen/Spaltenprozente, Prozentangaben...innerhalb der Tabelle können geändert werden: Layout Beschriftung für Statistik wie gewünscht ändern Werte sortieren: Statistik Gesamtwerte (Gesamtergebnis für die Tabelle / Zeilen/Spaltensummen): Gesamt Darstellung leerer Zellen (z.b.: mit Null): Format.1. Häufigkeitstabellen Definition: Häufigkeitstabellen sind den einfachen Tabellen sehr ähnlich. Sie eignen sich aber zusätzlich besonders zur Darstellung von Häufigkeiten mehrerer Variablen, welche gleiche Antwortmöglichkeiten/kategorien haben (z.b.: Ja/Nein/weiß nicht; Multiple Choice...) Beispiel: Spalten: Zufriedenheit und Lebenssituation ( Variablen(!)) Zeilen: Antwortkategorien (bei beiden Variablen gleich(!)) Befehl: Analysieren Tabellen Häufigkeitstabellen 10

Allgemeine Zufriedenheit Ist das Leben aufregend oder langweilig? Anzahl Anzahl Sehr zufrieden 467 434 Ziemlich zufrieden 87 505 Nicht sehr zufrieden 165 41 Variation: Für jede Variable eine eigene Spalte: alle gewünschten Variablen in Häufigkeit für geben Verschachtelte Tabellen (mehrdimensional): zusätzliche Variable(n) in In jeder Tabelle geben Separate verschachtelte Tabellen: zusätzliche Variable(n) in separate Tabellen geben Prozente, Gesamtwerte: Statistik.1.3 allgemeine Tabellen Definition: Mit allgemeinen Tabellen können Mehrfachantworten ausgewertet werden (mehrdimensionale Darstellungen, also viele Variablen in einer Tabelle). Weiters können auch verschiedene Stufen der Verschachtelung innerhalb der Tabellen festgelegt werden. Befehl: Analysieren Tabellen allgemeine Tabellen Beispiel 1: (eine verschachtelte mehrdimensionale Tabelle) In den Zeilen: Beschreibung der Lebenssituation und (verschachteltes) Geschlecht In der Spalte: die Region (Lebensraum) Ist das Leben aufregend oder langweilig? Region Nordost Südost West Aufregend Männlich 9 56 65 Weiblich 94 51 76 Routine Männlich 88 58 54 Weiblich 140 90 75 Langweilig Männlich 7 3 Weiblich 1 9 8 Beispiel : (eine unverschachtelte mehrdimensionale Tabelle) In den Zeilen: Beschreibung der Lebenssituation und (unverschachteltes) Geschlecht In der Spalte: die Region Region Nordost Südost West Ist das Leben aufregend oder langweilig? Aufregend 186 107 141 Routine 8 148 19 Langweilig 19 1 10 Geschlecht Männlich 81 177 178 Weiblich 398 38 45 11

Variationen: Verschachteln von einzelnen Variablen (z.b.: Geschlecht): Variable markieren und Verschachtelt wählen Zellenstatistiken für einzelne Variablen (z.b.: nur Geschlecht hat Zeilenprozente alle anderen haben Absolutwerte): Variable markieren und Statistik bearbeiten wählen Gesamtwerte einblenden: Variable markieren und Gesamtergebnis einfügen wählen. Mittelwert, Varianz... berechnen: Variable markieren und wird ausgewertet wählen: dann Statistik wählen und die gewünschten Statistiken (Mittelwert...) hinzufügen (eventuell Mittelwert... markieren und Format ändern für Dezimalzahlen) 1

. statistische Kennwerte (deskriptive Statistiken)..1 Mittelwert, Varianz, Median, Standardabweichung...+ Diagramme 1. Möglichkeit: (mit Diagrammen) Befehl: Analysieren deskriptive Statistiken Häufigkeiten gewünschte Variable eingeben (z.b. Alter) Statistik gewünschte Statistiken eingeben (z.b.7 Mittelwert, Varianz...) Diagramme gewünschtes Diagramm eingeben Beispiel: Anzahl der Geschwister N Gültig 1505 Fehlend 1 Mittelwert 3,93 Median 3,00 Standardabweichung 3,05 Varianz 9,8. Möglichkeit: (leichter und übersichtlicher Vergleich von Mittelwerten, Varianzen... bezüglich Kategorien) ohne Diagramme Beispiel: Welchen Mittelwert, welche Varianz... hat die Variable Alter separat dargestellt nach der Variable Geschlecht? Befehl: Analysieren Mittelwerte vergleichen Mittelwerte... in unabgängige Variable kommt die Breakvariable (hier: Geschlecht) in abhängige Variable kommt jene Variable, deren Statistiken (Mittelwert...) ausgerechnet werden soll (hier Alter) Optionen gewünschte statistische Kennwerte hinzufügen weiter ok Bericht alter Geschlecht Mittelwert Standardabweichung Varianz Median männlich 4,15 6,14 37,757,00 weiblich 1,65 3,97 15,743 0,00 Insgesamt,04 4,46 19,98 1,00 3. Möglichkeit: (über Tabellen) Befehl: Analysieren Tabellen einfache Tabellen die gewünschte Variable(n) in das Feld Auswerten geben Statistik die gewünschten statistischen Kennwerte (zb: Mittelwert, Median, Varianz..) hinzufügen (eventuell das Format ändern, um Dezimalzahlen anzuzeigen). Beispiel: Mittelwert Median Standardabweichung Varianz Anzahl Geschwister 3,93 3,000 3,047 9,8 13

4. Möglichkeit: (eher für Intervallskalierte Daten, ohne Median, Modalwert...) Befehl: Analysieren deskriptive Statistiken deskriptive Statistiken... Variable(n) eingeben Optionen gewünschte Statistiken auswählen Beispiel: N Mittelwert Standardabweichung Varianz Anzahl Geschwister 1505 3,93 3,05 9,8 Gültige Werte (Listenweise) 1505.3 Diagramme Definitionen: Balkendiagramm: gibt pro Balken die Werte einer Ausprägung (z.b.: Mann/Frau) einer Variable (z.b.: Geschlecht) an. Kreisdiagramm: ein Kuchen dessen Kuchenstücke die verschiedenen Ausprägungen darstellen (z.b.: Anzahl der Studiensemester). Desto mehr Personen in eine Kategorie fallen (z.b.: erstes Semester) desto größer ist dieses Kuchenstück. Histogramm: (Vergleich: Häufigkeitsklassen) Verwendung: bei stetigen(!) Variablen, wenn die Variable in Klassen gegliedert ist oder in Klassen abgebildet werden soll (z.b.: Körpergröße, Klassen: 151-160cm, 161-170cm,...) Streudiagramm: (XY-Diagramm) Jeder Punkt im Diagramm hat einen X und einen Y Koordinate. Dadurch ergibt sich eine Punktwolke. Verwendung: z.b.: Regression, Korrelation, Modellkontrolle Rasch Modell Liniendiagramm: gibt eine Gerade/Kurve/Funktion an. Verwendung z.b.: bei Einkommen, Alter, Körpergröße, Konzentrationskoeffizienten... Befehl: Grafiken gewünschten Diagrammtyp (Balken, Kreis...) auswählen Beispiel 1: Balkendiagramm Wie viele Kinder haben männliche bzw. weibliche befragte Personen im Durchschnitt? Lösung: Darstellung mittels Balkendiagramm mit a) Kategorienvariable: Geschlecht b) auszuwertende Variable: durchschnittliche Anzahl der Kinder (Mittelwert) Befehl: Grafiken Balken... einfach und Auswertung über Kategorien einer Variable (weil hier nur Kategorien der einen Variable Geschlecht gefragt sind. Für die Abbildung mehrerer Variablen in einem Diagramm Auswertung über verschiedene Variablen wählen) definieren in Kategorienachse Geschlecht hinzufügen bei Bedeutung der Balken andere Auswertefunktion wählen (weil der Mittelwert der Anzahl der Kinder gefragt ist und nicht die Häufigkeit bzw. Anzahl der Fälle) gewünschte auszuwertende Variable hinzufügen (hier Anzahl der Kinder) Auswertefunktion Mittelwert wählen weiter ok 14

Ergebnis:,,1,0 1,9 Mittelwert Anzahl Kinder 1,8 1,7 1,6 1,5 Männlich Weiblich Geschlecht Die durchschnittliche Anzahl der Kinder überwiegt bei den Frauen (ca.,1) im Vergleich zu den Männern (ca 1,6). Variationen: Häufigkeiten oder Prozente der Ausprägungen einer Variablen angeben (z.b.: Wie viele Männer/Frauen) Anzahl der Fälle oder %der Fälle wählen statt andere Auswertefunktion Fehlende Werte anzeigen (als eigenen Balken) Optionen Diagrammtitel Titel Varianz, Median, Standardabweichung... andere Auswertefunktion (wie bei Mittelwert) Anmerkung: Die Darstellung von Kreis-, Linien-, Flächendiagramm erfolgt fast äquivalent. Beispiel : Histogramm Nur sinnvoll bei (quantitativen) Variablen, die eine Klassenbildung benötigen, um zusammengefasst zu werden (z.b: Alter, Körpergröße, Gewicht, (Punkte in einem Test)...) Nicht bei qualitativen Variablen! Frage: Wie sieht die Verteilung der Variable Alter aus? Eine Abbildung des Alters mit jedem Alter (Jahr) als eigene Kategorie bei einer Stichprobe von z.b:15 bis 70 jährigen wäre nicht sinnvoll und überhaupt nicht überschaubar. Lösung: Altersklassen bilden und Histogramm erstellen Befehl: Grafiken Histogramm in Variable die gewünschte Variable einfügen (hier: Alter) ok 300 00 100 Std.abw. = 4,45 Mittel =,0 0 N = 419,00 0,0 5,0 30,0 35,0 40,0 45,0,5 7,5 3,5 37,5 4,5 47,5 alter Die Verteilung des Alters in diesem Beispiel ist nicht normalverteilt, die Klasse 19-1jährige beinhaltet den Großteil der Stichprobe. Variationen: Normalverteilungskurve (dazu) anzeigen Anmerkung: Die Klassen werden in der Regel automatisch gebildet. 15

3 Zusammenhangsmaße Zusammenhangshypothesen Zusammenhänge (zwischen Variablen) misst man mittels Korrelationen. Die Wahl der Korrelation hängt ab von: a) Skalenniveau der beiden Variablen: 1) intervallskaliert (Größe, Gewicht, Längen, Rohscore, Temperatur...) ) rang- oder ordinalskaliert (Noten, Rangreihen, Dienstgrade, Beliebtheit von Personen...) 3) nominalskaliert (Geschlecht, Bildungsgrad, Haarfarbe, Beruf...) b) Art der Variable 1) Quantitativ I) stetig wenn sie (theoretisch) unendlich viele Ausprägungen/Intervalle annehmen kann (wie Größe, Gewicht, Längen,...) II) diskret, wenn sie nur eine bestimmte, endliche Anzahl aufweist (z.b: Anzahl der Personen in einem Raum, Testscore,...). ) Qualitativ wenn sie nur beschränkte Ausprägungen oder in Klassen zusammengefasst ist. I) Dichotom: Ausprägungen (z.b: Geschlecht, Versuchs- Kontrollgruppe, Psychologie vs. Nicht-PsychologiestudentInnen II) Polytom: mehr als Ausprägungen (z.b: Bildung, Haarfarbe, Beruf...) Intervallskala Rangskala Nominalskala Quantitativ stetig, diskret Qualitativ dichotom, polytom 3.1 Arten von Korrelationen Definitionen: Produktmomentkorrelation (Pearson) r xy : geht von 1 bis +1; Verwendung grundsätzlich bei intervallskalierten, quantitativen Variablen Rangkorrelation (Spearman) r`: geht von 1 bis +1; Verwendung grundsätzlich bei rangskalierten Variablen Kendall-Tau-Korrelation: ist der Spearmankorrelation sehr ähnlich, nützt aber die Ranginformation besser aus. (ebenfalls für rangskalierte Daten) Vierfelderkorrelation (phi): geht von 1 bis +1; Verwendung bei nominalskalierten dichotomen (qualitativen) Variablen (z.b.: Geschlecht und Raucher/Nichtraucher) Partielle Korrelation: geht von 1 bis +1; Um den Einfluss einer möglichen dritten Variable (intervenierenden oder Störvariable) auszuschließen und die reine Korrelation zwischen den gewünschten Variablen anzuzeigen. (Voraussetzung wie Pearson Korrelation) Kontingenzkoeffizient (CC): geht von 0 bis 1; Verwendung bei qualitativen Variablen, wobei mindestens eine polytom (mehrkategoriell) ist. Cramer V: geht von 0 bis 1; ist dem CC sehr ähnlich und wird ebenfalls bei qualitativen, dichotomen/polytomen Variablen verwendet. 16

3. Beispiele Beispiel 1: Pearson Korrelation zwischen Körpergröße (cm) und Gewicht (kg) Ein klassisches Beispiel: beide Variablen sind einerseits intervallskaliert (oder sogar verhältnisskaliert) und andererseits quantitativ (es gibt theoretisch unendlich viele Ausprägungen). Logischer Weise (wie aus der Praxis bekannt) sollten die beiden Variablen korrelieren. (Jemand der größer ist, ist in der Regel auch schwerer.) Befehl: Analysieren Korrelation Bivariat... gewünschten Variablen (hier Größe und Gewicht) hinzufügen Pearson wählen (=Produkt-Moment-Korrelation) signifikante Korrelationen markieren anklicken zweiseitig ok Ergebnis: Die Korrelation ergibt 0,635, das Bestimmtheitsmaß (Korrelation zum Quadrat; selbsterrechnet) beträgt r = 40%. Die zweiseitige Signifikanzprüfung ergibt eine Signifikanz von 0,000 bei einer Irrtumswahrscheinlichkeit von 0,01. Es besteht demnach ein mittelmäßiger signifikant positiver Zusammenhang zwischen Gewicht und Größe. Korrelationen CM KG CM Korrelation nach Pearson 1,000,635 Signifikanz (-seitig),,000 N 446 446 KG Korrelation nach Pearson,635 1,000 Signifikanz (-seitig),000, N 446 446 ** Die Korrelation ist auf dem Niveau von 0,01 (-seitig) signifikant. Beispiel : Spearman Korrelation und Kendall-Tau zwischen Deutsch und Englischnote. Deutsch und Englischnote sind beide rangskaliert, daher Spearman bzw. Kendall-Tau Befehl: Analysieren Korrelation Bivariat... die gewünschten Variablen eingeben Spearman und Kendall-Tau wählen signifikante Korrelationen markieren anklicken zweiseitig ok Ergebnis: Die Korrelation r`= 0,436 (Spearman) sowie Kendall-Tau mit τ = 0,373 ist mit einem p-wert von 0,000 signifikant bei α = 0,01. Es besteht also ein signifikanter positiver Zusammenhang zwischen Deutsch und Englischnote in beiden Korrelationen. Korrelationen DEUTSCH ENGLISCH Kendall-Tau-b DEUTSCH Korrelationskoeffizient 1,000,373 Sig. (-seitig),,000 N 44 381 ENGLISCH Korrelationskoeffizient,373 1,000 Sig. (-seitig),000, N 381 393 17

Spearman-Rho DEUTSCH Korrelationskoeffizient 1,000,436 Sig. (-seitig),,000 N 44 381 ENGLISCH Korrelationskoeffizient,436 1,000 Sig. (-seitig),000, N 381 393 ** Korrelation ist auf dem Niveau von 0,01 signifikant (-seitig). Beispiel 3: Phi (Vierfelder)korrelation Frage: Besteht ein Zusammenhang zwischen Geschlecht und der besuchten Schulform (AHS und HTL) der Versuchspersonen Lösung: dichotome Variablen und nominalskaliert, Frage nach Zusammenhang Vierfelderkorrelation für unabhängige Daten. Befehl: Analysieren deskriptive Statistiken Kreuztabellen eine dichotome Variable in die Zeile und eine dichotome in die Spalte Statistik Phi und Cramer-V wählen (ev. auch Korrelationen ) weiter ev. Gruppierte Balkendiagramme anzeigen ok Ergebnis: Geschlecht * besuchte Schulform Kreuztabelle Anzahl besuchte Schulform Gesamt Ahs HTL Geschlecht männlich 46 1 67 weiblich 77 8 359 Gesamt 33 103 46 Symmetrische Maße Nominal- bzgl. Nominalmaß Wert Asymptotischer Näherungsweises Näherungsweise Standardfehler T Signifikanz Phi -,07,136 Cramer-V,07,136 Der p-wert der Phi-Korrelation beträgt 0,136 (nicht signifikant); es bestehen daher keine signifikanten Zusammenhänge zwischen Geschlecht und Schulform. Beispiel 4: Kontingenzkoeffizient CC bzw. Cramer V Frage: besteht ein Zusammenhang zwischen der besuchten Schulform (Ahs, Htl, Hbla, Andere) und dem aktuellen Studiensemester (1-9) der Personen? Lösung: qualitative, polytome Variablen CC bzw. Cramer V. Befehl: Analysieren deskriptive Statistiken Kreuztabellen eine polytome Variable in die Zeile und eine polytome in die Spalte Statistik Kontingenzkoeffiezient und Cramer-V wählen weiter ev. Gruppierte Balkendiagramme anzeigen ok 18

Ergebnis: Symmetrische Maße Wert Näherungsweise Signifikanz Nominal- bzgl. Nominalmaß Phi,179,96 Cramer-V,104,96 Kontingenzkoeffizient,176,96 Anzahl der gültigen Fälle 41 a Die Null-Hyphothese wird nicht angenommen. b Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. Interpretation: 1) CC: Der Kontingenzkoeffiezient wird nur unkorrigiert ausgegeben! Man muss daher händisch folgende Berechnung (Korrektur) durchführen (da CC von der Größe der Tabelle abhängig ist). Nach der Korrektur geht CC von 0 bis 1 und ist leichter interpretierbar: min( r, s) 1 1) Berechnung von C max : Cmax = wobei r die Reihen und s die Spalten der min( r, s) Tabelle sind. In unserem Beispiel gibt es 9 Zeilen und 4 Spalten. Min(r,s) ist also 4. 3 C max = = 0,86 4 C 0,176 ) Berechnung des korrigierten CC: C korr = = = 0, 04 C 0,86 Der korrigierte CC beträgt 0,04, bei einem p-wert von 0,96 (siehe Tabelle). Es besteht daher kein signifikanter Zusammenhang zwischen besuchter Schulform und Anzahl der Semester. max ) Cramer-V: Auch der Cramer-V Wert ist mit 0,104 und einem p-wert von 0,96 nicht signifikant. Beispiel 5: Partielle Korrelation r xy.z Frage: Spielt das Alter eine Rolle in Bezug auf den Zusammenhang von Mathe- und Allgemeinwissen? Lösung: partielle Korrelation mit Alter als eventuelle Störvariable, welche eine Scheinkorrelation zwischen den beiden Variablen Mathe und Allgemeinwissen verursachen könnte. Falls das Alter keinen Einfluss auf die beiden Variablen ausübt, entspricht die partielle Korrelation ungefähr der Produktmomentkorrelation! Befehl: Analysieren Korrelation Partiell die zwei gewünschten Variablen in Variablen einfügen (hier: Mathe und Allgemeinwissen) Störvariable in Kontrollvariable eingeben (hier: Alter) zweiseitig ok 19

Ergebnis: - - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - - Controlling for.. ALLGW AGE (=Alter) MATHE ALLGW 1,0000,3613 ( 0) ( 97) P=, P=,000 MATHE,3613 1,0000 ( 97) ( 0) P=,000 P=, Die partielle Korrelation ergibt eine Korrelation von r xy.z 0,3613 (B = 13%). Im Vergleich dazu ergibt die Produktmomentkorrelation r xy =336 (B = 11%) (Muss noch separat errechnet werden; siehe Beispiel 1!) Die beiden Korrelationen sind also numerisch fast gleich. Das Alter übt demnach keinen relevanten Einfluss auf den Zusammenhang der beiden Variablen mathematisches und allgemeines Wissen aus. Anmerkung: Würde beispielsweise nur das Alter verantwortlich für die Korrelation sein, müsste beim Konstanthalten der Variable Alter (also bei der partiellen Korrelation) der Zusammenhang verschwinden, also r xy.z gegen 0 gehen, während bei der Produktmomentkorrelation der Scheinzusammenhang bestehen würde, da das Alter nicht berücksichtigt wird. 0

4 Die einfache/multiple lineare Regression (vgl. Bortz S.174, Statistik for you S. 16) 4.1 Zweck der Regression: 1. Funktionalen Zusammenhang zwischen einer oder mehreren unabhängigen Variablen (UV) oder X und der abhängigen (AV) bzw. Y Variablen untersuchen. (vgl. Korrelation). Untersuchung, ob von bestimmten Prädiktoren (X) auf die Variable Y geschlossen werden kann. (Werte prognostizieren bzw. vorhersagen) z.b.: Prädiktoren X: Geschlecht, Gewicht, Ausdauer, Alter Frage: Kann aufgrund dieser Prädiktoren die AV Sauerstoffverbrauch gut geschätzt bzw. vorausgesagt werden? 4. Stichworte: 1. Residuen: sind die Schätzfehler. Also die Differenz der geschätzten AV ( ŷ ) und der wahren AV (y): y ˆ i yi = ei = Re siduum wenn alle y ˆ i yi = ei 0 dann ist die Regression sehr gut ausgefallen und der Zusammenhang der Prädiktoren und der AV ist hoch.. Regressionsgleichung y = β... + + β x + β x + β x 0 1 1 k k vgl. y = kx+d (lineare Funktion) wobei β 0...Konstante (der Abstand vom Ursprung zur Regressionsgeraden auf der y-achse; die Höhenlage der Regressionsgeraden (alternativ: d oder a yx )) (unbekannt!) β 1, β,... β k...die Regressionskoeffizienten (alternativ: k oder b yx ) der Prädiktoren X (unbekannt!) x 1, x,..., xk...die Unabhängigen Variablen, Prädiktorvariablen oder UV y...kriteriumsvariable oder AV Merke: verschiedene Bezeichnungen für : Statistik 1 SPSS Lineare Funktion Regressionskoeffizienten der b yx β, β,... β k k (Steigung) 1 k Prädiktoren b = 1...k Konstante (Höhenlage der a yx β 0, Intercept oder d (Konstante) Regressionsgeraden) Konstante Prädiktoren X Unabhängige bzw. X X= 1...n Einflussvariablen Kriterium Y Abhängige Variable Y = f(x) 1

3. Regressionsgerade Mit der Regressionsgeraden wird der Trend festgelegt, der die Punkte am besten beschreibt. Sie wird durch den Punkteschwarm so gelegt, dass die Abweichungen (Residuen) der einzelnen XY-Punkte zur Regressionsgerade ein Minimum werden. Da die Summe der positiven und negativen Residuen sich aber aufheben können, könnte es auch mehrere Regressionsgeraden geben (nicht eindeutig!). Daher soll die Summe der quadrierten Abweichungen (Residuen) ein Minimum ergeben. Schätzmethode: Ordinary least squares (Kleinste Quadrate Schätzung) Beispiel: 7 Personen, X-Achse: Gewicht (kg), Y-Achse: Körpergröße (cm) a yx : 14,563 b yx : 0,73 Eine Person die 60 Kilo wiegt ist laut dieser Regressionsgleichung wie groß?...wir setzten ein Y = kx + d y = 14,563 + 0,73 60 y = 167,943 Die Person ist dem Regressionsmodell zufolge ca. 168 cm groß. Eine positive Steigung bedeutet, dass die y-werte bei steigenden x-werten ebenfalls größer werden. (bei negativer Steigung umgekehrt)

4.3 Theoretisches Beispiel Frage: Kann aufgrund Geschlecht, Gewicht, Alter, Ausdauer auf den Sauerstoffverbrauch einer Person geschlossen werden? AV: Sauerstoffverbrauch UV: Geschlecht, Alter, Gewicht, Ausdauer Regressionsgleichung: Sauerstoffverbr. y= β 0 + β1 Geschlecht + β Alter + β 3 Gewicht + β 4 Ausdauer Die Regressionskoeffizienten βˆ (=Schätzer) werden geschätzt und es wird überprüft, welche βˆ optimal sind d.h. welche βˆ signifikante Einflüsse auf AV haben. Durch Einsetzen der Schätzer in das Regressionsmodell erhält man schließlich die geschätzte AV: Yˆ (geschätzter Sauerstoffverbrauch) 4.4 Praktisches Beispiel Frage: Kann aufgrund der Variablen Körpergröße der Mutter bzw. Körpergröße des Vaters auf die Körpergröße der Kinder geschlossen werden? AV: Körpergröße (des Kindes) UV: Körpergröße Mutter, Körpergröße Vater Regressionsgleichung: Körpergröße (y) = β0 + β1igröße _ Mutter + βi Größe _ Vater Befehl: Analysieren Regression Linear... in abhängige Variable die gewünschten AV einfügen (hier: Körpergröße des Kindes) in unabhängige Variable(n) die gewünschte(n) UV einfügen (hier: Körpergröße Mutter bzw. Vater) bei Methode schrittweise wählen Statistiken... Schätzer und Anpassungsgüte des Modells anklicken ok Ergebnis: Tabelle 1: Modellzusammenfassung Modell R R-Quadrat Korrigiertes R-Quadrat Standardfehler des Schätzers 1,534,85,84 8,53,606,367,364 8,04 a Einflußvariablen : (Konstante), CM_M b Einflußvariablen : (Konstante), CM_M, CM_V Tabelle : ANOVA Modell Quadratsumme df Mittel der Quadrate F Signifikanz 1 Regression 11914,140 1 11914,140 163,647,000 Residuen 9849,511 410 7,804 Gesamt 41763,650 411 Regression 15341,779 7670,889 118,74,000 Residuen 641,87 409 64,601 Gesamt 41763,650 411 a Einflußvariablen : (Konstante), CM_M b Einflußvariablen : (Konstante), CM_M, CM_V c Abhängige Variable: CM 3

Tabelle 3: Koeffizienten Nicht standardisierte Standardisierte T Signifikanz Koeffizienten Koeffizienten Modell B Standardfehler Beta 1 (Konstante) 58,68 9,183 6,390,000 CM_M,708,055,534 1,79,000 (Konstante) 1,889 10,017,185,09 CM_M,51,059,386 8,75,000 CM_V,393,054,3 7,84,000 a Abhängige Variable: CM Interpretation: Die Regression wurde schrittweise gewählt, d.h. die Prädiktoren werden der Reihe nach zur Gleichung hinzugefügt. Zuerst wird die Gleichung mit Prädiktor 1 (Modell 1 in den Tabellen) aufgestellt, im Modell kommt der. Prädiktor in die Gleichung hinzu. 1) Tabelle 1: Modellprüfung! korrigiertes R-Quadrat (korrigiertes Bestimmtheitsmaß): Wird zur Modellprüfung herangezogen (also wie gut ist die Regression, wie gut ist der Zusammenhang zwischen UV und AV; wie sinnvoll ist es, die Regression anzuwenden) Zeigt den Anteil der erklärten Varianz von Y (hier: Größe) durch die Prädiktoren an (hier: Größe Vater bzw. Mutter). Modell 1 (also nur die Größe der Mutter) erklärt 8,5% der Varianz Modell : kommt die Größe des Vaters als Prädiktor noch dazu wird 36,7% der Varianz erklärt. 100-36,7% = 63,3% unerklärte Varianz (Schätzfehler) bleiben jedoch noch offen. Das Modell ist daher nicht sehr gut! Es fehlen also noch weitere wichtige/relevante Prädiktoren. ) Tabelle : Modellprüfung! F-Wert: wird ebenfalls zur Modellprüfung herangezogen Die Hypothesen lauten: H : ˆ ˆ... ˆ 0 β 0 = β1 = = β k = 0 (also alle Regressionskoeffizienten sind Null, sie sind also schlechte Prädiktoren bzw. Konstante) H : ˆ 1 β j 0 (also mindestens ein β ist nicht 0; min. ein Prädiktor beschreibt die AV gut) Die F-Werte sind in beiden Modellen signifikant mit den p-werten von 0,000. Die Alternativhypothese wird angenommen. Das Modell ist daher sinnvoll, weil die Körpergröße von Vater und Mutter einen Einfluss auf AV (Größe Person) hat. 3) Tabelle 3: Regressionskoeffizienten! (b yx, a yx ) Folgende Hypothesen für jeden einzelnen Koeffizienten 4 βˆ j :

H : ˆ 0 β j = 0 (also der Regressionskoeffizient ist Null) H : ˆ 1 β j 0 (der Koeffizient ist ungleich Null) Wenn βˆ signifikant ungleich von 0 ist dann ist der zugehörige Prädiktor X eine j gute/sinnvolle Vorhersage für Y. (Gemessen mit der Prüfgröße t = β S tan dardfehler Folgende Koeffizienten sind aus der Tabelle ablesbar: Unter Konstante wird das a yx dargestellt (also die Höhenlage der Regressionsgeraden) Unter CM_M (Größe der Mutter) wird der Koeffizient b y1 des ersten Prädiktors abgebildet. Unter CM_V (Größe des Vaters) wird der Koeffizient b y des zweiten Prädiktors abgebildet. Aus Tabelle 3 kann man entnehmen dass alle Koeffizienten der Prädiktoren signifikante p- Werte aufweisen. (Konstante: p = 0,09; CM_M: p = 0,000; CM_V: p = 0,000) Die Prädiktoren Größe des Vaters bzw. der Mutter sind demnach sinnvolle Schätzer für die abhängige Variable Größe der Person. Händische Berechnung zur Veranschaulichung: Die Regressionsgleichung wird wie folgt aufgestellt: ) Körpergröße (y) = β 0 + β1größe _ Mutter + β Größe _ Vater oder (wie in Statistik 1) Körpergröße (y) = a yx + b Größe _ Mutter bygröße _ Vater y1 + Die Größe einer Person, dessen Mutter 16 cm und Vater 184 cm groß ist, kann aufgrund der Regressionsgleichung geschätzt werden. Eingesetzt werden folgende Werte aus Tabelle 3: β 0 = 1,889 (vgl. a yx ) β 1= 0,51 (vgl. b y1 ) β = 0,393 (vgl. b y ) Körpergröße (y) = 1,889 + 16*0,51 + 184*0,393 Körpergröße = 177,145 Aufgrund der Regressionsgleichung ist die Person ca. 177 cm groß. Die wahre Größe dieser Person ist 178 (aus den Daten entnommen). Das Residuum ( wahrer Wert minus Schätzer) ist demnach 178-177,145 = 0,855. (Die Regressionsgleichung ist umso besser, je kleiner die Residuen werden.) y yˆ 5

Variationen: Speichern der vorhergesagten Werte ( ŷ ): Speichern vorhergesagte Werte nicht standardisiert anklicken weiter Speichern der Residuen ( uˆ = y yˆ): Speichern Residuen nicht standardisiert anklicken weiter 6

5 Unterschiedshypothesen 5.1 Vergleich zweier Mittelwerte bzw. zentraler Tendenzen Sind die Daten intervallskaliert ist die Berechnung von Mittelwerten und Varianzen bzw. Standardabweichungen sinnvoll bzw. erlaubt. Unter diesen Voraussetzungen können auch Verteilungsannahmen der Daten gemacht werden. Verteilungen werden mit Parametern ( xs...), x charakterisiert, daher werden alle hypothesenprüfenden Verfahren, deren eine Verteilungstheorie unter H o Zugrunde liegt, als Parametertests bezeichnet. Ist das Skalenniveau der Daten lediglich rang- bzw. ordinalskaliert sind oben genannte Parameter nicht mehr zulässig, daher beruht die Grundlage der parameterfreien Tests auf Rangordnungen und Rangplätzen. 1) Parametertests sind die mächtigsten Tests zum Vergleich zweier Mittelwerte. Vorteil also die Macht/Power und Aussagekraft, Nachteil die strengen Voraussetzungen. a) t-test für unabhängige Stichproben Voraussetzungen des T-Tests für unabhängige Stichproben Intervallskala der Daten (siehe Kapitel 3) Normalverteilung der Daten in beiden Gruppen Homogenität der Varianzen der beiden Gruppen Unabhängige Stichprobe b) t-test für abhängige Stichproben Voraussetzungen des T-Tests für abhängige Stichproben (z.b: Messwiederholungen, Geschwister, Parallelisierung) Intervallskala der Daten (siehe Kapitel 3) Normalverteilung der Differenz der Daten Abhängige Stichprobe ) Parameterfreie Tests werden herangezogen, wenn die Voraussetzungen für einen Parametertest nicht gegeben sind. Vorteil: mildere Voraussetzungen; Nachteil: weniger Macht; aber trotzdem eine gute Alternative a) U-Test (unabhängige Stichproben) Rangskalierte Daten b) Wilcoxon-Vorzeichen-Rang-Test (abhängige Stichproben) Die Differenzenbildung der Messwerte muss sinnvoll erscheinen Rangskalierte Daten (mit Intervallskaleneigenschaft ) (=ordered metric scale) 7

5.1.1 t-test (unabhängige Stichproben) Wie aus der Statistik bekannt ist der t-test der mächtigste Test zum Vergleich er Mittelwerte; dementsprechend müssen auch seine Voraussetzungen erfüllt sein: a) Normalverteilung der Werte beider Gruppen b) Homogenität der Varianzen beider Gruppen c) Intervallskalierte Daten in beiden Gruppen Beispiel: Frage: Unterscheiden sich Männer und Frauen signifikant hinsichltich ihrer Testpunkte in einem Leistungstest? H 0 : Männer und Frauen unterscheiden sich nicht signifikant bezüglich ihrer Testpunkte. H 1 : Männer und Frauen unterscheiden sich signifikant bezüglich ihrer Testpunkte. Unabhängige Variable Geschlecht (qualitativ, dichotom) Abhängige Variable Anzahl der Punkte im Test (intervallskaliert, quantitativ diskret) Zuerst erfolgt die Prüfung der Voraussetzungen des t-tests für unabhängige Stichproben. Ad a) Normalverteilungsprüfung: Die Normalverteilung wird mittels Kolmogorov-Smirnov-Test (K+S-Test) übergeprüft. Die Hypothesen werden wie folgt formuliert: H 0 : Die Verteilung (der abhängigen Variable) ist eine Normalverteilung (in jeder Gruppe) bzw. die empirische Verteilung (aus den Daten) weicht nicht signifikant von der theoretischen (Normal)verteilung ab. H 1 : Die Verteilung ist nicht normalverteilt bzw. die empirische Verteilung (aus den Daten) weicht signifikant von der theoretischen (Normal)verteilung ab. Befehl: Jede Gruppe (hier: Männer/Frauen) der UV, deren Mittelwert verglichen werden soll, muss separat auf Normalverteilung geprüft werden. Dafür müssen die Fälle erst nach der betreffenden Variable (hier: Geschlecht) getrennt werden (siehe 1.7) Daten Datei aufteilen... Ausgabe nach Gruppen aufteilen wählen und in Gruppe basierend auf die gewünschte Variable (hier: Geschlecht) hinzufügen ok Die Fälle sind jetzt bezüglich Geschlecht imaginär getrennt, jede Berechnung wird jetzt separat für Männer und Frauen ausgegeben. Anmerkung: Zur Auflösung dieser Gruppierung: Daten Datei aufteilen alle Fälle analysieren, keine Gruppen bilden ok Nun kann die Normalverteilung separat für Männer und Frauen überprüft werden: Analysieren Nichtparametrische Tests K+S bei einer Stichprobe Normal (für Normalverteilung) gewünschte zu testende (abhängige) Variable (hier: Anzahl der Punkte) eingeben ok Ergebnis: Kolmogorov-Smirnov-Anpassungstest Anzahl der Punkte N 70 Parameter der Normalverteilung Mittelwert 11,01 Standardabweichung,76 8

Extremste Differenzen Absolut,131 Positiv,131 Negativ -,100 Kolmogorov-Smirnov-Z 1,093 Asymptotische Signifikanz (-seitig),183 a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. c Geschlecht = männlich Anmerkung: Die gleiche Tabelle wird auch für Frauen ausgegeben! Interpretation: Der p-wert 0,183 ist bei α = 0,05 nicht signifikant. Die H 0 bleibt beibehalten. Die Verteilung der Variable Anzahl der Punkte entspricht bei der Gruppe Männer einer Normalverteilung! (auch die Verteilung der Daten der Frauen muss einer Normalverteilung entsprechen, um die Voraussetzungen des t-tests zu erfüllen) Anmerkung: Ein Histogramm der Daten zur visuellen Überprüfung der NV ist sehr sinnvoll. Ad b) Homogenität der Varianzen: Die Homogenität der Varianzen wird im Zuge des t-tests automatisch durchgeführt (Levene- Test)! Ad c) Intervallskalierung: Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,...ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen zulässig?...) t-test: Anwendung nur bei Erfüllung aller oben genannten Voraussetzungen! (andernfalls u-test) Befehl: Vorerst die Gruppierung nach Geschlecht für den K+S-Test aufheben! ( Datei aufteilen... ) (siehe Punkt a) ) Analysieren Mittelwerte vergleichen t-test bei unabhängigen Stichproben Testvariable eingeben (hier: Anzahl der Punkte) Gruppenvariable eingeben (hier: Geschlecht) Gruppe def... (hier: 1 und 0 für Frauen bzw. Männer; je nach eigener Kodierung!) weiter Optionen Konfidenzintervall eingeben (95% für α = 0,05 und 99% für 0,01) weiter ok Ergebnis: Gruppenstatistiken Geschlecht N Mittelwert Standardabweichung Standardfehler des Mittelwertes Anzahl Punkte weiblich 361 10,91,76,15 männlich 70 11,01,76,33 9

Test bei unabhängigen Stichproben Levene T-Test F Signifikan T df Sig. (-Mittlere Standardf 95% z seitig) Differenz Konfidenzintervall Untere Obere Anzahl d. Varianzen,014,907 -,86 49,775 -,10,36 -,81,60 Punkte sind gleich Varianze nicht gleich -,85 97,49,776 -,10,36 -,8,61 Interpretation: Der Levene F-Test weist einen p-wert von 0,907 auf. 0,907 ist weit größer als α = 0,05, die Varianzen sind demnach homogen! (Dies ist schon aus der 1. Tabelle ersichtlich; die Standardabweichungen sind identisch) Der t-test ergibt einen p-wert von 0,775. Männer und Frauen unterscheiden sich also nicht signifikant bezüglich der Anzahl der Testpunkte. H 0 muss beibehalten werden. Anmerkung: Der geringe Unterschied zw. Männern und Frauen kann schon aus den Mittelwerten 10,91 und 11,01 (1. Tabelle) erkannt werden. Variationen: t-test bei einer Stichprobe: (vgl. split half, eine Variable (z.b.: Anzahl der Punkte) wird aufgrund eines splitting points in Teile getrennt und diese beiden resultierenden Teile werden auf signifikante Unterschiede getestet) t-test bei einer Stichprobe Diagramme (z.b.: Mittelwerte vergleichen): siehe.3 Einseitige Testung: gleicher Vorgang wie oben beschrieben, nur den p-wert (Signifikanz -seitig) im SPSS-Output händisch durch dividieren. Beispiel: -seitiger p-wert: 0,08 1-seitiger p-wert: 0.04 (einseitige Testung ist daher schneller signifikant, wenn das Ergebnis in die vermutete Richtung geht, da die Fläche von α = 0,05 nur auf einer Seite der Verteilung als Verwerfungsbereich definiert wird und nicht wie bei der zweiseitigen Testung,5% auf beiden Seiten.) 5.1. t-test (abhängige Stichproben) Was sind abhängige Stichproben? Eine Stichprobe ist dann abhängig, wenn einer Person bzw. einem Objekt in der ersten Gruppe immer eine Person bzw. ein Objekt in der zweiten Gruppe zugewiesen wird. a) Messwiederholungen (z.b: die Messergebnisse zu zwei Zeitpunkten sind nicht unabhängig, da sie immer von der gleichen Person erzielt wurden; dem Wert von Zeitpunkt 1 wird der Wert des Zeitpunktes zugewiesen) b) Parallelisierung: z.b: Jede Person in Gruppe A hat einen Testzwilling in Gruppe B, mit ähnlichen, für die Untersuchung relevanten Merkmalen c) Zwillinge, Partner, Geschwister oder sonstige Paare. Voraussetzungen des t-test (abhängig) a) Normalverteilung der Differenzen (der Werte) beider Gruppen. b) Intervallskalierte Daten in beiden Gruppen 30

Beispiel Frage: Gibt es zu den Zeitpunkten 1 und Unterschiede im Atmungsverhalten der Patienten? Hypothesen H 0 : Die Werte der Zeitpunkte 1 und unterscheiden sich nicht signifikant bezüglich des Atmungsverhaltens der Patienten. H 1 : Die Werte der Zeitpunkte 1 und unterscheiden sich signifikant bezüglich des Atmungsverhaltens der Patienten. Variablen Gruppenvariable: Zeitpunkt mit Gruppen (Zeitpunkt 1 und Zeitpunkt ) Abhängige Variable Atmungsverhalten. Zuerst erfolgt die Prüfung der Voraussetzungen des t-tests für abhängige Stichproben. Ad a) Normalverteilungsprüfung Die Normalverteilung der Differenzen wird mittels Kolmogorov-Smirnov-Test (K+S-Test) geprüft. Befehl Da die Differenz der Werte der beiden Zeitpunkte auf Normalverteilung geprüft wird, muss sie erst berechnet werden. Unter Berechnen generieren wir eine neue Variable (z.b: Diff1_ ) die die Differenzen der Werte des ersten bzw. zweiten Zeitpunktes darstellen (siehe dazu 1.1!) Nun kann die Normalverteilung für die Differenz geprüft werden: Analysieren Nichtparametrische Tests K+S bei einer Stichprobe Normal (für Normalverteilung) gewünschte zu testende (abhängige) Variable (hier: Diff1_ ) eingeben ok Ergebnis Kolmogorov-Smirnov-Anpassungstest Diff1_ N 1 Parameter der Normalverteilung Mittelwert -1,6667E-0 Standardabweichung 7,177E-0 Extremste Differenzen Absolut,58 Positiv,4 Negativ -,58 Kolmogorov-Smirnov-Z,895 Asymptotische Signifikanz (-seitig),399 a Die zu testende Verteilung ist eine Normalverteilung. b Aus den Daten berechnet. Interpretation Der p-wert 0,399 ist bei α = 0,05 nicht signifikant. Die H 0 bleibt beibehalten. Die Verteilung der Variable Diff1_ entspricht einer Normalverteilung. Ad b) Intervallskalierung Wird Grundsätzlich nur durch studieren der Daten überprüft (sind die Daten quantitativ?..., gibt es Ausreißer?,... ist es möglich bzw. sinnvoll die Differenzen von Werten zu vergleichen?...sind lineare Transformationen der Daten zulässig?...) 31