Statistik I im Sommersemester 2006

Ähnliche Dokumente
Statistik I im Sommersemester 2006

Empirie-Vorlesung im Wintersemester 2006/2007 Teil A: Quantitative Methoden Themen am :

Alle weiteren Messoperationen schließen die Klassifikation als Minimaloperation ein.

Forschungsmethoden in der Sozialen Arbeit

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Variablen und Skalenniveaus

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

Daten, Datentypen, Skalen

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Standardisierte Vorgehensweisen und Regeln zur Gewährleistung von: Eindeutigkeit Schlussfolgerungen aus empirischen Befunden sind nur dann zwingend

Was heißt messen? Konzeptspezifikation Operationalisierung Qualität der Messung

Statistische Grundlagen I

STATISTIK FÜR DIE SOZIALWISSENSCHAFTEN

TEIL 7: EINFÜHRUNG UNIVARIATE ANALYSE TABELLARISCHE DARSTELLUNG / AUSWERTUNG

Quantitative Methoden der Agrarmarktanalyse und des Agribusiness

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Forschungsstatistik I

Frank Lammers. Statistik I: deskriptive und explorative Statistik. Lehr- und Übungsbuch

Einführung in die Statistik

Schließende Statistik

Statistik II: Grundlagen und Definitionen der Statistik

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Bitte am PC mit Windows anmelden!

3. Lektion: Deskriptive Statistik

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

Teil / Ein paar statistische Grundlagen 25. Kapitel 1 Was Statistik ist und Warum sie benötigt Wird 2 7

Einführung in Quantitative Methoden

Grundlagen der empirischen Sozialforschung

Population und Stichprobe Wahrscheinlichkeitstheorie II

Statistik mit und ohne Zufall

Bivariater Zusammenhang in der Vierfeldertafel PEΣO

Wahrscheinlichkeitsrechnung und Statistik

1 x 1 y 1 2 x 2 y 2 3 x 3 y 3... n x n y n

3. Merkmale und Daten

Wo stehen wir? empir. Sachverhalt ( Phänomen der Realität) semantische Analyse( ) Definition ( ).

5 Assoziationsmessung in Kontingenztafeln

fh management, communication & it Constantin von Craushaar fh-management, communication & it Statistik Angewandte Statistik

Einführung in die Statistik

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Einführung in Quantitative Methoden

Mathematische und statistische Methoden II

DATENERHEBUNG: MESSEN-OPERATIONALISIEREN - SKALENARTEN

Einführung in die Statistik für Politikwissenschaftler Sommersemester 2011

Einführendes zur Deskriptivstatistik

Empirische Sozialforschung

Parametrische vs. Non-Parametrische Testverfahren

Sozialwissenschaftliche Fakultät der Universität Göttingen. Sommersemester Statistik mit SPSS

Statistik. Herzlich willkommen zur Vorlesung. Grundlagen Häufigkeiten Lagemaße Streuung Inferenzstatistik Kreuztabellen Gruppenunterschiede

Phasen des Forschungsprozesses (hypothesenprüfende Studie)

So berechnen Sie einen Schätzer für einen Punkt

Inhaltsverzeichnis. Inhalt Teil I: Beschreibende (Deskriptive) Statistik Seite. 1.0 Erste Begriffsbildungen Merkmale und Skalen 5

Angewandte Statistik 3. Semester

I Beschreibende Statistik 1

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Einführung in die Statistik

Klausurvorbereitung - Statistik

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Einführung in SPSS. Sitzung 4: Bivariate Zusammenhänge. Knut Wenzig. 27. Januar 2005

Operationalisierung (1)

Einführung in die computergestützte Datenanalyse

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Es können keine oder mehrere Antworten richtig sein. Eine Frage ist NUR dann richtig beantwortet, wenn ALLE richtigen Antworten angekreuzt wurden.

Inhalt. 1 Ziel und Forschungsprozess Grundlage von Wissenschaft Wissenschaftstheoretische Grundbegriffe 27

Quantitative Analyseverfahren

Statistik. Datenanalyse mit EXCEL und SPSS. R.01denbourg Verlag München Wien. Von Prof. Dr. Karlheinz Zwerenz. 3., überarbeitete Auflage

Bis heute: Überblick Einheit Literatur lesen. 2. Introspektion. 3. Thema definieren und eingrenzen. Untersuchungsproblem.

Inhalt. I Einführung. Kapitel 1 Konzept des Buches Kapitel 2 Messen in der Psychologie... 27

Was sind Zusammenhangsmaße?

Inhaltsverzeichnis. Teil I Einführung

Statistik K urs SS 2004

Empirische Sozialforschung

Voraussetzung für statistische Auswertung: jeder Fall besitzt in bezug auf jedes Merkmal genau eine Ausprägung

Grundlagen der empirischen Sozialforschung

Einige Grundbegriffe der Statistik

Einführung in die Statistik Einführung

Statistik. Einführung in die com putergestützte Daten an alyse. Oldenbourg Verlag München B , überarbeitete Auflage

Uwe Hassler. Statistik im. Bachelor-Studium. Eine Einführung. für Wirtschaftswissenschaftler. ^ Springer Gabler

Empirische Sozialforschung

Statistisches Testen

Statistik I im Sommersemester 2007

Einführung in die quantitative und qualitative Sozialforschung

Bivariate Kreuztabellen

Wiederholung. Statistik I. Sommersemester 2009

Statistik. Datenanalyse mit EXCEL und SPSS. Prof. Dr. Karlheinz Zwerenz. R.Oldenbourg Verlag München Wien. Von

Forschungsmethoden VORLESUNG WS 2017/2018

1. Einführung in die induktive Statistik

1 Wahrscheinlichkeitsrechnung. 2 Zufallsvariablen und ihre Verteilung. 3 Statistische Inferenz. 4 Hypothesentests. 5 Regression

Einführung in die sozialwissenschaftliche Statistik

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

I. Deskriptive Statistik 1

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Empirische Forschung. Übung zur Vorlesung Kognitive Modellierung. Kognitive Modellierung Dorothea Knopp Angewandte Informatik/ Kognitve Systeme

Forschungsstatistik I

Übungsblatt 3: Bivariate Deskription I (Sitzung 4)

Inhaltsverzeichnis. II. Statistische Modelle und sozialwissenschaftliche Meßniveaus 16

Transkript:

Statistik I im Sommersemester 2006 Themen am 18.4.2006: Was ist Statistik, wozu Statistik? Überblick über das Modul M2: Grundlagen sozialwissenschaftlicher Datenanalyse (Statistik I) Einige Ergebnisse der Befragung zur Anmeldung Mathematisches Repititorium: Indizierte Summen Lernziele: 1. Bedeutung der Statistik für die Sozialwissenschaften 2. Beurteilung des Lernaufwands 3. Umgang mit Symbolen: Das Summenzeichen Statistik 1 (Vorlesung SoSe 06, 18.4.06) 1

Was ist Statistik? Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Begriffe: a) Verteilung: Eigenschaften einer Menge von Einheiten Beispiele: Einkommen von Haushalten in einer Stadt Zweitstimmen und Bewertungen von Parteien in einem Bundesland Konflikte zwischen Partnern Konsum alkoholischer Getränke einer Person Statistik 1 (Vorlesung SoSe 06, 18.4.06) 2

Was ist Statistik? Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Begriffe: b) Modellierung: Abstraktion von realen Einheiten durch Konzentration auf relevante und Ignorierung irrelvanter Aspekte Informationsverdichtung u. Informationsreduktion Beispiel: Straßenkarte als Modell einer Landschaft Statistik 1 (Vorlesung SoSe 06, 18.4.06) 3

Was ist Statistik? Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Begriffe: c) Mathematsche Modellierung; Modellformulierung in Sprache der Mathematik (Symbole u. Formeln) Beispiel: Verteilung der Körpergröße (X) in einer Population 1 f(x) = e 2π σ 2 X 1 2 ( x μ ) 2 σ X 2 X wobei: μ σ X 2 X =: durchschnittliche Körpergröße (Erwartungswert) =: Ausmaß der Unterschiedlichleit der Körpergrößen (Varianz) Statistik 1 (Vorlesung SoSe 06, 18.4.06) 4

Warum Statistik? Relevanz für Sozialwissenschaften? Sozialwissenschaften befassen sich mit empirischen Regelmäßigkeiten (und den Abweichungen von Regelmäßigkeiten) in Interaktionen, Verhalten u. Vorstellungen von Menschen, deren Ursachen und Konsequenzen. Daher Gegenstand empirischer Analysen in den Sozialwissenschaften: Verteilungen von Interaktionen, Verhaltensweisen, Vorstellungen. Beispiele für sozialwissenschaftliche Fragestellungen zu Verteilungen: Sozialstruktur: Hat die Ungleichheit in Deutschland zugenommen? Verhalten: Gibt es Unterschiede bei der Wahlbeteiligung von Männern und Frauen? Einstellung: Wird die Todestrafe mehrheitlich befürwortet? Zur Beantwortung werden jeweils umfangreiche Datenmengen benötigt, die 1. für eine Fragestellung relevant sein und 2. im Hinblick auf die Fragestellung adäquat ausgewerte werden müssen. Statistik 1 (Vorlesung SoSe 06, 18.4.06) 5

Warum Statistik? Ein Beispiel: Gibt es Unterschiede bei der Wahlbeteiligung von Männern und Frauen? a) relevante Daten: Fragen nach beabsichtigter Wahlbeteiligung u. Geschlecht in Umfrage {(ja, männlich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (weiß nicht,weiblich,) (nein, männlich), (nein, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (nein, weiblich), (ja, männlich), (ja, weiblich), (ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (weiß nicht, weiblich), (nein, weiblich), (ja, weiblich), (ja, weiblich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich), (nein, weiblich), (weiß nicht, männlich), (weiß nicht, weiblich), (nein, männlich), (ja, männlich), (ja, weiblich), (ja, weiblich), (ja, weiblich), (nein, weiblich), (ja, weiblich), (nein, weiblich), (weiß nicht, weiblich) (weiß nicht, männlich), (ja, weiblich) (ja, männlich), (ja, männlich), (ja, männlich), (ja, weiblich), (nein, weiblich), (ja, weiblich), (ja, weiblich), (ja, weiblich), (weiß nicht, männlich), (ja, männlich), (weiß nicht,weiblich,)... } Antworten von insgesamt 3234 im März bis Juli 1998 befragten Personen in der Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) 1998. Die Datenmenge lässt sich ohne statistische Modellierung praktisch nicht auswerten! Statistik 1 (Vorlesung SoSe 06, 18.4.06) 6

Warum Statistik? b) Statistische Modellierung: Beabsichtigte Geschlecht Wahlbeteiligung Mann Frau Zusammenfassung der Daten in Häufigkeitstabelle: Geschlecht Mann Frau Geschlecht Mann Frau Geschlecht Mann Frau Geschlecht Mann Frau - ja 998 1090 - nein 64 113 - weiß nicht 194 307 - keine Angabe 148 168 - nicht wahlberecht. 94 58 66.6% 62.8% 4.2% 6.5% 13.0% 17.7% 9.9% 9.7% 6.3% 3.3% 71.1% 65.0% 4.6% 6.7% 13.8% 18.3% 10.5% 10.0% 79.5% 72.2% 5.1% 7.5% 15.4% 20.3% 94.0% 90.6% 6.0% 9.4% Total 1498 1736 Was besagt das Ergebnis? 100.0% 100.0% (1498) (1736) Prozentuierung alle Befragten 100.0% 100.0% (1404) (1678) Prozentuierung wahlberecht. Befragte 100.0% 100.0% (1256) (1510) Prozentuierung ohne Verweigerungn - Ist der beobachtete Unterschied zwischen Männern und Frauen bedeutsam? - Wie sollen die Meinungslosen berücksichtigt werden? - Wie sehr gefährden die fehlende Angaben von 316 Befragten die Aussagekraft? Die Prozentuierungsbasis kann deutliche Auswirkungen haben! Aber: Statistik macht hierzu keine Vorgabe. Die Antwort muss daher aufgrund inhaltlicher Überlegungen erfolgen! 100.0% 100.0% (1062) (1203) Prozentuierung nur ja/nein Statistik 1 (Vorlesung SoSe 06, 18.4.06) 7

Warum Statistik? Vor Prozentuierung: Beabsichtigte Geschlecht Wahlbeteiligung Mann Frau Welche Ausgangsdaten sollen verwendet werden? Geschlecht Mann Frau - ja 998 1090 - nein 64 113 - weiß nicht 194 307 - keine Angabe 148 168 - nicht wahlberecht. 94 58 Total 1498 1736 ungewichtete Daten 1010 1098 61 110 184 281 142 167 110 65 1514 1721 gewichte Daten Gewichtungsvariablen: - Region: alte/neue Länder - HaushaltsGröße - Lassen sich die Ergebnisse von der Stichprobe auf die Gesamtheit aller Wähler verallgemeinern? Sind gewichtete Daten vorzuziehen? Statistik 1 (Vorlesung SoSe 06, 18.4.06) 8

Warum Statistik? Sind die für die Untersuchung erobenen Daten aussagefähig? Beabsichtigte Wahlabsicht BTW 1998 Wahlbeteiligung Mann Frau Rückerinnerung BTW 1994 Mann Frau - ja 94.3% 90.9% - nein 5.7% 9.1% (1071) (1208) gewichtete Daten Tatsächliche Beteiligung Bundestagswahl 1998 82.3% 91.8% 91.8% 8.2% 8.2% (1336) (1575) gewichtete Daten Tatsächliche Beteiligung Bundestagswahl 1994 79.1% - Lässt die Absichtsfrage tatsächlich Rückschlüsse auf das tatsächliche Verhalten zu? - Warum weichen Rückerinnerung und tatsächliches Verhalten ab? Statistik 1 (Vorlesung SoSe 06, 18.4.06) 9

Warum Statistik? Schlussfolgerungen: Zur Klärung von empirischen Fragen, Formulierung und Prüfung von Vermutungen benötigen die Sozialwissenschaften empirische Daten. Bei der Analyse der Daten besteht Gefahr von Fehlinterpretationen. Fehlerquellen: - ungenügendes inhaltliches Vorwissen über Forschungsgebiet, - ungenügende Kenntnisse über statistische Datenanalyse. Ziel der Statistikausbildung: Gewinnung von Kenntnissen über statistische Datenanalyse, + um Aussagekraft von empirischen Studien zu beurteilen, + um bei eigenen Analysen aussagekräftige Ergebnisse zu erhalten Statistik 1 (Vorlesung SoSe 06, 18.4.06) 10

Klassische Einteilung der Statistik Univariate Verteilungen Deskriptive Statistik Verteilungsparameter (Quantile, Lagemaße, Streuungsmaße) Induktive Statistik / Inferenzstatistik Wahrscheinlichkeitstheorie, Schätzen und Testen Bivariate Verteilungen Multivariate Verteilungen Beschreibung und Prüfung von bivariaten Zuammenhängen Drittvariablenkontrolle Konditionale u. Partielle Effekte Prüfung der Angemessenheit statistischer Modelle Statistik 1 (Vorlesung SoSe 06, 18.4.06) 11

Methoden-Modul 2. Grundlagen sozialwissenschaftlicher Datenanalyse (M2: Statistik I) M2 beinhaltet 2 Veranstaltungen: Workload = 8 Credits 1.Vorlesung Statistik I Abschlussklausur Teil A (60 Minuten) ( 90 Minuten Stoffvermittlung, Fragen, Übungaufgaben) dazu Tutorien zur Vorlesung (45-60 Minuten Lösung der Übungsaufgaben) 2. Übung zu Statistik I Abschlussklausur Teil B (30 Minuten) 2. Übung zu Statistik I A. Statistik mit Excel oder B. Statistik mit SPSS Vermittlung (a) (45 Minuten) Vermittlung (b) (45 Minuten) Übung (a) (45 Minuten Tutorium) Übung (b) (45 Minuten Tutorium) Statistik 1 (Vorlesung SoSe 06, 18.4.06) 12

Veranstaltungsplan (Vorlesung) 18.4.06: Einführung Mathematisches Repititorium: Indizierte Summen 25.4.06: Von der theoretischen Fragestellung zu empirischen Daten Operationalisierung, Messung Skalenniveau Fälle, Variablen, Ausprägungen u. Realisationen: Die Datenmatrix Häufigkeitstabellen 02.5.06: Verteilungen I: Graphische Darstellung und Lagemaße Verteilungsfunktion und Quantile Graphische Darstellung univariater Verteilungen Modus, Median und arithmetisches Mittel 09.5.06: Verteilungen II: Lage- und Streuungsmaße Getrimmtes Mittel u. geometrisches Mittel Streuungsmaße, Schiefe und Steilheit Auswirkungen von Lineartransformationen und Zusammenfassungen Statistik 1 (Vorlesung SoSe 06, 18.4.06) 13

Veranstaltungsplan (Vorlesung) 16.5.06: Übungsklausur I (15 Minuten, 5% Anerkennung auf Abschlussklausur A) Wahrscheinlichkeitstheorie I Stichprobe und Grundgesamtheit Zufallsexperiment und Wahrscheinlichkeiten Bedingte Wahrscheinlicheiten und statistische Unabhängigkeit Statistisches Modell und Realität (Gesetz der großen Zahl) 23.5.06: Wahrscheinlichkeitstheorie II Zufallsvariablen und Wahrscheinlichkeitsverteilungen Kennwerteverteilungen von Häufigkeiten und Anteilen 30.5.06: Wahrscheinlichkeitstheorie III Zentraler Grenzwertsatz Normalverteilung Quantile stetiger Verteilungen Statistik 1 (Vorlesung SoSe 06, 18.4.06) 14

Veranstaltungsplan (Vorlesung) 06.6.06: Schätzen und Testen I Schätzer, Schätzungen und Wahrscheinlichkeitsverteilungen von Schätzern Schätzungen von Anteilen, Mittelwerten und Varianzen Die Logik von Konfidenzintervallen Anwendung von Konfidenzintervallen 13.6.06: Schätzen und Testen II Schätzen oder Testen? Die Logik statistischer Hypothesentests Prüfung von Hypothesen über Anteile und Mittelwerte 20.6.06: Übungsklausur II (15 Minuten, 5% Anerkennung auf Abschlussklausur A) Zusammenhangsanalyse I Die Vierfeldertafel und der Aufbau von Kreuztabellen Zusammenhangsmaße in der Vierfeldertabelle Statistik 1 (Vorlesung SoSe 06, 18.4.06) 15

Veranstaltungsplan (Vorlesung) 27.6.06: Zusammenhangsanalyse II Zusammenhangsmaße für nominalskalierte Variablen Zusammenhangsmaße für ordinale Variablen auf der Basis von Paarvergleichen 04.7.06: Zusammenhangsanalyse III Von der Kreuztabelle zum Regressionsmodell Das Regressionsmodell in der Stichprobe Kovarianz und Produktmomentkorrelation 11.7.06: Zusammenhangsanalyse IV Annahmen bei der Schätzung von Regressionskoeffizienten Standardfehler und Konfidenzintervalle im bivariaten Regressionsmodell Hypothesentests im bivariaten Regressionsmodell 18.7.06: Abschlussklausur (Klausur A: Grundlagen der Statistik) Statistik 1 (Vorlesung SoSe 06, 18.4.06) 16

Basisliteratur 3. Auflage, 2006 ISBN: 3 499 55639 1 1. Auflage, 2003 ISBN: 3 499 55655 3 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 17

Einige Ergebnisse der Befragung zur Anmeldung 1. Zusammenhang zwischen eingeplanten Zeitaufwand für Vor- und Nachbereitung des Lehrstoffes nach Einschätzung der Schwierigkeit des erfolgreichen Bestehens 15 Wieviele Stunden planen Sie pro Woche für die Vor- und Nachbereitung des Stoffes der Statistikveranstaltung ein? * F16 Wie schwer schätzen Sie den Statistik-1-Schein ein? Kreuztabelle % von F16 Wie schwer schätzen Sie den Statistik-1-Schein ein? F15 Wieviele Stunden planen Sie pro Woche für die Vor- und Nachbereitung des Stoffes der Statistikveranstaltung ein? Gesamt 1.00 0 bis maximal 1 Stunde 2.00 mehr als 1 bis maximal 2 Stunden 3.00 mehr als 2 bis maximal 3 Stunden 4.00 mehr als 3 bis maximal 4 Stunden 5.00 mehr als 4 bis maximal 5 Stunden 6.00 mehr als 5 Stunden 1.00 sehr leicht F16 Wie schwer schätzen Sie den Statistik-1-Schein ein? 2.00 leicht 3.00 eher leicht 4.00 eher schwer 5.00 schwer 6.00 sehr schwer Gesamt 4.9% 7.3% 4.5% 100.0% 22.0% 34.1% 40.0% 30.9% 100.0% 39.0% 31.7% 44.0% 37.3% 100.0% 29.3% 12.2% 8.0% 18.2% 2.4% 7.3% 4.0% 4.5% 2.4% 7.3% 4.0% 4.5% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% Basis: (1) (1) (1) (41) (41) (25) (110) Mittelwert: 2.5 3.5 1.5 2.6 2.5 2.4 2.5 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 18

Einige Ergebnisse der Befragung zur Anmeldung 2. Axiomatische Messtheorie Frage 7 u. 8: Für welche (welches) Skalenniveau stellt die folgende Variable ausreichend Informationen zur Verfügung? Frage 7: Religionszgehörigkeit Nominal Ordinal Intervall Ratio weiß nicht n % % richtige Antw. + A.-Muster 1 + 56 44.4 73.7 A.-Muster 2 + + 1 0.8 1.3 A.-Muster 3 + 13 10.3 17.1 A.-Muster 4 + + 1 0.8 1.3 A.-Muster 5 + 5 4.0 6.6 A.-Muster 6 + 50 39.7 -- Statistik 1 (Vorlesung SoSe 06, 18.4.06) 19

Einige Ergebnisse der Befragung zur Anmeldung 2. Axiomatische Messtheorie Frage 7 u. 8: Für welche (welches) Skalenniveau stellt die folgende Variable ausreichend Informationen zur Verfügung? Frage 8: Alter in Monaten Nominal Ordinal Intervall Ratio weiß nicht n % % richtige Antw. + + + + A.-Muster 1 + + + + 4 3.1 5.1 A.-Muster 2 + 27 21.4 34.6 A.-Muster 3 + + + 1 0.8 1.3 A.-Muster 4 + 26 20.6 33.3 A.-Muster 5 + + 1 0.8 1.3 A.-Muster 6 + + 1 0.8 1.3 A.-Muster 7 + 12 9.5 15.4 A.-Muster 8 + 6 4.8 7.7 A.-Muster 9 + 48 38.1 -- Statistik 1 (Vorlesung SoSe 06, 18.4.06) 20

Einige Ergebnisse der Befragung zur Anmeldung 3. Grundrechenarten Frage 9 u. 10: Welche Antwort stimmt? Frage 9: 15 4 +3 n % % Vorgabe a) 11 0 0.0 0.0 Vorgabe b) 14 120 95.2 96.8 Vorgabe c) 8 3 2.4 2.4 Vorgabe d) 3 1 0.8 0.8 weiß nicht 2 1.6 -- Frage 10: 15 3 3 n % % Vorgabe a) 36 11 8.7 9.1 Vorgabe b) 42 1 0.8 0.8 Vorgabe c) 6 108 85.7 89.3 Vorgabe d) 4 1 0.8 0.8 weiß nicht 5 4.0 -- Statistik 1 (Vorlesung SoSe 06, 18.4.06) 21

Einige Ergebnisse der Befragung zur Anmeldung 4. Dreisatz und Prozentrechnung Frage 11: In Göttingen leben 600 Enten. An einem See, der Zugvögel als Rasstpaltz dient, infizieren sich pro Stunde 24 Enten mit Vogelgrippe. Wieviel Prozent der Entenpopulation sind nach 14 Stunden infiziert? Infiziert sind n % % Vorgabe b) 21% 0 0.0 0.0 Vorgabe f) 24% 1 0.8 1.0 Vorgabe d) 56% 96 77.4 95.0 Vorgabe e) 66% 3 2.4 3.0 Vorgabe a) 96% 0 0.0 0.0 Vorgabe c) 108% 1 0.8 1.0 weiß nicht 25 19.8 -- Statistik 1 (Vorlesung SoSe 06, 18.4.06) 22

Einige Ergebnisse der Befragung zur Anmeldung 5. Indizierte Summen berechnen Vorgaben Frage 13 n % % % Vorgabe e) 4 0 0.0 0.0 0.0 Fall X Y Vorgabe b) 5 14 11.1 18.9 82.3 1 2 1 Frage 13: y i =? Vorgabe f) 7 0 0.0 0.0 0.0 2 5 1 Vorgabe d) 9 3 2.4 4.1 17.8 3 0 0 9 Vorgabe a) 21 0 0.0 0.0 0.0 4 3 0 Frage 14: xi y i =? Vorgabe c) 45 0 0.0 0.0 0.0 i= 7 5 4 0 weiß nicht 57 45.2 77.0 -- nicht gefragt 52 41.3 -- -- 6 1 1 Welche Antwort 7 1 1 stimmt? 8 2 1 9 3 0 Vorgaben Frage 14 n % % % Vorgabe e) 4 10 7.9 13.5 52.6 Vorgabe b) 5 2 1.6 2.7 10.5 Vorgabe f) 7 1 0.8 1.4 5.3 Vorgabe d) 9 0 0.0 0.0 0.0 Vorgabe a) 21 6 4.8 8.1 31.6 Vorgabe c) 45 0 0.0 0.0 0.0 weiß nicht 55 43.6 74.3 -- nicht gefragt 52 41.3 -- -- Statistik 1 (Vorlesung SoSe 06, 18.4.06) 23

Das Summenzeichen Mathematisches Repititorium: Indizierte Summen Das große griechiche Sigma (Σ) steht in der Mathematik u.a. für die Summierung und heißt dann Summenzeichen. Es steht für die Summierung einer Menge von Elementen. Beispiel: Daten: 3 4 1 6 2 16 X 35724610 Y 13254986 13425 15 Wenn offensichtlich ist, über welche Menge summiert werden soll, wird einfach das Summenzeichen-Symbol verwendet. Anderenfalls muss die Menge, über die summiert wird, gekennzeichnet werden. X bezeichnet entsprechend die Summierung über alle Elemente einer Menge, die den Namen X hat. 28 X ist also die Summe über die erste Zeile, X = 28, 38 Y entsprechend die Summe über die zweite Zeile, Y = 38 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 24

Indizierte Summen Indizierte Summen Wenn nicht alle Elemente einer Summe, sondern eine Auswahl summiert werden soll, müssen die auszuwählenden Elemente gekennzeichnet werden. Dazu werden sie durchnummeriert. Die Nummer, die ihre Position angibt, wird als Index (oder Indexvariable) bezeichnet. Für Indizes werden sehr oft die Buchstabem i, j, k oer l verwendet. Wenn die Menge durch einen großen Buchstaben gekennzeichnet ist, werden die Elemente oft durch einen kleinen Buchstaben gekennzeichnet. Index X Y Z 1 2 4 1 2 1 2 0 3 0 0 1 4 3 1 0 5 5 6 0 6 4 2 1 x 3 bezeichnet so das dritte Element von X (x 3 = 0), y 1 das erste Element von Y (y 1 = 4), z 6 das sechste (letzte) Element von z (z 6 = 1) Sollen im Beispiel nur das dritte bis fünfte Element von Y summiert werden, wird a) die Menge durch ein beliebiges Indexsymbol indiziert und b) der Anfang und das Ende der Indexnummern unten und oben am Summenzeichen angegeben: 5 y = y + y + y = 0+ 1+ 6= 7 i= 3 i 3 4 5 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 25

Indizierte Summen Index X Y Z 1 2 4 1 2 1 2 0 3 0 0 1 4 3 1 0 5 5 6 0 6 4 2 1 5 i= 3 5 i= 3 y i y = y + y + y = 0+ 1+ 6= 7 i 3 4 5 i X Y Z 1 2 4 1 2 1 2 0 3 0 0 1 4 3 1 0 5 5 6 0 6 4 2 1 Die Anzahl der Elemente (Fälle) insgesamt einer Menge wird oft duch den Buchstaben N oder n gekennzeichnet! n j= 1 j n j1 = z z = 1+ 0+ 1+ 0+ 0+ 1= 3 j j X Y Z 1 2 4 1 2 1 2 0 3 0 0 1 4 3 1 0 5 5 6 0 6 4 2 1 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 26

Indizierte Summen Durch Verwendung von Formeln können in der Indizierung sehr spezifische Teilmengen ausgewählt. werden. Beispiel a): Auswahl jedes zweiten Elements einer Menge X, d.h. der geraden Elemente: Fall X 1 2 2 1 3 0 4 3 5 5 6 4 n/2 i= 1 x = x + x + x 2i 2 4 6 = 1+ 3+ 4= 8 Beispiel b): Auswahl der ungeraden Elemente einer Menge X Fall X 1 2 2 1 3 0 4 3 5 5 6 4 n/2 i= 1 x = x + x + x 2i 1 1 3 5 = 2+ 0+ 5= 7 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 27

Indizierte Summen Summen über Konstanten sind gleichbedeutend mit der Multiplikation der Konstante mit der zu summierenden Anzahl. Fall Wert 1 4 2 4 3 4 4 4 5 4 20 5 i= 1 4= 5 4= 20 Konstanten innerhalb von Summen können daher oft ausgeklammert werden: Fall Wert 1 2 2 1 3 0 4 0 5 2 5 k= 1 4w = 42 + 41 + 40 + 40 + 42 = 20 k 5 5 k k= 1 k= 1 k ( ) 4 w = 4 w = 4 2+ 1+ 0+ 0+ 2 = 4 5= 20 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 28

Indizierte Summen Summen können auch über Formeln von Elementen aus mehreren Mengen gebildet werden. n i= 1 n/2 i= 1 Fall X Y Z 1 2 4 1 2 1 2 0 3 0 0 1 4 3 1 0 5 5 6 0 6 4 2 1 ( ) ( ) ( ) x + y = x + y + x + y + x + y i i 1 1 2 2 n n ( ) ( ) ( ) ( ) ( ) ( ) = 2+ 4 + 1+ 2 + 0+ 0 + 3+ 1 + 5+ 6 + 4+ 2 = 30 ( ) ( ) ( ) y z = y z + y z + y z i n+ 1 i 1 n 2 n 1 n/2 n/2+ 1 ( ) ( ) ( ) = 41 + 20 + 00 = 4 Statistik 1 (Vorlesung SoSe 06, 18.4.06) 29

Indizierte Summen Die Auflösung (Berechnung) von Summen von Summen kann aufwendig sein. Fall X Y Z 1 2 4 1 2 1 2 0 3 0 0 1 4 3 1 0 5 5 6 0 6 4 2 1 Beispiel: 3 6 i= 1 j= 4 3 6 i= 1 j= 4 x i + y j ( ( )) x + y = x + y + y + y i j 1 4 5 6 ( x2 ( y4 y5 y6) ) ( x3 ( y4 y5 y6) ) ( ) = + + + = + + + ( 2 1 4 5 ) ( 1 (10)) ( 0 (10)) = + + + + + + + = 33 = x + 3 6 i i= 1 j= 4 y j Statistik 1 (Vorlesung SoSe 06, 18.4.06) 30

Statistik I im Sommersemester 2006 Themen am 25.4.2006: Von der theoretischen Fragestellung zu empirischen Daten Operationalisierung, Messung Skalenniveau Die Datenmatrix: Fälle, Variablen, Ausprägungen u. Realisationen Erstellung von Häufigkeitstabellen Lernziele: 1. Beurteilung der Relevanz von Operationalisierung und Messung für die Sozialforschung 2. Kenntniss über das Messniveau von Variablen und den daraus zu ziehenden Konsequenzen 3. Unterscheidung zwischen Variablen, Ausprägungen und Realisierungen 4. Berechnung von Häufigkeitstabellen und Verstehen der dabei angewendeten Formeln Statistik 1 (Vorlesung SoSe 06, 25.4.06) 31

Wiederholung der wichtigsten Inhalte der letzten Sitzung Gegenstand der Statistk: Mathematische Modellierung von Verteilungen Univariate Verteilungen Deskriptive Statistik Verteilungsparameter (Quantile, Lagemaße, Streuungsmaße) Induktive Statistik / Inferenzstatistik Wahrscheinlichkeitstheorie, Schätzen und Testen Bivariate Verteilungen Multivariate Verteilungen Beschreibung und Prüfung von bivariaten Zuammenhängen Drittvariablenkontrolle Konditionale u. Partielle Effekte Prüfung der Angemessenheit statistischer Modelle Statistik 1 (Vorlesung SoSe 06, 25.4.06) 32

Warum Statistik? Zur Klärung von empirischen Fragen, Formulierung und Prüfung von Vermutungen benötigen die Sozialwissenschaften empirische Daten. Bei der Analyse der Daten besteht Gefahr von Fehlinterpretationen. Fehlerquellen: - ungenügendes inhaltliches Vorwissen über Forschungsgebiet, - ungenügende Kenntnisse über statistische Datenanalyse. Ziel der Statistikausbildung: Gewinnung von Kenntnissen über statistische Datenanalyse, + um Aussagekraft von empirischen Studien zu beurteilen, + um bei eigenen Analysen aussagekräftige Ergebnisse zu erhalten Statistik 1 (Vorlesung SoSe 06, 25.4.06) 33

Methoden-Modul 2. Grundlagen sozialwissenschaftlicher Datenanalyse M2 beinhaltet 2 Veranstaltungen: Workload = 8 Credits 1.Vorlesung Statistik I Abschlussklausur Teil A (60 Minuten) ( 90 Minuten Stoffvermittlung, Fragen, Übungaufgaben) dazu Tutorien zur Vorlesung (45-60 Minuten Lösung der Übungsaufgaben) 2. Übung zu Statistik I Abschlussklausur Teil B (30 Minuten) 2. Übung zu Statistik I A. Statistik mit Excel oder B. Statistik mit SPSS Vermittlung (a) (45 Minuten) Vermittlung (b) (45 Minuten) Übung (a) (45 Minuten Tutorium) Übung (b) (45 Minuten Tutorium) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 34

Mathematisches Repititorium: Indizierte Summen Das Summenzeichen Das große griechiche Sigma (Σ) steht in der Mathematik u.a. für die Summierung und heißt dann Summenzeichen. Es steht für die Summierung einer Menge von Elementen. n j1 = z j j X Y Z 1 2 4 1 2 1 2 0 3 0 0 1 4 3 1 0 5 5 6 0 6 4 2 1 n j= 1 z = 1+ 0+ 1+ 0+ 0+ 1= 3 j Statistik 1 (Vorlesung SoSe 06, 25.4.06) 35

Operationalisierung Ausgangspunkt: Forschungsfrage Beispiel: Je höher die Beinflussbarkeit des politischen Systems eingeschätzt wird und je höher die Reaktionsbereitschaft des politischen Systems eingeschätzt wird, desto höher ist die Unterstützung des politischen Systems (zu überprüfende Hypothese) Vor jeder empirischen Analyse: Klärung der Begriffe Einschätzung der Beeinflussbarkeit des politischen Systems: Urteil eines Staatsangehörigen darüber, wie sehr er auf politische Entscheidungen Einfluss nehmen kann. Einschätzung der Reaktionsbereitschaft des politischen Systems: Urteil eines Staatsangehörigen darüber, wie sehr politische Entscheidungsinstanzen bei ihren Entscheidungen auf Vorstellungen und Forderungen der Staatsangehörigen achten. Unterstützung des politischen Systems: Ausmaß der (positiven) Bewertungen der politischen Institutionen und deren Aktivitäten. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 36

Operationalisierung Hypothese: Je höher die Beinflussbarkeit des politischen Systems eingeschätzt wird und je höher die Reaktionsbereitschaft des politischen Systems eingeschätzt wird, desto höher ist die Unterstützung des politischen Systems Wenn es sich um eine empirische Hypothese handelt, hängt es von der Beschaffenheit der Realität ab, ob die Hypothese zutrifft oder nicht zutrifft. Für die Prüfung muss dann empirisch feststellbar sein, ob bzw. wie sehr die in den Begriffen der Hypothese vorkommenden Sachverhalte vorliegen oder nicht vorliegen. Operationalisierung Benennung von Korrespondenzregeln, mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten Sachverhalts festgestellt wird Über Operationalisierung erfolgt also Verbindung zwischen Begriffen und empirisch beobachtabaren Sachverhalten. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 37

Operationalisierung Operationalisierung Benennung von Korrespondenzregeln, mit deren Hilfe das Ausmaß des Vorliegens eines durch einen Begriff bezeichneten Sachverhalts festgestellt wird Beispiel: Operationalisierung des Begriffs "Systemunterstützung" durch die Frage (Variable): Was würden Sie allgemein zu der Demokratie in der Bundesrepublik, d.h. zu unseren politischen Parteien und zu unserem ganzen politischen System sagen? Sind Sie damit sehr zufrieden, eher zufrieden, eher unzufrieden oder sehr unzufrieden? Bei dieser Operationalisierung wird einer Person, der Eigenschaftsträgerin, eine starke Systemunterstützung zugeschrieben, wenn sie die Antwort sehr zufrieden gibt, eine geringe Systemunterstützung, wenn sie die Antwort eher zufrieden gibt, eine geringe Systemablehnung, wenn sie die Antwort eher unzufrieden gibt und eine starke Systemablehnung, wenn sie die Antwort sehr unzufrieden gibt. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 38

Operationalisierung Die Korrespondenzregeln schreiben also vor, welche Schlussfolgerungen aus einer empirischen Beobachtung, hier: der Antwort eines Befragten in einem Interview, hinsichtlich des Vorliegens des empirischen Sachverhalts getroffen werden sollen, der durch den Begriff bezeichnet wird. Korrespondenzregeln sind Konsequenzen einer Messtheorie, die Folgen der durch einen Begriff bezeichneten theoretisch erwartbaren Eigenschaften auf empirisch beobachtbare Sachverhalte benennt. Die Postulierung dieser Folgen heißen Korrespondenzhypothesen, im Beispiel: 1. Je höher die Unterstützung des politischem System bei einer Person ist, desto stärker ist die geäußerte Zufriedenheit in der Antwort auf die Frage nach dem Funktionieren der Demokratie in dem politischen System. 2. Wenn sich zwei Personen in ihren Unterszützung des politischen Systems deutlich unterscheiden, dann geben sie auch unterschiedliche Antworten auf die Frage nach der Demokratiezufriedenheit untercheiden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 39

Operationalisierung Forschungsfrage mit Begriffen, die empirische Sachverhalte beinhalten Explikation der Begriffe Formulierung einer Messtheorie mit Korrepondenzhypothesen Formulierung von Korrespondenzregeln Was ist der Unterschied zwischen einer Korrespondenzregel und einer Korrespondenzhypothese? Probleme: (1) In der Regel keine explizite Formulierung der Messtheorie: Postulate der Messtheorie (Korrespondenzhypothesen) nicht bewusst. (2) Korrespondenzhypothesen können falsch sein: Korrespondenzregeln vermutlich unangemessen Empirische Beobachtung erlaubt keine Antwort auf Forschungsfrage. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 40

Operationalisierung Frage 1: Systeunterstützung Frage 2a: Einschätzung der Beeinflussbarkeit des politischen Systems (Efficacy) Frage 2b: Einschätzung der Reaktionsbereitschaft des politischen Systems (Responsiveness) Beobachtung: Geschlecht Frage 4: Alter (Quelle: Kühnel/ Krebs, 2006: S. 26) Statistik 1 (Vorlesung SoSe 06, 25.4.06) Tabelle 2.1: Beispiel eines Erhebungsinstrumentes F R A G E A N T W O R T Code 1. Sind Sie mit der Art und Weise, wie die Demokratie in der Bundesrepublik funktioniert, alles in allem gesehen... 2. Nun einige Aussagen, über die man verschiedener Ansicht sein kann. Sagen Sie mir bitte jeweils, ob Sie der Aussage eher zustimmen oder eher nicht zustimmen. a) Leute wie ich haben so oder so keinen Einfluss darauf, was die Regierung tut b) Die Parteien wollen nur die Stimmen der Wähler, ihre Ansichten interessieren sie nicht ohne Abfrage eintragen! Das Interview wurde geführt mit... 4. Zum Schluss noch eine Frage zur Statistik. Sagen Sie mir bitte, in welchem Jahr Sie geboren sind.... sehr zufrieden,...... eher zufrieden,...... eher unzufrieden,...... oder völlig unzufrieden?... weiß nicht 1 keine Angabe stimme stimme weiß keine eher eher nicht nicht Angabe zu zu 1 2 8 9 1 2 8 9 einem Mann... einer Frau... Geburtsjahr vierstellig eintragen! keine Angabe 9999 1 Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen. 4 3 2 1 8 9 1 2 41

Beobachten und Messen Im Erhebungsinstrument werden die Messvorschriften festgehalten, die sich aus den Korrespondenzregeln ergeben. Es dient als Hilfe bei der Erfassung der interessierenden Eigenschaften von Untersuchungseinheiten. Messen bezieht sich auf dann auf den Vorgang der Datengewinnung, d.h. der Anwendung der Korrespondenzregeln und der Umsetzung und Festhaltung der Beobachtungen in mathematische Größen (Zahlen). Bei dem oft nicht eindeutig verwendeten Begriff lassen sich zwei unterschiedliche Bedeutungen unterscheiden: (1) Messen im weiteren Sinne bezieht sich auf den Akt der Datenerhebung. In der Sozialforschung spricht man auch von Beobachtung. (2) Messen im engeren Sinne bezieht sich auf die Zuordnung von Zahlen zu den bereits beobachteten empirischen Eigenschaften eines Objekts Messen im engeren Sinne wird technisch auch als Kodierung bezeichnet. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 42

Beobachten F R A G E A N T W O R T Code 1. Sind Sie mit der Art und Weise, wie die Demokratie in der Bundesrepublik funktioniert, alles in allem gesehen... 2. Nun einige Aussagen, über die man verschiedener Ansicht sein kann. Sagen Sie mir bitte jeweils, ob Sie der Aussage eher zustimmen oder eher nicht zustimmen. a) Leute wie ich haben so oder so keinen Einfluss darauf, was die Regierung tut b) Die Parteien wollen nur die Stimmen der Wähler, ihre Ansichten interessieren sie nicht ohne Abfrage eintragen! Das Interview wurde geführt mit...... sehr zufrieden,...... eher zufrieden,...... eher unzufrieden,...... oder völlig unzufrieden?... weiß nicht 1 keine Angabe stimme stimme weiß keine eher eher nicht nicht Angabe zu zu 1 2 8 9 1 2 8 9 einem Mann... einer Frau... 4. Zum Schluss noch eine Frage zur Geburtsjahr vierstellig eintragen! Statistik. Sagen Sie mir bitte, in 1943 welchem Jahr Sie geboren sind. keine Angabe 9999 1 Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 4 3 2 1 8 9 1 2 Beobachten bedeutet im Beispiel: Stellen der Fragen und Notieren der Antworten Die Messung ergibt: Die befragte Person... (1) ist eher zufrieden mit dem Funktionieren der Demokratie, (2) stimmt der Aussage nicht zu, dass Leute wie die Person keinen Einfluss auf die Regierung hat, (3) stimmt auch nicht zu, dass die Parteien nicht an den Ansichten der Wähler interessiert sind, (4) ist männlich (5) und 1943 geboren. 43

Messen Mesen ist die Zuordnung von Zahlen zu den möglichen Vorkommensweisen einer Eigenschaften von Untersuchungseinheiten. Jedem empirischen Objekt wird eine Zahl (der Code) derart zugeordnet, dass der Zahl eine Eigenschaft des Objektes entspricht, und dem Vergleich von jeweils zwei Messungen der gemessenen Eigenschaft der Vergleich der zugeordneten Zahlen entspricht. Beispiel: gleiches Geschlecht gleiche Zahl, verschiedenes Geschlecht verschiedene Zahl. A B C D 1 2 Statistik 1 (Vorlesung SoSe 06, 25.4.06) 44

Messen in der axiomatischen Messtheorie Definition von Messen in der axiomatischen Messtheorie: Messen ist eine homomorphe Abbildung eines empirischen Relativs in ein numerisches Relativ A B C D empirisches Relativ: empirische Objekte und Beziehungen (Relationen) zwischen den Objekten anhand deren Eigenschaften (hier: Vergleich nach Gleichheit bzw. Verschiedenheit von Menschen hinsichtlich ihres Geschlechts 1 2 numerisches Relativ: mathematische Objekte (Zahlen) und Beziehungen (Relationen) zwischen den Zahlen Homomorphe (strukturtreue) Abbildung: Vergleiche aufgrund der empischen Eigenschaft entsprechen Vergleiche von Zahlen und müssen daher zum gleichen Ergebnis kommen. hier: gleiche Zahl = gleiches Geschlecht, verschiedene Zahl = verschiedenes Geschlecht. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 45

Messniveau oder Skalenniveau: Die Informationshaltigkeit von Messungen Zwischen Zahlen lassen sich sehr verschiedenen Beziehungen (Relationen) herstellen. So ist die Zahl 2 doppelt so groß wie die Zahl 1; 2 = 2 1 Dieser Eigenschaft entspricht bei der Messung des Geschlechts keine empirische Eigenschaft: Weibliche Befragte (Code = 2) haben verglichen mit männlichen Befragten (Code = 1) kein doppeltes Ausmaß an der Eigenschaft Geschlecht; Geschlecht lässt gar sich nicht hinsichtlich seines Ausmaßes vergleichen. Das Messniveau oder Skalenniveau einer Messung legt fest, welche numerische Eigenschaften von Zahlen empirischen Bedeutungen entsprechen: Messungen auf Nominalskalenniveau enthalten nur Informationen, ob gleiche oder ungleiche Ausprägungen einer Eigenschaft vorliegen; Messungen auf Ordinalskalenniveau geben zusätzlich Auskunft über ein mehr oder weniger des Ausmaßes einer Eigenschaft; Messungen auf Intervallskalenniveau erlauben zusätzlich den Abstand zwischen einzelnen Messwerten inhaltlich zu interpretieren; Messungen auf Ratioskalenniveau (auch: Verhältnisskalenniveau, Proportionalskalenniveau) ermöglichen zusätzlich die Interpretation des Verhältnisses von Messwerten. Je höher das Messniveau, desto informationshaltiger die Messung Statistik 1 (Vorlesung SoSe 06, 25.4.06) 46

Messniveau oder Skalenniveau: Die Informationshaltigkeit von Messungen Tabelle 2.2: Beispiele für Skalenniveaus Relation zwischen Skalenniveau Ausprägungen Beispiele Nominalskala Klassifikation Religion, Familienstand, Parteineigung Ordinalskala Rangordnung Einstellungsmessungen in Umfragen z.b. Ausmaß an Zustimmung zu einer Behauptung Intervallskala Abstand Temperatur in Grad Celsius, Geburtsjahr Ratioskala Verhältnis Alter, Größe, Einkommen (nach Kühnel/ Krebs, 2006: S. 31) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 47

Messniveau: Hierarchie zwischen den Messnievaus Zwischen den Messniveaus besteht eine hierarchische Ordnung: Alle Informationen eines geringeren Messniveaus gelten auch bei höherem Messniveau. Die zusätzlichen Informationen eines höheren Messniveaus können aber nicht bei einem geringeren Messniveau genutzt werden: Interpretierbare Relationen Identität Ränge Abstände Quotienten Nominalskala ja nein nein nein Ordinalskala ja ja nein nein Intervallskala ja ja ja nein Ratioskala ja ja ja ja Intervall- und Ratioskalen werden auch als metrische Skalen bezeichnet. Daraus folgt: Jede Messung auf Ratioskalenniveau ist auch eine Messung auf Intervallskalenniveau, auf Ordinalskalenniveau und auf Nominalskalenniveau; jede Messung auf Intervallskalenniveau ist auch eine Messung auf Ordinalskalenniveau und auf Nominalskalenniveau; jede Messung auf Ordinalskalenniveau ist auch eine Messung auf Nominalskalenniveau. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 48

Messniveau: Zulässige Transformationen Welche Zahlen den Ausprägungen eines Merkmals zugeordnet werden, ist solange willkürlich, solange die strukturtreue Abbildung der empirischen Beziehungen in die mathematischen Beziehungen erhalten bleibt. Messskalen (d.h. Kodierungen), die die gleichen Informationen erhalten, sind äquivalent. Beispiel: Ob bei der Ordinalskala Demokratiezufriedenheit die Zahlen 1,2,3,4 oder 0,1,2,3 oder 10,11,15,20 verwendet werden, ist beliebig, solange eine größere Zahl stets für eine größere Demokratiezufriedenheit steht. Antworten völlig unzufrieden eher unzufrieden eher zufrieden sehr zufrieden Alternative Kodierungen 1 2 3 4 0 1 2 3 10 11 15 20 1 2 4 3 zulässige unzulässige Messskalen Der Wechsel (Übergang) von einer Kodierung zu einer anderen Kodierung wird als zulässige Transformation bezeichnet, wenn alle empirischen Informationen enthalten bleiben. Bei unzulässigen Transformationen gehen dagegen Informationen verloren. Es ist aber unzulässig, die Zahlen 1,2,4,3 zu verwenden, da dann eher zufrieden (4) für eine größere Zufriedenheit stehen würde als sehr zufrieden (3). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 49

Messniveau: Zulässige Transformationen Tabelle 2.3: Zulässige Transformationen Skalen- Zulässige Transformationen Beispiele für erlaubte mathematische niveau Operationen Nominal Alle ein-eindeutigen Transfor- Logarithmieren, Multiplikation, mationen Addition (Subtraktion) einer Konstanten Ordninal Alle positiv-monotonen, die Wenn Ausgangswerte > 0: Rangordnung wahrenden Trans- Quadrieren, Logarithmieren, Wurzelformationen ziehen Intervall Alle positiven linearen Trans- Y = a + b X mit b> 0 formationen Ratio Streckungen und Stauchungen Y = b X mit b> 0 (nach Kühnel/ Krebs, 2006: S. 32) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 50

Bedeutung des Skalenniveaus für die Sozialforschung Das Messniveau ist wichtig, weil es Aussagen über die Informationshaltigkeit von Messungen beinhaltet. Für die statistische Datenanalyse ist das Messniveau auch deswegen wichtig, weil es festgelegt, ob ein statistisches Analysemodell angemessen ist oder nicht: Wenn sich nach der Transformation einer Messwertreihe mit einer zulässigen Transformation die inhaltliche Aussage ändert, ist ein Analysemodell nicht angemessen.. Wenn ein nicht angemessenes Analysemodell verwendet wird, besteht die Gefahr der Produktion von Artefakten: Analyseergebnisse werden als vermeintliche empirische Befunde interpretiert, obwohl sie ungültig und Folge eines nicht angemessenen Analysemodells sind. Beispiel:Vergleich von Mittelwerten bei ordinalen Messungen Messwerte bei Ausgangsskala Gruppe 1 Gruppe 2 1 2 3 4 6 5 Mittelwert: 10/3 11/3 Gruppe 2 hat im Mittel höheres Ausmaß an der interessierenden Eigenschaft. Statistik 1 (Vorlesung SoSe 06, 25.4.06) zulässige Transformation der Ordinalskala: Ranginformationen bleiben erhalten. Messwerte nach Transformation Gruppe 1 Gruppe 2 1 4 9 16 36 25 Mittelwert: 46/3 45/3 Gruppe 2 hat im Mittel höheres Ausmaß an der interessierenden Eigenschaft. 51

Bestimmung des Messniveaus Die axiomatischen Messtheorie nennt als Voraussetzungen Repräsentation, Eindeutigkeit und Bedeutsamkeit, die zur Erreichung eines bestimmten Messniveaus nachgewiesen werden müssen: (1) Repräsentationstheoreme geben für jedes Skalenniveau Präzisierungen an, um Repräsentation nachzuweisen. Beispiel bei einer Ordinalskala: Transitivitätsbedingung muss erfüllt sein. Wenn bei drei Beobachtungen A, B und C gilt: (a) bei Beobachtung B liegt eine höheres Ausmaß der zu messenden Eigenschaft vor als bei Beobachtung A, (b) bei Beobachtung C liegt eine höheres Ausmaß der zu messenden Eigenschaft vor als bei Beobachtung B, dann muss auch gelten: (c) bei Beobachtung C liegt eine höheres Ausmaß der zu messenden Eigenschaft vor als bei Beobachtung A. Gilt die Transitivitätsbedingung nicht, kann nicht auf Ordinalskalenniveau gemessen werden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 52

Bestimmung des Messniveaus (2) Eindeutigkeitstheoreme geben die Bedingungen an, unter denen zulässige Transformationen im numerischen Relativ möglich sind. (3) Bedeutsamkeitstheoreme beziehen sich auf die statistischen Verfahren, die unter einem Skalenniveau zulässig sind. Repräsentation bezieht sich also auf den Informationsgehalt im empirischen Relativ, Eindeutigkeit auf die zulässigen Transformationen innerhalb des numerischen Relativs und Bedeutsamkeit auf die Gültigkeit statistischer Modelle innerhalb eines Messniveaus. Nach der axiomatischen Messtheorie muss für jede empirische Messkala das Vorliegen der drei Bedingungen nachgewiesen sein. In der Praxis erfolgt oft eine Festlegung des Skalenniveaus nach Augenschein ( measurement per fiat ). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 53

Bestimmung des Messniveaus Bei der Unterstellung eines Messniveaus sind drei Aspekte zu beachten: 1. Beim Messniveau sind empirische wie theoretische Gegebenheiten relevant. Daher kann auch das Messniveau einer Größe nicht theorielos (d.h. ohne theoretische Annahmen) ermittelt werden. Beispiel: Haarfarbe ist in der Soziologie der Mode eine nominalskalierte Größe. In der Physik ist Farbe dagegen eine auf Rationskalenniveau gemessene Frequenz von Lichtwellen. 2. Eine zu prüfende empirische Theorie kann ein bestimmtes Messniveau für die beteiligten Konzepte voraussetzen. Ist dieses nicht gegeben, ist die Theorie nicht oder nur eingeschränkt prüfbar. Beispiel: Die Nutzentheorie behauptet, dass sich der Nettonutzen einer Alternative aus der Produktsumme der Bewertungen der mit der Alternative verbundenen Konsequenzen und den Auftretenswahrscheinlichkeiten dieser Konsequenzten ergibt. Sind die Bewertungen und die Auftretenswahrscheinlichkeiten nicht auf metrischem Messniveau erfassbar, kann diese Behauptung nicht geprüft werden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 54

Bestimmung des Messniveaus 3. Das Messniveau der beobachteten Größen kann sich vom Messniveau der eigentlich interessierenden theoretischen Eigenschaft unterscheiden und z..b. ein höheres Messniveau haben. Beispiel: Alter dürfte in der Regel auf Ratioskalenniveau messbar sein. Wird Alter aber in einer Studie im Sinne der theoretischen Konzeption des Lebenszyklus verwendet, handelt es sich möglicherweise nur um eine nominale Messung. Letztlich kommt es bei der Festlegung des Messniveaus und der Messkala (Kodierung) darauf an, ob die verwendeteten Zahlen und die eingesetzten Analysemodelle inhaltlich interpretierbar sind. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 55

Bestimmung des Messniveaus Beispiel für die Festlegung einer Messkala. Die Einstellung zu Schwangerschaftsabbrüchen wird durch die Frage operationalisiert: Welche Position haben Sie: Sollen Ihrer Ansicht nach Abtreibungen grundsätzlich verboten werden, sollen Abtreibungen grundsätzlich erlaubt sein oder sollen Abtreibungen nur in bestimmten Situationen erlaubt sein? Es wird folgende Kodierung verwendet: Antwort Messwerte grundsätzlich verboten 1 in bestimmten Situationen erlaubt 0 grundsätzlich erlaubt +1 Antwortverteilung in einer Umfrage 100 20% 200 40% 200 40% In einer Umfrage ergibt sich ein Mittelwert von 0.2 = 100 ( 1) + 200 (0) + 200 (+1). Dieser Wert ist inhaltlich interpretierbar: Es gibt 0.2, d.h. 20% mehr Personen, die eine Abtreibung grundsätzlich erlauben lassen wollen (nämlich 40%), als es Personen gibt, die eine Abbtreibung grundsätzlich verbieten lassen wollen (nämlich 20%). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 56

Variablen und deren Ausprägungen Begriffe wie Systemunterstützung sind sprachliche Konstruktionen, die im Kontext einer Theorie gebildet werden. In der Statistik sind nicht Begriffe, sondern Variablen die Ausgangsgrößen empirischer Analysen. Eine Variable bezeichnet eine mögliche Eigenschaft, d.h. ein Merkmal (Prädikat), die ein Merkmalsträger (z.b. ein Mensch oder eine Organisation) aufweisen oder aber nicht aufweisen kann. Die Ausprägungen (Kategorien, Werte) einer Variablen geben an, wie und evtl. in welchem Ausmaß die Eigenschaft bei den Merkmalsträgern vorliegen kannt. Beispiele: - Die Variable Geschlecht hat i.a. zwei Ausprägungen, männlich und weiblich ; - Die Variable Konfession kann in einer Umfrage z.b. 6 Ausprägungen haben: katholisch, protestantisch, muslimisch, jüdisch, andere, keine ; - Die Variable höchster allgemeinbildender Schulabschluss kann 3 Ausprägungen haben: kein Abschluss Volksschule/mittlere Reife (Fach-) Hochschulreife. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 57

Variablen und Ausprägungen Ausprägungen sollten nicht mit ihren Variablen verwechselt werden. So ist männlich keine Variable, sondern eine Ausprägung der Variablen Geschlecht. Ausprägungen beziehen sich immer auf alle möglichen Formen/Ausgestaltungen einer Eigenschaft, Variablen auf die Eigenschaft selbst! Es ist allerdings möglich, aus Ausprägungen einer Variablen eine neue und anderevariable zu konstruieren. So kann aus der Ausprägung mänlich des Geschlechts eine neue Variable Ist männlich mit den Ausprägungen trifft zu und trifft nicht zu generiert werden. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 58

Beobachtete und unbeobachtete Variablen Nicht immer sind alle interessierenden Eigenschaften tatsächlich beobachtet oder auch nur beobachtbar. Beispiele: (a) Bei der Frage nach dem Einkommen wird nicht das tatsächliche Einkommen erfasst, sondern die Antwort auf die Frage danach. Das tatsächliche Einkommen kann höher oder geringer sein als das berichtete Einkommen. Während das berichtete Einkommen eine beobachtete Variable ist, ist das tatsächliche Einkommen eine unbeobachtete Variable. (b)einstellungen sind prinzipiell unbeobachtbare Vorstellungen in den Köpfen von Personen. Beobachtbar sind oft Äußerungen, von denen auf Einstellungen rückgeschlossen wird. Unbeobachtbare oder in einer Untersuchung unbeobachtete Eigenschaften von Merkmalsträgern werden in der Statistik als latente Variablen oder Faktoren bezeichnet; die in einer Untersuchung beobachteten Variablen werden auch als Indikatoren bezeichnet, insbesondere dann, wenn mit ihrer Hilfe auf latente Variablen rückgeschlossen wird. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 59

Variablen und Begriffe/Konstrukte Zwischen Indikatoren und Faktoren besteht eine analoge Beziehungen wie zwischen Begriffen und deren operationalisierten Messungen. Theorie Begriff Faktor latente Ebene Verbindung Operationalisierung Messmodell Empirie Messung Indikator beobachtete Ebene Aber, Analogie bedeutet keine Gleichheit: Die Operationalisierung eines Begriffs kann zu verschiedenen Variablen führen, die beobachtet wie latent sein können. Begriffe können sich auch gleichzeitig auf mehrere und unterschiedliche Einheiten beziehen, Variablen sind immer Ausprägungen eines Merkmalsträgers. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 60

Fälle und Realisationen Fälle oder Untersuchungseinheiten sind die Merkmalsträger, auf die sich die in durch eine Variable bezeichnete Eigenschaft in einer Untersuchung bezieht. Die tatsächlich bei einem Merkmalsträger vorkommende Ausprägung einer Variable wird als Realisierung oder Realisation bezeichnet. Variable (z.b. Geschlecht ) hat Menge möglicher Ausprägungen (z.b.: {männlich, weiblich] bezieht sich auf Konkretisierung Fälle (z.b. Personen) Element aus der Menge aller Fälle Realisation bei einem Fall (z.b. Herr X ist männlich) Wenn alle Merkmalsträger bei einer Variable die gleiche Ausprägung haben, reduziert sich die Variable zu einer Konstanten. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 61

Die Datenmatrix F R A G E A N T W O R T Code 1. Sind Sie mit der Art und Weise, wie die Demokratie in der Bundesrepublik funktioniert, alles in allem gesehen... 2. Nun einige Aussagen, über die man verschiedener Ansicht sein kann. Sagen Sie mir bitte jeweils, ob Sie der Aussage eher zustimmen oder eher nicht zustimmen. a) Leute wie ich haben so oder so keinen Einfluss darauf, was die Regierung tut b) Die Parteien wollen nur die Stimmen der Wähler, ihre Ansichten interessieren sie nicht ohne Abfrage eintragen! Das Interview wurde geführt mit...... sehr zufrieden,...... eher zufrieden,...... eher unzufrieden,...... oder völlig unzufrieden?... weiß nicht 1 keine Angabe stimme stimme weiß keine eher eher nicht nicht Angabe zu zu 1 2 8 9 1 2 8 9 einem Mann... einer Frau... 4. Zum Schluss noch eine Frage zur Geburtsjahr vierstellig eintragen! Statistik. Sagen Sie mir bitte, in 1943 welchem Jahr Sie geboren sind. keine Angabe 9999 1 Kursiver gedruckter Text ist für den Interviewer bestimmt und wird nicht vorgelesen. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 4 3 2 1 8 9 1 2 Die Ergebnisse der Beobachtungen bei allen Fällen werden in einer Tabelle, der Datenmatrix zusammengefasst. Neben den gemessenen Variablen enthält eine Datenmatrix in der Regel zusätzliche Variablen. So werden den einzelnen Fällen eindeutige Nummern zugewiesen, die etwa nach der Reihenfolge der Durchführung von Interviews oder des Eingangs der Daten gebildet werden. Diese Nummern heißen Fallnummern (oder Identifikationsnummern). 62

Die Datenmatrix Tabelle 2.4: Beispiel einer Datenmatrix Untersuchungseinheiten (Fälle) Merkmale der Untersuchungseinheiten (Variablen) Antwort Frage 1 Antwort Frage 2a Antwort Frage 2b Fallnummer Geschlecht Geburtsjahr ID F1 F2A F2B F3 F4 1 3 2 2 1 1943 2 2 8 1 2 1960 3 4 1 2 2 1957 4 9 8 1 1 1939 5 2 2 1 2 9999 6 8 8 1 1 1956 7 4 2 2 2 1970 8 1 1 2 1 1920 9 3 2 1 2 1956 10 4 2 2 2 1966 In einer Datenmatrix sind die Informationen i.a. so angeordnet, dass jede Zeile die gesamten verfügbaren Informationen (Realisierungen aller Variablen) bei einem Fall enthält, und dass jede Spalte alle Realisierungen einer Variablen über alle Fälle enthält. (nach Kühnel/ Krebs, 2006: S. 37) alle Realisierungen der Variablen F1: Univariate Verteilung von F1 Statistik 1 (Vorlesung SoSe 06, 25.4.06) Information über den ersten Fall 63

Datenmatrix: Kodierkonventionen für ungültige Fälle Bei empirischen Datenanalysen muss für jeden Fall und jede Variable eine Realisierung vorliegen. Wenn z.b. aufgrund von Antwortverweigerungen keine Antworten in einer vorgegebenen Antwortskala vorliegen, werden spezielle Ausprägungen, die sogenannten ungültigen oder fehlende Werte (missing values) verwendet. Dabei haben sich Konventionen eingespielt, die möglichst eingehalten werden sollten: einstellige zweistellige dreistellige Endziffer Variablen Variablen Variablen Verweigerung 7 7 97 997 weiß nicht 8 8 98 998 keine Angabe 9 9 99 999 trifft nicht zu 0 0 0 0 Da die meisten Analysemodelle davon ausgehen, dass es bei den betrachteten Variablen keine fehlenden Werte gibt, werden Fälle mit fehlenden Werten bei den betrachteten Variablen oft aus der Analyse ausgeschlossen (engl: listwise deletion of missing values). Statistik 1 (Vorlesung SoSe 06, 25.4.06) 64

Häufigkeitstabellen Die empirische Verteilung einer Variablen gibt an, wie oft welche Ausprägungen einer Variable in der Datenmatrix (dem Datensatz), d.h. der Menge aller Untersuchungseinheiten, vorkommen. In der Regel handelt es sich bei einem Datensatz um eine Stichprobe, d.h. eine Teilmenge aus einer umfassenderen Population. Bei einer nicht zu hohen Anzahl von realiserten Ausprägungen lässt sich eine Häufigkeitsverteilung ohne Informationsverlust in einer Häufigkeitstabelle darstellen. Anteile kumulierte Ausprägung Code Häufigkeit insgesamt nur gültige Anteile völlig unzufrieden 1 1 0.100 0.125 0.125 eher unzufrieden 2 2 0.200 0.250 0.375 eher zufrieden 3 2 0.200 0.250 0.625 sehr zufrieden 4 3 0.300 0.375 1.000 weiß nicht 8 1 0.100 -- keine Angabe 9 1 0.100 -- Summe 10 1.000 1.000 (gültige Fälle: 8; fehlende Fälle 2) Statistik 1 (Vorlesung SoSe 06, 25.4.06) 65

Häufigkeitstabellen Anteile kumulierte Ausprägung Code Häufigkeit insgesamt nur gültige Anteile völlig unzufrieden 1 1 0.100 0.125 0.125 eher unzufrieden 2 2 0.200 0.250 0.375 eher zufrieden 3 2 0.200 0.250 0.625 sehr zufrieden 4 3 0.300 0.375 1.000 weiß nicht 8 1 0.100 -- keine Angabe 9 1 0.100 -- Summe 10 1.000 1.000 (gültige Fälle: 8; fehlende Fälle 2) Die Tabelle enthält die absoluten Häufigkeiten mit der eine Ausprägung im Datensatz vorkommt. Im Beispiel kommt die 1. Ausprägung ( völlig zufrieden, Code 1 ) mit der absoluten Häufigkeit 1vor, die 4. Ausprägung ( völlig zufrieden, Code 4 ) mit der absoluten Häufigkeit 3 und die ungültige Ausprägung ( weiß nicht, Code 8 ) mit der absoluten Häufigkeit 1. Statistik 1 (Vorlesung SoSe 06, 25.4.06) 66