Forschungsstatistik I

Ähnliche Dokumente
Forschungsstatistik I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Forschungsstatistik I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Kreisdiagramm, Tortendiagramm

Primer: Deskriptive Statistik 1.0

Mathematische und statistische Methoden I

Forschungsstatistik I

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

Einführung in Quantitative Methoden

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Forschungsstatistik I

Forschungsstatistik I

Bitte am PC mit Windows anmelden!

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Fachrechnen für Tierpfleger

Statistik und Wahrscheinlichkeitsrechnung

Einführung in Quantitative Methoden

Empirische Verteilungsfunktion

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Statistik I für Betriebswirte Vorlesung 9

0 Einführung: Was ist Statistik

Forschungsstatistik I

absolute Häufigkeit h: Anzahl einer bestimmten Note relative Häufigkeit r: Anzahl einer bestimmten Note, gemessen an der Gesamtzahl der Noten

Kapitel 1 Beschreibende Statistik

Ermitteln Sie auf 2 Dezimalstellen genau die folgenden Kenngrößen der bivariaten Verteilung der Merkmale Weite und Zeit:

Statistik und Wahrscheinlichkeitsrechnung

Forschungsstatistik I

a) x = 1150 ; x = 950 ; x = 800 b) Die Lagemaße unterscheiden sich voneinander. c) Der Median charakterisiert die Stichprobe am besten.

Forschungsstatistik II

Forschungsstatistik I

Mathematische und statistische Methoden I

Mathematische und statistische Methoden II

Forschungsstatistik I

Mathematische und statistische Methoden II

Forschungsstatistik I

Verteilungsfunktion und Quantile

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Häufigkeitsverteilungen und Statistische Maßzahlen. Häufigkeitsverteilungen und Statistische Maßzahlen. Variablentypen. Stichprobe und Grundgesamtheit

Grundlagen der empirischen Sozialforschung

STATISTIK I Übung 04 Spannweite und IQR. 1 Kurze Wiederholung. Was sind Dispersionsparameter?

Mathematische und statistische Methoden II

Forschungsstatistik I

Mathematische und statistische Methoden II

2. Deskriptive Statistik

1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte. D. Horstmann: Oktober

Mathematische und statistische Methoden II

Deskriptive Statistik Erläuterungen

5 Assoziationsmessung in Kontingenztafeln

Mathematische und statistische Methoden II

Inhaltsverzeichnis Grundlagen aufigkeitsverteilungen Maßzahlen und Grafiken f ur eindimensionale Merkmale

Graphische Darstellung einer univariaten Verteilung:

Verteilungsfunktion und Quantile

Forschungsstatistik I

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Statistik und Wahrscheinlichkeitsrechnung

Deskriptive Statistik

PROC MEANS. zum Berechnen statistischer Maßzahlen (für quantitative Merkmale)

Forschungsstatistik I

Forschungsstatistik I

Mathematische Statistik. Zur Notation

Mathematische und statistische Methoden I

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

2 Häufigkeitsverteilungen

Mathematik für Biologen

Mathematische und statistische Methoden II

4 Statistische Maßzahlen

Lösungen zur Klausur zur Statistik Übung am

3. Deskriptive Statistik

Deskriptive Statistik

STATISTIK I Übung 07 Box-Plots und Stem-and-Leaf-Diagramme. 1 Kurze Wiederholung. Warum nur zwei grafische Darstellungsformen?

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Willkommen zur Vorlesung Statistik

Deskriptivstatistik a) Univariate Statistik Weiters zum Thema der statistischen Informationsverdichtung

1 45, 39, 44, 48, 42, 39, 40, , 31, 46, 35, 31, 42, 51, , 42, 33, 46, 33, 44, 43

Arbeitsbuch zur deskriptiven und induktiven Statistik

Grafische Darstellungen. Box-and-Whiskers-Plot (Boxplot) Grafische Darstellungen. Grafische Darstellungen

Grundlagen der empirischen Sozialforschung

4. Kumulierte Häufigkeiten und Quantile

Wiederholung Statistik I. Statistik für SozialwissenschaftlerInnen II p.8

4 Statistische Maßzahlen

Verteilungsfunktion und Quantile

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

5 Exkurs: Deskriptive Statistik

Statistische Methoden in den Umweltwissenschaften

Grundlagen der Wahrscheinlichkeitstheorie und Statistik für Studierende der Informatik

WISTA WIRTSCHAFTSSTATISTIK

Serie 1 Serie 2 Serie 3 Serie 4 Serie 5 Serie 6. Statistik-Tutorium. Lösungsskizzen Übung SS2005. Thilo Klein. Grundstudium Sommersemester 2008

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Deskriptive Statistik & grafische Darstellung

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Merkmalstypen Univ.-Prof. Dr. rer. nat. et med. habil. Andreas Faldum

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung

Verteilungsfunktion und dquantile

3. Lektion: Deskriptive Statistik

Statistische Kennzahlen für die Lage

Transkript:

Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 2009/2010 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Diskrete Variablen Notation Variablen werden mit Großbuchstaben symbolisiert, häufig verwendet man X und Y Die Ausprägung einer Variablen wird dann mit den entsprechenden Kleinbuchstaben gekennzeichnet, also x und y Kann eine diskrete Variable X genau k Ausprägungen annehmen, so ist die i-te davon x i mit i = 1 k Die Aufzählung aller k Ausprägungen wird g p g g geschrieben als X {x 1,, x k }

Nominaldaten Numerische Beschreibung: Nominalskalierte Variablen sind praktisch immer diskret und endlich Die empirische beobachtete Häufigkeit des Auftretens einer Ausprägung X = x wird als h(x = x) oder vereinfacht h(x) geschrieben. h(x) bezeichnet man als absolute Häufigkeit Die relative Häufigkeit f(x = x) bzw. f(x) ist dann definiert als der Quotient aus absoluter Häufigkeit und der Anzahl n aller Beobachtungen Achtung: Relative hx ( ) f ( x) = h( x) = f( x) n sind nicht n Wahrscheinnlichkeiten

Nominaldaten Numerische Beschreibung: univariate Wert von X h(x = x i ) f(x = x i ) x 1 h(x 1 ) f(x 1 ) x 2 h(x 2 ) f(x 2 ) x i h(x i ) f(x i ) x k h(x k ) f(x k ) Die Sammlung der Werte der h(x = x i ) und f(x = x i ) für alle möglichen i = 1 k wird idals diskrete Häufigkeitsverteilung bezeichnet Tabellarische über (oder Kontingenztabellen)

Nominaldaten Numerische Beschreibung: bivariate Oft betrachtet man für das gemeinsame Auftreten zweier Merkmale Beispiel: i Frauen/Männer, die unter-/normal- /übergewichtig sind In diesem Fall werden 2 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Die sind nun so genannte Verbund- häufigkeiten, die das Vorkommen jeder möglichen Kombination aus x und y beschreiben

Nominaldaten Numerische Beschreibung: bivariate Absolute Verbundhäufigkeiten werden im bivariaten Fall symbolisiert als h(x=x, Y=y) bzw. h(x, y) Relative Verbundhäufigkeiten als f(x=x, Y=y) bzw. f(x, y) Tabellarische über bivariate Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Σ Unter (y 1 ) f(x 1,y 1 ) f(x 2,y 1 ) f(,y 1 ) Gewicht Normal (y 2 ) f(x 1,y 2 ) f(x 2,y 2 ) f(,y 2 ) Über (y 3 ) f(x 1,y 3 ) f(x 2,y 3 ) f(,y 3 ) Σ f(x 1, ) f(x 2, ) f(, ) Randhäufigkeiten

Nominaldaten Rechnen mit (am bivariaten Beispiel) Anzahl Beobachtungen: Randhäufigkeiten für x: analog für f(x i, ) Randhäufigkeiten für y: k x y = = n h(,) h( x, y ) k y k i= 1 j= 1 hx (, ) hx (, y) = i i j j= 1 k x h (, y j ) = h ( x i, y j ) analog für f(y j, ) i= 1 i j Darüber hinaus gilt: k k x y i= 1 j= 1 f( x, y ) = 1 i j

Nominaldaten Numerische Beschreibung: multivariate Auch das gemeinsame Vorkommen von mehr als zwei Merkmalen ist über darstellbar Beispiel: Frauen/Männer, die unter-/normal- /übergewichtig sind und Stricken/World of Warcraft spielen In diesem Fall werden 3 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Z: Freizeitbeschäftigung g (z 1, z 2 2) )

Nominaldaten Numerische Beschreibung: multivariate Absolute Verbundhäufigkeiten werden im multivariaten Fall symbolisiert als h(x=x, Y=y, ) bzw. h(x, y, ) Relative Verbundhäufigkeiten als f(x=x, Y=y, ) bzw. f(x, y, ) Tabellarische über geschachtelte (oder genestete genestete ) Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Freizeit Stricken (z 1 ) WoW (z 2 ) Stricken (z 1 ) WoW (z 2 ) Unter (y 1 ) f(x 1,y 1,z 1 ) f(x 1,y 1,z 2 ) f(x 2,y 1,z 1 ) f(x 2,y 1,z 2 ) Gewicht Normal (y 2 ) f(x 1,y 2,z 1 ) f(x 1,y 2,z 2 ) f(x 2,y 2,z 1 ) f(x 2,y 2,z 2 ) Über (y 3 ) f(x 1,y 3,z 1 ) f(x 1,y 3,z 2 ) f(x 2,y 3,z 1 ) f(x 2,y 3,z 2 )

Nominaldaten Numerische Beschreibung: Als Kennwert bezeichnet man ein statistisches ti ti Maß, das eine Menge von Beobachtungen über zumeist nur eine Zahl beschreibt dienen damit der Datenreduktion charakterisieren lediglich bestimmte Eigenschaften der gegebenen Menge von Beobachtungen, sie bedeuten als einen Informationsverlust

Nominaldaten Numerische Beschreibung: Ein Kennwert für nominalskalierte Daten ist der Modalwert (oder Modus ) Er bezeichnet die unter den Beobachtungen am häufigsten vorkommende Ausprägung x : x f( x) = max. mod Wichtig: i Der Modalwert ist nicht die Häufigkeit, sondern der Wert der häufigsten Ausprägung. Bei mehreren Maxima sinkt die Aussagekraft von x mod

Nominaldaten Beschreibung: Kreisdiagramm Das Kreis- oder Tortendiagramm stellt die relativen oder absoluten von Klassen als Kreissegmente eines Vollkreises ( Tortenstücke ) dar. Der Öffnungswinkel α eines Tortenstücks ist dabei durch den Anteil der Klassenelemente an allen Elementen definiert und wird berechnet als hx ( ) α = 360 = 360 f ( x ) n Die Summe der Öffnungswinkel aller Kreissegmente sollte wieder 360 ergeben

Nominaldaten Beschreibung: Kreisdiagramm Beispiel: Von den 43.371.190371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: 5161172 11.9% 2602271 6.0% 9975374 23.0% 4640717 10.7% 6332194 14.6% 14659462 33.8% SPD CDU/CSU FDP Grüne Linke Sonstige

Nominaldaten Beschreibung: Säulendiagramm Das Balken- oder Säulendiagramm stellt die relativen oder absoluten von Ausprägungen als Balken (waagerecht) oder Säulen (senkrecht) dar. Die verschiedenen möglichen Ausprägungen werden auch als Klassen bezeichnet Der Länge der Säulen bzw. Balken ist dabei durch den Anteil der Klassenelemente am Ganzen bzw. die absolute Anzahl definiert. Die Breite der Balken variiert i.d.r. nicht innerhalb eines Balkendiagramms

Nominaldaten Beschreibung: Säulendiagramm Beispiel: Von den 43.371.190371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: 16 40 Wahlergebn nis in Mio. % 25 10 9.98 23.0% 14 35 12 30 208 156 104 14.66 33.8% 633 6.33 14.6% 10.7% 4.64 5.16 11.9% 52 0 6.0% 2.60 SPD CDU/CSU FDP Grüne Linke Sonstige

Nominaldaten Beschreibung: Säulendiagramm Warum gleiche Säulenbreiten? Menschen neigen zur Größenbewertung anhand der Fläche.

Numerische Beschreibung: Ordinalskalierte Variablen sind sehr häufig diskret und und Klassen endlich Es gelten die bereits eingeführten Notationen und Berechnungsvorschriften für empirische Neben der Häufigkeitsverteilung g kann auch noch die empirische Verteilungsfunktion bestimmt werden. Diese gibt an, wie viele Beobachtungen kleiner oder gleich einer bestimmten Ausprägung x sind. Zur Berechnung der Verteilungsfunktion müssen die Ausprägungen zunächst der Größe nach geordnet werden.

Numerische Beschreibung: und Klassen Empirische Häufigkeitsverteilung und Verteilungsfunktion: Wert von X (geordnet) f(x = x i ) F(X x i ) x 1 f(x 1 ) f(x 1 ) x 2 f(x 2 ) f(x 1 )+f(x 2 ) x k f(x k ) f(x 1 )+f(x 2 )+ +f(x+f(x k ) Berechnungsvorschrift: F( X x ) = f( xj) i analog für absolute Vert.funkt. H(X x i ) j= 1 Für gelten die bereits eingeführten Konventionen zur Erstellung von i

und Klassen Numerische Beschreibung: Maße der zentralen Tendenz Median Andere Lagemaße Modalwert Extrema (Minimum, Maximum) Quantile Streuungsmaße (Dispersionsmaße) Spannweite (Halber) Interquartilsabstand

und Klassen Numerische Beschreibung: Median Mindestens 50% der Beobachtungen einer Variablen sind kleiner oder gleich dem Median Mindestens 50% der Beobachtungen einer Variablen sind größer oder gleich dem Median Notation: x oder x med Problem: Bei einer geraden Zahl von Beobachtungen ist der Median nicht eindeutig

und Klassen Numerische Beschreibung: Median Berechnung des Median Daten sortieren n ungerade Der n 1 1 2 + te Wert n gerade Mittel zwischen n 2 tem und n 1 2 + ten Wert

Numerische Beschreibung: Median Der Median stimmt häufig mit keiner beobachteten und Klassen Ausprägung überein Median (und auch der Modalwert) sind äquivariant gegenüber gewissen (z.b. linearen) Transformationen Insbesondere 1. Addition einer Konstanten c zu allen n Beobachtungen x 1 x n x + c= x + c 2. Multiplikation aller n Beobachtungen x 1 x n mit einer Konstanten c x c= x c

Psychologie Verbale Numerische und Klassen Numerische Beschreibung: Quantile Quantile sind Zahlen, die einen Datensatz mit n Beobachtungen in bestimmtem Verhältnis teilen p-quantil (0 < p < 1) besitzt folgende Eigenschaften: 1. Mindestens n p Beobachtungen sind kleiner oder gleich dem Quantil 2. Mindestens n (1 p) Beobachtungen sind größer oder gleich dem Quantil Notation: x p (z. B. x 0.75 ) Je nach der Anzahl von Unterteilungen unterscheidet man Centile (100er Einteilung), Dezentile (10er Einteilung) und Quartile (4er Einteilung)

und Klassen Numerische Beschreibung: Quantile Vorgehensweise bei der Quantilbestimmung Gegeben: Beobachtungen: x 1,,x n Ordnen der Beobachtungen nach aufsteigender Größe: x (1),,x (n) Bestimmung des Quantils x p Fall 1: n p ganzzahlig: x p =(x n p +x n p+1 )/2 Fall 2: n p nicht ganzzahlig: x p =x ([n p]+1) Hier bezeichnet [n p] die größte ganze Zahl, welche kleiner oder gleich n p ist, also die Abrundung von n p. Damit beschreibt [n p] + 1 also die Aufrundung des Wertes von n p.

und Klassen Numerische Beschreibung: Quantile Wichtige Quantile sind: Minimum (0. Quartial) und Maximum (4. Quartil) Median (50% Quantil, 2. Quartil) 25% Quantil (1. Quartil, unteres Quartil) und 75% Quantil (3. Quartil, oberes Quartil) Dezile: x.10, x.20,, x.90

und Klassen Quantile A cautionary note about conventions In Literatur und Softwarepaketen sind die Berechnungsvorschriften für Quantile häufig unterschiedlich definiert oder sogar fehlerhaft. Maß Unsere Excel SPSS Formeln Median 137.5 137.5 137.5 1. Quartil 130.5 132.2525 128.75 3. Quartil 146 145 147 Für den Beispieldatensatz mit n=12.

Numerische Beschreibung: Spannweite Die Spannweite d k ist die Differenz zwischen dem und Klassen kleinsten und größten Wert aller Ausprägungen. Sie ist definiert als: d = x x k max min Die Spannweite ist nicht identisch mit der Anzahl unterschiedlicher Ausprägungen. Diese wäre x max x min + 1. Die Spannweite ist eher uninformativ, da sie nur zwei von k Ausprägungen berücksichtigt.

Numerische Beschreibung: Interquartilsabstand Der Interquartilsabstand d q ist die Differenz und Klassen zwischen dem 1. und 3. Quartil Er ist definiert als d = x x q.75.25 Manchmal wird ein halber Interquartilsabstand berechnet als d q /2.

und Klassen Beschreibung: Stamm-Blatt Diagramm Das Stamm-Blatt Diagramm stellt Häufigkeitsdaten grafisch ohne Verlust von Informationen dar. Es eignet sich besonders für kleine Datensätze. Das Diagramm besteht aus 2 Spalten Stamm = Äquivalenzklassen (feste Dezimalstellen) Blätter = Merkmale (variable Dezimalstellen) Die Stammbreite bezeichnet dabei Die Stammbreite bezeichnet dabei die Breite der Klassen des Stamm-Blatt Diagramms

und Klassen Beschreibung: Stamm-Blatt Diagramm Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) 0 2 8 1 0 1 1 2 3 4 5 7 8 9 2 0 1 1 3 3 4 4 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 10

und Klassen Beschreibung: Stamm-Blatt Diagramm Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) 0 2 0 8 1 0 1 1 2 3 4 1 5 7 8 9 2 0 1 1 3 3 4 4 2 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 5

und Klassen Beschreibung: Stamm-Blatt Diagramm Das Stamm- Blatt Diagramm eignet sich auch zum Vergleich zweier Verteilungen. 6 7 0 1 2 4 5 7 9 0 1 1 1 2 3 3 4 4 5 5 6 7 8 9 9 0 2 3 4 4 0 2 0 8 1 0 1 1 2 3 4 1 5 7 8 9 2 0 1 1 3 3 4 4 2 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 5

Beschreibung: Empirische Verteilungsfunktion Die empirische Verteilungsfunktion ist definiert als und Klassen F( x) = F( X xk) = f k i= 1 Note x h(x) f(x) F(x) 1 7 0.17 0.17 2 13 0.32 0.49 3 11 027 0.27 076 0.76 4 6 0.15 0.91 5 3 007 0.07 098 0.98 6 1 0.02 1.00 i Zur grafischen werden also die empirischen relativen aufsummiert

Beschreibung: Box-Whisker-Plot und Klassen Mithilfe der Fünf-Punkte- Zusammenfassung (x min, x.25, x med, x.75, x max) können Häufigkeitsdaten grafisch am Boxplot veranschaulicht werden. 15 12 9 x max x.75 x x.25 Diese Variante ist problematisch, weil Ausreißer die Länge der Whisker erheblich vergrößern können 6 3 0 x min Note

Beschreibung: Box-Whisker-Plot und Klassen Eine zweite häufig verwendete Variante des 15 Boxplots verwendet den 1.5fachen Interquartils- 12 abstand d q für die Länge der Whisker. 9 Whisker enden am letzten Datenpunkt innerhalb 6 ihrer Reichweite Datenpunkte außerhalb der 3 Whisker werden explizit eingetragen. 0 8 1.5 dq x.75 x x.25 1.5 d q < 3 dq dq Ausreißer >3d q werden mit Sternchen (*) markiert. Note

Beschreibung: Box-Whisker-Plot

Beschreibung: Box-Whisker-Plot

Beschreibung Beschreibung How-not -to

Beschreibung How-not -to Keine Geschlechterlücke mehr beim Gehalt von Führungskräften

Beschreibung How-not -to Bild fragt: Brauchen wir eine Ausländerquote an deutschen Schulen? als Reaktion auf PISA 2008

Psychologie Relevante Excel Funktionen Häufigkeitsberechnungen Grundrechenarten: +, -,, / Formeln für Grundrechenarten: SUMME(), PRODUKT() Häufigkeitsdarstellungen g ANZAHL2() ZÄHLENWENN() HÄUFIGKEIT() Diagramme: Kreisdiagramm, Säulen-/Balkendiagramm MIN(), MAX() [=Modalwert] Sortieren über das Menü ABRUNDEN(), AUFRUNDEN(), RUNDEN() INDEX() Direkte Formeln: MEDIAN(), QUANTIL(), QUARTILE()