Forschungsstatistik I

Psychologie Prof. Dr. G. Meinhardt 6. Stock, TB II R. 06-206 (Persike) R. 06-321 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ WS 2009/2010 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Diskrete Variablen Notation Variablen werden mit Großbuchstaben symbolisiert, häufig verwendet man X und Y Die Ausprägung einer Variablen wird dann mit den entsprechenden Kleinbuchstaben gekennzeichnet, also x und y Kann eine diskrete Variable X genau k Ausprägungen annehmen, so ist die i-te davon x i mit i = 1 k Die Aufzählung aller k Ausprägungen wird g p g g geschrieben als X {x 1,, x k }

Nominaldaten Numerische Beschreibung: Nominalskalierte Variablen sind praktisch immer diskret und endlich Die empirische beobachtete Häufigkeit des Auftretens einer Ausprägung X = x wird als h(x = x) oder vereinfacht h(x) geschrieben. h(x) bezeichnet man als absolute Häufigkeit Die relative Häufigkeit f(x = x) bzw. f(x) ist dann definiert als der Quotient aus absoluter Häufigkeit und der Anzahl n aller Beobachtungen Achtung: Relative hx ( ) f ( x) = h( x) = f( x) n sind nicht n Wahrscheinnlichkeiten

Nominaldaten Numerische Beschreibung: univariate Wert von X h(x = x i ) f(x = x i ) x 1 h(x 1 ) f(x 1 ) x 2 h(x 2 ) f(x 2 ) x i h(x i ) f(x i ) x k h(x k ) f(x k ) Die Sammlung der Werte der h(x = x i ) und f(x = x i ) für alle möglichen i = 1 k wird idals diskrete Häufigkeitsverteilung bezeichnet Tabellarische über (oder Kontingenztabellen)

Nominaldaten Numerische Beschreibung: bivariate Oft betrachtet man für das gemeinsame Auftreten zweier Merkmale Beispiel: i Frauen/Männer, die unter-/normal- /übergewichtig sind In diesem Fall werden 2 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Die sind nun so genannte Verbund- häufigkeiten, die das Vorkommen jeder möglichen Kombination aus x und y beschreiben

Nominaldaten Numerische Beschreibung: bivariate Absolute Verbundhäufigkeiten werden im bivariaten Fall symbolisiert als h(x=x, Y=y) bzw. h(x, y) Relative Verbundhäufigkeiten als f(x=x, Y=y) bzw. f(x, y) Tabellarische über bivariate Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Σ Unter (y 1 ) f(x 1,y 1 ) f(x 2,y 1 ) f(,y 1 ) Gewicht Normal (y 2 ) f(x 1,y 2 ) f(x 2,y 2 ) f(,y 2 ) Über (y 3 ) f(x 1,y 3 ) f(x 2,y 3 ) f(,y 3 ) Σ f(x 1, ) f(x 2, ) f(, ) Randhäufigkeiten

Nominaldaten Rechnen mit (am bivariaten Beispiel) Anzahl Beobachtungen: Randhäufigkeiten für x: analog für f(x i, ) Randhäufigkeiten für y: k x y = = n h(,) h( x, y ) k y k i= 1 j= 1 hx (, ) hx (, y) = i i j j= 1 k x h (, y j ) = h ( x i, y j ) analog für f(y j, ) i= 1 i j Darüber hinaus gilt: k k x y i= 1 j= 1 f( x, y ) = 1 i j

Nominaldaten Numerische Beschreibung: multivariate Auch das gemeinsame Vorkommen von mehr als zwei Merkmalen ist über darstellbar Beispiel: Frauen/Männer, die unter-/normal- /übergewichtig sind und Stricken/World of Warcraft spielen In diesem Fall werden 3 Variablen betrachtet: X: Geschlecht (x 1, x 2 ) Y: Gewichtsstatus (y 1, y 2, y 3 ) Z: Freizeitbeschäftigung g (z 1, z 2 2) )

Nominaldaten Numerische Beschreibung: multivariate Absolute Verbundhäufigkeiten werden im multivariaten Fall symbolisiert als h(x=x, Y=y, ) bzw. h(x, y, ) Relative Verbundhäufigkeiten als f(x=x, Y=y, ) bzw. f(x, y, ) Tabellarische über geschachtelte (oder genestete genestete ) Geschlecht Männlich (x 1 ) Weiblich (x 2 ) Freizeit Stricken (z 1 ) WoW (z 2 ) Stricken (z 1 ) WoW (z 2 ) Unter (y 1 ) f(x 1,y 1,z 1 ) f(x 1,y 1,z 2 ) f(x 2,y 1,z 1 ) f(x 2,y 1,z 2 ) Gewicht Normal (y 2 ) f(x 1,y 2,z 1 ) f(x 1,y 2,z 2 ) f(x 2,y 2,z 1 ) f(x 2,y 2,z 2 ) Über (y 3 ) f(x 1,y 3,z 1 ) f(x 1,y 3,z 2 ) f(x 2,y 3,z 1 ) f(x 2,y 3,z 2 )

Nominaldaten Numerische Beschreibung: Als Kennwert bezeichnet man ein statistisches ti ti Maß, das eine Menge von Beobachtungen über zumeist nur eine Zahl beschreibt dienen damit der Datenreduktion charakterisieren lediglich bestimmte Eigenschaften der gegebenen Menge von Beobachtungen, sie bedeuten als einen Informationsverlust

Nominaldaten Numerische Beschreibung: Ein Kennwert für nominalskalierte Daten ist der Modalwert (oder Modus ) Er bezeichnet die unter den Beobachtungen am häufigsten vorkommende Ausprägung x : x f( x) = max. mod Wichtig: i Der Modalwert ist nicht die Häufigkeit, sondern der Wert der häufigsten Ausprägung. Bei mehreren Maxima sinkt die Aussagekraft von x mod

Nominaldaten Beschreibung: Kreisdiagramm Das Kreis- oder Tortendiagramm stellt die relativen oder absoluten von Klassen als Kreissegmente eines Vollkreises ( Tortenstücke ) dar. Der Öffnungswinkel α eines Tortenstücks ist dabei durch den Anteil der Klassenelemente an allen Elementen definiert und wird berechnet als hx ( ) α = 360 = 360 f ( x ) n Die Summe der Öffnungswinkel aller Kreissegmente sollte wieder 360 ergeben

Nominaldaten Beschreibung: Kreisdiagramm Beispiel: Von den 43.371.190371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: 5161172 11.9% 2602271 6.0% 9975374 23.0% 4640717 10.7% 6332194 14.6% 14659462 33.8% SPD CDU/CSU FDP Grüne Linke Sonstige

Nominaldaten Beschreibung: Säulendiagramm Das Balken- oder Säulendiagramm stellt die relativen oder absoluten von Ausprägungen als Balken (waagerecht) oder Säulen (senkrecht) dar. Die verschiedenen möglichen Ausprägungen werden auch als Klassen bezeichnet Der Länge der Säulen bzw. Balken ist dabei durch den Anteil der Klassenelemente am Ganzen bzw. die absolute Anzahl definiert. Die Breite der Balken variiert i.d.r. nicht innerhalb eines Balkendiagramms

Nominaldaten Beschreibung: Säulendiagramm Beispiel: Von den 43.371.190371 190 Wahlgängern der Bundestagswahl 2009 haben gewählt: 16 40 Wahlergebn nis in Mio. % 25 10 9.98 23.0% 14 35 12 30 208 156 104 14.66 33.8% 633 6.33 14.6% 10.7% 4.64 5.16 11.9% 52 0 6.0% 2.60 SPD CDU/CSU FDP Grüne Linke Sonstige

Nominaldaten Beschreibung: Säulendiagramm Warum gleiche Säulenbreiten? Menschen neigen zur Größenbewertung anhand der Fläche.

Numerische Beschreibung: Ordinalskalierte Variablen sind sehr häufig diskret und und Klassen endlich Es gelten die bereits eingeführten Notationen und Berechnungsvorschriften für empirische Neben der Häufigkeitsverteilung g kann auch noch die empirische Verteilungsfunktion bestimmt werden. Diese gibt an, wie viele Beobachtungen kleiner oder gleich einer bestimmten Ausprägung x sind. Zur Berechnung der Verteilungsfunktion müssen die Ausprägungen zunächst der Größe nach geordnet werden.

Numerische Beschreibung: und Klassen Empirische Häufigkeitsverteilung und Verteilungsfunktion: Wert von X (geordnet) f(x = x i ) F(X x i ) x 1 f(x 1 ) f(x 1 ) x 2 f(x 2 ) f(x 1 )+f(x 2 ) x k f(x k ) f(x 1 )+f(x 2 )+ +f(x+f(x k ) Berechnungsvorschrift: F( X x ) = f( xj) i analog für absolute Vert.funkt. H(X x i ) j= 1 Für gelten die bereits eingeführten Konventionen zur Erstellung von i

und Klassen Numerische Beschreibung: Maße der zentralen Tendenz Median Andere Lagemaße Modalwert Extrema (Minimum, Maximum) Quantile Streuungsmaße (Dispersionsmaße) Spannweite (Halber) Interquartilsabstand

und Klassen Numerische Beschreibung: Median Mindestens 50% der Beobachtungen einer Variablen sind kleiner oder gleich dem Median Mindestens 50% der Beobachtungen einer Variablen sind größer oder gleich dem Median Notation: x oder x med Problem: Bei einer geraden Zahl von Beobachtungen ist der Median nicht eindeutig

und Klassen Numerische Beschreibung: Median Berechnung des Median Daten sortieren n ungerade Der n 1 1 2 + te Wert n gerade Mittel zwischen n 2 tem und n 1 2 + ten Wert

Numerische Beschreibung: Median Der Median stimmt häufig mit keiner beobachteten und Klassen Ausprägung überein Median (und auch der Modalwert) sind äquivariant gegenüber gewissen (z.b. linearen) Transformationen Insbesondere 1. Addition einer Konstanten c zu allen n Beobachtungen x 1 x n x + c= x + c 2. Multiplikation aller n Beobachtungen x 1 x n mit einer Konstanten c x c= x c

Psychologie Verbale Numerische und Klassen Numerische Beschreibung: Quantile Quantile sind Zahlen, die einen Datensatz mit n Beobachtungen in bestimmtem Verhältnis teilen p-quantil (0 < p < 1) besitzt folgende Eigenschaften: 1. Mindestens n p Beobachtungen sind kleiner oder gleich dem Quantil 2. Mindestens n (1 p) Beobachtungen sind größer oder gleich dem Quantil Notation: x p (z. B. x 0.75 ) Je nach der Anzahl von Unterteilungen unterscheidet man Centile (100er Einteilung), Dezentile (10er Einteilung) und Quartile (4er Einteilung)

und Klassen Numerische Beschreibung: Quantile Vorgehensweise bei der Quantilbestimmung Gegeben: Beobachtungen: x 1,,x n Ordnen der Beobachtungen nach aufsteigender Größe: x (1),,x (n) Bestimmung des Quantils x p Fall 1: n p ganzzahlig: x p =(x n p +x n p+1 )/2 Fall 2: n p nicht ganzzahlig: x p =x ([n p]+1) Hier bezeichnet [n p] die größte ganze Zahl, welche kleiner oder gleich n p ist, also die Abrundung von n p. Damit beschreibt [n p] + 1 also die Aufrundung des Wertes von n p.

und Klassen Numerische Beschreibung: Quantile Wichtige Quantile sind: Minimum (0. Quartial) und Maximum (4. Quartil) Median (50% Quantil, 2. Quartil) 25% Quantil (1. Quartil, unteres Quartil) und 75% Quantil (3. Quartil, oberes Quartil) Dezile: x.10, x.20,, x.90

und Klassen Quantile A cautionary note about conventions In Literatur und Softwarepaketen sind die Berechnungsvorschriften für Quantile häufig unterschiedlich definiert oder sogar fehlerhaft. Maß Unsere Excel SPSS Formeln Median 137.5 137.5 137.5 1. Quartil 130.5 132.2525 128.75 3. Quartil 146 145 147 Für den Beispieldatensatz mit n=12.

Numerische Beschreibung: Spannweite Die Spannweite d k ist die Differenz zwischen dem und Klassen kleinsten und größten Wert aller Ausprägungen. Sie ist definiert als: d = x x k max min Die Spannweite ist nicht identisch mit der Anzahl unterschiedlicher Ausprägungen. Diese wäre x max x min + 1. Die Spannweite ist eher uninformativ, da sie nur zwei von k Ausprägungen berücksichtigt.

Numerische Beschreibung: Interquartilsabstand Der Interquartilsabstand d q ist die Differenz und Klassen zwischen dem 1. und 3. Quartil Er ist definiert als d = x x q.75.25 Manchmal wird ein halber Interquartilsabstand berechnet als d q /2.

und Klassen Beschreibung: Stamm-Blatt Diagramm Das Stamm-Blatt Diagramm stellt Häufigkeitsdaten grafisch ohne Verlust von Informationen dar. Es eignet sich besonders für kleine Datensätze. Das Diagramm besteht aus 2 Spalten Stamm = Äquivalenzklassen (feste Dezimalstellen) Blätter = Merkmale (variable Dezimalstellen) Die Stammbreite bezeichnet dabei Die Stammbreite bezeichnet dabei die Breite der Klassen des Stamm-Blatt Diagramms

und Klassen Beschreibung: Stamm-Blatt Diagramm Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) 0 2 8 1 0 1 1 2 3 4 5 7 8 9 2 0 1 1 3 3 4 4 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 10

und Klassen Beschreibung: Stamm-Blatt Diagramm Beispiel: Gegeben seien Beobachtungen an einer Stichprobe mit n = 30. (2, 8, 10, 11, 11, 12, 13, 14, 15, 17, 18, 19, 20, 21, 21, 23, 23, 24, 24, 25, 25, 26, 27, 27, 28, 28, 29, 29, 30, 32) 0 2 0 8 1 0 1 1 2 3 4 1 5 7 8 9 2 0 1 1 3 3 4 4 2 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 5

und Klassen Beschreibung: Stamm-Blatt Diagramm Das Stamm- Blatt Diagramm eignet sich auch zum Vergleich zweier Verteilungen. 6 7 0 1 2 4 5 7 9 0 1 1 1 2 3 3 4 4 5 5 6 7 8 9 9 0 2 3 4 4 0 2 0 8 1 0 1 1 2 3 4 1 5 7 8 9 2 0 1 1 3 3 4 4 2 5 5 6 7 7 8 8 9 9 3 0 2 Mit Stammbreite = 5

Beschreibung: Empirische Verteilungsfunktion Die empirische Verteilungsfunktion ist definiert als und Klassen F( x) = F( X xk) = f k i= 1 Note x h(x) f(x) F(x) 1 7 0.17 0.17 2 13 0.32 0.49 3 11 027 0.27 076 0.76 4 6 0.15 0.91 5 3 007 0.07 098 0.98 6 1 0.02 1.00 i Zur grafischen werden also die empirischen relativen aufsummiert

Beschreibung: Box-Whisker-Plot und Klassen Mithilfe der Fünf-Punkte- Zusammenfassung (x min, x.25, x med, x.75, x max) können Häufigkeitsdaten grafisch am Boxplot veranschaulicht werden. 15 12 9 x max x.75 x x.25 Diese Variante ist problematisch, weil Ausreißer die Länge der Whisker erheblich vergrößern können 6 3 0 x min Note

Beschreibung: Box-Whisker-Plot und Klassen Eine zweite häufig verwendete Variante des 15 Boxplots verwendet den 1.5fachen Interquartils- 12 abstand d q für die Länge der Whisker. 9 Whisker enden am letzten Datenpunkt innerhalb 6 ihrer Reichweite Datenpunkte außerhalb der 3 Whisker werden explizit eingetragen. 0 8 1.5 dq x.75 x x.25 1.5 d q < 3 dq dq Ausreißer >3d q werden mit Sternchen (*) markiert. Note

Beschreibung: Box-Whisker-Plot

Beschreibung Beschreibung How-not -to

Beschreibung How-not -to Keine Geschlechterlücke mehr beim Gehalt von Führungskräften

Beschreibung How-not -to Bild fragt: Brauchen wir eine Ausländerquote an deutschen Schulen? als Reaktion auf PISA 2008

Psychologie Relevante Excel Funktionen Häufigkeitsberechnungen Grundrechenarten: +, -,, / Formeln für Grundrechenarten: SUMME(), PRODUKT() Häufigkeitsdarstellungen g ANZAHL2() ZÄHLENWENN() HÄUFIGKEIT() Diagramme: Kreisdiagramm, Säulen-/Balkendiagramm MIN(), MAX() [=Modalwert] Sortieren über das Menü ABRUNDEN(), AUFRUNDEN(), RUNDEN() INDEX() Direkte Formeln: MEDIAN(), QUANTIL(), QUARTILE()