Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/methods/ SS 2010 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz
Verteilungen Häufigkeit und Wahrscheinlichkeit Die empirische Häufigkeitsverteilung f(x) und die Wahrscheinlichkeitsverteilung p(x) einer Zufalls-variablen sind konzeptuell strikt zu trennen, ebenso ihre Verteilungsfunktionen nktionen Problem: In der Praxis sind zumeist weder die Form/Funktion der Wahrscheinlichkeitsverteilung (z.b. Normalverteilung) noch ihre Parameter (z.b. μ und σ) bekannt. Lösung 1: Die Form der Wahrscheinlichkeitsverteilung kann oft erschlossen werden (ZGS) Lösung 2: Ihre Parameter können aus empirischen Messungen geschätzt werden.
Methodenlehre Diskrete Verteilungen Stetige Verteilungen Verteilungen Recap Notation Empirisch h x Absolute Häufigkeit eines Wertes x: ( ) Theoretisch Relative Häufigkeit eines Wertes x: (n = Anzahl aller Werte) f x ( ) = h x ( ) n (Häufigkeitsverteilung) g) p( x), f( x) (Wk.-Verteilung) Kumulierte absolute Häufigkeit ( ) ( ) bis zu einer Schranke u: i i ( ) i H x = h x x u Relative kumulierte Häufigkeit bis zu einer Schranke u: F ( x ) = ( f ( x ) ) i xi u FP ( x ) = pf ( x i ) i (Emp. Verteilungsfunktion) i (Verteilungsfunktion)
Maße der zentralen : Modus Der Modus ist die Ausprägung mit der größten Häufigkeit. Notation: x mod Der Modus ist robust gegenüber Ausreißern. Der Modus ist eindeutig, falls die Häufigkeitsverteilung ein eindeutiges Maximum besitzt. Er ist aber bei multimodalen Verteilungen oft ohne wesentliche Aussagekraft.
Maße der zentralen : Modus Ein Kennwert für diskrete Wahrscheinlichkeitsverteilungen ist der Modalwert (oder Modus ) Er bezeichnet die unter den Beobachtungen am häufigsten vorkommende Ausprägung x : x p( x ) = max. mod i i Wichtig: Der Modalwert ist nicht die Häufigkeit, sondern der Wert der häufigsten Ausprägung. Bei Verteilungen mit mehreren Maxima sinkt die Aussagekraft von x mod
Maße der zentralen : Median Mindestens 50% der Beobachtungen einer Variablen sind kleiner oder gleich dem Median Mindestens 50% der Beobachtungen einer Variablen sind größer oder gleich dem Median Notation: x oder x x med Der Median ist robust gegenüber Ausreißern Bei einer geraden Zahl von Beobachtungen ist der Median nicht eindeutig
Maße der zentralen : Median Berechnung des Median N ungerade Der n 11 + 1 te 2 Wert N gerade Mittel zwischen n tem 2 n + 1 2 Wert und ten
Maße der zentralen : Mittelwert Ist bei n Beobachtungen x 1 x n definiert als n 1 1 x = ( x 1+ x2 + xn) = x n n = Ist durch extreme Werte beeinflussbar (ausreißerempfindlich) Ist der Schwerpunkt der Beobachtungen, d.h. n i= 1 x i x = 0 i 1 i
Maße der zentralen : Eigenschaften Mittelwert (und Median) stimmen häufig mit keiner beobachteten Realisation überein Alle drei Maße der zentralen sind äquivariant gegenüber gewissen (z.b. linearen) Transformationen Insbesondere 1. Addition einer Konstanten c zu allen n Beobachtungen x 1 x n x + c= x + c 2. Multiplikation aller N Beobachtungen x 1 x n mit einer Konstanten c c x= c x
Maße der zentralen : Eigenschaften Lageregeln für die Maße der zentralen Bei symmetrischen Verteilungen: x x med Bei linkssteilen Verteilungen: x > x med Bei rechtssteilen Verteilungen x < x med
: Quantile Quantile sind Zahlen, die einen Datensatz mit n Beobachtungen in bestimmtem Verhältnis teilen p-quantil (0 < p < 1) besitzt folgende Eigenschaften: 1. Mindestens n p Beobachtungen sind kleiner oder gleich dem Quantil 2. Mindestens n (1 p) Beobachtungen sind größer oder gleich dem Quantil Notation: x p (z. B. x 0.75 ) Je nach der Anzahl von Unterteilungen unterscheidet man Centile (100er Einteilung), Dezentile (10er Einteilung) und Quartile (4er Einteilung)
: Quantile Gegeben: Beobachtungen: x 1,,x n Ordnen der Beobachtungen nach aufsteigender Größe: x (1),,x (n) Bestimmung des Quantils x p Fall 1: n p ganzzahlig: x p =(x np +x np+1 )/2 Fall 2: n p nicht ganzzahlig: g x p =x ([np]+1) Dabei bezeichnet [n p] die größte ganze Zahl, welche kleiner oder gleich n p ist, also die Abrundung von n p. Damit beschreibt [n p] + 1 also die Aufrundung des Wertes von n p.
: Varianz und Standardabweichung Die Varianz ist das mittlere Abweichungsquadrat aller n Beobachtungen eines Datensatzes x 1 x n vom Mittelwert. 2 x 1 n = i n i = 1 s x x ( ) 2 Die Standardabweichung ist die Wurzel der Varianz s = s = x x 2 1 n x x i n i = 1 ( ) 2
: Varianz und Standardabweichung Für jeden anderen Wert als für den Mittelwert ist die Summe der Abweichungsquadrate höher n n 1 1 xi x xi c n n 2 2 ( ) ( ) i= 1 i= 1 Erfasst die Streuung um den Mittelwert Nur falls keine Streuung besteht, ist s²=0 0, dh d.h. alle beobachteten Werte sind gleich. Sonst: s² > 0 Je größer die Streuung um den Mittelwert, desto größer ist die Standardabweichung d Ist anfällig gegenüber Ausreißern
: Varianz und Standardabweichung Verhalten der Varianz bei Transformationen der n Beobachtungen x 1 x n 1. Die Addition einer Konstanten c zu allen Werten y verändert Varianz und Standardabweichung nicht s²(x + c) = s²(x) s(x + c) = s(x) 1. Die Multiplikation utp ato aller Werte y mit teiner e Konstanten te c führt zu einer Erhöhung der Varianz um c² und der Standardabweichung um c s²(c x) = c² s²(x) s(c x) = c s(x)
Verteilungen Zentralmo Wir haben bereits die Schiefe einer Verteilung als optisches Beschreibungskriterium kennen gelernt (Links-/Rechtssteilheit) Anhand der Zentralmo kann das Merkmal der Schiefe zahlenmäßig bewertet werden Zwei bereits bekannte Zentralmo sind der Erwartungswert (erstes Zentralmoment) sowie die Varianz (zweites Zentralmoment)
Verteilungen Zentralmo Die in der beschreibenden Statistik wichtigsten Zentralmo von Wk-Verteilungen sind: Erwartungswert Erstes Zentralmoment Varianz Zweites Zentralmoment Schiefe Drittes Zentralmoment Kurtosis Viertes Zentralmoment μ = E( X ) σ = E( X E( X)) 2 2 μ3 ν = = σ μ γ = = σ EX ( EX ( )) 3 σ 3 3 E( X E( X)) σ 4 4 4 4
Zentralmo empirischer Daten Die Definition der Zentralmo lässt sich auf empirisch beobachtete übertragen. Mittelwert Erstes Zentralmoment x 1 n xi n i = 1 = Varianz s ( x x ) 2 Zweites Zentralmoment = n = 1 n 2 i i 1 Schiefe (Drittes Zentralmoment) und Kurtosis (Viertes Zentralmoment) werden im folgenden erläutert
Zentralmo empirischer Daten Schiefe Die Schiefe (3. Zentralmoment) berechnet sich als m n = n n ( x x ) 3 i= 1 ( n 1)( n 2) s i 3 Die Schiefe der Normalverteilung (wie auch jeder anderen symmetrischen Verteilung) ist 0. Ein positiver Schiefekoeffizient bedeutet Linkssteilheit (bzw. Rechtsschiefe) Ein negativer Schiefekoeffizient ffi i bedeutet t Rechtssteilheit (bzw. Linksschiefe)
Zentralmo empirischer Daten Schiefe
Zentralmo empirischer Daten Kurtosis Die Kurtosis (Exzess; 4. Zentralmoment) berechnet sich als m g n nn ( + 1) ( x ) 4 i x = i= 1 4 3( n 1) 2 ( n 1)( n 2)( n 3) s ( n 2)( n 3) Die Kurtosis (Wölbung) der Normalverteilung ist 0. Eine positive Kurtosis zeigt eine steilere ( spitzere ) Verteilung als die NV an Eine negative Kurtosis zeigt eine flachere ( rundere ) Verteilung als die NV an.
Zentralmo empirischer Daten Kurtosis
Zentralmo empirischer Daten Kurtosis Die Kurtosis hat nichts zu tun mit der optischen Höhe/Steilheit der Verteilungskurve. Alle drei Kurven haben dieselbe Kurtosis, aber unterschiedliche Standardabweichungen (σ rot = 2; σ blau = 1; σ grün = 0.5)
Methodenlehre e e Relevante Excel Funktionen Empirische Kennwerte MEDIAN() QUANTIL() oder auch QUARTILE() MITTELWERT() VARIANZEN() STABWN() SCHIEFE() KURT()