Mathematische und statistische Methoden II

Ähnliche Dokumente
Mathematische und statistische Methoden I

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Forschungsstatistik I

Forschungsstatistik I

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Forschungsstatistik I

Kenngrößen von Zufallsvariablen

Mathematische und statistische Methoden II

Mathematische und statistische Methoden II

Diskrete Zufallsvariablen (Forts.) I

Das harmonische Mittel

1. Maße der zentralen Tendenz Beispiel: Variable Anzahl der Geschwister aus Jugend '92. Valid Cum Value Frequency Percent Percent Percent

Statistik und Wahrscheinlichkeitsrechnung

Mathematische und statistische Methoden I

Mathematische und statistische Methoden I

Forschungsstatistik I

Herzlich willkommen zur Vorlesung Statistik. Streuungsmaße oder die Unterschiedlichkeit der Daten nebst kurzen Ausführungen zu Schiefe und Wölbung

Der Mittelwert (arithmetisches Mittel)

SozialwissenschaftlerInnen II

Univariate Häufigkeitsverteilungen Kühnel, Krebs 2001: Statistik für die Sozialwissenschaften, S.41-66

Forschungsstatistik II

Forschungsstatistik I

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik

Statistische Methoden in den Umweltwissenschaften

Einführung in Quantitative Methoden

Forschungsstatistik I

Mathematik für Naturwissenschaften, Teil 2

Statistik und Wahrscheinlichkeitsrechnung

7.2 Moment und Varianz

Streuungsmaße. Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre Varianz (empirische) Varianz (Streuung) s 2 = 1 n

Forschungsstatistik I

Einführung in Quantitative Methoden

Inhaltsverzeichnis. 1 Über dieses Buch Zum Inhalt dieses Buches Danksagung Zur Relevanz der Statistik...

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Mathematische und statistische Methoden II

Forschungsstatistik I

Demokurs. Modul Grundlagen der Wirtschaftsmathematik Grundlagen der Statistik

Forschungsstatistik I

Deskriptive Statistik

6.6 Poisson-Verteilung

Graphische Darstellung einer univariaten Verteilung:

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Nachtrag zu Mittelwerten und Maßen der Dispersion

Empirische Verteilungsfunktion

Lagemaße Übung. Zentrale Methodenlehre, Europa Universität - Flensburg

5. Spezielle stetige Verteilungen

Statistik und Wahrscheinlichkeitsrechnung

Lage- und Streuungsparameter

Anteile Häufigkeiten Verteilungen Lagemaße Streuungsmaße Merkmale von Verteilungen. Anteile Häufigkeiten Verteilungen

Eine Zufallsvariable X sei stetig gleichverteilt im Intervall [0,5]. Die Wahrscheinlichkeit P(2< x <4) ist dann

Standardnormalverteilung

1. Was ist eine Wahrscheinlichkeit P(A)?

Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn Referenten: Belinda Höher, Thomas Holub, Maria Böhm.

Kapitel 5 Kenngrößen empirischer Verteilungen 5.1. Lagemaße. x mod (lies: x-mod) Wofür? Lageparameter. Modus/ Modalwert Zentrum. Median Zentralwert

Wird ein Bernoulli- Versuch, bei dem die Trefferwahrscheinlichkeit p = 0,2 ist, n = 40 mal durchgeführt, dann erwarten wir im Mittel 8 Treffer.

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Dr. Quapp: Statistik für Mathematiker mit SPSS. Lösungs Hinweise 1. Übung Beschreibende Statistik & Verteilungsfunktion

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Kapitel 3: Lagemaße. Ziel. Komprimierung der Daten zu einer Kenngröße, welche die Lage, das Zentrum der Daten beschreibt

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Population und Stichprobe Wahrscheinlichkeitstheorie II

Statistik und Wahrscheinlichkeitsrechnung. Wahrscheinlichkeitsrechnung

Kapitel VI - Lage- und Streuungsparameter

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Mathematische und statistische Methoden I

1 Univariate Statistiken

2.3 Intervallschätzung

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Mathematische und statistische Methoden I

Statistik I. 1. Klausur Wintersemester 2010/2011 Hamburg, Art der Anmeldung: STiNE FlexNow Zulassung unter Vorbehalt

Mittelwert und Standardabweichung

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Kapitel 1 Beschreibende Statistik

Lösung Aufgabe 19. ( ) = [Mio Euro]. Empirische Varianz s 2 = 1 n

Beispiel 2 (Einige Aufgaben zu Lageparametern) Aufgabe 1 (Lageparameter)

Mathematische und statistische Methoden II

Zufallsvariablen [random variable]

Wichtige Definitionen und Aussagen

Mathematische und statistische Methoden II

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Einführung in die Statistik

8. Statistik Beispiel Noten. Informationsbestände analysieren Statistik

Bestimmen von Quantilen

3 Grundlagen statistischer Tests (Kap. 8 IS)

4 Statistische Maßzahlen

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Wahrscheinlichkeitsverteilungen

Einführung in die Statistik

Tests für Erwartungswert & Median

Die Familie der χ 2 (n)-verteilungen

Transkript:

Methodenlehre e e Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/methods/ SS 2010 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Verteilungen Häufigkeit und Wahrscheinlichkeit Die empirische Häufigkeitsverteilung f(x) und die Wahrscheinlichkeitsverteilung p(x) einer Zufalls-variablen sind konzeptuell strikt zu trennen, ebenso ihre Verteilungsfunktionen nktionen Problem: In der Praxis sind zumeist weder die Form/Funktion der Wahrscheinlichkeitsverteilung (z.b. Normalverteilung) noch ihre Parameter (z.b. μ und σ) bekannt. Lösung 1: Die Form der Wahrscheinlichkeitsverteilung kann oft erschlossen werden (ZGS) Lösung 2: Ihre Parameter können aus empirischen Messungen geschätzt werden.

Methodenlehre Diskrete Verteilungen Stetige Verteilungen Verteilungen Recap Notation Empirisch h x Absolute Häufigkeit eines Wertes x: ( ) Theoretisch Relative Häufigkeit eines Wertes x: (n = Anzahl aller Werte) f x ( ) = h x ( ) n (Häufigkeitsverteilung) g) p( x), f( x) (Wk.-Verteilung) Kumulierte absolute Häufigkeit ( ) ( ) bis zu einer Schranke u: i i ( ) i H x = h x x u Relative kumulierte Häufigkeit bis zu einer Schranke u: F ( x ) = ( f ( x ) ) i xi u FP ( x ) = pf ( x i ) i (Emp. Verteilungsfunktion) i (Verteilungsfunktion)

Maße der zentralen : Modus Der Modus ist die Ausprägung mit der größten Häufigkeit. Notation: x mod Der Modus ist robust gegenüber Ausreißern. Der Modus ist eindeutig, falls die Häufigkeitsverteilung ein eindeutiges Maximum besitzt. Er ist aber bei multimodalen Verteilungen oft ohne wesentliche Aussagekraft.

Maße der zentralen : Modus Ein Kennwert für diskrete Wahrscheinlichkeitsverteilungen ist der Modalwert (oder Modus ) Er bezeichnet die unter den Beobachtungen am häufigsten vorkommende Ausprägung x : x p( x ) = max. mod i i Wichtig: Der Modalwert ist nicht die Häufigkeit, sondern der Wert der häufigsten Ausprägung. Bei Verteilungen mit mehreren Maxima sinkt die Aussagekraft von x mod

Maße der zentralen : Median Mindestens 50% der Beobachtungen einer Variablen sind kleiner oder gleich dem Median Mindestens 50% der Beobachtungen einer Variablen sind größer oder gleich dem Median Notation: x oder x x med Der Median ist robust gegenüber Ausreißern Bei einer geraden Zahl von Beobachtungen ist der Median nicht eindeutig

Maße der zentralen : Median Berechnung des Median N ungerade Der n 11 + 1 te 2 Wert N gerade Mittel zwischen n tem 2 n + 1 2 Wert und ten

Maße der zentralen : Mittelwert Ist bei n Beobachtungen x 1 x n definiert als n 1 1 x = ( x 1+ x2 + xn) = x n n = Ist durch extreme Werte beeinflussbar (ausreißerempfindlich) Ist der Schwerpunkt der Beobachtungen, d.h. n i= 1 x i x = 0 i 1 i

Maße der zentralen : Eigenschaften Mittelwert (und Median) stimmen häufig mit keiner beobachteten Realisation überein Alle drei Maße der zentralen sind äquivariant gegenüber gewissen (z.b. linearen) Transformationen Insbesondere 1. Addition einer Konstanten c zu allen n Beobachtungen x 1 x n x + c= x + c 2. Multiplikation aller N Beobachtungen x 1 x n mit einer Konstanten c c x= c x

Maße der zentralen : Eigenschaften Lageregeln für die Maße der zentralen Bei symmetrischen Verteilungen: x x med Bei linkssteilen Verteilungen: x > x med Bei rechtssteilen Verteilungen x < x med

: Quantile Quantile sind Zahlen, die einen Datensatz mit n Beobachtungen in bestimmtem Verhältnis teilen p-quantil (0 < p < 1) besitzt folgende Eigenschaften: 1. Mindestens n p Beobachtungen sind kleiner oder gleich dem Quantil 2. Mindestens n (1 p) Beobachtungen sind größer oder gleich dem Quantil Notation: x p (z. B. x 0.75 ) Je nach der Anzahl von Unterteilungen unterscheidet man Centile (100er Einteilung), Dezentile (10er Einteilung) und Quartile (4er Einteilung)

: Quantile Gegeben: Beobachtungen: x 1,,x n Ordnen der Beobachtungen nach aufsteigender Größe: x (1),,x (n) Bestimmung des Quantils x p Fall 1: n p ganzzahlig: x p =(x np +x np+1 )/2 Fall 2: n p nicht ganzzahlig: g x p =x ([np]+1) Dabei bezeichnet [n p] die größte ganze Zahl, welche kleiner oder gleich n p ist, also die Abrundung von n p. Damit beschreibt [n p] + 1 also die Aufrundung des Wertes von n p.

: Varianz und Standardabweichung Die Varianz ist das mittlere Abweichungsquadrat aller n Beobachtungen eines Datensatzes x 1 x n vom Mittelwert. 2 x 1 n = i n i = 1 s x x ( ) 2 Die Standardabweichung ist die Wurzel der Varianz s = s = x x 2 1 n x x i n i = 1 ( ) 2

: Varianz und Standardabweichung Für jeden anderen Wert als für den Mittelwert ist die Summe der Abweichungsquadrate höher n n 1 1 xi x xi c n n 2 2 ( ) ( ) i= 1 i= 1 Erfasst die Streuung um den Mittelwert Nur falls keine Streuung besteht, ist s²=0 0, dh d.h. alle beobachteten Werte sind gleich. Sonst: s² > 0 Je größer die Streuung um den Mittelwert, desto größer ist die Standardabweichung d Ist anfällig gegenüber Ausreißern

: Varianz und Standardabweichung Verhalten der Varianz bei Transformationen der n Beobachtungen x 1 x n 1. Die Addition einer Konstanten c zu allen Werten y verändert Varianz und Standardabweichung nicht s²(x + c) = s²(x) s(x + c) = s(x) 1. Die Multiplikation utp ato aller Werte y mit teiner e Konstanten te c führt zu einer Erhöhung der Varianz um c² und der Standardabweichung um c s²(c x) = c² s²(x) s(c x) = c s(x)

Verteilungen Zentralmo Wir haben bereits die Schiefe einer Verteilung als optisches Beschreibungskriterium kennen gelernt (Links-/Rechtssteilheit) Anhand der Zentralmo kann das Merkmal der Schiefe zahlenmäßig bewertet werden Zwei bereits bekannte Zentralmo sind der Erwartungswert (erstes Zentralmoment) sowie die Varianz (zweites Zentralmoment)

Verteilungen Zentralmo Die in der beschreibenden Statistik wichtigsten Zentralmo von Wk-Verteilungen sind: Erwartungswert Erstes Zentralmoment Varianz Zweites Zentralmoment Schiefe Drittes Zentralmoment Kurtosis Viertes Zentralmoment μ = E( X ) σ = E( X E( X)) 2 2 μ3 ν = = σ μ γ = = σ EX ( EX ( )) 3 σ 3 3 E( X E( X)) σ 4 4 4 4

Zentralmo empirischer Daten Die Definition der Zentralmo lässt sich auf empirisch beobachtete übertragen. Mittelwert Erstes Zentralmoment x 1 n xi n i = 1 = Varianz s ( x x ) 2 Zweites Zentralmoment = n = 1 n 2 i i 1 Schiefe (Drittes Zentralmoment) und Kurtosis (Viertes Zentralmoment) werden im folgenden erläutert

Zentralmo empirischer Daten Schiefe Die Schiefe (3. Zentralmoment) berechnet sich als m n = n n ( x x ) 3 i= 1 ( n 1)( n 2) s i 3 Die Schiefe der Normalverteilung (wie auch jeder anderen symmetrischen Verteilung) ist 0. Ein positiver Schiefekoeffizient bedeutet Linkssteilheit (bzw. Rechtsschiefe) Ein negativer Schiefekoeffizient ffi i bedeutet t Rechtssteilheit (bzw. Linksschiefe)

Zentralmo empirischer Daten Schiefe

Zentralmo empirischer Daten Kurtosis Die Kurtosis (Exzess; 4. Zentralmoment) berechnet sich als m g n nn ( + 1) ( x ) 4 i x = i= 1 4 3( n 1) 2 ( n 1)( n 2)( n 3) s ( n 2)( n 3) Die Kurtosis (Wölbung) der Normalverteilung ist 0. Eine positive Kurtosis zeigt eine steilere ( spitzere ) Verteilung als die NV an Eine negative Kurtosis zeigt eine flachere ( rundere ) Verteilung als die NV an.

Zentralmo empirischer Daten Kurtosis

Zentralmo empirischer Daten Kurtosis Die Kurtosis hat nichts zu tun mit der optischen Höhe/Steilheit der Verteilungskurve. Alle drei Kurven haben dieselbe Kurtosis, aber unterschiedliche Standardabweichungen (σ rot = 2; σ blau = 1; σ grün = 0.5)

Methodenlehre e e Relevante Excel Funktionen Empirische Kennwerte MEDIAN() QUANTIL() oder auch QUARTILE() MITTELWERT() VARIANZEN() STABWN() SCHIEFE() KURT()