Forschungsstatistik I

Ähnliche Dokumente
Forschungsstatistik I

Mathematische und statistische Methoden II

Grundlagen quantitativer Sozialforschung Interferenzstatistische Datenanalyse in MS Excel

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Computational Finance

1 Verteilungen und ihre Darstellung

MA Projekt: Langfristige Kapitalmarktsimulation

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Statistik II für Betriebswirte Vorlesung 3

Überblick über die Tests

9. Schätzen und Testen bei unbekannter Varianz

Statistische Auswertung der Daten von Blatt 13

Willkommen zur Vorlesung Statistik (Master)

Kapitel 4: Binäre Regression

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

Allgemeines Lineares Modell: Univariate Varianzanalyse und Kovarianzanalyse

Statistik und Wahrscheinlichkeitsrechnung

Analytische Statistik I. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10

Stochastische Eingangsprüfung,

Evaluation der Normalverteilungsannahme

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2010/2011. Aufgabe 1

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Klausur Statistik Lösungshinweise

Statistik II für Betriebswirte Vorlesung 2

Beispiel: Sonntagsfrage. Einführung in die induktive Statistik. Statistische Tests. Statistische Tests

Lösungen zu Janssen/Laatz, Statistische Datenanalyse mit SPSS 1

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

Abhängigkeit zweier Merkmale

FAKTORIELLE VERSUCHSPLÄNE. Andreas Handl

Varianzanalyse ANOVA

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Überblick über die Verfahren für Ordinaldaten

Evaluation & Forschungsmethoden (Multivariate Analyse) Hauptdiplom-Prüfungsklausur am (1.Termin)

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

2. Korrelation, lineare Regression und multiple Regression

Beurteilung der biometrischen Verhältnisse in einem Bestand. Dr. Richard Herrmann, Köln

SFB 833 Bedeutungskonstitution. Kompaktkurs. Datenanalyse. Projekt Z2 Tübingen, Mittwoch, 18. und 20. März 2015

5. Schließende Statistik Einführung

Einfache Statistiken in Excel

Deskriptive Statistik

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Schätzer (vgl. Kapitel 1): Stichprobenmittel X N. Stichprobenmedian X N

Business Value Launch 2006

8. Methoden der klassischen multivariaten Statistik

1 Statistische Grundlagen

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

4. Das Capital Asset Pricing Model (CAPM) Markowitz-Modell: Werkzeug zur optimalen Portfolio-Selection.

Eine Einführung in R: Statistische Tests

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Einführung in die Geostatistik (2) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Aufgabe 1 10 ECTS. y i x j gering mittel hoch n i Hausrat KFZ Unfall Reiserücktritt n j

Willkommen zur Vorlesung Statistik

Willkommen zur Vorlesung Statistik

Marktforschung I. Marktforschung I 2

Präsenzübungsaufgaben zur Vorlesung Elementare Sachversicherungsmathematik

Ein bisschen Statistik

Klausur: Einführung in die Statistik

9. StatistischeTests. 9.1 Konzeption

Einführung in die statistische Datenanalyse I

Weiterbildungskurs Stochastik

Inhaltsverzeichnis. Regressionsanalyse. - Stand vom:

Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

Bachelorabschlussseminar Dipl.-Kfm. Daniel Cracau

13.5 Der zentrale Grenzwertsatz

Binäre abhängige Variablen

Teil I Beschreibende Statistik 29

Ein möglicher Unterrichtsgang

Häufigkeitstabellen. Balken- oder Kreisdiagramme. kritischer Wert für χ2-test. Kontingenztafeln

Statistik im Bachelor-Studium der BWL und VWL

Multivariate Statistik

Statistik Musterlösungen

Statistische Thermodynamik I Lösungen zur Serie 1

Einfache statistische Testverfahren

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Kapitel 13 Häufigkeitstabellen

1.3 Die Beurteilung von Testleistungen

Varianzanalyse * (1) Varianzanalyse (2)

25. Januar Ruhr-Universität Bochum. Methodenlehre III, WS 2009/2010. Prof. Dr. Holger Dette. 4. Multivariate Mittelwertvergleiche

Weitere Fragestellungen im Zusammenhang mit einer linearen Einfachregression

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Webergänzung zu Kapitel 10

Korrelation - Regression. Berghold, IMI

Entscheidungsanalyse unter Unsicherheit Entscheidungskriterien in ökonomischen Netzen

Anhang A: Fragebögen und sonstige Unterlagen

Excel-Arbeitsmappen zur Statistik

Statistischer Mittelwert und Portfoliorendite

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

R-WORKSHOP II. Inferenzstatistik. Johannes Pfeffer

4. Versicherungsangebot

Tutorial: Homogenitätstest

(VU) Übungen zur Einführung in die statistische Datenanalyse II. Inhalte Statistik I. Inhalte Statistik I Deskriptive Statistik

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2008/2009. Aufgabe 1

Transkript:

Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg R. 06-06 (Persike) R. 06-31 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ SS 009 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz

Anpassungstests Test von Verteilungsannahmen Ziel: Prüfung, ob Stichprobendaten einer angenommenen Verteilung (z.b. NV, binomial) folgen Unterscheidung: a) Stetige, mindestens intervallskalierte Daten b) Natürlich kategoriale Daten c) Künstlich kategoriale, d.h. gruppierte Daten Zur Prüfung der Verteilungsannahme bei intervallskalierten Daten kann der verwendet werden Zur Prüfung der Verteilung kategorialer Daten wird der verwendet

QQ-Plot Rechenbsp. Interpretation Test auf Verteilungsannahmen Der QQ-Plot Idee: Wenn Stichprobendaten normalverteilt sind, sollten die empirischen Quantile mit den theoretischen Quantilen übereinstimmen. Gegeben sei die beobachtete Realisation y. Wenn unterhalb von y für eine theoretisch normalverteilte Zufallsvariable p Werte liegen [also P(Y y) bzw. F(y)] solte auch in den Stichprobendaten unterhalb von y ein Anteil p der Werte liegen. Theoretisches Quantil Empirisches Quantil

QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot Bei n Beobachtungen existieren n direkt bestimmbare empirische Quantile. Das Quantil für das i-te Datum (i = 1 n) der sortierten Datenreihe wird berechnet als Interpretation p i = i 0.5 n Über die Subtraktion von 0.5 ist der Tatsache Rechnung getragen, dass das 100% Quantil für die Normalverteilung nicht definiert (bzw. ) ist Die theoretischen Quantile für die erhaltenen z-werte können nun aus den (standardisierten) Daten anhand der inversen Normalverteilung Φ -1 bestimmt werden.

QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 1: Sortieren der Stichprobendaten nach aufsteigender Größe Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10

Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt : z-transformation der Rohdaten 1.73 1.150 0.81 0.549 0.319 0.105-0.105-0..319-0.549-0.81-1.150-1.73 Qp 68 61 60 53 48 45 44 43 41 37 36 5 Sortiert 53 43 36 45 37 41 60 5 68 48 61 44 Datum 1.833 1.9 1.143 0.539 0.108-0.151-0.37-0.34-0.496-0.841-0.97-1.876 z.958.875.79.708.65.54.458.375.9.08.15.04 p 0.10 0.079 0.331-0.009-0.11-0.56-0.133-0.005 0.05-0.09 0.3-0.145 e Nr 1 11 10 9 8 7 6 5 4 3 1 x x z s = QQ-Plot Rechenbsp. Interpretation

QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 3: Bestimmung der Quantilszahlen p p i i 0.5 = n Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10

QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 4: Bestimmung der erwarteten Quantile Q p aus der inversen standardnormalen Verteilung Φ -1 (p, x, s) Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10

QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 5: Zeichnen des QQ-Plots 3 Interpretation Beobachtetes Quantil 1 0-3 - -1 0 1 3-1 - -3 Erwartetes Quantil

Beispiele Normalverteilung

Beispiele Linkssteile Verteilung (positive Schiefe)

Beispiele Rechtssteile Verteilung (negative Schiefe)

Beispiele Verteilung mit negativer Kurtosis ( runder )

Beispiele Verteilung mit positiver Kurtosis ( spitzer )

QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 6: Bestimmung der Güte der Passung Interpretation Für jeden (standardisierten) Rohdatenwert kann ein Erwartungswert y Qp bestimmt werden, nämlich das zugehörige Quantil aus der theoretischen Verteilungsfunktion 1 s y y n ( ˆ ) e = i Qp N i = 1 Die so berechnete Varianz ist die sogenannte Fehlervarianz oder unaufgeklärte Varianz Damit gilt wieder: r Fehlervarianz = 1 = 1 Gesamtvarianz s s e y

QQ-Plot Rechenbsp. Interpretation Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 6: Bestimmung der Güte der Passung r² ist dann der Anteil der aufgeklärten Varianz an der Gesamtvarianz, ebenfalls als η² ( eta ) bezeichnet. η s s = e 100% s Zur Bewertung des η² gibt es Faustregeln. Ein Anteil von mindestens 70% ist als akzeptabel zu bewerten, mindestens 80% als gut, mindestens 90% als sehr gut.

QQ-Plot Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Rechenbsp. Schritt 6a: Bestimmung der Abweichung e zwischen beobachtetem und erwartetem Quantil. e= z z Qp Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10

QQ-Plot Rechenbsp. Interpretation Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 6b: Bestimmung des Anteils der erklärten Varianz an der Gesamtvarianz. Die Gesamtvarianz s² ist bei standardisierten Daten immer 1. Bei unstandardisierten Daten wäre es schlicht die Varianz der Rohdaten. Die Fehlervarianz ist der Mittelwert aller Abweichungsquadrate (y i -y Qp )², im Beispiel s e =0.07. Damit ergibt sich für die aufgeklärte Varianz η² = (1 0.07) / 1 = 0.973, also 97.3%.

QQ-Plot Rechenbsp. Interpretation Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 7: Entscheidung über Verteilungsform Ist r qq < r crit(a), wird die Annahme der NV auf dem gewählten a Level verworfen. α sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht. Smpla Size N 5 10 15 0 5 30 35 40 45 50 55 60 75 100 150 00 300 0.01 0.899 0.8801 0.916 0.969 0.9410 0.9479 0.9538 0.9599 0.963 0.9671 0.9695 0.970 0.9771 0.98 0.9879 0.9905 0.9935 Significance level α 0.05 0.8788 0.9198 0.9389 0.9508 0.9591 0.965 0.968 0.976 0.9749 0.9768 0.9787 0.9801 0.9838 0.9873 0.9913 0.9931 0.9953 0.10 0.903 0.9351 0.9503 0.9604 0.9665 0.9715 0.9740 0.9771 0.979 0.9809 0.98 0.9836 0.9866 0.9895 0.998 0.994 0.9960

Verteilung intervallskalierter Daten Der Kolmogoroff-Smirnoff Test Zur nicht-grafischen Prüfung der Verteilungsanpassung kommt sehr häufig der Kolmogoroff-Smirnoff Test zum Einsatz Auch dieser Test prüft, ob die empirische Verteilung mit einer angenommenen Verteilung übereinstimmt. Die Berechnung der Prüfgröße ist mathematisch aufwändiger. Unter der H 0 sind die Verteilungen gleich, unter der H 1 ungleich Da man in aller Regel die H 0 bestätigen möchte, wählt man ein höheres Signifikanzniveau (z.b. p=.5), um den Fehler. Art zu minimieren

Einführung Prüfgröße Verteilung Verteilung kategorialer Daten Der Soll die Verteilung kategorialer Daten geprüft werden, kommen häufig so genannte s zum Einsatz Ihr Name ist aus dem Umstand abgeleitet, dass die Prüfgröße einer χ²-verteilung folgt Unter der H 0 entsprechen die beobachteten Punktwahrscheinlichkeiten P(Y=y i ) den theoretischen Punktwahrscheinlichkeiten p i, unter der H 1 sind sie verschieden, also H0 : PY ( = yi) = p H : PY ( = y) p 1 i i i

Einführung Prüfgröße Verteilung Verteilung kategorialer Daten Der Die Teststatistik folgt immer der Logik: χ = ( beobachtet erwartet) erwartet Für absolute Häufigkeiten in k Kategorien: χ k = i= 1 ( n npˆ ) i npˆ i i Für relative Häufigkeiten in ik Kategorien: χ k = n i= 1 ( p pˆ ) i pˆ i i

Einführung Prüfgröße Verteilung Verteilung kategorialer Daten Der Die Prüfgröße ist dann approximativ χ²-verteilt, wenn folgende Faustregeln erfüllt sind: 1. np i 1 für alle Zellen. np i 5 für mindestens 80% der Zellen Die χ²-verteilung ist über einen Parameter definiert, nämlich die Anzahl der Freiheitsgrade (df) Die Anzahl der Freiheitsgrade ist a) k-1 bei echt kategorialen Daten b) k-1 bei gruppierten Daten aus einer vollständig bekannten ( voll spezifizierten ) Verteilung c) k m-1 bei gruppierten Daten einer Verteilung, für die m Parameter aus der Stichprobe geschätzt werden

Einführung Verteilung kategorialer Daten Der Prüfgröße Verteilung