Prof. Dr. G. Meinhardt 6. Stock, Taubertsberg R. 06-06 (Persike) R. 06-31 (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de http://psymet03.sowi.uni-mainz.de/ SS 009 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz
Anpassungstests Test von Verteilungsannahmen Ziel: Prüfung, ob Stichprobendaten einer angenommenen Verteilung (z.b. NV, binomial) folgen Unterscheidung: a) Stetige, mindestens intervallskalierte Daten b) Natürlich kategoriale Daten c) Künstlich kategoriale, d.h. gruppierte Daten Zur Prüfung der Verteilungsannahme bei intervallskalierten Daten kann der verwendet werden Zur Prüfung der Verteilung kategorialer Daten wird der verwendet
QQ-Plot Rechenbsp. Interpretation Test auf Verteilungsannahmen Der QQ-Plot Idee: Wenn Stichprobendaten normalverteilt sind, sollten die empirischen Quantile mit den theoretischen Quantilen übereinstimmen. Gegeben sei die beobachtete Realisation y. Wenn unterhalb von y für eine theoretisch normalverteilte Zufallsvariable p Werte liegen [also P(Y y) bzw. F(y)] solte auch in den Stichprobendaten unterhalb von y ein Anteil p der Werte liegen. Theoretisches Quantil Empirisches Quantil
QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot Bei n Beobachtungen existieren n direkt bestimmbare empirische Quantile. Das Quantil für das i-te Datum (i = 1 n) der sortierten Datenreihe wird berechnet als Interpretation p i = i 0.5 n Über die Subtraktion von 0.5 ist der Tatsache Rechnung getragen, dass das 100% Quantil für die Normalverteilung nicht definiert (bzw. ) ist Die theoretischen Quantile für die erhaltenen z-werte können nun aus den (standardisierten) Daten anhand der inversen Normalverteilung Φ -1 bestimmt werden.
QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 1: Sortieren der Stichprobendaten nach aufsteigender Größe Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10
Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt : z-transformation der Rohdaten 1.73 1.150 0.81 0.549 0.319 0.105-0.105-0..319-0.549-0.81-1.150-1.73 Qp 68 61 60 53 48 45 44 43 41 37 36 5 Sortiert 53 43 36 45 37 41 60 5 68 48 61 44 Datum 1.833 1.9 1.143 0.539 0.108-0.151-0.37-0.34-0.496-0.841-0.97-1.876 z.958.875.79.708.65.54.458.375.9.08.15.04 p 0.10 0.079 0.331-0.009-0.11-0.56-0.133-0.005 0.05-0.09 0.3-0.145 e Nr 1 11 10 9 8 7 6 5 4 3 1 x x z s = QQ-Plot Rechenbsp. Interpretation
QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 3: Bestimmung der Quantilszahlen p p i i 0.5 = n Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10
QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 4: Bestimmung der erwarteten Quantile Q p aus der inversen standardnormalen Verteilung Φ -1 (p, x, s) Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10
QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 5: Zeichnen des QQ-Plots 3 Interpretation Beobachtetes Quantil 1 0-3 - -1 0 1 3-1 - -3 Erwartetes Quantil
Beispiele Normalverteilung
Beispiele Linkssteile Verteilung (positive Schiefe)
Beispiele Rechtssteile Verteilung (negative Schiefe)
Beispiele Verteilung mit negativer Kurtosis ( runder )
Beispiele Verteilung mit positiver Kurtosis ( spitzer )
QQ-Plot Rechenbsp. Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 6: Bestimmung der Güte der Passung Interpretation Für jeden (standardisierten) Rohdatenwert kann ein Erwartungswert y Qp bestimmt werden, nämlich das zugehörige Quantil aus der theoretischen Verteilungsfunktion 1 s y y n ( ˆ ) e = i Qp N i = 1 Die so berechnete Varianz ist die sogenannte Fehlervarianz oder unaufgeklärte Varianz Damit gilt wieder: r Fehlervarianz = 1 = 1 Gesamtvarianz s s e y
QQ-Plot Rechenbsp. Interpretation Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 6: Bestimmung der Güte der Passung r² ist dann der Anteil der aufgeklärten Varianz an der Gesamtvarianz, ebenfalls als η² ( eta ) bezeichnet. η s s = e 100% s Zur Bewertung des η² gibt es Faustregeln. Ein Anteil von mindestens 70% ist als akzeptabel zu bewerten, mindestens 80% als gut, mindestens 90% als sehr gut.
QQ-Plot Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Rechenbsp. Schritt 6a: Bestimmung der Abweichung e zwischen beobachtetem und erwartetem Quantil. e= z z Qp Interpretation Nr 1 3 4 5 6 7 8 9 10 11 1 Datum 44 61 48 68 5 60 41 37 45 36 43 53 Sortiert 5 36 37 41 43 44 45 48 53 60 61 68 z -1.876-0.97-0.841-0.496-0.34-0.37-0.151 0.108 0.539 1.143 1.9 1.833 p.04.15.08.9.375.458.54.65.708.79.875.958 Qp -1.73-1.150-0.81-0.549-0..319-0.105 0.105 0.319 0.549 0.81 1.150 1.73 e -0.145 0.3-0.09 0.05-0.005-0.133-0.56-0.11-0.009 0.331 0.079 0.10
QQ-Plot Rechenbsp. Interpretation Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 6b: Bestimmung des Anteils der erklärten Varianz an der Gesamtvarianz. Die Gesamtvarianz s² ist bei standardisierten Daten immer 1. Bei unstandardisierten Daten wäre es schlicht die Varianz der Rohdaten. Die Fehlervarianz ist der Mittelwert aller Abweichungsquadrate (y i -y Qp )², im Beispiel s e =0.07. Damit ergibt sich für die aufgeklärte Varianz η² = (1 0.07) / 1 = 0.973, also 97.3%.
QQ-Plot Rechenbsp. Interpretation Verteilung intervallskalierter Daten Der QQ-Plot - Verfahren Schritt 7: Entscheidung über Verteilungsform Ist r qq < r crit(a), wird die Annahme der NV auf dem gewählten a Level verworfen. α sollte progressiv gewählt sein (10%), da man eine Sicherheit für die Beibehaltung wünscht. Smpla Size N 5 10 15 0 5 30 35 40 45 50 55 60 75 100 150 00 300 0.01 0.899 0.8801 0.916 0.969 0.9410 0.9479 0.9538 0.9599 0.963 0.9671 0.9695 0.970 0.9771 0.98 0.9879 0.9905 0.9935 Significance level α 0.05 0.8788 0.9198 0.9389 0.9508 0.9591 0.965 0.968 0.976 0.9749 0.9768 0.9787 0.9801 0.9838 0.9873 0.9913 0.9931 0.9953 0.10 0.903 0.9351 0.9503 0.9604 0.9665 0.9715 0.9740 0.9771 0.979 0.9809 0.98 0.9836 0.9866 0.9895 0.998 0.994 0.9960
Verteilung intervallskalierter Daten Der Kolmogoroff-Smirnoff Test Zur nicht-grafischen Prüfung der Verteilungsanpassung kommt sehr häufig der Kolmogoroff-Smirnoff Test zum Einsatz Auch dieser Test prüft, ob die empirische Verteilung mit einer angenommenen Verteilung übereinstimmt. Die Berechnung der Prüfgröße ist mathematisch aufwändiger. Unter der H 0 sind die Verteilungen gleich, unter der H 1 ungleich Da man in aller Regel die H 0 bestätigen möchte, wählt man ein höheres Signifikanzniveau (z.b. p=.5), um den Fehler. Art zu minimieren
Einführung Prüfgröße Verteilung Verteilung kategorialer Daten Der Soll die Verteilung kategorialer Daten geprüft werden, kommen häufig so genannte s zum Einsatz Ihr Name ist aus dem Umstand abgeleitet, dass die Prüfgröße einer χ²-verteilung folgt Unter der H 0 entsprechen die beobachteten Punktwahrscheinlichkeiten P(Y=y i ) den theoretischen Punktwahrscheinlichkeiten p i, unter der H 1 sind sie verschieden, also H0 : PY ( = yi) = p H : PY ( = y) p 1 i i i
Einführung Prüfgröße Verteilung Verteilung kategorialer Daten Der Die Teststatistik folgt immer der Logik: χ = ( beobachtet erwartet) erwartet Für absolute Häufigkeiten in k Kategorien: χ k = i= 1 ( n npˆ ) i npˆ i i Für relative Häufigkeiten in ik Kategorien: χ k = n i= 1 ( p pˆ ) i pˆ i i
Einführung Prüfgröße Verteilung Verteilung kategorialer Daten Der Die Prüfgröße ist dann approximativ χ²-verteilt, wenn folgende Faustregeln erfüllt sind: 1. np i 1 für alle Zellen. np i 5 für mindestens 80% der Zellen Die χ²-verteilung ist über einen Parameter definiert, nämlich die Anzahl der Freiheitsgrade (df) Die Anzahl der Freiheitsgrade ist a) k-1 bei echt kategorialen Daten b) k-1 bei gruppierten Daten aus einer vollständig bekannten ( voll spezifizierten ) Verteilung c) k m-1 bei gruppierten Daten einer Verteilung, für die m Parameter aus der Stichprobe geschätzt werden
Einführung Verteilung kategorialer Daten Der Prüfgröße Verteilung