Prof. Dr. G. Meinhardt. Stock, Nordflügel R. 0-49 (Persike) R. 0- (Meinhardt) Sprechstunde jederzeit nach Vereinbarung Forschungsstatistik I Dr. Malte Persike persike@uni-mainz.de WS 008/009 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz
Der Häufig ist es wichtig zu entscheiden, ob die Daten einer Stichprobe normalverteilt sind. : Liefert ein neu entwickelter EQ-Test (Emotional Intelligence) normalverteilte Ergebnisse? Es gibt statistische Tests zur Prüfung der Normalverteilung von empirischen Häufigkeitsdaten, die wir im Rahmen der Inferenzstatistik kennenlernen werden. Der Quantil-Quantil Plot ist eine einfache grafische Methode der Normalverteilungsprüfung
Der Idee: Wenn Stichprobendaten normalverteilt sind, sollten die empirischen Quantile mit den theoretischen Quantilen übereinstimmen. Gegeben sei die beobachtete Realisation y. Wenn unterhalb von y für eine theoretisch normalverteilte Zufallsvariable p Werte liegen [also P(Y y) bzw. F(y)] solte auch in den Stichprobendaten unterhalb von y ein Anteil p der Werte liegen. Theoretisches Quantil Empirisches Quantil
Der Bei n Beobachtungen existieren n direkt bestimmbare empirische Quantile. Das Quantil für das i-te Datum (i = n) der sortierten Datenreihe wird berechnet als p i = i 0.5 n Über die Subtraktion von 0.5 ist der Tatsache Rechnung getragen, dass das 00% Quantil für die Normalverteilung nicht definiert (bzw. ) ist Die theoretischen Quantile für die erhaltenen z-werte können nun aus den (standardisierten) Daten anhand der inversen Normalverteilung Φ - bestimmt werden.
Der - Verfahren Schritt : Sortieren der Stichprobendaten nach aufsteigender Größe Nr 3 4 5 6 7 8 9 0 Datum 5 Sortiert 5 z -.876-0.97-0.8-0.496-0.34-0. -0.5 0.08 0.9..9.833 p.04.5.08.9.5.8.54.65.708.79.875.958 Qp -.73 -.50-0.8-0.549-0..39-0.05 0.05 0.39 0.549 0.8.50.73 e -0. 0.3-0.09 0.05-0.005-0.33-0.56-0. -0.009 0.33 0.079 0.0
Der - Verfahren Schritt : z-transformation der Rohdaten.73.50 0.8 0.549 0.39 0.05-0.05-0..39-0.549-0.8 -.50 -.73 Qp 5 Sortiert 5 Datum.833.9. 0.9 0.08-0.5-0. -0.34-0.496-0.8-0.97 -.876 z.958.875.79.708.65.54.8.5.9.08.5.04 p 0.0 0.079 0.33-0.009-0. -0.56-0.33-0.005 0.05-0.09 0.3-0. e Nr 0 9 8 7 6 5 4 3 x x z s =
Der - Verfahren Schritt 3: Bestimmung der Quantilszahlen p Nr 3 4 5 6 7 8 9 0 Datum 5 Sortiert 5 z -.876-0.97-0.8-0.496-0.34-0. -0.5 0.08 0.9..9.833 p.04.5.08.9.5.8.54.65.708.79.875.958 Qp -.73 -.50-0.8-0.549-0..39-0.05 0.05 0.39 0.549 0.8.50.73 e -0. 0.3-0.09 0.05-0.005-0.33-0.56-0. -0.009 0.33 0.079 0.0
Der - Verfahren Schritt 4: Bestimmung der erwarteten Quantile Q p aus der theoretischen standardnormalen Verteilung Φ - (p, x, s) Nr 3 4 5 6 7 8 9 0 Datum 5 Sortiert 5 z -.876-0.97-0.8-0.496-0.34-0. -0.5 0.08 0.9..9.833 p.04.5.08.9.5.8.54.65.708.79.875.958 Qp -.73 -.50-0.8-0.549-0..39-0.05 0.05 0.39 0.549 0.8.50.73 e -0. 0.3-0.09 0.05-0.005-0.33-0.56-0. -0.009 0.33 0.079 0.0
Der - Verfahren Schritt 5: Zeichnen des s 3 Beobachtetes Quantil 0-3 - - 0 3 - - -3 Erwartetes Quantil
Der - Verfahren Schritt 6: Bestimmung der Güte der Passung Die Gesamtvarianz der Daten wurde berechnet als s y y n = ( ) i N i = Es kann nun aber für jeden (standardisierten) Rohdatenwert ein eigener Erwartungswert bestimmt werden, nämlich das zugehörige Quantil aus der theoretischen Verteilungsfunktion s y y n ( ) e = i Qp N i = Dies ist die sogenannte Fehlervarianz oder unaufgeklärte Varianz
Der - Verfahren Schritt 6: Bestimmung der Güte der Passung Die Differenz (s² - s e ²) ist dann die aufgeklärte Varianz Nun kann der Anteil der aufgeklärten Varianz an der Gesamtvarianz berechnet werden als η s s = e 00% s Zur Bewertung des η² ( eta ) gibt es Faustregeln. Ein Anteil von mindestens 70% ist als akzeptabel zu bewerten, mindestens 80% als gut, mindestens 90% als sehr gut.
Der - Verfahren Schritt 6a: Bestimmung der Abweichung e zwischen beobachtetem und erwartetem Quantil. Nr 3 4 5 6 7 8 9 0 Datum 5 Sortiert 5 z -.876-0.97-0.8-0.496-0.34-0. -0.5 0.08 0.9..9.833 p.04.5.08.9.5.8.54.65.708.79.875.958 Qp -.73 -.50-0.8-0.549-0..39-0.05 0.05 0.39 0.549 0.8.50.73 e -0. 0.3-0.09 0.05-0.005-0.33-0.56-0. -0.009 0.33 0.079 0.0
Der - Verfahren Schritt 6b: Bestimmung des Anteils der erklärten Varianz an der Gesamtvarianz. Die Gesamtvarianz s² ist bei standardisierten Daten immer. Bei unstandardisierten Daten wäre es schlicht die Varianz der Rohdaten. Die Fehlervarianz ist der Mittelwert aller Abweichungsquadrate (y i -y Qp )², im s e =0.07. Damit ergibt sich für die aufgeklärte Varianz η² = ( 0.07)/ = 0.973, also 97.3%. Die Annahme normalverteilter Stichprobendaten wird gestützt.
Normalverteilung Zusammenfassung Für die theoretische Wahrscheinlichkeitsverteilung psychologisch relevanter Zufallsvariablen wird oft die Normalverteilung angenommen. Sie ist durch zwei Parameter, μ und σ definiert. Ob diese Annahme haltbar ist, kann a priori nur durch ein theoretisches Rational begründet werden. Die erfolgreiche Prüfung empirischer Daten auf Normalverteilung ist kein Indikator für die Validität des theoretischen Rationals. Zur naturnotwendigen Normalverteilung bestimmter Zufallsvariablen siehe Glass & Hopkins (996), God loves the normal curve, S. 80 ff.