10. Die Normalverteilungsannahme

10. Die Normalverteilungsannahme Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Bisher haben wir vorausgesetzt, daß die Beobachtungswerte normalverteilt sind. In diesem Fall kann man beweisen, daß die t-tests in gewissem Sinn optimal sind. Bei großen Stichproben (Faustregel: n 30) kann der t-test aufgrund des zentralen Grenzwertsatzes auch ohne diese Voraussetzung angewendet werden. Bei kleinen Stichproben ist der t-test aber nicht mehr korrekt.

Damit stellen sich zwei wichtige Fragen: 1. Wie können wir feststellen, ob eine Normalverteilungsannahme aufgrund der beobachteten Daten realistisch ist? 2. Wodurch können wir den t-test ersetzen, wenn wir nicht von einer Normalverteilung ausgehen können und nur wenig über die zugrundeliegende Verteilung wissen? Wir gehen zunächst auf die erste Frage ein und behandeln dann die zweite Frage im nächsten Abschnitt.

QQ-Plot/Normalplot Um sich rasch einen Überblick zu veschaffen, ob die Daten durch eine Normalverteilung angemessen beschrieben werden, kann man einen Quantil-Quantil-Plot (QQ-Plot) der empirischen Verteilung der Beobachtungswerte x 1,x 2,...,x n gegen die Standardnormalverteilung erstellen. In einem Normal-QQ-Plot werden die empirischen Quantile x (α) auf der y-achse gegen die theoretischen Quantile z α unter der Standardnormalverteilung auf der x-achse aufgetragen. ) Genauer werden die Punkte mit den Koordinaten (z α,x (α) für α = 0,5 n, 1,5 n, 2,5 n,...,1 0,5 n aufgetragen.

QQ-Plot/Normalplot Sind die Daten Realisierungen einer normalverteilten Zufallsgröße X N(m, σ 2 ), dann gilt für die empirischen Quantile x (α) näherungsweise x (α) m+σ z α. Die Punkte im Normalplot liegen also etwa auf der Geraden y = m+σ x Durch Erstellen des Normalplots können wir also einschätzen, ob eine Normalverteilungsannahme gerechtfertigt ist, und Näherungswerte für die Parameter m und σ ablesen: Liegt der QQ-Plot in guter Näherung auf einer Gerade, dann können wir von einer Normalverteilung ausgehen. In diesem Fall liefert die Steigung der Geraden einen Schätzwert für die Standardabweichung, und der Achsenabschnitt auf der y-achse einen Schätzwert für den Mittelwert.

Beispiel: Bei einer Abfüllmaschine für Zucker wird vermutet, dass die Abweichung X vom Normwert (in Gramm) standardnormalverteilt ist. Um zu untersuchen, ob diese Vermutung zutrifft, wurde X bei zwanzig Abfüllungen gemessen: -0,18 0,58 0,94-0,49-1,22-0,69-0,77 2,06-0,58 0,46 1,37-0,09-1,07 1,23 0,66-0,23-0,86 0,11-0,76-0,61 Für den Normal-QQ-Plot benötigen wir die Punkte (z α,x (α) ) für α = 0,5/20,1,5/20,...,19,5/20. Die Quantile z α entnehmen wir der Tabelle der Standardnormalverteilung, und die Zahlen x (α) sind die der Größe nach geordneten Messwerte:

α z α x (α) 0,5/20 = 0,025 1,96 1,22 1,5/20 = 0,075 1,44 1,07 2,5/20 = 0,125 1,15 0,86 3,5/20 = 0,175 0,93 0,77 4,5/20 = 0,225 0,76 0,76 5,5/20 = 0,255 0,60 0,69 6,5/20 = 0,325 0,45 0,61 7,5/20 = 0,375 0,32 0,58 8,5/20 = 0,425 0,19 0,49 9,5/20 = 0,475 0,06 0,23 10,5/20 = 0,525 0,06 0,18 11,5/20 = 0,575 0,19 0,09 12,5/20 = 0,625 0,32 0,11 13,5/20 = 0,675 0,45 0,46 14,5/20 = 0,725 0,60 0,58 15,5/20 = 0,775 0,76 0,66 16,5/20 = 0,825 0,93 0,94 17,5/20 = 0,875 1,15 1,23 18,5/20 = 0,925 1,44 1,37 19,5/20 = 0,975 1,96 2,06

x (α) 2 1-2 -1 1 2 z α -1-2 Die Punkte liegen näherungsweise auf einer Geraden, so dass wir davon ausgehen dürfen, dass X normalverteilt ist.

Chiquadrat-Anpassungstest Wenn man eine Normalverteilungsannahme mit bestimmten Parametern (die z.b. auf einem QQ-Plot basiert) noch weitergehend untersuchen möchte, kann man einen Chiquadrat-Anpassungstest durchführen. Dazu werden die Beobachtungswerte in Klassen eingeteilt, und dann eine Chiquadrat-Statistik basierend auf der Normalverteilung berechnet. Überschreitet diese Statistik einen gewissen kritischen Wert (der vom Signifikanzniveau abhängt), dann wird die Normalverteilungsannahme verworfen.

Chiquadrat-Anpassungstest Wollen wir beispielsweise testen, ob die Beobachtungswerte x 1,x 2,...,x n Realisierungen einer standardnormalverteilten Zufallsvariable sind, dann teilen wir die Menge der reellen Zahlen in m Klassen K 1,...,K m ein. Wir bezeichnen mit n j die Anzahl der Beobachtungwerte, die in der j-ten Klasse K j liegen, und mit n j = n P H0 [x i K j ] die bei Standardnormalverteilung zu erwartende durchschnittliche Anzahl von Werten in K j. Wir berechnen dann die Chiquadrat-Statistik χ 2 = m (n j n j ) 2 j=1 n j

Chiquadrat-Anpassungstest Wir betrachten nun die Nullhypothese und die Alternative H 0 : X i N(0,1) H 1 : X i N(0,1). Unter der Nullhypothese hat die Teststatistik χ 2 näherungsweise eine Chiquadratverteilung mit m 1 Freiheitsgraden. Die Quantile dieser Verteilung sind tabelliert. Damit ergibt sich folgender Test zum Signifikanzniveau α : Verwerfe H 0, falls χ 2 > χ 2 1 α,m 1, wobei χ 2 1 α,m 1 das (1 α)-quantil der χ2 -Verteilung mit m 1 Freiheitsgraden bezeichnet.

Beispiel: Wir wählen m = 10, K 1 = (,z 0,1 ], K 2 = (z 0,1,z 0,2 ], K 3 = (z 0,2,z 0,3 ],..., K 10 = (z 0,9, ) (so dass ˆn j = 50 10 1 = 5 für alle j) und erhielten Beobachtungswerte, die sich wie folgt auf die Klassen K j verteilen: j K j n j ˆn j 1 (, 1,28] 5 5 2 ( 1,28, 0,84] 7 5 3 ( 0,84, 0,52] 6 5 4 ( 0,52, 0,25] 7 5 5 ( 0,25, 0] 3 5 6 (0, 0,25] 1 5 7 (0,25, 0,52] 5 5 8 (0,52, 0,84] 4 5 9 (0,84, 1,28] 6 5 10 (1,28, ) 6 5 Wegen χ 2 = 6,4 und χ 2 0,95;9 = 16,92 > 6,4 kann die Nullhypothese für α = 5% nicht verworfen werden.

Chiquadrat-Anpassungstest Mit dem Chiquadrat-Anpassungstest kann man auch analog auf andere Verteilungen testen (z.b. Test auf gleiche Wahrscheinlichkeiten aller Augenzahlen beim Würfeln). Die asymptotische Verteilung der Teststatistik unter der Nullhypothese bleibt dabei unverändert eine Chiquadratverteilung.