Prof. Dr. Dietmar Pfeifer Institut für Mathemati Graphische Verfahren in der Statisti: Q-Q- und P-P-Plots Bei den üblichen parametrischen Testverfahren in der Statisti wird in der Regel eine Annahme über die zugrunde liegende Verteilungslasse getroffen. Beispielsweise wird für die Durchführbareit des t-tests das Vorliegen einer Normalverteilung N µ, σ vorausgesetzt. In diesem Text soll gezeigt werden, wie ( 2 man mit graphischen Methoden eine Überprüfung solcher Annahmen durchführen ann. 1. Q-Q-Plots Wir betrachten zunächst eine ufallsvariable mit der Verteilungsfuntion, d.h. es gilt ) ( ) ( x) = P x, x. gibt also die Wahrscheinlicheit dafür an, dass die ufallsvariable Werte unterhalb von x annimmt. Hieraus lassen sich sofort auch Intervallwahrscheinlicheiten ableiten: ( < ) = ( ) ( ),, mit <. Pa Y b b a ab a b Mit Hilfe der positiv-linearen Transformation µ = mit µ, σ, σ> 0 σ wird eine verschobene und resalierte ufallsvariable definiert, die folgende Verteilungsfuntion besitzt: µ ( x) = P( x) = P x = P( µ + σ x) = ( µ + σx), x. σ ( 2 Ist beispielsweise nach N µ, σ ) verteilt, so ist nach N ( 0,1) verteilt. Ist die Verteilungsfuntion der Standard-Typ, so heißt die Klasse der Verteilungen induzierte Lage- und Salenfamilie mit den Parametern µ und σ. die durch Die Quantilfuntion Q ist nun definiert durch die Inverse der Verteilungsfuntion: ( ) Q u u Q u u u 1 ( ) = ( ) bzw. ( ) =, 0< < 1. ür die Standard-ufallsvariable ergibt sich daraus folgender usammenhang: 1
Q ) = µ + σq ), 0< u< 1, wie man durch Vergleich der Argumente feststellen ann: ( ) ( ) ( µ σ ) u= Q ) = Q ) = + Q ), 0< u< 1. Trägt man also in einem Koordinatensystem die Paare ( ( ), ( )) Q u Q u gegeneinander auf, so erhält man eine Gerade mit (positiver) Steigung σ und Achsenabschnitt µ. Diese Beobachtung ann man sich zunutze machen, um zu prüfen, ob einem Datensatz (,, 1 n ) eine durch eine Verteilungsfuntion induzierte Lage- und Salenfamilie, wie z.b. eine amilie von Normalverteilungen mit Erwartungswert µ und Standardabweichung σ, zugrunde liegt, wobei wir hier annehmen, dass alle Beobachtungen ( ) paarweise verschieden sind (das ist theoretisch bei stetigen Verteilungsfuntionen gegeben). Dazu trägt man in ein Koordinatensystem für geeignete Werte u, 1, un die aus den Beobachtungen abgeleiteten Paare Q ˆ ), Q), = 1,, n gegeneinander auf, wobei Qˆ die empirische Quantilfuntion bezeichnet. Ordnet man die Daten (,, 1 n ) der Größe nach mit den Werten (sog. Ordnungsstatistien) 1: n < < n: n und wählt man z.b. u = für = 1,, n, so ist gerade Qˆ ) = : n, d.h. man n + 1 trägt die geordneten Beobachtungswerte ("beobachtete Quantile") gegen die Werte Q ) ("theoretische Quantile") auf. Mit Hilfe einer Ausgleichsgeraden durch diese n Puntepaare (z.b. durch lineare Regression) lässt sich dann zunächst durch visuelle Überprüfung abschätzen, ob die getroffene Verteilungsannahme haltbar ist. Dazu sollten die Puntepaare nicht "zu weit" von der Ausgleichsgeraden entfernt sein. indet man mit dieser Methode die Verteilungsannahme gerechtfertigt, lassen sich anschließend durch den Achsenabschnitt und die Steigung der Geraden die unbeannten Parameter µ und σ schätzen. Nach dieser Methode arbeitet z.b. das Statisti-Paet STATISTICA. Das Statisti-Paet SPSS erlaubt für die Wahl der u folgende Möglicheiten, die aus unterschiedlichen theoretischen Überlegungen resultieren (vgl. etwa Bühl/öfel, S. 559) wobei "Blom" die Voreinstellung ist: Methode van der Waerden: Blom: Tuey: Ranit: u n + 1 3/8 n + 1/4 1/3 n + 1/3 1/2 n 2
Als Beispiel betrachten wir den der Größe nach geordneten Datensatz aus Aufgabe 3, mit Probe auf Normalverteilung nach der Methode von van der Waerden: 1) 2 Q ) 3) 4) 5) 6) 7) 8) 9) 10) -1,6684-1,3092-1,0676-0,8761-0,7124-0,5659-0,4307-0,3030-0,1800-0,0597 1:20 2:20 3:20 4:20 5:20 6:20 7:20 8:20 9:20 10:20 159 233 255 280 295 352 366 380 393 418 11) 12 Q ) 13) 14) 15) 16) 17) 18) 19) 20) 0,0597 0,1800 0,3030 0,4307 0,5659 0,7124 0,8761 1,0676 1,3092 1,6684 11:20 12:20 13:20 14:20 15:20 16:20 17:20 18:20 19:20 20:20 472 476 486 510 523 579 603 615 673 741 zugehörige Graphi: Als Parameter-Schätzungen ergeben sich aus der Ausgleichsgeraden: µ ˆ = 440,45 und σ ˆ = 173,98. 3
In einigen Statisti-Paeten werden bei der Analyse die Achsen vertauscht, so dass aus der Regressionsgeraden die Parameter µ und σ nicht diret ermittelt werden önnen, sondern zunächst nur die entsprechenden Parameter µ / σ (Achsenabschnitt) und 1/ σ (Steigung). Diese Wahl der Achsen findet man z.b. bei SPSS. In dem Q-Q-Plot werden dabei abweichend auch nicht die (theoretischen) Quantile Q ) aufgetragen, sondern die Quantile ("erwarteter Wert von...") derjenigen Verteilung, die aus der Standard-Verteilung (für die ufallsvariable ) durch Transformation mit alternativen Schätzern für µ und σ (z.b. Mittelwert, empirische Standardabweichung) erhalten werden. Q-Q-Diagramm 800 Normalverteilung 700 Erwarteter Wert von Normal 600 500 400 300 200 100 100 200 300 400 500 600 700 800 Beobachteter Wert 2. P-P-Plots Bei dieser Methode werden anstatt der Quantilfuntionen die Verteilungsfuntionen diret verwendet. ˆ n : µ Es werden also die Puntepaare u, σˆ für = 1,, n aufgetragen, wobei µ ˆ und σˆ geeignete Schätzer für µ und σ sind. Theoretisch besitzt die ufallsvariable Y = σ bei µ Stetigeit von nämlich eine Gleichverteilung über dem Intervall [ 0,1 ], so dass mit dieser Methode Abweichungen von der bei Korretheit des Verteilungsmodells resultierenden Gleichverteilung festgestellt werden önnen. Da sowohl die Verteilungsfuntion von Y wie die der stetigen Gleichverteilung bei Null mit Wert Null beginnt und bei 1 mit Wert 1 endet, sind Abweichungen von der Modellannahme im we- 4
sentlichen in der "Mitte" des P-P-Plots feststellbar. Diese Methode ist jedoch nicht dazu geeignet, die Parameter µ und σ graphisch zu bestimmen. Vielmehr müssen diese vorher durch alternative statistische Schätzverfahren bestimmt werden. Die nachfolgende Graphi zeigt das entsprechende Ergebnis für den obigen Datensatz, mit den Schätzern aus dem Q-Q-Plot und den nach van der Waerden. u Bei SPSS sieht der P-P-Plot im Prinzip genau so aus, allerdings wird die x-achse mit "beobachtete umulative Wahrscheinlicheiten" und die y-achse mit "erwartete umulative Wahrscheinlicheiten" bezeichnet. Dies liegt daran, dass die empirische Verteilungsfuntion gerade die Werte der annimmt (und daher diese mit dem Terminus "beobachtet" belegt werden), während die Transformation mit hier die "theoretische" Rolle übernimmt. u 5
P-P-Diagramm Normalverteilung 1,0,8 Erwartete Kum. Wahrsch.,5,3 0,0 0,0,3,5,8 1,0 Beobachtete Kum. Wahrsch. Literatur: A. Bühl, P. öfel: SPSS Version 10. Einführung in die moderne Datenanalyse unter Windows. Addison- Wesley (Imprint der Pearson Education Deutschland GmbH), München 2000. 6