Graphische Verfahren in der Statistik: Q-Q- und P-P-Plots

Ähnliche Dokumente
- Normalverteilung (Gaußverteilung) kann auf sehr viele Zufallsprozesse angewendet werden.

Mathematik für Biologen

das Kleingedruckte...

10. Die Normalverteilungsannahme

Statistisches Testen

Klassifikation von Signifikanztests

Forschungsstatistik I

Klassifikation von Signifikanztests

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Auswertung und Lösung

Chi-Quadrat-Verteilung

Statistik I für Betriebswirte Vorlesung 14

Mathematische und statistische Methoden II

30. März Ruhr-Universität Bochum. Methodenlehre II, SS Prof. Dr. Holger Dette

Forschungsstatistik I

Schweizer Statistiktage, Aarau, 18. Nov. 2004

Teil IX. Verteilungen an Daten anpassen ( Maximum-Likelihood-Schätzung. fitten ) Woche 7: Maximum-Likelihood-Schätzung. Lernziele

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Forschungsstatistik I

Vorlesung Stetige Verteilungen / Mathematische Behandlung

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

Kapitel VII. Einige spezielle stetige Verteilungen

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

6.2 Die Varianzanalyse und das lineare Modell

Wichtige Definitionen und Aussagen

Klassifikation von Signifikanztests

5. Stichproben und Statistiken

Grundlagen der Biostatistik und Informatik

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Biometrieübung 10 Lineare Regression. 2. Abhängigkeit der Körpergröße von der Schuhgröße bei Männern

Teil: lineare Regression

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

3) Testvariable: T = X µ 0

Evaluation & Forschungsstrategien. B.Sc.-Seminar. Sitzung IV: Konfidenzintervalle // Normalverteilungstests

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf

Ein- und Zweistichprobentests

Statistik I für Betriebswirte Vorlesung 4

Lehr- und Übungsbuch der angewandten Statistik. Von Dr. Bärbel Elpelt und. O. Prof. Dr. Joachim Hartung Fachbereich Statistik der Universität Dortmund

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Einführung in die Statistik

Übungen mit dem Applet Zentraler Grenzwertsatz

Bachelorprüfung: Statistik (1 Stunde)

Einführung in die Statistik

Klassifikation von Signifikanztests

Statistik und Wahrscheinlichkeitsrechnung

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Kapitel 10 Mittelwert-Tests Einstichproben-Mittelwert-Tests 10.2 Zweistichproben Mittelwert-Tests

Bootstrap: Konfidenzintervalle

Arbeitsbuch zur deskriptiven und induktiven Statistik

unendlich-dimensionalen lästigen Parameter auffassen.

Anpassungstests VORGEHENSWEISE

2 Aufgaben aus [Teschl, Band 2]

5 Exkurs: Deskriptive Statistik

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Wahrscheinlichkeitsverteilungen

Statistik I für Betriebswirte Vorlesung 13

Mathematik für Biologen

Wahrscheinlichkeitstheorie und Statistik vom

Kapitel XIV - Anpassungstests

Multivariate Verfahren

Lösung Übungsblatt 5

Finanzierung und Investition

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

Laborchemische Referenzwerte in der klinischen Versorgung

Eine Einführung in R: Dichten und Verteilungsfunktionen

Informationen zur KLAUSUR am

Wahrscheinlichkeit und Statistik BSc D-INFK

1.5.4 Quantile und Modi. Bem [Quantil, Modus]

Statistik I für Betriebswirte Vorlesung 3

Statistik mit und ohne Zufall

Mathematik für Biologen

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Biomathematik für Mediziner

Lineare Regression. Kapitel Regressionsgerade

Einführung in die Maximum Likelihood Methodik

1 Verteilungsfunktionen, Zufallsvariable etc.

Klausur zur Vorlesung

Statistik I für Betriebswirte Vorlesung 14

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Eine Einführung in R: Dichten und Verteilungsfunktionen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Transkript:

Prof. Dr. Dietmar Pfeifer Institut für Mathemati Graphische Verfahren in der Statisti: Q-Q- und P-P-Plots Bei den üblichen parametrischen Testverfahren in der Statisti wird in der Regel eine Annahme über die zugrunde liegende Verteilungslasse getroffen. Beispielsweise wird für die Durchführbareit des t-tests das Vorliegen einer Normalverteilung N µ, σ vorausgesetzt. In diesem Text soll gezeigt werden, wie ( 2 man mit graphischen Methoden eine Überprüfung solcher Annahmen durchführen ann. 1. Q-Q-Plots Wir betrachten zunächst eine ufallsvariable mit der Verteilungsfuntion, d.h. es gilt ) ( ) ( x) = P x, x. gibt also die Wahrscheinlicheit dafür an, dass die ufallsvariable Werte unterhalb von x annimmt. Hieraus lassen sich sofort auch Intervallwahrscheinlicheiten ableiten: ( < ) = ( ) ( ),, mit <. Pa Y b b a ab a b Mit Hilfe der positiv-linearen Transformation µ = mit µ, σ, σ> 0 σ wird eine verschobene und resalierte ufallsvariable definiert, die folgende Verteilungsfuntion besitzt: µ ( x) = P( x) = P x = P( µ + σ x) = ( µ + σx), x. σ ( 2 Ist beispielsweise nach N µ, σ ) verteilt, so ist nach N ( 0,1) verteilt. Ist die Verteilungsfuntion der Standard-Typ, so heißt die Klasse der Verteilungen induzierte Lage- und Salenfamilie mit den Parametern µ und σ. die durch Die Quantilfuntion Q ist nun definiert durch die Inverse der Verteilungsfuntion: ( ) Q u u Q u u u 1 ( ) = ( ) bzw. ( ) =, 0< < 1. ür die Standard-ufallsvariable ergibt sich daraus folgender usammenhang: 1

Q ) = µ + σq ), 0< u< 1, wie man durch Vergleich der Argumente feststellen ann: ( ) ( ) ( µ σ ) u= Q ) = Q ) = + Q ), 0< u< 1. Trägt man also in einem Koordinatensystem die Paare ( ( ), ( )) Q u Q u gegeneinander auf, so erhält man eine Gerade mit (positiver) Steigung σ und Achsenabschnitt µ. Diese Beobachtung ann man sich zunutze machen, um zu prüfen, ob einem Datensatz (,, 1 n ) eine durch eine Verteilungsfuntion induzierte Lage- und Salenfamilie, wie z.b. eine amilie von Normalverteilungen mit Erwartungswert µ und Standardabweichung σ, zugrunde liegt, wobei wir hier annehmen, dass alle Beobachtungen ( ) paarweise verschieden sind (das ist theoretisch bei stetigen Verteilungsfuntionen gegeben). Dazu trägt man in ein Koordinatensystem für geeignete Werte u, 1, un die aus den Beobachtungen abgeleiteten Paare Q ˆ ), Q), = 1,, n gegeneinander auf, wobei Qˆ die empirische Quantilfuntion bezeichnet. Ordnet man die Daten (,, 1 n ) der Größe nach mit den Werten (sog. Ordnungsstatistien) 1: n < < n: n und wählt man z.b. u = für = 1,, n, so ist gerade Qˆ ) = : n, d.h. man n + 1 trägt die geordneten Beobachtungswerte ("beobachtete Quantile") gegen die Werte Q ) ("theoretische Quantile") auf. Mit Hilfe einer Ausgleichsgeraden durch diese n Puntepaare (z.b. durch lineare Regression) lässt sich dann zunächst durch visuelle Überprüfung abschätzen, ob die getroffene Verteilungsannahme haltbar ist. Dazu sollten die Puntepaare nicht "zu weit" von der Ausgleichsgeraden entfernt sein. indet man mit dieser Methode die Verteilungsannahme gerechtfertigt, lassen sich anschließend durch den Achsenabschnitt und die Steigung der Geraden die unbeannten Parameter µ und σ schätzen. Nach dieser Methode arbeitet z.b. das Statisti-Paet STATISTICA. Das Statisti-Paet SPSS erlaubt für die Wahl der u folgende Möglicheiten, die aus unterschiedlichen theoretischen Überlegungen resultieren (vgl. etwa Bühl/öfel, S. 559) wobei "Blom" die Voreinstellung ist: Methode van der Waerden: Blom: Tuey: Ranit: u n + 1 3/8 n + 1/4 1/3 n + 1/3 1/2 n 2

Als Beispiel betrachten wir den der Größe nach geordneten Datensatz aus Aufgabe 3, mit Probe auf Normalverteilung nach der Methode von van der Waerden: 1) 2 Q ) 3) 4) 5) 6) 7) 8) 9) 10) -1,6684-1,3092-1,0676-0,8761-0,7124-0,5659-0,4307-0,3030-0,1800-0,0597 1:20 2:20 3:20 4:20 5:20 6:20 7:20 8:20 9:20 10:20 159 233 255 280 295 352 366 380 393 418 11) 12 Q ) 13) 14) 15) 16) 17) 18) 19) 20) 0,0597 0,1800 0,3030 0,4307 0,5659 0,7124 0,8761 1,0676 1,3092 1,6684 11:20 12:20 13:20 14:20 15:20 16:20 17:20 18:20 19:20 20:20 472 476 486 510 523 579 603 615 673 741 zugehörige Graphi: Als Parameter-Schätzungen ergeben sich aus der Ausgleichsgeraden: µ ˆ = 440,45 und σ ˆ = 173,98. 3

In einigen Statisti-Paeten werden bei der Analyse die Achsen vertauscht, so dass aus der Regressionsgeraden die Parameter µ und σ nicht diret ermittelt werden önnen, sondern zunächst nur die entsprechenden Parameter µ / σ (Achsenabschnitt) und 1/ σ (Steigung). Diese Wahl der Achsen findet man z.b. bei SPSS. In dem Q-Q-Plot werden dabei abweichend auch nicht die (theoretischen) Quantile Q ) aufgetragen, sondern die Quantile ("erwarteter Wert von...") derjenigen Verteilung, die aus der Standard-Verteilung (für die ufallsvariable ) durch Transformation mit alternativen Schätzern für µ und σ (z.b. Mittelwert, empirische Standardabweichung) erhalten werden. Q-Q-Diagramm 800 Normalverteilung 700 Erwarteter Wert von Normal 600 500 400 300 200 100 100 200 300 400 500 600 700 800 Beobachteter Wert 2. P-P-Plots Bei dieser Methode werden anstatt der Quantilfuntionen die Verteilungsfuntionen diret verwendet. ˆ n : µ Es werden also die Puntepaare u, σˆ für = 1,, n aufgetragen, wobei µ ˆ und σˆ geeignete Schätzer für µ und σ sind. Theoretisch besitzt die ufallsvariable Y = σ bei µ Stetigeit von nämlich eine Gleichverteilung über dem Intervall [ 0,1 ], so dass mit dieser Methode Abweichungen von der bei Korretheit des Verteilungsmodells resultierenden Gleichverteilung festgestellt werden önnen. Da sowohl die Verteilungsfuntion von Y wie die der stetigen Gleichverteilung bei Null mit Wert Null beginnt und bei 1 mit Wert 1 endet, sind Abweichungen von der Modellannahme im we- 4

sentlichen in der "Mitte" des P-P-Plots feststellbar. Diese Methode ist jedoch nicht dazu geeignet, die Parameter µ und σ graphisch zu bestimmen. Vielmehr müssen diese vorher durch alternative statistische Schätzverfahren bestimmt werden. Die nachfolgende Graphi zeigt das entsprechende Ergebnis für den obigen Datensatz, mit den Schätzern aus dem Q-Q-Plot und den nach van der Waerden. u Bei SPSS sieht der P-P-Plot im Prinzip genau so aus, allerdings wird die x-achse mit "beobachtete umulative Wahrscheinlicheiten" und die y-achse mit "erwartete umulative Wahrscheinlicheiten" bezeichnet. Dies liegt daran, dass die empirische Verteilungsfuntion gerade die Werte der annimmt (und daher diese mit dem Terminus "beobachtet" belegt werden), während die Transformation mit hier die "theoretische" Rolle übernimmt. u 5

P-P-Diagramm Normalverteilung 1,0,8 Erwartete Kum. Wahrsch.,5,3 0,0 0,0,3,5,8 1,0 Beobachtete Kum. Wahrsch. Literatur: A. Bühl, P. öfel: SPSS Version 10. Einführung in die moderne Datenanalyse unter Windows. Addison- Wesley (Imprint der Pearson Education Deutschland GmbH), München 2000. 6