5.8 Anpassungstests. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 419

Ähnliche Dokumente
1.8 Kolmogorov-Smirnov-Test auf Normalverteilung

15.3 Statistische Tests von Pseudozufallszahlen

1 1. Einleitung Dateneingabe und Transformation Wahrscheinlichkeitsrechnung Beschreibende Statistik Statistische Tests

5.9. Nichtparametrische Tests Übersicht

6. Multivariate Verfahren Übersicht

Vergleich von k unabhängigen Gruppen (einfaktorielle, einfache Varianzanalyse)

Einstichprobenproblem t-test

Statistik II. IV. Hypothesentests. Martin Huber

Box-Plots. Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.rechnung. Beschreibende Statistik 174 / 258

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

5 Allgemeine Verfahren zum Testen von Hypothesen

Statistik II für Betriebswirte Vorlesung 3

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Zufallsvariablen. f(x) dx = 1. Die stetige Zufallsvariable X wird also durch seine Dichtefunktion beschrieben. P(c < X < d) =

Wichtige Definitionen und Aussagen

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Statistik I für Betriebswirte Vorlesung 14

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Die Familie der χ 2 (n)-verteilungen

Die Familie der χ 2 (n)-verteilungen

Klassifikation von Signifikanztests

Wahrscheinlichkeit und Statistik: Zusammenfassung

13 Grenzwertsätze Das Gesetz der großen Zahlen

6.2 Lineare Regression

Stochastik Praktikum Testtheorie

3 Grundlagen statistischer Tests (Kap. 8 IS)

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Klausur zur Vorlesung

Statistik I für Betriebswirte Vorlesung 14

Finanzierung und Investition

Einführung in Quantitative Methoden

1.6 Der Vorzeichentest

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

7. Zusammenfassung. Zusammenfassung

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Einführung in die Statistik

Werkzeuge der empirischen Forschung

Statistik für Ingenieure Vorlesung 12

Streuungsmaße. Die angegebenen Maßzahlen sind empirisch, d.h. sie sind Schätzungen für die wahre Varianz (empirische) Varianz (Streuung) s 2 = 1 n

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Statistik I für Betriebswirte Vorlesung 13

Einführung in Quantitative Methoden

Normalverteilung. 1 2πσ. Gauß. 2 e 1 2 ((x µ)2 σ 2 ) Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.

Grundidee. χ 2 Tests. Ausgangspunkt: Klasseneinteilung der Beobachtungen in k Klassen. Grundidee. Annahme: Einfache Zufallsstichprobe (X 1,..., X n ).

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Klassifikation von Signifikanztests

Häufigkeitsdiagramme PROC UNIVARIATE PROC GCHART

Willkommen zur Vorlesung Statistik (Master)

Vorlesung: Statistik II für Wirtschaftswissenschaft

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

Multiple Lineare Regression (Forts.) Residualanalyse (1)

6.4 Der Kruskal-Wallis Test

Formelsammlung: Statistik und Wahrscheinlichkeitstheorie

Klassifikation von Signifikanztests

Wirtschaftsmathematik

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen

Kapitel XIV - Anpassungstests

Statistisches Testen

Statistische Tests Übersicht

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Forschungsstatistik I

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Wahrscheinlichkeitsrechnung und Statistik. 11. Vorlesung /2019

Wahrscheinlichkeitsrechnung und schließende Statistik

1. Grundbegri e der Stochastik

Statistik und Wahrscheinlichkeitsrechnung

Einführung in die Statistik

Wirtschaftswissenschaftliches Prüfungsamt Bachelor-Prüfung Schließende Statistik Wintersemester 2012/13. Namensschild. Dr.

Goethe-Universität Frankfurt

Lösung Übungsblatt 5

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

6. Schätzverfahren für Parameter

Statistische Methoden in den Umweltwissenschaften

Statistik I für Betriebswirte Vorlesung 13

Bootstrap: Punktschätzung

5. Spezielle stetige Verteilungen

Reelle Zufallsvariablen

Statistik II für Betriebswirte Vorlesung 3

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Wahrscheinlichkeitsrechnung und Statistik

Zusammenfassung: Kapitel 5, Zusammenhangsmaße

W-Rechnung und Statistik für Ingenieure Übung 8

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

3) Testvariable: T = X µ 0

Aufgabe 1 (8= Punkte) 13 Studenten haben die folgenden Noten (ganze Zahl) in der Statistikklausur erhalten:

1.4 Der Binomialtest. Die Hypothesen: H 0 : p p 0 gegen. gegen H 1 : p p 0. gegen H 1 : p > p 0

Transkript:

5.8 8.1 Einführung empirische Verteilungsfunktion 8.2 EDF- Kolmogorov-Smirnov-Test Anderson-Darling-Test Cramer-von Mises-Test 8.3 Anpassungstest auf Normalverteilung - Shapiro-Wilk-Test 8.4. auf weitere Verteilungen W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 419

Einführung Tests Problem Klassische Test- und Schätzverfahren sind oft konzipiert unter der Normalverteilungsannahme. Frage Gilt sie überhaupt? W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 390 / 419

Gilt die Normalverteilung? (1) Hampel, 1980, Biometr. Journal Eine Zeitlang glaubte (fast) jeder an das normale Fehlergesetz, die Mathematiker, weil sie es für ein empirisches Faktum hielten, und die Anwender, weil sie es für ein mathematisches Gesetz hielten. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 391 / 419

Gilt die Normalverteilung? (2) Geary 1947, Biometrika Normality is a myth; there never was, and never will be, a normal distribution. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 392 / 419

Tests (X 1,...,X n ) iid., X i F, F unbekannt. Anpassungstest auf eine spezifizierte Verteilung: H 0 : F = F 0 gegen H 1 : F F 0. I.A. hängt F von unbekannten Parametern ab. Anpassungstest auf eine Normalverteilung: H 0 : F(x) = Φ ( x µ ) σ H 1 : F(x) Φ ( x µ ) σ (µ, σ unbekannt) µ, σ, σ > 0 (Φ: Verteilungsfunktion der Standardnormal.). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 393 / 419

Tests Gewicht von Hühnern 156 162 168 182 186 190 190 196 202 210 214 220 226 230 230 236 236 242 246 270 Abmessungen von Banknoten, oben (echt, falsch) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 394 / 419

Auf der empirischen Verteilungsfunktion beruhende Tests Empirische Verteilungsfunktion Seien X 1,..., X n unabh. Beobachtungen, X (1)... X (n) die geordneten Beob. Die Funktion 0 x < X (1) i F n (x) = X n (i) x < X (i+1) i = 1...n 1 X (n) x heißt empirische Verteilungsfunktion. Satz v. Glivento-Cantelli: F n (x) F(x). (Hauptsatz der math. Statistik genannt) EDF.sas EDF_2.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 396 / 419

Auf der empirischen Verteilungsfunktion beruhende Tests Kolmogorov-Smirnov-Test D = sup F n (x) F 0 (x) x Anderson-Darling-Test (F n (x) F 0 (x)) 2 A-sq = n F 0 (x)(1 F 0 (x)) df 0(x) Cramer-von Mises-Test W-sq = n ( Fn (x) F 0 (x) ) 2 df0 (x) W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 397 / 419

auf Normalverteilung Auf der empirischen Verteilungsfunktion beruhende Tests hier: F 0 (x) = Φ ( x ˆµ ), ˆσ ˆµ = X = 1 n X i, n i=1 ˆσ 2 = s 2 1 n = (X i X) 2 n 1 D D n (Kolmogorov-Verteilung) approx. lim P 0(D < x ) = 1 2 ( 1) k e 2k2 x 2 n n (Kolmogorov, 1933). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 399 / 419 i=1 k=1

auf Normalverteilung Auf der empirischen Verteilungsfunktion beruhende Tests Modifikationen für endliche Stichproben (zur Info.) D: D ( n 0.01 + 0.85/ n) A sq: A-sq (1.0 + 0.75/n + 2.25/n 2 ) W-sq: W-sq (1.0 + 0.5/n) Große Werte von D, A-sq und W-sq führen jeweils zur Ablehnung von H 0. p-werte werden vom Programm berechnet. Test_GoF_Banknote.sas Test_GoFDarwin.sas aufg24.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 401 / 419

Shapiro-Wilk-Test Vorbemerkungen: Tests X i N(µ, σ 2 ), Y i = X i µ σ i = 1,...,n. Geordnete Beobachtungen: Die Erwartungswerte N(0, 1) X (1)... X (n) Y (1)... Y (n). m i := E(Y (i) ) n! = (i 1)!(n i)! sind bekannt (und vertafelt). tφ i 1 (t)(1 Φ(t)) n i φ(t)dt W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 402 / 419

Shapiro-Wilk-Test Tests Approximation (Blom, 1958) m i m i = Φ 1( i 0.375 n + 0.25 ) EX (i) X (i) = µ + σm i = µ + σm i + ǫ i einfaches lineares Regressionsmodell mit Parametern µ, σ. Eǫ i = 0, aber die ǫ i sind nicht unabhängig. V := cov(y (i), Y (j) ), m := (m 1,...,m n ) X := (X (1),...,X (n) ). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 403 / 419

Verallgemeinerter Kleinster Quadrat-Schätzer von σ: ˆσ = m V 1 X m V 1 m wird verglichen mit der gewöhnlichen Standardabweichung s, s 2 = 1 n 1 n (X i X) 2. i=1 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 404 / 419

Shapiro-Wilk-Statistik W = ˆσ 2 s 2 (n 1) (m V 1 m) 2 m V 2 m = (h X) 2 n i=1 (X i X) 2 h h wobei h = m V 1 (bekannt, vertafelt). Wegen h i = 0 folgt: W ist Quadrat des (empir.) Korrelationskoeffizienten von h und X: ( n i=1 (X i X)(h i h) ) 2 W = n i=1 (X i X) 2 n i=1 (h i h) 2, W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 406 / 419

( n i=1 (X i X)(h i h) ) 2 W = n i=1 (X i X) 2 n i=1 (h i h) 2, Offenbar: 0 W 1. W 1 indiziert, dass h = m V 1 ( 2m ): ein Vielfaches von X ist. D.h. die Punkte (m i, X (i) ) liegen etwa auf einer Geraden, was Normalverteilung indiziert. H 0 wird ablehnt, falls W < W α (n). Test_GoF_Shapiro_Wilk.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 408 / 419

Shapiro-Wilk Test Scores des 1 Wettkämpfers (5 Preisrichter) 31.2, 31.2, 31.4, 32.0, 33.1 Mit der Prozedur UNIVARIATE erhalten wir s = 0.80747 und mit der Prozedur GPLOT (Option REGEQN) ˆσ = 0.805 im Regressionsmodell Y i = µ + σm i + ǫ i Für die Shapiro-Wilk Statistik bekommen wir (c: Normierungsfaktor) W = ˆσ2 s 2 c = 0.966. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 409 / 419

Shapiro-Wilk Test Approximative Dichtefunktion von W (unter H 0 ) ( n i=1 (X i X)(h i h) ) 2 W = n i=1 (X i X) 2 n i=1 (h i h) 2, n = 10 n = 50 12 10 30 8 6 20 4 2 10 0.7 0.75 0.8 0.85 0.9 0.95 0.9 0.92 0.94 0.96 0.98 W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 410 / 419

Tests SAS verwendet eine Approximation von W. Der Shapiro-Wilk-Test erweist sich für kleinere, mittlere und größere Stichprobenumfänge als geeignetster Test (höchste Güte). Früher wurde meist der sogen. χ 2 -Anpassungstest verwendet. Dieser hat jedoch geringe Güte. W ist etwas besser als A-sq, besser als W-sq, und viel besser als D und χ 2. D ist nur für sehr große Stichprobenumfänge zu empfehlen (n 2000). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 411 / 419

Tests Man sollte beim Test auf Normalverteilung das Signifikanzniveau auf α = 0.1 hochsetzen, insbesondere wenn wenig robuste Tests (die NV verlangen) angewendet werden sollen. Robuste Tests haben meist geringen Effizienzverlust bei NV. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 412 / 419

Durchführung des Tests auf Normalverteilung Unter Verwendung von ˆµ, ˆσ: PROC UNIVARIATE NORMAL; RUN; PROC UNIVARIATE; HISTOGRAM variable / NORMAL; RUN; mit vorgebenen µ, σ: PROC UNIVARIATE; HISTOGRAM variable / NORMAL(mu=0, sigma=1); RUN; Bem.: Mit der Prozedur UNIVARIATE (Kommando HISTOGRAM) können Sie auch auf andere Verteilungen testen. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 414 / 419

8.4 auf weitere Verteilungen χ 2 -Anpassungstest (Pearson, 1900) Prinzip: Daten werden in p Klassen eingeteilt. Klassenhäufigkeiten: N i theoretische Klassenhäufigkeiten: np i X 2 = p (N i np i ) 2 i=1 np i X 2 χ 2 p 1 asymptotisch (bei bekannten µ, σ2 ) (Fisher, 1922) X 2 χ 2 p 3 approx. (bei 2 zu schätzenden Parametern, ML-Schätzung mit gruppierten Daten oder Minimum-χ 2 -Schätzung). W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 415 / 419

χ 2 -Anpassungstest Tests Nachteile des χ 2 - Wert von X 2 abhängig von Klasseneinteilung. χ 2 - Anpassungstest auf Normalverteilung hat geringe Güte. Diskrete Verteilungen Hier kann der χ 2 -Anpassungstest genommen werden (natürliche Klasseneinteilung) Prozedur FREQ, Option CHISQ W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 416 / 419

χ 2 -Anpassungstest Diskrete Gleichverteilung PROC FREQ; TABLES var1 /CHISQ; RUN; Sonstige diskrete Verteilungen wie oben, zusätzlich sind die Einzelwktn. explizit zu formulieren, /CHISQ TESTP=(p 1,..., p k ); Test_GoF_Poisson.sas Anzahlen schon gegeben Die Variablen, die Anzahlen bezeichnen, werden durch ein WEIGHT-Kommando angegeben. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 418 / 419

EDF-Tests Stetige Verteilungen zugelassen sind: Normal, Gamma, Weibull, Lognormal, Exponential HISTOGRAM var1 / Gamma; Test_GoF_Darwin_1.sas W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 420 / 419