Überblick über die Tests



Ähnliche Dokumente
Melanie Kaspar, Prof. Dr. B. Grabowski 1

Statistik Vorlesung 6 (Tests II)

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Motivation. Wilcoxon-Rangsummentest oder Mann-Whitney U-Test. Wilcoxon Rangsummen-Test Voraussetzungen. Bemerkungen

Eine Einführung in R: Statistische Tests

Einfache statistische Auswertungen mit dem Programm SPSS

Güte von Tests. die Wahrscheinlichkeit für den Fehler 2. Art bei der Testentscheidung, nämlich. falsch ist. Darauf haben wir bereits im Kapitel über

Statistik II für Betriebswirte Vorlesung 2

Forschungsstatistik I

W-Rechnung und Statistik für Ingenieure Übung 11

Statistik Vorlesung 6 (Tests II)

1.3 Die Beurteilung von Testleistungen

Statistische Auswertung:

Statistik Vorlesung 6 (Tests II)

Tutorial: Homogenitätstest

Statistik II für Betriebswirte Vorlesung 3

Statistik II Wahrscheinlichkeitsrechnung und induktive Statistik Erste Klausur zum Sommersemester Juli 2005

R ist freie Software und kann von der Website.

Überblick über die Verfahren für Ordinaldaten

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Statistik Vorlesung 6 (Tests II)

Die Optimalität von Randomisationstests

Statistik I für Betriebswirte Vorlesung 11

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Statistik für Studenten der Sportwissenschaften SS 2008

Schleswig-Holstein Kernfach Mathematik

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Lineare Funktionen. 1 Proportionale Funktionen Definition Eigenschaften Steigungsdreieck 3

Willkommen zur Vorlesung Statistik

Statistische Auswertung der Daten von Blatt 13

QM: Prüfen -1- KN

Statistische Thermodynamik I Lösungen zur Serie 1

Grundlagen der Theoretischen Informatik, SoSe 2008

Klausur zu Methoden der Statistik I (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

A Lösungen zu Einführungsaufgaben zu QueueTraffic

Einige Statistische Tests für den Ein- Zwei- und k-stichprobenfall (Nach Sachs, Stat. Meth.)

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Welche Lagen können zwei Geraden (im Raum) zueinander haben? Welche Lagen kann eine Gerade bezüglich einer Ebene im Raum einnehmen?

Simulation LIF5000. Abbildung 1

15.3 Bedingte Wahrscheinlichkeit und Unabhängigkeit

Mathematische und statistische Methoden II

Quadratische Gleichungen

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Analog zu Aufgabe 16.1 werden die Daten durch folgenden Befehl eingelesen: > kredit<-read.table("c:\\compaufg\\kredit.

Korrelation (II) Korrelation und Kausalität

Einfache Varianzanalyse für abhängige

Wachstum 2. Michael Dröttboom 1 LernWerkstatt-Selm.de

4. Erstellen von Klassen

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Etwas positive Tendenz ist beim Wechsel der Temperatur von 120 auf 170 zu erkennen.

AQL. 9. Statistisches Qualitätsmanagement 9.3 Statistische Methoden der Warenannahme (AQL)

Lichtbrechung an Linsen

Willkommen zur Vorlesung Statistik (Master)

Wichtiges Thema: Ihre private Rente und der viel zu wenig beachtete - Rentenfaktor

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Das große ElterngeldPlus 1x1. Alles über das ElterngeldPlus. Wer kann ElterngeldPlus beantragen? ElterngeldPlus verstehen ein paar einleitende Fakten

Leseprobe. Wilhelm Kleppmann. Versuchsplanung. Produkte und Prozesse optimieren ISBN: Weitere Informationen oder Bestellungen unter

Erfahrungen mit Hartz IV- Empfängern

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Was bedeutet Inklusion für Geschwisterkinder? Ein Meinungsbild. Irene von Drigalski Geschäftsführerin Novartis Stiftung FamilienBande.

Auftragsbearbeitung 3.1

Anleitung über den Umgang mit Schildern

9. Schätzen und Testen bei unbekannter Varianz

STATISTIK. Erinnere dich

Data Mining: Einige Grundlagen aus der Stochastik

Professionelle Seminare im Bereich MS-Office

R. Brinkmann Seite Schriftliche Übung Mathematik Stochastik II (Nachschreiber) Jan. 2007

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

AUTOMATISIERTE HANDELSSYSTEME

Sichere Anleitung Zertifikate / Schlüssel für Kunden der Sparkasse Germersheim-Kandel. Sichere . der

Aufgabe 1: Nehmen Sie Stellung zu den folgenden Behauptungen (richtig/falsch mit stichwortartiger Begründung).

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

4. Versicherungsangebot

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

7 Rechnen mit Polynomen

Vermögensbildung: Sparen und Wertsteigerung bei Immobilien liegen vorn

1 Mathematische Grundlagen

Kann K von V die Übertragung des Eigentums am Grundstück verlangen?

Umsatzsteuer-Kartei OFD Frankfurt am Main

6.2 Scan-Konvertierung (Scan Conversion)

Beweisbar sichere Verschlüsselung

Systeme 1. Kapitel 6. Nebenläufigkeit und wechselseitiger Ausschluss

Rundung und Casting von Zahlen

Daten sammeln, darstellen, auswerten

Media Teil III. Begriffe, Definitionen, Übungen

Informationsblatt Induktionsbeweis

Primzahlen und RSA-Verschlüsselung

S/W mit PhotoLine. Inhaltsverzeichnis. PhotoLine

Aufwendungen für die Miete langfristiger und sonstiger Anlagegüter. sind als betriebsnotwendig anzuerkennen, wenn das zu zahlende

Elektrische Logigsystem mit Rückführung

Speicher in der Cloud

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG

Bürgerhilfe Florstadt

Mit dem Tool Stundenverwaltung von Hanno Kniebel erhalten Sie die Möglichkeit zur effizienten Verwaltung von Montagezeiten Ihrer Mitarbeiter.

Bereich METIS (Texte im Internet) Zählmarkenrecherche

Versetzungsregeln in Bayern

Nichtparametrische statistische Verfahren

Transkript:

Anhang A Überblick über die Tests A.1 Ein-Stichproben-Tests A.1.1 Tests auf Verteilungsannahmen ˆ Shapiro-Wilk-Test Situation: Test auf Normalverteilung H 0 : X N(µ, σ 2 ) H 1 : X nicht normalverteilt Voraussetzungen: X i i.i.d. > set.seed(45) > x <- rexp(20) > shapiro.test(x) ˆ Kolmogorov-Smirnov-Test Situation: Test auf spezielle Verteilung (stetig) H 0 : x : F X (x) = F 0 (x) H 1 : x : F X (x) F 0 (x) oder x : F X (x) > F 0 (x) oder x : F X (x) < F 0 (x) Voraussetzungen: X i i.i.d. und die Werte sind nicht merklich gerundet. Der Test gilt so nur, wenn die Parameter nicht geschätzt werden mußten. Eine kleinere Verteilungsfunktion gehört zu größeren Werten. > ks.test(x, pexp) ˆ χ 2 -Anpassungstest Situation: Test auf spezielle Verteilung (diskret) H 0 : P (X = i) = p i H 1 : i : P (X = i) p i Voraussetzungen: X i i.i.d. multinomialverteilt A-1

A-2 ANHANG A. ÜBERBLICK ÜBER DIE TESTS A.1.2 > x <- sample(c("a", "B", "C"), 30, replace = TRUE, prob = c(0.2, + 0.3, 0.5)) > x [1] "B" "C" "B" "C" "A" "C" "C" "C" "B" "C" "B" "B" "C" "A" "C" "B" [17] "C" "B" "B" "C" "C" "C" "C" "B" "A" "C" "B" "B" "B" "A" > table(x) x A B C 4 12 14 > chisq.test(table(x), p = c(1/3, 1/3, 1/3)) Chi-squared test for given probabilities data: table(x) X-squared = 5.6, df = 2, p-value = 0.06081 Tests auf Lage ˆ Gausstest Situation: Test auf Mittelwert bei bekannter Varianz H 0 : µ = µ 0 H 1 : µ µ 0 Voraussetzungen: X i N(µ, σ 2 0) Der Gauss-Test wird sehr selten auf reale Datensätze angewendet, da die Varianz fast nie bekannt ist. Er ist jedoch der wohl am leichtesten theoretisch zu verstehende Test und daher immer noch überall zu finden. ˆ Einstichproben t-test Situation: Test auf Mittelwert bei unbekannter Varianz H 0 : µ = µ 0 H 1 : µ µ 0 oder µ > µ 0 oder µ < µ 0 Voraussetzungen: X i N(µ, σ 2 0) > x <- rnorm(20, mean = 3, sd = 3.6) > t.test(x, mu = 3) > t.test(x, mu = 1, alternative = "greater") > t.test(x, mu = 1, alternative = "less") ˆ Binomial Test Situation: Test auf Erfolgswahrscheinlichkeit H 0 : p = p 0 H 1 : p p 0 oder p > p 0 oder p < p 0 Voraussetzungen: X Bi(p, n)

A.2. ZWEI-STICHPROBEN-TESTS A-3 > x <- rbinom(20, 1, prob = 0.3) > x > table(x) > binom.test(sum(x), length(x), p = 0.1, alternative = "greater") ˆ Vorzeichentest Situation: Test auf bestimmten Median H 0 : F X (0.5) = m 0 H 1 : F X (0.5) m 0 oder F X (0.5) > m 0 oder F X (0.5) < m 0 Voraussetzungen: X i i.i.d.. Verteilung im Median stetig > x <- rcauchy(20, 4, 1) > binom.test(table(x <= 4)) > binom.test(table(x <= 2)) A.1.3 Tests auf Streuung ˆ χ 2 -Test auf Varianz Situation: Test auf gegebenen Varianz bei normalverteilten Daten. H 0 : σ 2 = σ 2 0 H 1 : σ 2 σ 2 0 oder σ 2 > σ 2 0 oder σ 2 < σ 2 0 Voraussetzungen: X i N(µ, σ 2 ) A.2 Zwei-Stichproben-Tests A.2.1 Tests auf Verteilungsgleichheit ˆ Zwei Stichproben Kolmogorov-Smirnov-Test Situation: Testet die Gleichheit der stetigen Verteilungen der Stichproben H 0 : x : F X (x) = F Y (x) H 1 : x : F X (x) F Y (x) oder x : F X (x) > F Y (x) oder x : F X (x) < F Y (x) Voraussetzungen: X i und Y i sind i.i.d. und stetig Ungenau bei Bindungen. Die kleinere Verteilungsfunktion gehört zu größeren Werten. > x <- rcauchy(100, 1, 1) > y <- rexp(120, 1) > ks.test(x, y, alternative = "less") ˆ χ 2 -Test auf Verteilungsgleichheit (diskret) Situation: Testet die Gleichheit zweier diskreter Verteilungen. H 0 : p i = q i H 1 : p i q i Voraussetzungen: X i Mu((p i )),Y i Mu((q i )) i.i.d.

A-4 ANHANG A. ÜBERBLICK ÜBER DIE TESTS A.2.2 > x <- sample(c("a", "B", "C"), 30, replace = TRUE, prob = c(0.2, + 0.3, 0.5)) > y <- sample(c("a", "B", "C"), 20, replace = TRUE, prob = c(0.3, + 0.6, 0.1)) > chisq.test(cbind(table(x), table(y))) Tests auf Lagegleichheit ˆ Zwei-Stichproben-t-Test Situation: Vergleich von Mittelwerten zweier Stichproben bei Normalverteilung und gleicher Varianz H 0 : µ X = µ Y H 1 : µ X µ Y oder µ X > µ Y oder µ X < µ Y Voraussetzungen: X i N(µ X, σ 2 ) und Y i N(µ Y, σ 2 ), i.i.d. Die Normalverteilungsvoraussetzung ist relativ unkritisch, solange keine Ausreißer vorliegen und Verteilung ungefähr normal ist. Die Normalverteilungsvoraussetzung kann mit dem Shapiro-Wilk Test und die Varianzgleichheit mit dem F-Test überprüft werden. > x <- rnorm(10, mean = 2, sd = 4) > y <- rnorm(10, mean = 3, sd = 4) > shapiro.test(x) > shapiro.test(y) > var.test(x, y) > t.test(x, y, alternative = "two.sided", var.equal = TRUE) ˆ Welchs t Test Situation: Vergleich von Mittelwerten zweier Stichproben bei Normalverteilung und verschiedener Varianz H 0 : µ X = µ Y H 1 : µ X µ Y oder µ X > µ Y oder µ X < µ Y Voraussetzungen: X i N(µ X, σx 2 ) und Y i N(µ Y, σy 2 ), i.i.d. Die Normalverteilungsvoraussetzung ist relativ unkritisch, solange keine Ausreißer vorliegen und Verteilung ungefähr normal ist. > x <- rnorm(10, mean = 2, sd = 1) > y <- rnorm(10, mean = 6, sd = 4) > shapiro.test(x) > shapiro.test(y) > var.test(x, y) > t.test(x, y, alternative = "two.sided") ˆ Wilcoxen Rang Summen Test Situation: Vergleich der Lage zweier Stichproben mit stetiger Verteilung H 0 : x : F X (x) = F Y (x) H 1 : x : F X (x) = F Y (x c) mit c 0 oder c > 0 oder c < 0 Voraussetzungen: X i und Y i sind alle stochastisch unabhängig und die F X und F Y sind stetig.

A.3. GEPAARTE TESTS A-5 A.2.3 Es handelt sich um ein rangbasiertes Verfahren. Der Test wird allgemein verwendet um die Lagegleichheit bei nicht normalverteilten Stichproben zu Testen, da die Voraussetzung der Verteilungsgleichheit für die Korrektheit des Tests unkritisch ist. Der Test wird ungenau, wenn gleiche Werte (Bindungen) vorkommen. > x <- rexp(10, 5) > y <- rnorm(12, 3) > wilcox.test(x, y) ˆ F-Test Tests auf Streuungsgleichheit Situation: Test auf Gleichheit der Varianz bei Normalverteilung H 0 : σ 2 X = σ2 Y H 1 : σ 2 X σ2 Y oder σ2 X > σ2 Y oder σ2 X < σ2 Y Voraussetzungen: X i N(µ, σ 2 X ), Y i N(µ, σ 2 Y ) > var.test(x, y) ˆ Für nicht normalverteilte Datensätze eignet sich der unter Mehrstichproben- Tests beschriebene Fligner Test. > fligner.test(list(x, y)) A.3 Gepaarte Tests Bei gepaarten Tests werden an jedem statistischen Individuum zwei abhänige Wert X i und Y i beobachtet. Beobachtungen an den verschiedene Individuen müssen stochastisch unabhängig sein. A.3.1 Tests auf Lage ˆ gepaarter t-test Situation: H 0 : E[X Y ] = 0 H 1 : E[X Y ] 0 oder E[X Y ] > 0 oder E[X i Y i ] < 0 Voraussetzungen: X i Y i N(µ, σ 2 ) Dieses normalverteilungsbasierte Verfahren hat Probleme mit Ausreißern in der Differenz. > x <- rnorm(10, mean = 10, sd = 5) > y <- x + rnorm(10, mean = 0.1, sd = 0.05) > t.test(x, y, paired = TRUE) ˆ Wilcoxen-Vorzeichen-Rang-Test Situation: Testet auf eine mittlere Änderung von 0 zwischen beiden Beobachtungen am gleichen Individuum. H 0 : Die Verteilung von X i Y i ist symmetrisch um 0.

A-6 ANHANG A. ÜBERBLICK ÜBER DIE TESTS H 1 : Die Verteilung von X i Y i ist symmetrisch um ein c 0 oder c < 0 oder c > 0 Voraussetzungen: Die Verteilung ist für alle Paare gleich. Dieses rangbasierte Verfahren hat Probleme mit Bindungen in den Differenzen. > x <- rcauchy(10, 10, 5) > y <- x + rcauchy(10, 0.1, 0.05) > wilcox.test(x, y, paired = TRUE) A.3.2 Tests auf Abhängigkeit ˆ Pearson Korrelationstest Situation: Test auf Pearson-Korrelation gleich 0 H 0 : cor(x, Y ) = 0 H 1 : cor(x, Y ) 0 oder cor(x, Y ) > 0 oder cor(x, Y ) < 0 Voraussetzungen: (X, Y ) N( µ, Σ) > x <- rnorm(10) > y <- rnorm(10) > cor.test(x, y) > cor.test(x, y, alternative = "greater") > cor.test(x, y, alternative = "less") ˆ Spearman Korrelationstest Situation: Test auf Spearman-Rang-Korrelation H 0 : H 1 : Voraussetzungen: > x <- rlnorm(10) > y <- rlnorm(10) > cor.test(x, y, method = "spearman") ˆ χ 2 -Test auf Unabhängigkeit in Kontingenztafeln Situation: Test auf Unabhängigkeit von kategoriellen Merkmalen H 0 : X und Y sind stochastisch unabhängig H 1 : X und Y sind stochastisch abhängig Voraussetzungen: Die einzelnen Individuen sind stochastisch unabhängig Der p-wert des Tests wird nur approximativ berechnet. Die Approximation ist schlecht, wenn in einzelnen Zellen der Datentafel unter der Unabhängigkeitsannahme weniger als 3-5 Werte zu erwarten sind. > x <- sample(c("a", "B", "C"), 40, TRUE, c(0.1, 0.2, 0.7)) > y <- sample(c("u", "V", "W"), 40, TRUE, c(0.5, 0.2, 0.2)) > chisq.test(x, y) > table(x, y) > chisq.test(table(x, y))

A.4. MEHRSTICHPROBEN TESTS A-7 ˆ Fishers exakter Test Situation: Test auf Unabhängigkeit von 2x2 Kontingenztafeln und dichtomer Merkmale H 0 : Die Merkmale sind stochastisch Unabhängig H 1 : Die Merkmale sind stochastisch abhängig Voraussetzungen: Die Merkmale an verschiedenen statistischen Individuen sind stochastische unabhängig. Im Gegensatz zum χ 2 -Test auf Unabhängigkeit wird hier keine Approximation verwendet. Der Test ist also immer dann vorzuziehen, wenn er in der Situation anwendbar ist. > x <- sample(c("a", "B"), 40, TRUE, c(0.3, 0.7)) > y <- sample(c("u", "V"), 40, TRUE, c(0.8, 0.2)) > table(x, y) > fisher.test(table(x, y)) ˆ Box-Pierce-Test Situation: Test auf Abhängigkeit in einer Zeitreihe H 0 : Die X i sind stochastisch unabhängig H 1 : Die X i sind jeweils vom Vorgänger abhängig Voraussetzungen: die X i sind normalverteilt Dieser Test gehört eigentlich in die Zeitreihenanalyse. Er ist jedoch oft nützlich, um die Unabhängigkeitsannahme in ganz normalen Datensätzen zu widerlegen. > Box.test(rnorm(1000)) A.4 Mehrstichproben Tests A.4.1 Tests auf Gleichheit der Lage ˆ Einfache Varianzanalyse Situation: Test auf Gleichheit der Erwartungswerte mehrerer normalverteilter Stichproben. H 0 : g, g : µ g = µ g H 1 : g, g : µ gi µ j Voraussetzungen: X i N(µ gi ) wobei g i die Gruppenzugehörigkeit des Individuums i beschreibt. Die Varianzanalyse setzt die Gleichheit der Varianz und Normalverteilung voraus. > data(iris) > anova(lm(sepal.length ~ Species, data = iris)) Der p-wert kann unter P(>F) abgelesen werden. ˆ Kruskal Wallis Test Situation: Test auf Gleichheit der Lage mehrerer stetig verteilter Stichproben.

A-8 ANHANG A. ÜBERBLICK ÜBER DIE TESTS A.4.2 H 0 : Alle Gruppen haben die gleiche Verteilung H 1 : Die Verteilungen der Gruppen sind gegeneinander verschoben. Voraussetzungen: Die X i unabhängig sein. Der Kruskal Wallis Test ist ein Rangbasiertes Verfahrung und ist damit potentiell anfällig gegegen zu viele gleiche Messwerte. > kruskal.test(sepal.length ~ Species, data = iris) Tests auf Gleichheit der Streuung ˆ Bartlett Test Situation: Testet auf gleiche Varianz in mehrere Stichproben H 0 : Die Varianzen der Stichproben sind gleich H 1 : Die Varianzen der Stichproben sind nicht alle gleich. Voraussetzungen: X i G i N(µ Gi, σ Gi ) stochastisch unabhängig. Dieser Test wird oft eingesetzt, um eine Voraussetzung der Varianzanalyse zu überprüfen. > bartlett.test(sepal.length ~ Species, data = iris) ˆ Fligner Test Situation: Testet auf gleiche Streuung in mehreren Stichproben H 0 : Die Streuungen der Stichproben sind gleich. H 1 : Die Streuungen der Stichproben sind unterschiedlich. Voraussetzungen: Die Beobachtungen sind alle stochastisch Unabhängig, stetig verteilt und die Verteilung hängt nur von der Gruppe ab. > fligner.test(sepal.length ~ Species, data = iris)