Jonathan Harrington. Die t-verteilung

Ähnliche Dokumente
Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Hypothesentests mit R Ashkan Taassob Andreas Reisch

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

W-Rechnung und Statistik für Ingenieure Übung 13

> read.table("d:\\reifen.txt",header=t) > Reifen

Die Varianzanalyse. Analysis of Variance (ANOVA) Jonathan Harrington

library(lattice) source(file.path(pfadu, "proben.r")) form = read.table(file.path(pfadu, "bet.txt")) e.df = read.table(file.path(pfadu, "e.

library(lattice) nex = read.table(file.path(pfadu, "normexample.txt")) source(file.path(pfadu, "lattice.normal.r"))

Dipl.-Volksw. Markus Pullen Wintersemester 2012/13

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Analytische Statistik: Varianzanpassungstest, Varianzhomogenitätstest. Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09

Fragestellungen. Ist das Gewicht von Männern und Frauen signifikant unterschiedlich? (2-sample test)

Statistik für Ingenieure Vorlesung 12

Teil VIII Hypothesentests für zwei Stichproben

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests

Eine Einführung in R: Statistische Tests

Biostatistik, WS 2017/18 Der zwei-stichproben-t-test

Statistische Auswertung der Daten von Blatt 13

das Kleingedruckte...

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Vergleich zweier Stichproben

epg = read.table(file.path(pfadu, "epg.txt")) amp = read.table(file.path(pfadu, "dbdauer.txt"))

Fragestellungen. Ist das Gewicht von Männern und Frauen signifiant unterschiedlich? (2-sample test)

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Aufgabe Σ erreichbare Punkte

Übung zur Vorlesung Statistik I WS Übungsblatt 9

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Metrische und kategoriale Merkmale

Statistisches Testen

Teil X. Hypothesentests für eine Stichprobe. Woche 8: Hypothesentests für eine Stichprobe. Lernziele. Statistische Hypothesentests

Biostatistik, WS 2013/2014 Wilcoxons Rangsummen-Test

Gesamtcholesterin Region A Region B <170 (optimal) 80 >=170 (Risiko)

14.3 Das Einstichprobenproblem in R

Jost Reinecke. 7. Juni 2005

Gesamtcholesterin Region A Region B <170 (optimal) 80 >=170 (Risiko)

Biostatistik, WS 2015/2016 Der zwei-stichproben-t-test

Vergleich von Gruppen I

Kovarianz, Korrelation, (lineare) Regression

# Befehl für den Lilliefors-Test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 5. Der zwei-stichproben-t-test. und der Wilcoxon-Test

Teil VII Hypothesentests für eine Stichprobe

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Statistik und Wahrscheinlichkeitstheorie UE EDV Übung mit GNU R

Beurteilung von Analysenwerten im Hinblick auf eine Grenzwertüberschreitung

Vorlesung: Statistik II für Wirtschaftswissenschaft

Stochastik Praktikum Testtheorie

Biostatistik. Lösung

Varianzanalyse mit Messwiederholungen. (Repeated-measures (M)ANOVA)

Ein metrisches Merkmal

Auswertung und Lösung

Wie liest man Konfidenzintervalle? Teil I. Premiu m

t-tests Lösung: b) und c)

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Lösungen zur Hausaufgabe Statistik für Hydrologen 2016

Eine Einführung in R: Statistische Tests

Prüfen von Mittelwertsunterschieden: t-test

Biostatistik 101 Korrelation - Regressionsanalysen

Statistik für Ingenieure Vorlesung 13

Biostatistik, Sommer 2017

E 71,00 74,00 67,50 62,5 52,75 53,00 H 6,00 5,00 5,00 3,00 2,75 4,25

Überblick über die Tests

Wahrscheinlichkeitsverteilungen

ANGEWANDTE STATISTIK II Prüfungstermin Name:

Statistik für Ingenieure Vorlesung 11

(Repeated-measures ANOVA) path = "Verzeichnis wo Sie anova1 gespeichert haben" attach(paste(path, "anova1", sep="/"))

Sie wissen noch, dass 18.99% der Surfer, die kein Smartphone haben, pro Monat weniger als 20 Stunden das Internet nutzen, d.h. f(y 1 X 2 ) =

Prüfungstermin aus Angewandter Statistik (WS 2012/13) Name:

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Übungsprogramm MBIOB17 SS 2015 Aufgabenblatt 4 - Lösungen mit R/R-Console

Methodenlehre. Vorlesung 10. Prof. Dr. Björn Rasch, Cognitive Biopsychology and Methods University of Fribourg

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Blockpraktikum zur Statistik mit R

3. Geben Sie Modus, Erwartungswert und Varianz der Zufallsvariablen X an.

Güteanalyse. Nochmal zur Erinnerung: Hypothesentest. Binominalverteilung für n=20 und p=0,5. Münzwurf-Beispiel genauer

1 Ausgangssituation und Versuchsziel

Statistik-Quiz Wintersemester

Mehrfache und polynomiale Regression

Die Varianzanalyse ohne Messwiederholung. Jonathan Harrington. Bi8e noch einmal datasets.zip laden

Handelt es sich bei den folgenden um diskrete oder stetige Zufallsvariablen?

Schriftliche Prüfung (2 Stunden)

Statistik K urs SS 2004

1. Erklären Sie den Unterschied zwischen einem einseitigen und zweiseitigen Hypothesentest.

Wahrscheinlichkeitsrechnung und Statistik für Biologen 4. Der t-test

Statistik I. Methodologie der Psychologie

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2009/2010. Aufgabe 1

Hypothesenprüfung. Darüber hinaus existieren zahlreiche andere Testverfahren, die alle auf der gleichen Logik basieren

Programmieren in R - Lösungen zum Kapitel Data Analysis Christoph Rust Oktober 2018

e) Beim klassischen Signifikanztest muß die Verteilung der Prüfgröße unter der Nullhypothese

Wahrscheinlichkeit und Statistik BSc D-INFK

Biostatistik, WS 2017/18 Der t-test

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2007/2008. Aufgabe 1

Stichproben Parameterschätzung Konfidenzintervalle:

Transkript:

Jonathan Harrington Die t-verteilung

Standard error of the mean (SE) ist die Standardabweichung von Mittelwerten Ich werfe 5 Würfel und berechne den Mittelwert der Zahlen µ = 3.5 der wahrscheinlichste Wert Die Verteilung der Mittelwerte. Bedeutung: ich werde nicht jedes Mal einen Mittelwert m = 3.5 bekommen, sondern davon abweichende Mittelwerte. Der SE ist eine numerische Verschlüsselung dieser Abweichung.

Standard error of the mean (SE) x σ = µ n 2 2 sigma()/sqrt(5) 0.7637626 sigma <- function(unten=1, oben=6) { x = unten:oben n = length(x) m = mean(x) sqrt((sum(x^2)/n - m^2)) }

Standard error of the mean (SE) und der Vertrauensintervall 95% Vertrauensintervall qnorm(0.025) Bedeutung: 3.5-1.96 * sigma()/sqrt(5) oder qnorm(0.025, 3.5, sigma()/sqrt(5)) 2.003025 qnorm(0.975, 3.5, sigma()/sqrt(5)) 4.996975 Wenn ich 5 Würfel werfe, dann liegt der Stichproben- Mittelwert, m, dieser 5 Zahlen zwischen 2.00 und 5.00 mit einer Wahrscheinlichkeit von 95% (0.95). Probieren! a = proben(1, 6, 5, 100) sum(a < 2 a > 5)

Standard error of the mean (SE) und der Vertrauensintervall SE wird kleiner, umso größer n. umso größer n, umso weniger weicht m von µ ab. Oder: Je mehr Würfel wir werfen, umso wahrscheinlicher ist es/sicherer wird es sein, dass m nah an µ ist. Im unendlichen Fall wir werfen unendlich viele Würfel und berechnen deren Zahlenmittelwert ist SE 0 (NULL) und m = µ = 3.5.

Standard error of the mean (SE) wenn σ unbekannt ist. Lenneberg behauptet, dass wir im Durchschnitt mit einer Geschwindigkeit von 6 Silben pro Sekunde sprechen. Hier sind 12 Werte (Silben/Sekunde) von einem Sprecher. swerte [1] 6 5 6 9 6 5 6 8 5 6 10 9 Frage: sind die Werte überraschend? (angenommen µ = 6?). Präzisere/bessere Frage: ist der Unterschied zwischen µ und m signifikant? (Oder: fällt m außerhalb des 95% Vertrauensintervalls von µ?). Das Verfahren: a one-sampled t-test

Präzisere/bessere Frage: fällt m außerhalb des 95% Vertrauensintervalls von µ? A. Um das Vertrauensintervall um µ zu berechnen, benötigen wir den SE. B. Damit lässt sich ein Vertrauensintervall m k SE bis m + k SE setzen (k ist eine gewisse Anzahl von SEs). C. Wenn m (in diesem Fall 6.75) innerhalb dieses Intervalls fällt, ist das Ergebnis 'nicht signifikant' (konsistent mit der Hypothese, dass wir im Durchschnitt mit 6 Silben pro Sekunde sprechen).

A. Standard error of the mean (SE) berechnen Aber das können wir nicht berechnen, weil wir σ nicht wissen! Wir können aber σ ^ oder unsere beste Einschätzung von σ berechnen In R kann ^ σ ganz einfach mit sd() berechnet werden. Für diesen Fall: werte [1] 6 5 6 9 6 5 6 8 5 6 10 9 shut = sd(werte)

A. Standard error of the mean (SE) einschätzen werte [1] 6 5 6 9 6 5 6 8 5 6 10 9 shut = sd(werte) Einschätzung des Standard-Errors ^ SE = SEhut = shut/sqrt(12) 0.5093817

B. Vertrauensintervall: die t-verteilung Wenn die Bevölkerungs-Standardabweichung eingeschätzt werden muss, dann wird das Vertrauensintervall nicht mit der Normal- sondern der t-verteilung mit einer gewissen Anzahl von Freiheitsgraden berechnet. Die t-verteilung ist der Normalverteilung recht ähnlich, aber die 'Glocke' und daher das Vertrauensintervall sind etwas breiter (dies berücksichtigt, die zusätzliche Unsicherheit die wegen σ ^ entsteht). Bei diesem one-sample t-test ist die Anzahl der Freiheitsgrade, df (degrees of freedom), von der Anzahl der Werte in der Stichprobe abhängig: df = n 1 Je höher df, umso sicherer können wir sein, dass σ ^ = σ und umso mehr nähert sich die t-verteilung der Normalverteilung

Normalverteilung, µ = 0, σ = 1. curve(dnorm(x, 0, 1), -4, 4) t-verteilung, µ = 0, σ = 1, df = 3 curve(dt(x, 3), -4, 4, add=t, col="blue") function(x) dnorm(x, 0, 1) (x) 0.0 0.1 0.2 0.3 0.4-4 -2 0 2 4 curve(dt(x, 10), -4, 4, add=t, col="red") x

B. Vertrauensintervall um µ = 6 mu = 6 n = length(swerte) SEhut = sd(swerte)/sqrt(n) # eingeschätzter SE frei = n - 1 # Freiheitsgrade mu + SEhut * qt(0.025, frei) # untere Grenze 4.878858 mu + SEhut * qt(0.975, frei) # obere Grenze 7.121142

C. Signifikant? Auf der Basis dieser Stichprobe liegt µ zwischen 4.878858 und 7.121142 mit einer Wahrscheinlichkeit von 95%. Frage: angenommen µ = 6 sind die Werte überraschend? mean(swerte) [1] 6.75 Nein.

The two-sampled t-test Meistens werden wir 2 Stichprobenmittelwerte miteinander vergleichen wollen (und wesentlich seltener wie im vorigen Fall einen Stichprobenmittelwert, m, mit einem Bevölkerungsmittelwert, µ).

Zwei Händler, X und Y, verkaufen Äpfel am Markt. Die Äpfel von Y sind teuerer, weil seine Äpfel mehr wiegen (behauptet Y). Ich kaufe 20 Äpfel von X, 35 von Y. Ich wiege jeden Apfel und berechne: Gewicht-Mittelwert mx = 200 Gewicht S-abweichung sx = 20 X Y my = 220 sy = 30 Anzahl nx = 20 ny = 35 Ist dieser Unterschied mx my = 200 220 = 20 g signifkant?

Hypothesen H0: Es gibt keinen signifikanten Unterschied zwischen den Mittelwerten. = die Wahrscheinlichkeit, dass der Unterschied zwischen diesen Mittelwerten 0 sein könnte ist mehr als 0.05 (kommt öfter als 5 Mal pro Hundert vor). H1: Es gibt einen signifikanten Unterschied zwischen den Mittelwerten = die Wahrscheinlichkeit, dass der Unterschied zwischen diesen Mittelwerten 0 sein könnte ist weniger als 0.05 (kommt seltener als 5 Mal pro Hundert vor).

Vorgang Wir nehmen an, dass mx my = -20 g eine Stichprobe aus einer Normalverteilung ist. 1. Wir müssen die Parameter µ, σ (und dann SE) dieser Normalverteilung einschätzen. 2. Wir erstellen ein 95% Vertrauensintervall fuer die t- Verteilung. 3. Wenn dieses Vertrauenintervall 0 einschließt, ist H0 akzeptiert (kein signifikanter Unterschied zwischen mx und my) sonst H1 (der Unterschied ist signifikant).

1. µ, SE einschätzen Die beste Einschätzung von µ ist der Mittelwertunterschied unserer Stichprobe Fuer diesen Fall mu = mx my = 20

1. SE einschätzen Die beste Einschätzung von SE (n x 1)s 2 2 x + (n y 1)s y n x + n y 2 X Gewicht-Mittelwert mx = 200 Gewicht S-abweichung sx = 20 x 1 + 1 n x n y Y my = 220 sy = 30 Anzahl nx = 20 ny = 35 Für diesen Fall, SEhut = 7.525339 Bitte in R-Befehle umsetzen und bestätigen.

nx = 20 ny = 35 sx = 20 sy = 30 z = ((nx - 1) * sx^2) + ((ny - 1) * sy^2) nenn = nx + ny - 2 SEhut = sqrt(z/nenn) * sqrt(1/nx + 1/ny) [1] 7.525339

95% Vertrauensintervall df = nx + ny - 2-20 - qt(0.025, df) * SEhut -20 + qt(0.025, df) * SEhut -4.906081-35.09392 µ = -20 SEhut =7.525339 Der Unterschied zwischen den Mittelwerten liegt zwischen -35.09392g und -4.906081g mit einer Wahrscheinlichkeit von 95%

Der Unterschied zwischen den Mittelwerten liegt zwischen -35.09392g und -4.906081g mit einer Wahrscheinlichkeit von 95% Die Wahrscheinlichkeit, dass der Unterschied zwischen den Mittelwerten 0 sein könnte ist daher weniger als 5% (kommt weniger als 5 Mal pro 100 Stichproben vor). Daher akzeptieren wir H1: H1: Es gibt einen signifikanten Unterschied zwischen den Mittelwerten

Die benötigten Dauern (Minuten) an 9 Tagen im Winter in die Arbeit zu fahren sind: 20 15 19 22 17 16 23 18 20 Die entsprechenden Dauern an 11 Tagen im Sommer sind: 18 15 17 24 15 12 14 11 13 17 18 Ist der Unterschied zwischen den durchschnittlichen Sommer- und Winterzeiten signifikant (p < 0.05)?

Eine R-Funktion schreiben, SE2(x,y), um (n x 1)s x 2 + (n y 1)s y 2 zu berechnen. n x + n y 2 x 1 n x + 1 n y x = c(10, 15, 19, 9, 12, 8) y = c(14, 11, 9, 10, 4, 4, 19, 10) SE2(x, y) [1] 2.502747

SE2 <- function(x, y) { nx = length(x) ny = length(y) sx = sd(x) sy = sd(y) num = ((nx - 1) * sx^2) + ((ny - 1) * sy^2) den = nx + ny - 2 sqrt(num/den) * sqrt(1/nx + 1/ny) }

x = c(20, 15, 19, 22, 17, 16, 23, 18, 20) y = c(18, 15, 17, 24, 15, 12, 14, 11, 13, 17, 18) # SE SEhut = = SE2(x,y) # µ d = mean(x) - mean(y) # Anzahl der Freiheitsgrade df = length(x) + length(y) - 2 # Vertrauensintervall d - qt(0.025, df) * SEhut d + qt(0.025, df) * SEhut [1] 6.110471 [1] 0.03094282

Die t-test() Funktion > t.test(x, y, var.equal=t) 95% Vertrauensintervall Die Wahrscheinlichkeit, dass der Unterschied zwischen dem Mittelwert von x und dem Mittelwert von y gleicht 0 (Null) data: x and y t = 2.1223, df = 18, p-value = 0.04794 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 0.03094282 6.11047132 sample estimates: mean of x mean of y 18.88889 15.81818 t=2.1233 bedeutet: die Werte 18.88889 und 15.81818 sind 2.1233 SEs voneinander entfernt

t-test () fortgesetzt vowlax, vowlax.l, vowlax.spkr Segmentliste, Etikettierungen, Sprecherlabels (ungespannte deutsche Vokale) Unterschieden sich die beiden Sprecher (67 und 68) in der Dauer der E Vokale? temp = vowlax.l=="e" de = dur(vowlax[temp,]) lab = vowlax.spkr[temp] Entweder konventionell temp = lab == "67" x = de[temp] y = de[!temp] t.test(x, y, var.equal=t) Oder, die Formel-Methode t.test(de ~ lab, var.equal=t)

Kriteria für eine t-test Durchführung zwei Stichproben, x und y. Sind die Mittelwerte von x und y voneinander signifikant unterschiedlich? pfad = "Das Verzeichnis, wo die Daten gespeichert ist" mfdat = read.table(paste(pfad, "mfdur.txt", sep="/")) x = mfdat[,1] y = mfdat[,2]

Kriteria für eine t-test Durchführung x und y Sind x und y normalverteilt? shapiro.test(x) ja shapiro.test(y) nein Sind die Varianzen von x und y voneinander signifikant unterschiedlich? var.test(x, y) ja nein wilcox.test(x, y) t.test(x,y) t.test(x,y, var.equal=t)

shapiro.test(y) Shapiro-Wilk normality test data: y W = 0.9866, p-value = 0.9037 Die Wahrscheinlichkeit, dass die Werte normalverteilt sind. Wenn p < 0.05 dann weicht die Stichprobe signifikant von einer Normalverteilung ab, und der t-test soll nicht eingesetzt werden.

qqnorm() Je mehr die Werte von der geraden Linie abweichen, umso unwahrscheinlicher ist es, dass die Werte einer Normalverteilung folgen. qqnorm(y) qqnorm(x) qqline(y) qqline(x) shapiro.test(y) p-value = 0.9037 shapiro.test(x) p-value = 0.08804

var.test() prüft ob die Varianzen der beiden Stichproben voneinander signifikant abweichen. Um signifikante Unterschiede zwischen Varianzen festzustellen, wird ein F-test und die F-Verteilung verwendet diese Verteilung ist das gleiche wie die t- Verteilung hoch 2.

var(y) [1] 428.9193 var(x) [1] 516.3584 var(y)/var(x) [1] 0.830662 var.test(y,x) F test to compare two variances data: x and y F = 0.8307, num df = 40, denom df = 40, p-value = 0.5601 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.4429731 1.5576553 sample estimates: ratio of variances 0.830662 Der Unterschied zwischen den Varianzen ist nicht signifikant (genauer: das Verhältnis zwischen den Varianzen weicht nicht signifikant ab von 1). F(40, 40) = 0.83, p > 0.05

Wenn keine Normalverteilung Wilcoxon Rank Sum and Signed Rank Tests (Mann-Whitney test) wilcox.test(y, x) Wilcoxon rank sum test with continuity correction data: x and y W = 1246, p-value = 0.0001727 alternative hypothesis: true location shift is not equal to 0 Der Unterschied zwischen x und z ist signifikant. (Wilcoxon rank sum test, W = 1246, p < 0.001)

Normalverteilung, Varianzen sind unterschiedlich t.test(y, x) Welch Two Sample t-test data: x and y t = 3.6947, df = 79.321, p-value = 0.0004031 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: 8.183973 27.297539 sample estimates: mean of x mean of y 97.95751 80.21676 Der Unterschied zwischen x und y ist signifikant (t = 3.69, df = 79.3, p < 0.001) sonst t.test(y,x, var.equal=t)