Formelsammlung MAT 183 Stochastik für die Naturwissenschaften

Transkript

1 Formelsammlung MAT 183 Stochastik für die Naturwissenschaften Contents 1 Allgemeine Wahrscheinlichkeitstheorie Ereignisraum Ω, Ereignisse Wahrscheinlichkeit und weitere Begriffe Bedingte Wahrscheinlichkeit, Formeln von Bayes und der Totalen Wahrscheinlichkeit Unabhängigkeit von Ereignissen Zufallsvariable / Zufallsgrösse, Erwartungswert, Varianz und Verteilungsfunktion LLN: Law of Large Numbers / Satz von Kolmogoroff Diskrete Wahrscheinlichkeits-Verteilungen/Zufallsvariablen Allgemeine Definition Bekannte diskrete Wahrscheinlichkeits-Verteilungen Bernoulli-Verteilung: X Be(p) Binomial-Verteilung: X Bin(n, p) Geometrische Verteilung: X Ge(p) Poisson-Verteilung: X Po(λ) Poisson-Approximation der Binomial-Verteilung Hypergeometrische Verteilung: X Hyp(N, M, n) Multinomial-Verteilung: (X 1, X 2,..., X m ) M(n, (p 1, p 2,..., p m )) Stetige Wahrscheinlichkeits-Verteilungen/Zufallsvariablen Allgemeine Definition Bekannte stetige Wahrscheinlichkeits-Verteilungen Uniforme Verteilung: X U[a, b] Exponential-Verteilung: X Exp(λ) Normalverteilung: X N (µ, σ 2 ) t-verteilung: X t n χ 2 -Verteilung: X χ 2 n F -Verteilung: X F m,n Stochastik für die Naturwissenschaften June 6, 2018 Seite 1

2 4 Z-Transformation Für beliebige ZV Für normalverteilte ZV Zentraler Grenzwertsatz (CLT) Theorie Praxis Hypothesen-Tests / Konfidenz-Intervalle Allgemeines Vorgehen bei Hypothesen-Tests Mittelwert X: Theorie und Praxis Statistische Schätzer Konfidenz-Intervalle Die fünf wichtigsten Fälle / Modelle X k N (µ, σ 2 ), σ unbekannt: t-test für eine Stichprobe Differenz von Mittelwerten bei Normalverteilung: t-test für zwei Stichproben Unbekannter Erfolgsanteil : Binomial mit unbekanntem p Differenz von unbekannten Erfolgsanteilen : Binomial für Differenz von Proportionen X k N (µ, σ 2 ), σ bekannt Stichproben-Grösse und Länge der KI α und β : Fehler 1. und 2. Art / P-Wert Fehler 1. Art α Fehler 2. Art β P-Wert χ 2 -Test (Auf Unabhängigkeit / Auf Verteilung) χ 2 -Test auf Unabhängigkeit Hypothese und Alternative Messdaten erfassen Testgrösse und Entscheidung χ 2 -Test auf Verteilung: Anpassungstest Hypothese und Alternative Messdaten und Schätzer Testgrösse und Entscheidung Stochastik für die Naturwissenschaften June 6, 2018 Seite 2

3 9 ANOVA / Varianzanalyse Grundproblem Hypothese / Schätzer / Grand Mean Fundi ANOVA Test-Statistik und Hypothesen-Entscheidung ANOVA in R: aov(dat groups, fr) Lineare Regression Grundmodell (OLS-Methode) Parameter-Berechnung Hypothesen-Tests zum Parameter β Korrelation Lineare Regression in R: lm(y x) Quellen Changelog 34 Stochastik für die Naturwissenschaften June 6, 2018 Seite 3

4 1 Allgemeine Wahrscheinlichkeitstheorie 1.1 Ereignisraum Ω, Ereignisse Eine Menge Ω heisst Ereignisraum, ihre Elemente ω Ω heissen Elementar-Ereignisse: Sie sind z.b. alle möglichen Resultate eines Zufallsexperiments. Jede Teilmenge E Ω von Ω heisst Ereignis Wahrscheinlichkeit und weitere Begriffe Eine Wahrscheinlichkeits-Funktion auf Ω ist eine Funktion P : {E : E ist Teilmenge von Ω} [0, 1], E P [E] die jedem Ereignis E Ω seine Wahrscheinlichkeit P [E] zuordnet. Folgendes muss dabei gelten: P [Ω] = 1: Ω ist das sichere Ereignis 0 P [E] 1 für alle Ereignisse E Ω Sind die Ereignisse E 1, E 2,... paarweise disjunkt (d.h. unvereinbar), also E i E j = für i j, so gilt P [E 1 E 2... ] = P [E 1 ] + P [E 2 ] +... Es gilt immer die Formel P [A B] = P [A] + P [B] P [A B] Weitere Begriffe: Ist P [E] = 0, so heisst E unmögliches Ereignis. Ereignisse A und B sind unvereinbar, falls sie disjunkt sind: A B =. Ereignisse A und B sind unabhängig, falls P [A B] = P [A] P [B] Das Gegenereignis E eines Ereignisses E ist das Komplement von E (bzgl. Ω): E = Ω \ E. Es gilt P [E] = 1 P [E] Dies wird oft benutzt, um eine Rechnung zu vereinfachen. Stochastik für die Naturwissenschaften June 6, 2018 Seite 4

5 1.1.2 Bedingte Wahrscheinlichkeit, Formeln von Bayes und der Totalen Wahrscheinlichkeit Die Wahrscheinlichkeit eines Ereignisses A unter der Bedingung B heisst bedingte Wahrscheinlichkeit und wird mit P [A B] bezeichnet. Es gilt P [A B] = P [A B], falls P [B] 0 P [B] Daraus ergeben sich sofort die folgenden Produkt-Formeln P [A B] = P [A] P [B A], P [A B C] = P [A] P [B A] P [C A B],... Sind für zwei Ereignisse A und B die bedingten Wahrscheinlichkeiten P [B A], P [B A] sowie P [A] bekannt, lässt sich damit auch P [A B] berechen mit der Formel von Bayes P [A B] = P [A B] P [B] = P [B A] P [A] P [B A] P [A] + P [B A] P [A] Die Aufteilung des Nenners P [B] beruht auf der folgenden Formel: Ist Ω aufgeteilt in n disjunkte, also unvereinbare Ereignisse B 1, B 2,..., B n, d.h. Ω = n B k mit B i B j =, falls i j dann gilt - falls auch noch P [B k ] > 0 für k = 1, 2,..., n - für jedes Ereignis A die Formel von der totalen Wahrscheinlichkeit (FTW) P [A] = P [A B k ] P [B k ] Unabhängigkeit von Ereignissen Zwei Ereignisse A, B Ω heissen (stochastisch) unabhängig (voneinander), falls [P [A B] = P [A] P [B] Ist z.b. P [B] > 0, so gilt A unabhängig von B P [A B] = P [A] d.h. B hat keinen Einfluss auf A (auch als who cares bekannt). 1.2 Zufallsvariable / Zufallsgrösse, Erwartungswert, Varianz und Verteilungsfunktion NB: Statt des von Storrer/Luchsinger verwendeten Begriffs Zufallsgrösse/ZG werden wir im Folgenden stets das Synonym Zufallsvariable/ZV gebrauchen!! Stochastik für die Naturwissenschaften June 6, 2018 Seite 5

6 Sei X : Ω R eine Zufallsvariable (kurz: ZV), dann ist ihr k Erwartungswert E[X] = x k p k x f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) und ihre k Varianz V [X] = (x k µ) 2 p k (x µ)2 f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) falls µ := E[X] existiert. Dann gilt auch (vereinfachte Berechnung!) V [X] = E[X 2 ] E[X] 2 wobei E[X 2 ] berechnt wird als E[X 2 k ] = x2 k p k x2 f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) Die Verteilungsfunktion von X ist x F X (a) = P [X a] = k a p k a f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) Damit lassen sich berechnen: P [a X b] = F X (b) F X (a) P [X > b] = 1 P [X b] = 1 F X (b) Es gelten die Rechenregeln für ZVen X und Y sowie Konstanten a, b, c R E[a X + b Y + c] = a E[X] + b E[Y ] + c und falls die ZVen X und Y unabhängig sind V [a X + b Y + c] = a 2 V [X] + b 2 V [Y ] Ansonsten ist die Kovarianz von X und Y cov(x, Y ) = E[(X E[X]) (Y E[Y ])] zu berücksichtigen und es gilt V [a X ± b Y + c] = a 2 V [X] ± 2 a b cov(x, Y ) + b 2 V [Y ] Stochastik für die Naturwissenschaften June 6, 2018 Seite 6

7 1.3 LLN: Law of Large Numbers / Satz von Kolmogoroff Dieses Gesetz besagt, dass der Mittelwert einer Folge von iid ZVen gegen den Erwartungswert der (einzelnen) ZV konvergiert. Genauer: Für eine Folge von iid ZVen (X k ), deren Erwartungswert E[X k ] = µ existiert, gilt für jedes (noch so kleine) ɛ > 0, dass [ ] lim P 1 X k µ n n > ɛ = 0 d.h. die Wahrscheinlichkeit, dass der Mittelwert 1 n n X k um mehr als ɛ von µ abweicht, strebt für n gegen 0. 2 Diskrete Wahrscheinlichkeits-Verteilungen/Zufallsvariablen 2.1 Allgemeine Definition Eine Zufallsvariable X mit diskreter Wahrscheinlichkeits-Verteilung wird definiert durch Angabe von (üblicherweise geordneten) Werten x 0 < x 1 < x 2 < x 3 <... und Wahrscheinlichkeiten p 0, p 1, p 2, p 3,... mit denen X die Werte x k annimmt: P [X = x k ] = p k Die Anzahl der x k (und der zugehörigen p k ) kann endlich oder (abzählbar) unendlich sein. Die Wahrscheinlichkeiten p k erfüllen: 0 < p k 1 und k p k! = 1 Der Erwartungswert von X ist definiert als E[X] = k x k p k und die Varianz als V [X] = E[(X E[X]) 2 ] = E[X 2 ] E[X] 2 wobei E[X 2 ] = k x2 k p k. Die Verteilungsfunktion von X ist gegeben durch F X (a) = P [X a] = x k a p k Die Summation geht über alle Indices k, für die x k a gilt. F X ist stückweise konstant und springt bei den x = x k um jeweils p k nach oben. Der Median von X ist nicht einheitlich definiert. Die sinnvollste Definition ist wohl folgende: Median[X] := dasjenige x k, für dessen Index k gilt : k 1 p i 1/2 und p i 1/2 i=0 i k+1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 7

8 Umgangssprachlich: Das jenige x k, unterhalb dessen sich die p i und oberhalb dessen sich die p i zu jeweils 50% addieren. Für eine Funktion g : R R wird Y = g(x) zu einer neuen ZV und es gilt E[Y ] = E[g(X)] = k g(x k ) p k In R: R-Funktionen für ZVen bestehen aus einem Familien-Namen wie binom gefolgt von Parametern in Klammern und vorangestelltem einzelnen Buchstaben, und zwar d für die Dichte-Funktion (engl. density), Zusatzparameter: x p für die Verteilungsfunktion (engl. probability), Zusatzparameter: x q für Quantile (engl. quantile), Zusatzparameter: y r für das Erzeugen von entsprechend verteilten Zufallszahlen (engl. random numbers), Zusatzparameter: n=anzahl Zahlen Der jeweilige Zusatzparameter steht an erster Stelle der Argumente in den Klammern. Die meisten Parmameter haben Default-Werte, die in der Parameterliste mit einem = <value> festgelegt sind. Bei den diskreten Verteilungen kommen nicht immer alle Präfixe aus [d p q r] vor. 2.2 Bekannte diskrete Wahrscheinlichkeits-Verteilungen Bernoulli-Verteilung: X Be(p) Modelliert Erfolg als X = 1 mit Erfolgs-Wahrscheinlichkeit p [0, 1] und Misserfolg als X = 0. P [X = 0] = 1 p P [X = 1] = p E[X] = p V [X] = p(1 p) In R: [d p q r]binom(..., 1, prob,...) wobei prob = p Binomial-Verteilung: X Bin(n, p) Modelliert Summe von n {1, 2, 3,... } unabhängigen, Be(p)-verteilten ZVen, also die Anzahl Erfolge in n Versuchen mit jeweiliger Erfolgs-Wahrscheinlichkeit p. Stochastik für die Naturwissenschaften June 6, 2018 Seite 8

9 P [X = k] = ( ) n p k (1 p) n k, k {0, 1,..., n} mit Binomial-Koeffizienten k Summe von Bernoulli ist Binomial : Sind X 1, X 2,..., X n Be(p) unabhängig E[X] = np V [X] = np(1 p) ( ) n := k n! k!(n k)! k X k Bin (n, p) Summe von Binomial ist Binomial : Sind X k Bin(n k, p) unabhängig ( ) X k Bin n k, p (dasselbe p!) k Tabelle mit Werten für n = 2, 3,..., 8 und p = 0.05, 0.10,..., 0.90, 0.95 Storrer S In R: [d p q r]binom(..., size, prob,...) wobei size = n, prob = p k Geometrische Verteilung: X Ge(p) Modelliert Anzahl Versuche, bis zum ersten Mal Erfolg eintritt. Jeder Einzelversuch hat Erfolgs-Wahrscheinlichkeit p ]0, 1[. P [X = k] = p(1 p) k 1, k {1, 2, 3,... } E[X] = 1 p X Ge(p) ist gedächtnislos im folgenden Sinn: V [X] = 1 p p 2 P [X = n + k X > n] = P [X = k] In R: [d p q r]geom(..., prob,...) wobei prob = p Poisson-Verteilung: X Po(λ) Modelliert Anzahl seltener Ereignisse (typischerweise in einem Zeitraum ) mit bekanntem/geschätztem Erwartungswert λ > 0 P [X = k] = e λ λk, k {0, 1, 2,... } k! Stochastik für die Naturwissenschaften June 6, 2018 Seite 9

10 E[X] = λ V [X] = λ Summe von Poisson ist Poisson von Summe : X 1 Po(λ 1 ) und X 2 Po(λ 2 ) unabhängig X 1 + X 2 Po(λ 1 + λ 2 ) In R: [d p q r]pois(..., lambda,...) wobei lambda = λ Poisson-Approximation der Binomial-Verteilung Für grosse n und kleine p kann die Binomial-Verteilung mit der Poisson-Verteilung approximiert werden. Sei also X Bin(n, p). Dann ist X approximativ Po(λ)-verteilt mit λ = n p. Also gilt λ λk P [X = k] e k! Hypergeometrische Verteilung: X Hyp(N, M, n) Modell: Eine Menge von N Elementen wird in M( N) gute und N M schlechte aufgeteilt. Es werden n Elemente aus den N ausgewählt. Es geht nun um die Wahrscheinlichkeit, dass k von diesen n gut sind. P [X = k] = ( M )( N M ) k n k ( N, k {max{0, n + M N},..., min{n, M}} n) E[X] = np V [X] = np(1 p) N n N 1, wobei p = M N Beispiel: In einer Urne befinden sich N = 45 Kugeln, M = 20 davon sind rot (die anderen nicht). Wie hoch ist die Wahrscheinlichkeit, bei einer Stichprobe von n = 10 Kugeln genau k = 4 rote Kugeln zu ziehen? Antwort: p = (20 4 )( In R: 10 4 ) ( 45 10) [d p q r]hyper(..., n, m, k,...) wobei n = N, m = M, k = n Multinomial-Verteilung: (X 1, X 2,..., X m ) M(n, (p 1, p 2,..., p m )) Dies ist eine multivariate, d.h. mehr-dimensionale Verteilung für m ZVen (X 1, X 2,..., X m ) (auch: m-dimensionaler Zufallsvektor) Modelliert n N Versuche, aus m verschiedenen Sorten die jeweilige Sorte k mit Wahrscheinlichkeit p k ]0, 1[ zu ziehen, wobei m p k! = 1 ( ) n P [X 1 = k 1, X 2 = k 2,..., X m = k m ] = p k 1 1 p k 2 2 p km m, wobei k 1 + k k m = n k 1, k 2,..., k m Stochastik für die Naturwissenschaften June 6, 2018 Seite 10

11 Der Term heisst Multinomial-Koeffizient ( ) n := k 1, k 2,..., k m n! k 1!k 2! k m! E[X k ] = n p k V [X k ] = np k (1 p k ) M(n, (p 1, p 2,..., p m )) spielt eine Rolle beim χ 2 -Test. In R: [d r]multinom(..., size, prob,...) wobei size = n, prob = (p 1, p 2,..., p n ) 3 Stetige Wahrscheinlichkeits-Verteilungen/Zufallsvariablen 3.1 Allgemeine Definition Eine stetige Zufallsvariable X ist definiert durch eine Wahrscheinlichkeits-Dichte f(x), die erfüllen muss: Der Erwartungswert von X ist Für alle x gilt f(x) 0 und zusätzlich f(x)dx =! 1 E[X] = x f(x)dx und die Varianz von X lässt sich am einfachsten so berechnen: V [X] = E[X 2 ] E[X] 2, wobei E[X 2 ] = x 2 f(x)dx Die eigentliche Verteilungsfunktion (engl. distribution) F X von X ist dann definiert durch F X (a) = a f(x)dx F X ist stetig und falls auch differenzierbar gilt (da F X Stammfunktion der Dichte f): F X(a) = f(a) Damit lässt sich berechnen: P [a X b] = b a f(x)dx = F X (b) F X (a) Der Median x m vom X ist implizit definiert durch die Bedingung xm f(x)dx! = 1 2 Stochastik für die Naturwissenschaften June 6, 2018 Seite 11

12 und existiert immer. NB: Weder E[X] noch V [X] müssen existieren, die jeweiligen uneigentlichen Integrale können divergieren. Beispiel: Die Cauchy-Verteilung t 1 mit der Dichte f(x) = 1 π symmetrisch zur y-achse x = 0, aber weder E[X] noch V [X] existieren! Für ein α [0, 1] ist das α-quantil von X q α (X) = F 1 1 (α), F = Umkehrfunktion von F X X also diejenige Zahl q α (X) (genauer: die kleinste solche Zahl), für die gilt X 1. Diese ist zwar 1+x 2 qα(x) f(x)dx = α Der Median ist also das 1/2-Quantil: x m = q 1/2 (X) Für eine Funktion g : R R wird Y = g(x) zu einer neuen ZV und es gilt E[Y ] = E[g(X)] = g(x) f(x) dx Die Wahrscheinlichkeit, dass X genau einen Wert hat, ist immer = 0 (!!): P [X = a] = a a f(x)dx = 0 In R: Es gelten dieselben Regeln wie bei den diskreten Verteilungen. 3.2 Bekannte stetige Wahrscheinlichkeits-Verteilungen Uniforme Verteilung: X U[a, b] Modelliert eine Gleichverteilung auf dem Intervall [a, b] Dichte: Verteilungsfunktion: In R: E[X] = a + b 2 0 x < a f(x) = 1 b a x [a, b] 0 x > b 0 x < a F X (x) = x a b a x [a, b] 1 x > b V [X] = (b a)2 12 [d p q r]unif(..., min = 0, max = 1,...) x m = a + b 2 wobei min = a, max = b Stochastik für die Naturwissenschaften June 6, 2018 Seite 12

13 3.2.2 Exponential-Verteilung: X Exp(λ) Parameter: λ > 0. Modelliert z.b. Lebensdauern/Wartezeiten/die Zahl von erwarteten Ereignissen pro Einheitsintervall. Dichte: Verteilungsfunktion: λe λx x 0 f(x) = 0 x < 0 1 e λx x 0 F X (x) = 0 x < 0 E[X] = 1 λ V [X] = 1 λ 2 x m = ln(2) λ Exp(λ) ist als einzige stetige Verteilung gedächtnislos im Sinne X Exp(λ) P [X s + t X s] = P [X t] In R: [d p q r]exp(..., rate = 1,...) wobei rate = λ Normalverteilung: X N (µ, σ 2 ) µ = Mittelwert, σ = Standardabweichung Die Dichte ϕ µ,σ (x) = 1 σ 1 2π e 2( x µ σ ) 2 hat das absolute Maximum bei x = µ, ist symmetrisch zur Achse x = µ und hat die Wendepunkte x = µ ± σ. Verteilungsfunktion: F X (a) = Φ µ,σ (a) = a f(x)dx, lässt sich nicht durch elementare Funk- tionen (wie e x, sin(x), x α, ln(x)) darstellen brauche die Z-Transformation und eine Tabelle für die Standardnormalverteilung N (0, 1), deren Verteilungsfunktion mit Φ(a) bezeichnet wird! E[X] = µ V [X] = σ 2 x m = µ Summe von normalverteilt ist normalverteilt : Sind X 1 N (µ 1, σ 2 1), X 2 N (µ 2, σ 2 2), X 3 N (µ 3, σ 2 3),... unabhängig X 1 + X 2 + X 3 + N ( µ 1 + µ 2 + µ , σ σ σ ) Summe von n Quadraten von iid N (0, 1) ist χ 2 n-verteilt : Sind X 1, X 2,..., X n iid N (0, 1) Xk 2 χ 2 n Stochastik für die Naturwissenschaften June 6, 2018 Seite 13

14 N (0, 1) ist der Limes beim CLT und in diesem Sinne die wichtigste stetige Verteilung! Notationen: Luchsinger: N (µ, σ 2 ), Storrer: N(µ; σ) (!!), Stahel: N < µ, σ 2 > Faustregeln: X N (µ, σ 2 ) P [ X µ > 1 σ] 1 3 und P [ X µ > 2 σ] 0.05 = 5%, in Worten: Abweichungen von µ um mehr als ± ein σ haben Wahrscheinlichkeit 1/3, und bei mehr als ± zwei σ noch 5%. Wichtig als CV bei einigen Hypothesen-Tests: ( z α := Φ 1 1 α ) = 2 ( 1 α 2 ) -Quantil von N (0, 1) Damit gilt +z α z α ϕ 0,1 (x)dx = 1 α. ( Storrer, S. 360 oder S. 363, ν = ) ϕ 0,1 (x) α/2 z α x α z α In R: [d p q r]norm(..., mean = 0, sd = 1,...) wobei mean = µ, sd = σ(!!) t-verteilung: X t n n {1, 2, 3,... } = Anzahl Freiheitsgrade Dichte: ( ) n+1 f n (x) = c n 1 + x2 2 (für geeignetes c n ) n E[X] = 0 (n > 3) V [X] = n n 2 (n > 4) x m = 0 Die Dichte der t-verteilung ist symmetrisch zur y-achse x = 0 Der Grenzwert der t n ist die Standardnormalverteilung : lim t n = N (0, 1) n Wichtig als CV bei einigen Hypothesen-Tests: ( t α,n := 1 α ) -Quantil der t n -Verteilung 2 Damit gilt +t α,n t α,n f n (x)dx = 1 α. ( Storrer S. 363) n = 1 : t 1 heisst auch Cauchy-Verteilung mit Dichte f(x) = 1 π x 2 Stochastik für die Naturwissenschaften June 6, 2018 Seite 14

15 wovon weder E[.] noch V [.] existieren! In R: [d p q r]t(..., df,...) wobei df = n χ 2 -Verteilung: X χ 2 n n {1, 2, 3,... } = Anzahl Freiheitsgrade. Wird gelesen als Chi-Quadrat. Dichte: c n x n 2 1 e x 2 x 0 (für geeignetes c n ) f(x) = 0 x < 0 E[X] = n V [X] = 2n χ 2 mit 2 Freiheitsgraden ist Exponential mit λ = 1/2 : χ 2 2 = Exp(1/2) In R: [d p q r]chisq(..., df,...) wobei df = n F -Verteilung: X F m,n m {1, 2, 3,... } = Zähler- und n {1, 2, 3,... } = Nenner-Freiheitsgrad. Dichte: x c m 2 1 m,n x 0 (für geeignetes c f(x) = (mx+n) m+n m,n ) 2 0 x < 0 E[X] = n n 2 (n > 2) V [X] = 2n2 (m + n 2) m(n 2) 2 (n 4) F m,n = χ2 m/m χ 2 n/n X t n X 2 F 1,n (n > 4) In R: [d p q r]f(..., df1, df2,...) wobei df1 = m, df2 = n Stochastik für die Naturwissenschaften June 6, 2018 Seite 15

16 4 Z-Transformation 4.1 Für beliebige ZV Falls für eine ZV X sowohl µ = E[X] als auch σ 2 = V [X] existieren, lässt sich X durch Verschiebung um µ und Division durch sd[x] = σ in eine neue Zufallsvariable transformieren. Für diese gilt dann Z = X µ, die Z-Transformierte von X σ E[Z] = 0 und V [Z] = 1 sie ist also standardisiert, aber i.a. nicht normal-verteilt! 4.2 Für normalverteilte ZV Zu einer normal-verteilten ZV X N (µ, σ 2 ), für die ja E[X] = µ und V [X] = σ 2 gilt, ist die Z-Transformierte Z = X µ σ N (0, 1), also standard-normalverteilt Durch die Z-Tansformtion lassen sich Berechnungen für allgemeine normal-verteilte ZVen auf N (0, 1) zurückführen. Also z.b. [ X N (µ, σ 2 xu µ ) P [x u X x o ] = P σ X µ σ wobei Φ die Verteilungsfunktion von N (0, 1) ist ( Storrer, S. 361). x ] ( ) ( ) o µ xo µ xu µ = Φ Φ σ σ σ 5 Zentraler Grenzwertsatz (CLT) 5.1 Theorie Der Zentrale Grenzwertsatz (Englisch: Central Limit Theorem) besagt folgendes: Sei (X k ) eine Folge von iid ZVen, deren Erwartungswert E[X k ] =: µ und Varianz V [X k ] =: σ 2 existieren. Dann ist die Z-Transformierte der Summe n X k, also (wegen E[ n X k] = n µ und V [ n X k] = n σ 2 ) n X k n µ σ n für grosse n approximativ N (0, 1)-verteilt, strebt für n gegen die Standardnormalverteilung N (0, 1): lim P n [ n X k n µ σ n < x o ] = P [N (0, 1) < x o ] = Φ(x o ) wobei Φ die Verteilungsfunktion von N (0, 1) ist ( Storrer, S. 361). Stochastik für die Naturwissenschaften June 6, 2018 Seite 16

17 5.2 Praxis Das CLT wird verwendet, um die Verteilung(sfunktion) von Summen von iid ZVen zu approximieren. Die Approximation ist je besser, je grösser n ist. Dabei müssen die Grenzen ebenfalls transformiert werden: [ ] [ n P X k < a = P X k n µ σ n < a n µ ] [ σ P N (0, 1) < a n µ ] ( a n µ n σ = Φ n σ n ) Analog ergibt sich z.b. [ ] [ a n µ P a X k b P σ n N (0, 1) b n µ ] ( b n µ σ = Φ n σ n ) ( ) a n µ Φ σ n 6 Hypothesen-Tests / Konfidenz-Intervalle 6.1 Allgemeines Vorgehen bei Hypothesen-Tests Hypothesen sind meistens Aussagen über die Verteilung ( deren Parameter) von ZVen, die als Modell der zu untersuchenden Daten fungieren. Vorgehen nach Kochrezept : 1. (Null-)Hypothese H 0 und Alternative H 1 dazu festlegen. 2. Signifikanz-Niveau α (und wenn möglich Umfang n der Messdaten) festlegen. 3. Test-Statistik geeignet wählen. 4. Verteilung der Test-Statistik (als ZV) unter H 0 bestimmen. 5. Kritschen Wert CV α,n und damit Konfidenz-Intervall KI α bestimmen. 6. (Mess)Daten erheben und in Teststatistik einsetzen. 7. Aufgrund von Entscheidungsregeln Hypothese H 0 beibehalten (und die Alternative ablehnen) oder Alternative H 1 annehmen (und die Hypothese verwerfen). Die Entscheidungsregeln werden mittels der KI oder via die Teststatistik formuliert. Die Punkte 3., und 7. werden unten für die fünf klassischen Fälle ausführlich behandelt. 6.2 Mittelwert X: Theorie und Praxis Motivation: Aussagen über den Erwartungs-/Mittelwert einer Verteilung sind die wichtigsten Beispiele von Hypothesen! Stochastik für die Naturwissenschaften June 6, 2018 Seite 17

18 Im folgenden wird jeweils eine Folge X 1, X 2, X 3,... von iid ZVen betrachtet, wobei µ := E[X k ] und σ := V [X k ] existieren sollten. Für festes, endliches n N wird dann der Mittelwert X := 1 n (X 1 + X X n ) gebildet. Laut allgemeiner Theorie (cf. Abschnitt 1.3) gilt dann E[X] = µ, V [X] = σ2 n, sd[x] = σ n Es geht nun darum, µ und σ anhand einer vorliegenden Realisierung der ZV-Folge X 1, X 2, X 3,... zu schätzen: Das ist die statistische Praxis. 6.3 Statistische Schätzer Seien x 1, x 2,..., x n Realisierungen der Folge X 1, X 2, X 3,... von iid ZVen, also z.b. Messdaten. Dann haben wir die folgenden Schätzer Für E[X k ]: x := 1 n x k Für V [X k ]: s 2 = 1 n 1 NB: Nur mit dem Faktor 1 n 1 Für den Standardfehler σ X = sd[x k ] = σ n : s X = 6.4 Konfidenz-Intervalle (x k x) 2 = 1 n 1 ( ) x 2 k n x 2 ist dieser Schätzer erwartungstreu! s n = (x k x) 2 n n(n 1) = n x2 k n x2 n(n 1) Zu einem gegebenen Konfidenz-Niveau (auch: Signifikanz-Niveau) α heisst eine zufällige Teilmenge KI R Konfidenz-Intervall zum Niveau α für µ (1 α)-konfidenz-intervall für µ, falls P [µ KI] = 1 α. In Worten: Die Wahrscheinlichkeit, dass µ in KI liegt ist 1 α. Typischerweise ist KI tatsächlich ein Intervall: KI = [a, b] und es gilt dann P [a µ b] = 1 α Typische Werte von α: 10%, 5%, 2%, 1%, 0.5%, 0.2%, 0.1%, 0.1, 0.05, 0.02, 0.01, 0.005, 0.002, In R werden auch folgende Codes verwendet: ( ) für 5%/0.05, ( ) für 1%/0.01, ( ) für 0.1%/0.001 Stochastik für die Naturwissenschaften June 6, 2018 Seite 18

19 6.5 Die fünf wichtigsten Fälle / Modelle Je nachdem, was für Annahmen wir über die Verteilung der (iid) X k machen, können wir (1 α)- Konfidenz-Intervalle für den (theoretischen) Mittelwert µ = E[X k ] angeben. Sie sind jeweils symmetrisch zum Mittelwert x der Messdaten: [ ] s s KI α = x CV α,n, x + CV α,n n n und der kritische Wert CV α,n hängt i.a. von α, n und dem zugrundeliegenden Modell ab. CV steht für Englisch Critical Value X k N (µ, σ 2 ), σ unbekannt: t-test für eine Stichprobe Da σ hier nicht bekannt ist, wird es geschätzt mit dem Schätzer σ = 1 n 1 ( ) (x k x) 2 = 1 x 2 k n 1 n x2 Damit wird die Test-Statistik zum 1-Stichproben-t-Test gebildet: t = x µ 0 σ/ n Sie ist als ZV T unter H 0 t-verteilt mit ν = n 1 Freiheitsgraden: T t n 1. Für die zweiseitige Hypothese H 0 : µ = µ 0 mit Alternative H 1 : µ µ 0 ist das (1 α)-konfidenz- Intervall für µ ] σ σ KI α = [x t α,n 1 n, x + t α,n 1 n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α H 0 beibehalten, falls t t α,n 1 und H 1 annehmen, falls t > t α,n 1 Der kritische Wert ist CV α,n = t α,n 1 also das ( ) 1 α 2 -Quantil der t-verteilung mit ν = n 1 Freiheitsgraden ( Storrer S. 363, von oben gelesen : ). Für die einseitige (linksseitige, ) Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ < µ 0 ist das (1 α)-konfidenz-intervall für µ ] σ KI α = ], x + t 2α,n 1 n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α H 0 beibehalten, falls t t 2α,n 1 und H 1 annehmen, falls t < t 2α,n 1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 19

20 Für die einseitige (rechtsseitige, )Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ > µ 0 ist das (1 α)-konfidenz-intervall für µ KI α = [ [ σ x t 2α,n 1 n, + H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α H 0 beibehalten, falls t t 2α,n 1 und H 1 annehmen, falls t > t 2α,n 1 Die kritischen Werte bei den einseitigen Hypothesen sind ±t 2α,n 1, also ± das (1 α)-quantil der t-verteilung mit ν = n 1 Freiheitsgraden ( Storrer S. 363, von unten gelesen : ). NB: 1. Illustration zu den t α,n s anhand des Graphen der Dichtefunktion der t n -Verteilung: α/2 α/2 t α,n t α,n α t 2α,n α t 2α,n 2. Wegen des CLT gilt lim n t α,n = z α d.h. der CV der t-verteilung nähert sich mit wachsendem n dem CV von N (0, 1) an Differenz von Mittelwerten bei Normalverteilung: t-test für zwei Stichproben Wir haben zwei Stichproben (x k ) m und (y j) n j=1, die jeweils mit ZVen X k N (µ 1, σ 2 ) und Y j N (µ 2, σ 2 ) modelliert werden, also mit verschiedenen µ 1 und µ 2 aber bei gleichem und unbekanntem σ 2. Als Schätzer haben wir x = 1 m m x k für µ 1 und y = 1 n y j für µ 2 j=1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 20

21 und als Schätzer für sd[x Y ] S = ( 1 m + 1 ) m (x k x) 2 + n j=1 (y j y) 2 n m + n 2 Damit wird die Test-Statistik zum 2-Stichproben-t-Test gebildet: t = x y S Sie ist als ZV T unter H 0 t-verteilt mit ν = m + n 2 Freiheitsgraden: T t m+n 2. Für die zweiseitige Hypothese H 0 : µ 1 = µ 2 mit Alternative H 1 : µ 1 µ 2 ist das (1 α)- Konfidenz-Intervall für (µ 1 µ 2 ) KI α = [(x y) t α,n+m 2 S, (x y) + t α,n+m 2 S] H 0 beibehalten, falls µ 1 µ 2 KI α und H 1 annehmen, falls µ 1 µ 2 / KI α H 0 beibehalten, falls t t α,n+m 2 und H 1 annehmen, falls t > t α,n+m 2 Der kritische Wert ist ( Storrer S. 363 ) CV α,ν = t α,m+n 2 Für die einseitige (linksseitige, ) Hypothese H 0 : µ 1 µ 2 mit Alternative H 1 : µ 1 < µ 2 ist das (1 α)-konfidenz-intervall für (µ 1 µ 2 ) KI α = ], (x y) + t 2α,n+m 2 S] H 0 beibehalten, falls µ 1 µ 2 KI α und H 1 annehmen, falls µ 1 µ 2 / KI α H 0 beibehalten, falls t t 2α,n+m 2 und H 1 annehmen, falls t < t 2α,n+m 2 Für die einseitige (rechtsseitige, ) Hypothese H 0 : µ 1 µ 2 mit Alternative H 1 : µ 1 > µ 2 ist das (1 α)-konfidenz-intervall für (µ 1 µ 2 ) KI α = [(x y) t 2α,n+m 2 S, + [ H 0 beibehalten, falls µ 1 µ 2 KI α und H 1 annehmen, falls µ 1 µ 2 / KI α H 0 beibehalten, falls t t 2α,n+m 2 und H 1 annehmen, falls t > t 2α,n+m 2 NB: In dieser Situation könnte auch eine ANOVA mit k = 2 Gruppen der Länge n 1 = m und n 2 = n gemacht werden. Für die dann resultierende Test-Statistik V gilt V = t 2 Stochastik für die Naturwissenschaften June 6, 2018 Seite 21

22 6.5.3 Unbekannter Erfolgsanteil : Binomial mit unbekanntem p Wir haben Messdaten (x i ) n i=1 mit x i = 1 bei Erfolg und x i = 0 bei Misserfolg, was mit X Bin(n, p) modelliert wird. Für das unbekannte p haben wir den Schätzer bei k Erfolgen p = 1 n x i = k, also dem Anteil der Erfolge in den n Daten n i=1 und als Schätzer für die Standardabweichung Damit wird die Test-Statistik gebildet: z = σ = p (1 p) p p 0 p (1 p)/ n Sie ist als ZV Z unter H 0 approximativ standardnormalverteilt. Für die zweiseitige Hypothese H 0 : p = p 0 mit Alternative H 1 : p p 0 ist das (1 α)-konfidenz- Intervall für die Erfolgs -Wahrscheinlichkeit p [ ] p (1 p) p (1 p) KI α = p z α, p + z α n n H 0 beibehalten, falls p 0 KI α und H 1 annehmen, falls p 0 / KI α H 0 beibehalten, falls z z α und H 1 annehmen, falls z > z α Der kritische Wert ist ( Storrer S. 360) CV α,n = z α Für die einseitige (linksseitige, ) Hypothese H 0 : p p 0 mit Alternative H 1 : p < p 0 ist das (1 α)-konfidenz-intervall für p KI α = ], p + z 2α ] p (1 p) n H 0 beibehalten, falls p 0 KI α und H 1 annehmen, falls p 0 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z < z 2α Für die einseitige (rechtssseitige, ) Hypothese H 0 : p p 0 mit Alternative H 1 : p > p 0 ist das (1 α)-konfidenz-intervall für p KI α = [ p z 2α [ p (1 p), n H 0 beibehalten, falls p 0 KI α und H 1 annehmen, falls p 0 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z > z 2α NB: Praktiker-Regel: Obiges funktioniert nur wenn n p(1 p) > 9, dann kann das CLT angewendet werden und wir haben deshalb den CV von N (0, 1). Stochastik für die Naturwissenschaften June 6, 2018 Seite 22

23 6.5.4 Differenz von unbekannten Erfolgsanteilen : Binomial für Differenz von Proportionen Wir haben zwei Messreihen (x i ) m 1=1 und (y j ) n j=1 von m n Erfolgen/Misserfolgen. Schätzer für die wahren Erfolgs-Wahrscheinlichkeiten bei k 1 k 2 Erfolgen : und für sd[x Y ] p 1 = 1 m m i=1 S = Damit wird die Test-Statistik gebildet: x i = k 1 m und p 2 = 1 n p1 (1 p 1 ) m z = p 1 p 2 S j=1 + p 2(1 p 2 ) n Sie ist als ZV Z unter H 0 approximativ standardnormalverteilt. y j = k 2 n Für die zweiseitige Hypothese H 0 : p 1 = p 2 mit Alternative H 1 : p 1 p 2 ist das (1 α)- Konfidenz-Intervall für die Differenz (p 1 p 2 ) der Erfolgs -Wahrscheinlichkeiten: KI α = [( p 1 p 2 ) z α S, ( p 1 p 2 ) + z α S] H 0 beibehalten, falls p 1 p 2 KI α und H 1 annehmen, falls p 1 p 2 / KI α H 0 beibehalten, falls z z α und H 1 annehmen, falls z > z α Der kritische Wert ist ( Storrer S. 360) CV α,m,n = z α Für die einseitige (linksseitige, ) Hypothese H 0 : p 1 p 2 mit Alternative H 1 : p 1 < p 2 ist das (1 α)-konfidenz-intervall für p 1 p 2 KI α = ], (p 1 p 2 ) + z 2α S] H 0 beibehalten, falls p 1 p 2 KI α und H 1 annehmen, falls p 1 p 2 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z < z 2α Für die einseitige (rechtsseitige, ) Hypothese H 0 : p 1 p 2 mit Alternative H 1 : p 1 > p 2 ist das (1 α)-konfidenz-intervall für p 1 p 2 KI α = [(p 1 p 2 ) z 2α S, [ H 0 beibehalten, falls p 1 p 2 KI α und H 1 annehmen, falls p 1 p 2 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z > z 2α NB: Praktiker-Regel: Dies funktioniert für p i [0.1, 0.9], i = 1, 2, m > 30 und n > 30, weil erst dann das CLT greift. Stochastik für die Naturwissenschaften June 6, 2018 Seite 23

24 6.5.5 X k N (µ, σ 2 ), σ bekannt Die (X k ) n seien also normalverteilt, dann ist der Schätzer für µ = E[X k] = E[X] x = 1 n x k Damit wird die Test-Statistik gebildet: z = x µ 0 σ/ n Sie ist als ZV Z unter H 0 standardnormalverteilt: Z N (0, 1). Für die zweiseitige Hypothese H 0 : µ = µ 0 mit Alternative H 1 : µ µ 0 ist das (1 α)-konfidenz- Intervall für µ ] σ σ KI α = [x z α n, x + z α n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α beibehalten, falls z z α und H 1 annehmen, falls z > z α Der kritische Wert ist ( Storrer S. 360) CV α,n = z α Für die einseitige (linksseitige, ) Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ < µ 0 ist das (1 α)-konfidenz-intervall für µ ] σ KI α = ], x + z 2α n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α beibehalten, falls z z 2α und H 1 angenommen, falls z < z 2α Für die einseitige (rechtsseitige, ) Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ > µ 0 ist das (1 α)-konfidenz-intervall für µ KI α = [ [ σ x z 2α n, + H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α beibehalten, falls z z 2α und H 1 angenommen, falls z > z 2α NB: Dieser Fall (auch bekannt als 1-Stichproben-Gauss-Test) ist eher unrealistisch, da σ selten wirklich bekannt ist! Stochastik für die Naturwissenschaften June 6, 2018 Seite 24

25 6.6 Stichproben-Grösse und Länge der KI Da in jeder der zweiseitigen KI-Formeln für eine Stichprobe das KI die Form [ KI = z b, z + b ] n n hat, gilt (mit diesen Variablen) Länge des KI = 2 b n 0 für n d.h. die Länge des KI kann belebig klein gemacht werden, indem n genügend gross gewählt wird! Sei nun d die vorgegebene (Maximal-)Länge des KI. Dann haben wir: Länge des KI = 2 b n! d 2b d! n Stichprobengrösse n! ( ) 2 2b d 7 α und β : Fehler 1. und 2. Art / P-Wert Wir machen einen statistischen Test. Dazu werden eine Hypothese H 0 und eine Alternative H 1 aufgestellt. Bei beiden werden gewisse Annahmen (über Verteilungen, Mittelwerte, Varianzen etc.) getroffen, die dann Berechnungen ermöglichen. Die Hypothese steht meist für die vernünftige/langweilige Annahme, den Stand des Wissens. NB: Die Alternative muss nicht die logische Verneinung der Hypothese sein! 7.1 Fehler 1. Art α Der Fehler 1. Art passiert, wenn: H 0 ist richtig, aber H 1 wird angenommen. Die (Fehler-)Wahrscheinlichkeit, mit der das passiert, wird als (das) α bezeichnet. Sie kann unter den getroffenen Annahmen berechnet werden. Das α heisst auch Signifikanz-Niveau oder Grösse (engl. size) des Tests. Philosophie: Je kleiner das α, desto statistisch signifikanter ist die Hypothese. 7.2 Fehler 2. Art β Der Fehler 2. Art passiert, wenn: H 1 ist richtig, aber H 0 wird beibehalten. Die (Fehler-)Wahrscheinlichkeit, mit der das passiert wird als (das) β bezeichnet. Sie kann unter den getroffenen Annahmen berechnet werden. 1 β heisst auch Macht (engl. power) des Stochastik für die Naturwissenschaften June 6, 2018 Seite 25

26 Tests. Philosophie: Je kleiner das β, desto mächtiger ist der Test. NB: In den beiden anderen möglichen Fällen (H 0 richtig und beibehalten/h 1 richtig und angenommen) wird kein Fehler begangen. 7.3 P-Wert Oft wird (z.b. von Statistik-Software wie R) der P-Wert einer (Messung deren) Test-Statistik T angegeben. Das ist die Wahrscheinlichkeit, dass ein zufälliger Versuch (unter Annahme von H 0!) mindestens so extrem ausgeht wie die gemachte Messung. D.h. zur Berechnung des P-Wertes wird H 0 vorausgesetzt. Der P-Wert hängt von den konkreten Daten ab und wird also a posteriori (lat. im Nachhinein ) berechnet. Er sollte aber nicht benutzt werden, um das α nachträglich kleiner ( sogar so klein wie noch möglich) zu machen: Das ist schlechter Stil! Dessen ungeachtet gelten die Regeln α P-Wert H 0 beibehalten. α > P-Wert H 1 annehmen. 8 χ 2 -Test (Auf Unabhängigkeit / Auf Verteilung) 8.1 χ 2 -Test auf Unabhängigkeit Hypothese und Alternative Wir haben total n Messungen, die nach je zwei Werten von je zwei Merkmalen sortiert/aufgeteilt werden. Die Frage ist, ob diese Merkmale voneinander (stochastisch) unabhängig sind. Hypothese H 0 : Die beiden Merkmale sind unabhängig. Alternative H 1 : Die beiden Mermale sind abhängig Messdaten erfassen Die gemessenen Anzahlen werden in einer Tabelle - der Kontingenztafel - erfasst: N 11 N 12 N 1. := N 11 + N 12 N 21 N 22 N 2. := N 21 + N 22 N.1 := N 11 + N 21 N.2 := N 12 + N 22 n = N N 22 Die N.i N j. sind die jeweiligen Randsummen der Zeilen Spalten. Stochastik für die Naturwissenschaften June 6, 2018 Seite 26

27 8.1.3 Testgrösse und Entscheidung Die Testgrösse u := 2 i,j=1 (N ij N i. N.j ) 2 N i. N.j = n (N 11N 22 N 12 N 21 ) 2 N 1. N 2. N.1 N.2 ist als entsprechende ZV U unter H 0 und für n χ 2 1-verteilt, also χ 2 mit ν = 1 Freiheitsgrad. Der kritische Wert CV α = χ 2 α,1 also das (1 α)-quantil der χ 2 1-Verteilung ( Storrer, S. 365) entscheidet nun: u CV α H 0 beibehalten u > CV α H 1 annehmen NB: Das Vorgehen lässt sich ausdehnen (vgl. Stahel, S. 230ff) auf r (Zeilen) und s (Spalten) Ausprägungen/Einteilungen von zwei Merkmalen. Die Testgrösse u hat dieselbe Formel, nur dass anders summiert wird r s... i=1 j=1 und die Formel ganz rechts nicht mehr anwendbar ist. Die Anzahl Freiheitsgrade ändert sich zu ν = (r 1)(s 1), gefragt ist dann also der kritische Wert CV α,r,s = χ 2 α,(r 1)(s 1). 8.2 χ 2 -Test auf Verteilung: Anpassungstest Hypothese und Alternative Messungen können in eine von m Gruppen 1, 2,..., m fallen, jeweils mit Wahrscheinlichkeit π k ]0, 1[. Wir stellen die Hypothese auf, dass der Zufallsvektor (X 1, X 2,..., X m ) multinomial-verteilt ist mit gewissen Wahrscheinlichkeiten π 1, π 2,..., π m. Dabei ist n die Anzahl Messungen: H 0 : (X 1, X 2,..., X m ) M(n, (π 1, π 2,..., π m )) Die Alternative ist H 1 : (X 1, X 2,..., X m ) M(n, (θ 1, θ 2,..., θ m )), mit mind. zwei i j: θ i π i, θ j π j Messdaten und Schätzer Seien s 1, s 2,... s m die Anzahlen, der in die Gruppe 1, 2,..., m fallenden Messungen. Es gilt m s k = n = Anzahl Messungen Die theoretischen Wahrscheinlichkeiten werden geschätzt mit π k = s k, k = 1, 2,..., m n Stochastik für die Naturwissenschaften June 6, 2018 Seite 27

28 8.2.3 Testgrösse und Entscheidung Die Testgrösse m (s k n π k ) 2 u := n π k χ 2 -Anpassung ist als entsprechende ZV U unter H 0 und für n χ 2 m 1-verteilt, also χ 2 mit ν = m 1 Freiheitsgraden. Der kritische Wert CV α = χ 2 α,m 1 also das (1 α)-quantil der χ 2 m 1-Verteilung ( Storrer S. 365) entscheidet nun: u CV α H 0 beibehalten u > CV α H 1 annehmen NB: Achtung: Es müssen immer die absoluten Anzahlen genommen werden! Werden alle Zahlen mit dem Faktor λ multipliziert, dann auch die Test-Statistiken: Vgl. z.b. Prüfungsaufgabe FS 2017 (REP) A7. u neu = λ u alt 9 ANOVA / Varianzanalyse ANOVA steht für Englisch Analysis Of Variation(s). Deutsch: Varianzanalyse. 9.1 Grundproblem Gegeben sind eine Gruppe von k Messreihen, die jeweils nicht den gleichen Umfang haben müssen. Also Daten y 1,1, y 2,1,..., y n1,1 y 1,2, y 2,2,..., y n2,2. y 1,k, y 2,k,..., y nk,k von der jeweiligen Länge n 1, n 2,..., n k. Die totale Anzahl der Daten ist n = k j=1 n j Die y i,j werden modelliert als ZVen Y i,j = µ j + ɛ i,j d.h. die j-te Gruppe hat einen Mittelwert µ j plus einen iid Fehler ɛ i,j N (0, σ 2 ), also immer dasselbe σ 2. Damit gilt Y i,j N (µ j, σ 2 ) Stochastik für die Naturwissenschaften June 6, 2018 Seite 28

29 9.2 Hypothese / Schätzer / Grand Mean Bei der ANOVA wird immer die Hypothese H 0 : µ 1 = µ 2 = = µ k betrachtet. Die Alternative ist H 1 : Es gibt i j mit µ i µ j d.h. mindestens zwei µ s sind verschieden. Und es wird mit den k Schätzern µ j := 1 n j n j y i,j, j = 1, 2,..., k i=1 für die Gruppen-Mittelwerte Y.,j = 1 n j n j gearbeitet. Ebenfalls wichtig ist das Grand Mean (Englisch für das grosse Mittel ): GM := 1 n also der Mittelwert aller ZVen Y i,j. i=1 Y i,j ( k n j ) Y i,j j=1 i=1 9.3 Fundi ANOVA Die Gesamt-Varianz der ZVen Y i,j (linke Seite) kann aufgeteilt werden in zwei Teile: n k j (Y i,j GM) 2 = j=1 i=1 k ( n j Y.,j GM ) n 2 k j ( ) 2 + Yi,j Y.,j j=1 j=1 i=1 Dies ist die Fundamentalgleichung der Varianzanalyse, kurz Fundi ANOVA. Dabei ist der 1. Summand = Summe quadrierter Abweichungen der Gruppenmittel vom GM 2. Summand = Summe quadrierter Abweichungen der Daten von den Gruppenmitteln. 9.4 Test-Statistik und Hypothesen-Entscheidung Die Test-Statistik also V = V := k j=1 n ( j Y.,j GM ) 2 /(k 1) k j=1 nj i=1 ( Yi,j Y.,j ) 2 /(n k) (Erster Summand Fundi-ANOVA)/(k 1) (Zweiter Summand Fundi-ANOVA)/(n k) Stochastik für die Naturwissenschaften June 6, 2018 Seite 29

30 ist unter H 0 F k 1,n k -verteilt: V F k 1,n k. Dann wird H 0 mit Signifikanz-Niveau α beibehalten, falls V F α/k 1,n k ansonsten wird H 0 verworfen und die Alternative H 1 angenommen. Der kritsche Wert CV α,k,n = F α/k 1,n k also das (1 α)-quantil der F k 1,n k -Verteilung, ist in der Tabelle für die F -Verteilung ( Link auf Vorlesungs-Homepage) zu finden. NB: Falls nur k = 2 Gruppen vorliegen, könnte auch ein 2-Stichproben-t-Test mit Datensätzen der Länge m = n 1 und n = n 2 gemacht werden. Für die so entstehende Test-Statistik t gilt t 2 = V 9.5 ANOVA in R: aov(dat groups, fr) Zuerst kommen alle Daten der Reihe nach in einen Vektor: > dat <-c(y 1,1,y 2,1,...,y n1,1,y 1,2,...,y n2,2,...,y 1,k,...,y nk,k) Nach der Aufspaltung in k Gruppen der Grössen n 1, n 2,..., n k durch die Zeilen > groups <-rep(letters[1:k],c(n 1, n 2,..., n k )) > groups <-factor(groups) > fr <-data.frame(groups, dat) wird die ANOVA berechnet mittels > analyse <- aov(dat groups, fr) Das Ergebnis direkt und mit summary(...): > analyse Terms: groups Residuals Sum of Squares (1.Summand) (2.Summand Fundi-ANOVA) Deg. of Freedom k 1 n k > summary(analyse) Df Sum Sq Mean Sq F value Pr(>F) groups k 1 (1.Summand) (1.Summand)/(k 1) (Test-Statistik V ) (P-Wert) Residuals n k (2.Summand) (2.Summand)/(n k) Stochastik für die Naturwissenschaften June 6, 2018 Seite 30

31 10 Lineare Regression 10.1 Grundmodell (OLS-Methode) Bei der linearen Regression geht es darum, zu zwei-dimensionalen Datensätzen von n Punkten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) eine lineare Funktion, d.h. eine Gerade y = β 0 + β 1 x, mit y-achsenabschnitt β 0 und Steigung β 1 so zu bestimmen, das die Summe der Abstands-Quadrate ( Sum of Squared Errors ) SSE = (β 0 + β 1 x k y k ) 2 =! min minimal wird (Methode der kleinsten Quadrate von C.F. Gauss). Diese Bedingung führt mit ( ) Methoden der Differentialrechnung (SSE)! β 0 = 0 =! (SSE) β 1 zu den Formeln für β 0 und β 1. Diese gesuchte Gerade heisst Regressions-Gerade. OLS steht für Englisch Ordinary Least Squares, also gewöhnliche kleinste Quadrate Parameter-Berechnung Wir berechnen der Reihe nach (SS yy nur für Korrelationskoeffizient nötig!) x := x1 n x k y := 1 n y k SS xx := (x k x) 2 = x 2 k n x 2 SS xy := (x k x) (y k y) = x k y k n x y SS yy := Dabei sind die jeweils letzten Ausdrücke praktische Abkürzungen! Damit ergeben sich nun die Formeln für die gesuchten Parameter: (y k y) 2 = yk 2 n y 2 β 1 = SS xy SS xx β0 = y β 1 x 10.3 Hypothesen-Tests zum Parameter β 1 Der eigentliche Ansatz im Sinne einer Schätzung ist Y k = β 0 + β 1 x k + ɛ k, k = 1, 2,..., n wobei die Fehler ɛ k normalverteilt sein sollen bei unbekanntem σ: ɛ k N (0, σ 2 ). Der Schätzer für σ ist σ 2 = 1 n 2 (y k ŷ k ) 2 = 1 n 2 SSE, wobei ŷ k = β 0 + β 1 x k Stochastik für die Naturwissenschaften June 6, 2018 Seite 31

32 Damit wird die Test-Statistik gebildet: T n 2 := β 1 b σ 2 (x k x) 2 = 1 n 2 β 1 b n (y k ŷ k ) 2 SS xx Sie ist t-verteilt mit ν = n 2 Freiheitsgraden: T n 2 t n 2. Wie beim 1-Stichproben-t-Test haben wir für die Hypothesen: Für die zweiseitige Hypothese H 0 : β 1 = b mit Alternative H 1 : β 1 b gilt: H 0 beibehalten mit Signifikanz-Niveau α, falls T n 2 t α,n 2 Der kritische Wert ist ( Storrer, S. 363 ) H 1 annehmen, falls T n 2 > t α,n 2 CV α,n = t α,n 2 Für die einseitige (linksseitige, ) Hypothese H 0 : β 1 b mit Alternative H 1 : β 1 < b gilt: H 0 beibehalten mit Signifikanz-Niveau α, falls T n 2 t 2α,n 2 H 1 annehmen, falls T n 2 < t 2α,n 2 Für die einseitige (rechtsseitige, ) Hypothese H 0 : β 1 b mit Alternative H 1 : β 1 > b gilt: H 0 beibehalten mit Signifikanz-Niveau α, falls T n 2 t 2α,n 2 NB: Eine weitere wichtige Summe ist H 1 annehmen, falls T n 2 > t 2α,n 2 SSR := (ŷ k y) 2 = ( β0 + β ) 2 1 x k y (R für Regression) Damit gilt (vgl. ANOVA!): SS yy = SSR + SSE 10.4 Korrelation Der (empirische) Korrelationskoeffizient zwischen den Daten (x k ) n und (y k) n durch r xy = corr(x, y) = n (x k x)(y k y) n (x k x) 2 n (y k y) 2 = SS xy SSxx SS yy Er liegt immer zwischen 1 und +1: 1 corr(x, y) +1 Faustregel: Je näher corr(x, y) bei 1 liegt, desto besser die Korrelation. Es gilt sogar: ist definiert corr(x, y) = 1 Die Daten (x k, y k ) liegen exakt auf einer Geraden, deren Steigung positiv ist, falls corr(x, y) = +1 negativ, falls corr(x, y) = 1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 32

33 10.5 Lineare Regression in R: lm(y x) Nach Zuweisung der Daten (x k, y k ) n in Vektoren mittels c(...): > x <- c(x 1, x 2,..., x n ) > y <- c(y 1, y 2,..., y n ) wird mit > linreg = lm(y x) die entsprechende lineare Regression berechnet. lm steht für engl. linear model. Dabei ist x die erklärende Variable und y die Response-Variable. Das Ergebnis ist: > summary(linreg)... Residuals: x 1 x 2 x 3 x 4... y 1 ŷ 1 y 2 ŷ 2 y 3 ŷ 3 y 4 ŷ 4... Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept) β x β1 (Nenner von T n 2 ) T n 2 (P-Wert) Beispiele: Vgl. die Lösungen zu den Prüfungsaufgaben FS2014, A8 und FS2017, A8! Stochastik für die Naturwissenschaften June 6, 2018 Seite 33

34 11 Quellen Luchsinger-Skript und -Übungen, ab UZH-Homepage der Vorlesung MAT 183 H. H. Storrer, Einführung in die mathematische Behandlung der Naturwissenschaften II, Birkhäuser, 3. Nachdruck der 1. Auflage, 2009 Werner A. Stahel, Statistische Datenanalyse, Vieweg, 4. verbesserte Auflage, 2002 Wikipedia, online 12 Changelog Erste Version Neu: Lineare Regression und ANOVA in R Korrekturen: P-Wert richtig definiert Kleinere Addons Korrekturen: Fehler bei Ge(p) und Po(λ) Kleine Korrekturen Addons: Tabelle und Graphik zu den z α s, Po(λ 1 ) + Po(λ 2 ) = Po(λ 1 + λ 2 ) Kleine Korrekturen Stochastik für die Naturwissenschaften June 6, 2018 Seite 34