Formelsammlung MAT 183 Stochastik für die Naturwissenschaften
|
|
- Ulrike Raske
- vor 6 Jahren
- Abrufe
Transkript
1 Formelsammlung MAT 183 Stochastik für die Naturwissenschaften Contents 1 Allgemeine Wahrscheinlichkeitstheorie Ereignisraum Ω, Ereignisse Wahrscheinlichkeit und weitere Begriffe Bedingte Wahrscheinlichkeit, Formeln von Bayes und der Totalen Wahrscheinlichkeit Unabhängigkeit von Ereignissen Zufallsvariable / Zufallsgrösse, Erwartungswert, Varianz und Verteilungsfunktion LLN: Law of Large Numbers / Satz von Kolmogoroff Diskrete Wahrscheinlichkeits-Verteilungen/Zufallsvariablen Allgemeine Definition Bekannte diskrete Wahrscheinlichkeits-Verteilungen Bernoulli-Verteilung: X Be(p) Binomial-Verteilung: X Bin(n, p) Geometrische Verteilung: X Ge(p) Poisson-Verteilung: X Po(λ) Poisson-Approximation der Binomial-Verteilung Hypergeometrische Verteilung: X Hyp(N, M, n) Multinomial-Verteilung: (X 1, X 2,..., X m ) M(n, (p 1, p 2,..., p m )) Stetige Wahrscheinlichkeits-Verteilungen/Zufallsvariablen Allgemeine Definition Bekannte stetige Wahrscheinlichkeits-Verteilungen Uniforme Verteilung: X U[a, b] Exponential-Verteilung: X Exp(λ) Normalverteilung: X N (µ, σ 2 ) t-verteilung: X t n χ 2 -Verteilung: X χ 2 n F -Verteilung: X F m,n Stochastik für die Naturwissenschaften June 6, 2018 Seite 1
2 4 Z-Transformation Für beliebige ZV Für normalverteilte ZV Zentraler Grenzwertsatz (CLT) Theorie Praxis Hypothesen-Tests / Konfidenz-Intervalle Allgemeines Vorgehen bei Hypothesen-Tests Mittelwert X: Theorie und Praxis Statistische Schätzer Konfidenz-Intervalle Die fünf wichtigsten Fälle / Modelle X k N (µ, σ 2 ), σ unbekannt: t-test für eine Stichprobe Differenz von Mittelwerten bei Normalverteilung: t-test für zwei Stichproben Unbekannter Erfolgsanteil : Binomial mit unbekanntem p Differenz von unbekannten Erfolgsanteilen : Binomial für Differenz von Proportionen X k N (µ, σ 2 ), σ bekannt Stichproben-Grösse und Länge der KI α und β : Fehler 1. und 2. Art / P-Wert Fehler 1. Art α Fehler 2. Art β P-Wert χ 2 -Test (Auf Unabhängigkeit / Auf Verteilung) χ 2 -Test auf Unabhängigkeit Hypothese und Alternative Messdaten erfassen Testgrösse und Entscheidung χ 2 -Test auf Verteilung: Anpassungstest Hypothese und Alternative Messdaten und Schätzer Testgrösse und Entscheidung Stochastik für die Naturwissenschaften June 6, 2018 Seite 2
3 9 ANOVA / Varianzanalyse Grundproblem Hypothese / Schätzer / Grand Mean Fundi ANOVA Test-Statistik und Hypothesen-Entscheidung ANOVA in R: aov(dat groups, fr) Lineare Regression Grundmodell (OLS-Methode) Parameter-Berechnung Hypothesen-Tests zum Parameter β Korrelation Lineare Regression in R: lm(y x) Quellen Changelog 34 Stochastik für die Naturwissenschaften June 6, 2018 Seite 3
4 1 Allgemeine Wahrscheinlichkeitstheorie 1.1 Ereignisraum Ω, Ereignisse Eine Menge Ω heisst Ereignisraum, ihre Elemente ω Ω heissen Elementar-Ereignisse: Sie sind z.b. alle möglichen Resultate eines Zufallsexperiments. Jede Teilmenge E Ω von Ω heisst Ereignis Wahrscheinlichkeit und weitere Begriffe Eine Wahrscheinlichkeits-Funktion auf Ω ist eine Funktion P : {E : E ist Teilmenge von Ω} [0, 1], E P [E] die jedem Ereignis E Ω seine Wahrscheinlichkeit P [E] zuordnet. Folgendes muss dabei gelten: P [Ω] = 1: Ω ist das sichere Ereignis 0 P [E] 1 für alle Ereignisse E Ω Sind die Ereignisse E 1, E 2,... paarweise disjunkt (d.h. unvereinbar), also E i E j = für i j, so gilt P [E 1 E 2... ] = P [E 1 ] + P [E 2 ] +... Es gilt immer die Formel P [A B] = P [A] + P [B] P [A B] Weitere Begriffe: Ist P [E] = 0, so heisst E unmögliches Ereignis. Ereignisse A und B sind unvereinbar, falls sie disjunkt sind: A B =. Ereignisse A und B sind unabhängig, falls P [A B] = P [A] P [B] Das Gegenereignis E eines Ereignisses E ist das Komplement von E (bzgl. Ω): E = Ω \ E. Es gilt P [E] = 1 P [E] Dies wird oft benutzt, um eine Rechnung zu vereinfachen. Stochastik für die Naturwissenschaften June 6, 2018 Seite 4
5 1.1.2 Bedingte Wahrscheinlichkeit, Formeln von Bayes und der Totalen Wahrscheinlichkeit Die Wahrscheinlichkeit eines Ereignisses A unter der Bedingung B heisst bedingte Wahrscheinlichkeit und wird mit P [A B] bezeichnet. Es gilt P [A B] = P [A B], falls P [B] 0 P [B] Daraus ergeben sich sofort die folgenden Produkt-Formeln P [A B] = P [A] P [B A], P [A B C] = P [A] P [B A] P [C A B],... Sind für zwei Ereignisse A und B die bedingten Wahrscheinlichkeiten P [B A], P [B A] sowie P [A] bekannt, lässt sich damit auch P [A B] berechen mit der Formel von Bayes P [A B] = P [A B] P [B] = P [B A] P [A] P [B A] P [A] + P [B A] P [A] Die Aufteilung des Nenners P [B] beruht auf der folgenden Formel: Ist Ω aufgeteilt in n disjunkte, also unvereinbare Ereignisse B 1, B 2,..., B n, d.h. Ω = n B k mit B i B j =, falls i j dann gilt - falls auch noch P [B k ] > 0 für k = 1, 2,..., n - für jedes Ereignis A die Formel von der totalen Wahrscheinlichkeit (FTW) P [A] = P [A B k ] P [B k ] Unabhängigkeit von Ereignissen Zwei Ereignisse A, B Ω heissen (stochastisch) unabhängig (voneinander), falls [P [A B] = P [A] P [B] Ist z.b. P [B] > 0, so gilt A unabhängig von B P [A B] = P [A] d.h. B hat keinen Einfluss auf A (auch als who cares bekannt). 1.2 Zufallsvariable / Zufallsgrösse, Erwartungswert, Varianz und Verteilungsfunktion NB: Statt des von Storrer/Luchsinger verwendeten Begriffs Zufallsgrösse/ZG werden wir im Folgenden stets das Synonym Zufallsvariable/ZV gebrauchen!! Stochastik für die Naturwissenschaften June 6, 2018 Seite 5
6 Sei X : Ω R eine Zufallsvariable (kurz: ZV), dann ist ihr k Erwartungswert E[X] = x k p k x f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) und ihre k Varianz V [X] = (x k µ) 2 p k (x µ)2 f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) falls µ := E[X] existiert. Dann gilt auch (vereinfachte Berechnung!) V [X] = E[X 2 ] E[X] 2 wobei E[X 2 ] berechnt wird als E[X 2 k ] = x2 k p k x2 f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) Die Verteilungsfunktion von X ist x F X (a) = P [X a] = k a p k a f(x)dx für diskrete Verteilung mit P [X = x k ] = p k für stetige Verteilung mit Dichtef(x) Damit lassen sich berechnen: P [a X b] = F X (b) F X (a) P [X > b] = 1 P [X b] = 1 F X (b) Es gelten die Rechenregeln für ZVen X und Y sowie Konstanten a, b, c R E[a X + b Y + c] = a E[X] + b E[Y ] + c und falls die ZVen X und Y unabhängig sind V [a X + b Y + c] = a 2 V [X] + b 2 V [Y ] Ansonsten ist die Kovarianz von X und Y cov(x, Y ) = E[(X E[X]) (Y E[Y ])] zu berücksichtigen und es gilt V [a X ± b Y + c] = a 2 V [X] ± 2 a b cov(x, Y ) + b 2 V [Y ] Stochastik für die Naturwissenschaften June 6, 2018 Seite 6
7 1.3 LLN: Law of Large Numbers / Satz von Kolmogoroff Dieses Gesetz besagt, dass der Mittelwert einer Folge von iid ZVen gegen den Erwartungswert der (einzelnen) ZV konvergiert. Genauer: Für eine Folge von iid ZVen (X k ), deren Erwartungswert E[X k ] = µ existiert, gilt für jedes (noch so kleine) ɛ > 0, dass [ ] lim P 1 X k µ n n > ɛ = 0 d.h. die Wahrscheinlichkeit, dass der Mittelwert 1 n n X k um mehr als ɛ von µ abweicht, strebt für n gegen 0. 2 Diskrete Wahrscheinlichkeits-Verteilungen/Zufallsvariablen 2.1 Allgemeine Definition Eine Zufallsvariable X mit diskreter Wahrscheinlichkeits-Verteilung wird definiert durch Angabe von (üblicherweise geordneten) Werten x 0 < x 1 < x 2 < x 3 <... und Wahrscheinlichkeiten p 0, p 1, p 2, p 3,... mit denen X die Werte x k annimmt: P [X = x k ] = p k Die Anzahl der x k (und der zugehörigen p k ) kann endlich oder (abzählbar) unendlich sein. Die Wahrscheinlichkeiten p k erfüllen: 0 < p k 1 und k p k! = 1 Der Erwartungswert von X ist definiert als E[X] = k x k p k und die Varianz als V [X] = E[(X E[X]) 2 ] = E[X 2 ] E[X] 2 wobei E[X 2 ] = k x2 k p k. Die Verteilungsfunktion von X ist gegeben durch F X (a) = P [X a] = x k a p k Die Summation geht über alle Indices k, für die x k a gilt. F X ist stückweise konstant und springt bei den x = x k um jeweils p k nach oben. Der Median von X ist nicht einheitlich definiert. Die sinnvollste Definition ist wohl folgende: Median[X] := dasjenige x k, für dessen Index k gilt : k 1 p i 1/2 und p i 1/2 i=0 i k+1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 7
8 Umgangssprachlich: Das jenige x k, unterhalb dessen sich die p i und oberhalb dessen sich die p i zu jeweils 50% addieren. Für eine Funktion g : R R wird Y = g(x) zu einer neuen ZV und es gilt E[Y ] = E[g(X)] = k g(x k ) p k In R: R-Funktionen für ZVen bestehen aus einem Familien-Namen wie binom gefolgt von Parametern in Klammern und vorangestelltem einzelnen Buchstaben, und zwar d für die Dichte-Funktion (engl. density), Zusatzparameter: x p für die Verteilungsfunktion (engl. probability), Zusatzparameter: x q für Quantile (engl. quantile), Zusatzparameter: y r für das Erzeugen von entsprechend verteilten Zufallszahlen (engl. random numbers), Zusatzparameter: n=anzahl Zahlen Der jeweilige Zusatzparameter steht an erster Stelle der Argumente in den Klammern. Die meisten Parmameter haben Default-Werte, die in der Parameterliste mit einem = <value> festgelegt sind. Bei den diskreten Verteilungen kommen nicht immer alle Präfixe aus [d p q r] vor. 2.2 Bekannte diskrete Wahrscheinlichkeits-Verteilungen Bernoulli-Verteilung: X Be(p) Modelliert Erfolg als X = 1 mit Erfolgs-Wahrscheinlichkeit p [0, 1] und Misserfolg als X = 0. P [X = 0] = 1 p P [X = 1] = p E[X] = p V [X] = p(1 p) In R: [d p q r]binom(..., 1, prob,...) wobei prob = p Binomial-Verteilung: X Bin(n, p) Modelliert Summe von n {1, 2, 3,... } unabhängigen, Be(p)-verteilten ZVen, also die Anzahl Erfolge in n Versuchen mit jeweiliger Erfolgs-Wahrscheinlichkeit p. Stochastik für die Naturwissenschaften June 6, 2018 Seite 8
9 P [X = k] = ( ) n p k (1 p) n k, k {0, 1,..., n} mit Binomial-Koeffizienten k Summe von Bernoulli ist Binomial : Sind X 1, X 2,..., X n Be(p) unabhängig E[X] = np V [X] = np(1 p) ( ) n := k n! k!(n k)! k X k Bin (n, p) Summe von Binomial ist Binomial : Sind X k Bin(n k, p) unabhängig ( ) X k Bin n k, p (dasselbe p!) k Tabelle mit Werten für n = 2, 3,..., 8 und p = 0.05, 0.10,..., 0.90, 0.95 Storrer S In R: [d p q r]binom(..., size, prob,...) wobei size = n, prob = p k Geometrische Verteilung: X Ge(p) Modelliert Anzahl Versuche, bis zum ersten Mal Erfolg eintritt. Jeder Einzelversuch hat Erfolgs-Wahrscheinlichkeit p ]0, 1[. P [X = k] = p(1 p) k 1, k {1, 2, 3,... } E[X] = 1 p X Ge(p) ist gedächtnislos im folgenden Sinn: V [X] = 1 p p 2 P [X = n + k X > n] = P [X = k] In R: [d p q r]geom(..., prob,...) wobei prob = p Poisson-Verteilung: X Po(λ) Modelliert Anzahl seltener Ereignisse (typischerweise in einem Zeitraum ) mit bekanntem/geschätztem Erwartungswert λ > 0 P [X = k] = e λ λk, k {0, 1, 2,... } k! Stochastik für die Naturwissenschaften June 6, 2018 Seite 9
10 E[X] = λ V [X] = λ Summe von Poisson ist Poisson von Summe : X 1 Po(λ 1 ) und X 2 Po(λ 2 ) unabhängig X 1 + X 2 Po(λ 1 + λ 2 ) In R: [d p q r]pois(..., lambda,...) wobei lambda = λ Poisson-Approximation der Binomial-Verteilung Für grosse n und kleine p kann die Binomial-Verteilung mit der Poisson-Verteilung approximiert werden. Sei also X Bin(n, p). Dann ist X approximativ Po(λ)-verteilt mit λ = n p. Also gilt λ λk P [X = k] e k! Hypergeometrische Verteilung: X Hyp(N, M, n) Modell: Eine Menge von N Elementen wird in M( N) gute und N M schlechte aufgeteilt. Es werden n Elemente aus den N ausgewählt. Es geht nun um die Wahrscheinlichkeit, dass k von diesen n gut sind. P [X = k] = ( M )( N M ) k n k ( N, k {max{0, n + M N},..., min{n, M}} n) E[X] = np V [X] = np(1 p) N n N 1, wobei p = M N Beispiel: In einer Urne befinden sich N = 45 Kugeln, M = 20 davon sind rot (die anderen nicht). Wie hoch ist die Wahrscheinlichkeit, bei einer Stichprobe von n = 10 Kugeln genau k = 4 rote Kugeln zu ziehen? Antwort: p = (20 4 )( In R: 10 4 ) ( 45 10) [d p q r]hyper(..., n, m, k,...) wobei n = N, m = M, k = n Multinomial-Verteilung: (X 1, X 2,..., X m ) M(n, (p 1, p 2,..., p m )) Dies ist eine multivariate, d.h. mehr-dimensionale Verteilung für m ZVen (X 1, X 2,..., X m ) (auch: m-dimensionaler Zufallsvektor) Modelliert n N Versuche, aus m verschiedenen Sorten die jeweilige Sorte k mit Wahrscheinlichkeit p k ]0, 1[ zu ziehen, wobei m p k! = 1 ( ) n P [X 1 = k 1, X 2 = k 2,..., X m = k m ] = p k 1 1 p k 2 2 p km m, wobei k 1 + k k m = n k 1, k 2,..., k m Stochastik für die Naturwissenschaften June 6, 2018 Seite 10
11 Der Term heisst Multinomial-Koeffizient ( ) n := k 1, k 2,..., k m n! k 1!k 2! k m! E[X k ] = n p k V [X k ] = np k (1 p k ) M(n, (p 1, p 2,..., p m )) spielt eine Rolle beim χ 2 -Test. In R: [d r]multinom(..., size, prob,...) wobei size = n, prob = (p 1, p 2,..., p n ) 3 Stetige Wahrscheinlichkeits-Verteilungen/Zufallsvariablen 3.1 Allgemeine Definition Eine stetige Zufallsvariable X ist definiert durch eine Wahrscheinlichkeits-Dichte f(x), die erfüllen muss: Der Erwartungswert von X ist Für alle x gilt f(x) 0 und zusätzlich f(x)dx =! 1 E[X] = x f(x)dx und die Varianz von X lässt sich am einfachsten so berechnen: V [X] = E[X 2 ] E[X] 2, wobei E[X 2 ] = x 2 f(x)dx Die eigentliche Verteilungsfunktion (engl. distribution) F X von X ist dann definiert durch F X (a) = a f(x)dx F X ist stetig und falls auch differenzierbar gilt (da F X Stammfunktion der Dichte f): F X(a) = f(a) Damit lässt sich berechnen: P [a X b] = b a f(x)dx = F X (b) F X (a) Der Median x m vom X ist implizit definiert durch die Bedingung xm f(x)dx! = 1 2 Stochastik für die Naturwissenschaften June 6, 2018 Seite 11
12 und existiert immer. NB: Weder E[X] noch V [X] müssen existieren, die jeweiligen uneigentlichen Integrale können divergieren. Beispiel: Die Cauchy-Verteilung t 1 mit der Dichte f(x) = 1 π symmetrisch zur y-achse x = 0, aber weder E[X] noch V [X] existieren! Für ein α [0, 1] ist das α-quantil von X q α (X) = F 1 1 (α), F = Umkehrfunktion von F X X also diejenige Zahl q α (X) (genauer: die kleinste solche Zahl), für die gilt X 1. Diese ist zwar 1+x 2 qα(x) f(x)dx = α Der Median ist also das 1/2-Quantil: x m = q 1/2 (X) Für eine Funktion g : R R wird Y = g(x) zu einer neuen ZV und es gilt E[Y ] = E[g(X)] = g(x) f(x) dx Die Wahrscheinlichkeit, dass X genau einen Wert hat, ist immer = 0 (!!): P [X = a] = a a f(x)dx = 0 In R: Es gelten dieselben Regeln wie bei den diskreten Verteilungen. 3.2 Bekannte stetige Wahrscheinlichkeits-Verteilungen Uniforme Verteilung: X U[a, b] Modelliert eine Gleichverteilung auf dem Intervall [a, b] Dichte: Verteilungsfunktion: In R: E[X] = a + b 2 0 x < a f(x) = 1 b a x [a, b] 0 x > b 0 x < a F X (x) = x a b a x [a, b] 1 x > b V [X] = (b a)2 12 [d p q r]unif(..., min = 0, max = 1,...) x m = a + b 2 wobei min = a, max = b Stochastik für die Naturwissenschaften June 6, 2018 Seite 12
13 3.2.2 Exponential-Verteilung: X Exp(λ) Parameter: λ > 0. Modelliert z.b. Lebensdauern/Wartezeiten/die Zahl von erwarteten Ereignissen pro Einheitsintervall. Dichte: Verteilungsfunktion: λe λx x 0 f(x) = 0 x < 0 1 e λx x 0 F X (x) = 0 x < 0 E[X] = 1 λ V [X] = 1 λ 2 x m = ln(2) λ Exp(λ) ist als einzige stetige Verteilung gedächtnislos im Sinne X Exp(λ) P [X s + t X s] = P [X t] In R: [d p q r]exp(..., rate = 1,...) wobei rate = λ Normalverteilung: X N (µ, σ 2 ) µ = Mittelwert, σ = Standardabweichung Die Dichte ϕ µ,σ (x) = 1 σ 1 2π e 2( x µ σ ) 2 hat das absolute Maximum bei x = µ, ist symmetrisch zur Achse x = µ und hat die Wendepunkte x = µ ± σ. Verteilungsfunktion: F X (a) = Φ µ,σ (a) = a f(x)dx, lässt sich nicht durch elementare Funk- tionen (wie e x, sin(x), x α, ln(x)) darstellen brauche die Z-Transformation und eine Tabelle für die Standardnormalverteilung N (0, 1), deren Verteilungsfunktion mit Φ(a) bezeichnet wird! E[X] = µ V [X] = σ 2 x m = µ Summe von normalverteilt ist normalverteilt : Sind X 1 N (µ 1, σ 2 1), X 2 N (µ 2, σ 2 2), X 3 N (µ 3, σ 2 3),... unabhängig X 1 + X 2 + X 3 + N ( µ 1 + µ 2 + µ , σ σ σ ) Summe von n Quadraten von iid N (0, 1) ist χ 2 n-verteilt : Sind X 1, X 2,..., X n iid N (0, 1) Xk 2 χ 2 n Stochastik für die Naturwissenschaften June 6, 2018 Seite 13
14 N (0, 1) ist der Limes beim CLT und in diesem Sinne die wichtigste stetige Verteilung! Notationen: Luchsinger: N (µ, σ 2 ), Storrer: N(µ; σ) (!!), Stahel: N < µ, σ 2 > Faustregeln: X N (µ, σ 2 ) P [ X µ > 1 σ] 1 3 und P [ X µ > 2 σ] 0.05 = 5%, in Worten: Abweichungen von µ um mehr als ± ein σ haben Wahrscheinlichkeit 1/3, und bei mehr als ± zwei σ noch 5%. Wichtig als CV bei einigen Hypothesen-Tests: ( z α := Φ 1 1 α ) = 2 ( 1 α 2 ) -Quantil von N (0, 1) Damit gilt +z α z α ϕ 0,1 (x)dx = 1 α. ( Storrer, S. 360 oder S. 363, ν = ) ϕ 0,1 (x) α/2 z α x α z α In R: [d p q r]norm(..., mean = 0, sd = 1,...) wobei mean = µ, sd = σ(!!) t-verteilung: X t n n {1, 2, 3,... } = Anzahl Freiheitsgrade Dichte: ( ) n+1 f n (x) = c n 1 + x2 2 (für geeignetes c n ) n E[X] = 0 (n > 3) V [X] = n n 2 (n > 4) x m = 0 Die Dichte der t-verteilung ist symmetrisch zur y-achse x = 0 Der Grenzwert der t n ist die Standardnormalverteilung : lim t n = N (0, 1) n Wichtig als CV bei einigen Hypothesen-Tests: ( t α,n := 1 α ) -Quantil der t n -Verteilung 2 Damit gilt +t α,n t α,n f n (x)dx = 1 α. ( Storrer S. 363) n = 1 : t 1 heisst auch Cauchy-Verteilung mit Dichte f(x) = 1 π x 2 Stochastik für die Naturwissenschaften June 6, 2018 Seite 14
15 wovon weder E[.] noch V [.] existieren! In R: [d p q r]t(..., df,...) wobei df = n χ 2 -Verteilung: X χ 2 n n {1, 2, 3,... } = Anzahl Freiheitsgrade. Wird gelesen als Chi-Quadrat. Dichte: c n x n 2 1 e x 2 x 0 (für geeignetes c n ) f(x) = 0 x < 0 E[X] = n V [X] = 2n χ 2 mit 2 Freiheitsgraden ist Exponential mit λ = 1/2 : χ 2 2 = Exp(1/2) In R: [d p q r]chisq(..., df,...) wobei df = n F -Verteilung: X F m,n m {1, 2, 3,... } = Zähler- und n {1, 2, 3,... } = Nenner-Freiheitsgrad. Dichte: x c m 2 1 m,n x 0 (für geeignetes c f(x) = (mx+n) m+n m,n ) 2 0 x < 0 E[X] = n n 2 (n > 2) V [X] = 2n2 (m + n 2) m(n 2) 2 (n 4) F m,n = χ2 m/m χ 2 n/n X t n X 2 F 1,n (n > 4) In R: [d p q r]f(..., df1, df2,...) wobei df1 = m, df2 = n Stochastik für die Naturwissenschaften June 6, 2018 Seite 15
16 4 Z-Transformation 4.1 Für beliebige ZV Falls für eine ZV X sowohl µ = E[X] als auch σ 2 = V [X] existieren, lässt sich X durch Verschiebung um µ und Division durch sd[x] = σ in eine neue Zufallsvariable transformieren. Für diese gilt dann Z = X µ, die Z-Transformierte von X σ E[Z] = 0 und V [Z] = 1 sie ist also standardisiert, aber i.a. nicht normal-verteilt! 4.2 Für normalverteilte ZV Zu einer normal-verteilten ZV X N (µ, σ 2 ), für die ja E[X] = µ und V [X] = σ 2 gilt, ist die Z-Transformierte Z = X µ σ N (0, 1), also standard-normalverteilt Durch die Z-Tansformtion lassen sich Berechnungen für allgemeine normal-verteilte ZVen auf N (0, 1) zurückführen. Also z.b. [ X N (µ, σ 2 xu µ ) P [x u X x o ] = P σ X µ σ wobei Φ die Verteilungsfunktion von N (0, 1) ist ( Storrer, S. 361). x ] ( ) ( ) o µ xo µ xu µ = Φ Φ σ σ σ 5 Zentraler Grenzwertsatz (CLT) 5.1 Theorie Der Zentrale Grenzwertsatz (Englisch: Central Limit Theorem) besagt folgendes: Sei (X k ) eine Folge von iid ZVen, deren Erwartungswert E[X k ] =: µ und Varianz V [X k ] =: σ 2 existieren. Dann ist die Z-Transformierte der Summe n X k, also (wegen E[ n X k] = n µ und V [ n X k] = n σ 2 ) n X k n µ σ n für grosse n approximativ N (0, 1)-verteilt, strebt für n gegen die Standardnormalverteilung N (0, 1): lim P n [ n X k n µ σ n < x o ] = P [N (0, 1) < x o ] = Φ(x o ) wobei Φ die Verteilungsfunktion von N (0, 1) ist ( Storrer, S. 361). Stochastik für die Naturwissenschaften June 6, 2018 Seite 16
17 5.2 Praxis Das CLT wird verwendet, um die Verteilung(sfunktion) von Summen von iid ZVen zu approximieren. Die Approximation ist je besser, je grösser n ist. Dabei müssen die Grenzen ebenfalls transformiert werden: [ ] [ n P X k < a = P X k n µ σ n < a n µ ] [ σ P N (0, 1) < a n µ ] ( a n µ n σ = Φ n σ n ) Analog ergibt sich z.b. [ ] [ a n µ P a X k b P σ n N (0, 1) b n µ ] ( b n µ σ = Φ n σ n ) ( ) a n µ Φ σ n 6 Hypothesen-Tests / Konfidenz-Intervalle 6.1 Allgemeines Vorgehen bei Hypothesen-Tests Hypothesen sind meistens Aussagen über die Verteilung ( deren Parameter) von ZVen, die als Modell der zu untersuchenden Daten fungieren. Vorgehen nach Kochrezept : 1. (Null-)Hypothese H 0 und Alternative H 1 dazu festlegen. 2. Signifikanz-Niveau α (und wenn möglich Umfang n der Messdaten) festlegen. 3. Test-Statistik geeignet wählen. 4. Verteilung der Test-Statistik (als ZV) unter H 0 bestimmen. 5. Kritschen Wert CV α,n und damit Konfidenz-Intervall KI α bestimmen. 6. (Mess)Daten erheben und in Teststatistik einsetzen. 7. Aufgrund von Entscheidungsregeln Hypothese H 0 beibehalten (und die Alternative ablehnen) oder Alternative H 1 annehmen (und die Hypothese verwerfen). Die Entscheidungsregeln werden mittels der KI oder via die Teststatistik formuliert. Die Punkte 3., und 7. werden unten für die fünf klassischen Fälle ausführlich behandelt. 6.2 Mittelwert X: Theorie und Praxis Motivation: Aussagen über den Erwartungs-/Mittelwert einer Verteilung sind die wichtigsten Beispiele von Hypothesen! Stochastik für die Naturwissenschaften June 6, 2018 Seite 17
18 Im folgenden wird jeweils eine Folge X 1, X 2, X 3,... von iid ZVen betrachtet, wobei µ := E[X k ] und σ := V [X k ] existieren sollten. Für festes, endliches n N wird dann der Mittelwert X := 1 n (X 1 + X X n ) gebildet. Laut allgemeiner Theorie (cf. Abschnitt 1.3) gilt dann E[X] = µ, V [X] = σ2 n, sd[x] = σ n Es geht nun darum, µ und σ anhand einer vorliegenden Realisierung der ZV-Folge X 1, X 2, X 3,... zu schätzen: Das ist die statistische Praxis. 6.3 Statistische Schätzer Seien x 1, x 2,..., x n Realisierungen der Folge X 1, X 2, X 3,... von iid ZVen, also z.b. Messdaten. Dann haben wir die folgenden Schätzer Für E[X k ]: x := 1 n x k Für V [X k ]: s 2 = 1 n 1 NB: Nur mit dem Faktor 1 n 1 Für den Standardfehler σ X = sd[x k ] = σ n : s X = 6.4 Konfidenz-Intervalle (x k x) 2 = 1 n 1 ( ) x 2 k n x 2 ist dieser Schätzer erwartungstreu! s n = (x k x) 2 n n(n 1) = n x2 k n x2 n(n 1) Zu einem gegebenen Konfidenz-Niveau (auch: Signifikanz-Niveau) α heisst eine zufällige Teilmenge KI R Konfidenz-Intervall zum Niveau α für µ (1 α)-konfidenz-intervall für µ, falls P [µ KI] = 1 α. In Worten: Die Wahrscheinlichkeit, dass µ in KI liegt ist 1 α. Typischerweise ist KI tatsächlich ein Intervall: KI = [a, b] und es gilt dann P [a µ b] = 1 α Typische Werte von α: 10%, 5%, 2%, 1%, 0.5%, 0.2%, 0.1%, 0.1, 0.05, 0.02, 0.01, 0.005, 0.002, In R werden auch folgende Codes verwendet: ( ) für 5%/0.05, ( ) für 1%/0.01, ( ) für 0.1%/0.001 Stochastik für die Naturwissenschaften June 6, 2018 Seite 18
19 6.5 Die fünf wichtigsten Fälle / Modelle Je nachdem, was für Annahmen wir über die Verteilung der (iid) X k machen, können wir (1 α)- Konfidenz-Intervalle für den (theoretischen) Mittelwert µ = E[X k ] angeben. Sie sind jeweils symmetrisch zum Mittelwert x der Messdaten: [ ] s s KI α = x CV α,n, x + CV α,n n n und der kritische Wert CV α,n hängt i.a. von α, n und dem zugrundeliegenden Modell ab. CV steht für Englisch Critical Value X k N (µ, σ 2 ), σ unbekannt: t-test für eine Stichprobe Da σ hier nicht bekannt ist, wird es geschätzt mit dem Schätzer σ = 1 n 1 ( ) (x k x) 2 = 1 x 2 k n 1 n x2 Damit wird die Test-Statistik zum 1-Stichproben-t-Test gebildet: t = x µ 0 σ/ n Sie ist als ZV T unter H 0 t-verteilt mit ν = n 1 Freiheitsgraden: T t n 1. Für die zweiseitige Hypothese H 0 : µ = µ 0 mit Alternative H 1 : µ µ 0 ist das (1 α)-konfidenz- Intervall für µ ] σ σ KI α = [x t α,n 1 n, x + t α,n 1 n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α H 0 beibehalten, falls t t α,n 1 und H 1 annehmen, falls t > t α,n 1 Der kritische Wert ist CV α,n = t α,n 1 also das ( ) 1 α 2 -Quantil der t-verteilung mit ν = n 1 Freiheitsgraden ( Storrer S. 363, von oben gelesen : ). Für die einseitige (linksseitige, ) Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ < µ 0 ist das (1 α)-konfidenz-intervall für µ ] σ KI α = ], x + t 2α,n 1 n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α H 0 beibehalten, falls t t 2α,n 1 und H 1 annehmen, falls t < t 2α,n 1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 19
20 Für die einseitige (rechtsseitige, )Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ > µ 0 ist das (1 α)-konfidenz-intervall für µ KI α = [ [ σ x t 2α,n 1 n, + H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α H 0 beibehalten, falls t t 2α,n 1 und H 1 annehmen, falls t > t 2α,n 1 Die kritischen Werte bei den einseitigen Hypothesen sind ±t 2α,n 1, also ± das (1 α)-quantil der t-verteilung mit ν = n 1 Freiheitsgraden ( Storrer S. 363, von unten gelesen : ). NB: 1. Illustration zu den t α,n s anhand des Graphen der Dichtefunktion der t n -Verteilung: α/2 α/2 t α,n t α,n α t 2α,n α t 2α,n 2. Wegen des CLT gilt lim n t α,n = z α d.h. der CV der t-verteilung nähert sich mit wachsendem n dem CV von N (0, 1) an Differenz von Mittelwerten bei Normalverteilung: t-test für zwei Stichproben Wir haben zwei Stichproben (x k ) m und (y j) n j=1, die jeweils mit ZVen X k N (µ 1, σ 2 ) und Y j N (µ 2, σ 2 ) modelliert werden, also mit verschiedenen µ 1 und µ 2 aber bei gleichem und unbekanntem σ 2. Als Schätzer haben wir x = 1 m m x k für µ 1 und y = 1 n y j für µ 2 j=1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 20
21 und als Schätzer für sd[x Y ] S = ( 1 m + 1 ) m (x k x) 2 + n j=1 (y j y) 2 n m + n 2 Damit wird die Test-Statistik zum 2-Stichproben-t-Test gebildet: t = x y S Sie ist als ZV T unter H 0 t-verteilt mit ν = m + n 2 Freiheitsgraden: T t m+n 2. Für die zweiseitige Hypothese H 0 : µ 1 = µ 2 mit Alternative H 1 : µ 1 µ 2 ist das (1 α)- Konfidenz-Intervall für (µ 1 µ 2 ) KI α = [(x y) t α,n+m 2 S, (x y) + t α,n+m 2 S] H 0 beibehalten, falls µ 1 µ 2 KI α und H 1 annehmen, falls µ 1 µ 2 / KI α H 0 beibehalten, falls t t α,n+m 2 und H 1 annehmen, falls t > t α,n+m 2 Der kritische Wert ist ( Storrer S. 363 ) CV α,ν = t α,m+n 2 Für die einseitige (linksseitige, ) Hypothese H 0 : µ 1 µ 2 mit Alternative H 1 : µ 1 < µ 2 ist das (1 α)-konfidenz-intervall für (µ 1 µ 2 ) KI α = ], (x y) + t 2α,n+m 2 S] H 0 beibehalten, falls µ 1 µ 2 KI α und H 1 annehmen, falls µ 1 µ 2 / KI α H 0 beibehalten, falls t t 2α,n+m 2 und H 1 annehmen, falls t < t 2α,n+m 2 Für die einseitige (rechtsseitige, ) Hypothese H 0 : µ 1 µ 2 mit Alternative H 1 : µ 1 > µ 2 ist das (1 α)-konfidenz-intervall für (µ 1 µ 2 ) KI α = [(x y) t 2α,n+m 2 S, + [ H 0 beibehalten, falls µ 1 µ 2 KI α und H 1 annehmen, falls µ 1 µ 2 / KI α H 0 beibehalten, falls t t 2α,n+m 2 und H 1 annehmen, falls t > t 2α,n+m 2 NB: In dieser Situation könnte auch eine ANOVA mit k = 2 Gruppen der Länge n 1 = m und n 2 = n gemacht werden. Für die dann resultierende Test-Statistik V gilt V = t 2 Stochastik für die Naturwissenschaften June 6, 2018 Seite 21
22 6.5.3 Unbekannter Erfolgsanteil : Binomial mit unbekanntem p Wir haben Messdaten (x i ) n i=1 mit x i = 1 bei Erfolg und x i = 0 bei Misserfolg, was mit X Bin(n, p) modelliert wird. Für das unbekannte p haben wir den Schätzer bei k Erfolgen p = 1 n x i = k, also dem Anteil der Erfolge in den n Daten n i=1 und als Schätzer für die Standardabweichung Damit wird die Test-Statistik gebildet: z = σ = p (1 p) p p 0 p (1 p)/ n Sie ist als ZV Z unter H 0 approximativ standardnormalverteilt. Für die zweiseitige Hypothese H 0 : p = p 0 mit Alternative H 1 : p p 0 ist das (1 α)-konfidenz- Intervall für die Erfolgs -Wahrscheinlichkeit p [ ] p (1 p) p (1 p) KI α = p z α, p + z α n n H 0 beibehalten, falls p 0 KI α und H 1 annehmen, falls p 0 / KI α H 0 beibehalten, falls z z α und H 1 annehmen, falls z > z α Der kritische Wert ist ( Storrer S. 360) CV α,n = z α Für die einseitige (linksseitige, ) Hypothese H 0 : p p 0 mit Alternative H 1 : p < p 0 ist das (1 α)-konfidenz-intervall für p KI α = ], p + z 2α ] p (1 p) n H 0 beibehalten, falls p 0 KI α und H 1 annehmen, falls p 0 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z < z 2α Für die einseitige (rechtssseitige, ) Hypothese H 0 : p p 0 mit Alternative H 1 : p > p 0 ist das (1 α)-konfidenz-intervall für p KI α = [ p z 2α [ p (1 p), n H 0 beibehalten, falls p 0 KI α und H 1 annehmen, falls p 0 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z > z 2α NB: Praktiker-Regel: Obiges funktioniert nur wenn n p(1 p) > 9, dann kann das CLT angewendet werden und wir haben deshalb den CV von N (0, 1). Stochastik für die Naturwissenschaften June 6, 2018 Seite 22
23 6.5.4 Differenz von unbekannten Erfolgsanteilen : Binomial für Differenz von Proportionen Wir haben zwei Messreihen (x i ) m 1=1 und (y j ) n j=1 von m n Erfolgen/Misserfolgen. Schätzer für die wahren Erfolgs-Wahrscheinlichkeiten bei k 1 k 2 Erfolgen : und für sd[x Y ] p 1 = 1 m m i=1 S = Damit wird die Test-Statistik gebildet: x i = k 1 m und p 2 = 1 n p1 (1 p 1 ) m z = p 1 p 2 S j=1 + p 2(1 p 2 ) n Sie ist als ZV Z unter H 0 approximativ standardnormalverteilt. y j = k 2 n Für die zweiseitige Hypothese H 0 : p 1 = p 2 mit Alternative H 1 : p 1 p 2 ist das (1 α)- Konfidenz-Intervall für die Differenz (p 1 p 2 ) der Erfolgs -Wahrscheinlichkeiten: KI α = [( p 1 p 2 ) z α S, ( p 1 p 2 ) + z α S] H 0 beibehalten, falls p 1 p 2 KI α und H 1 annehmen, falls p 1 p 2 / KI α H 0 beibehalten, falls z z α und H 1 annehmen, falls z > z α Der kritische Wert ist ( Storrer S. 360) CV α,m,n = z α Für die einseitige (linksseitige, ) Hypothese H 0 : p 1 p 2 mit Alternative H 1 : p 1 < p 2 ist das (1 α)-konfidenz-intervall für p 1 p 2 KI α = ], (p 1 p 2 ) + z 2α S] H 0 beibehalten, falls p 1 p 2 KI α und H 1 annehmen, falls p 1 p 2 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z < z 2α Für die einseitige (rechtsseitige, ) Hypothese H 0 : p 1 p 2 mit Alternative H 1 : p 1 > p 2 ist das (1 α)-konfidenz-intervall für p 1 p 2 KI α = [(p 1 p 2 ) z 2α S, [ H 0 beibehalten, falls p 1 p 2 KI α und H 1 annehmen, falls p 1 p 2 / KI α H 0 beibehalten, falls z z 2α und H 1 annehmen, falls z > z 2α NB: Praktiker-Regel: Dies funktioniert für p i [0.1, 0.9], i = 1, 2, m > 30 und n > 30, weil erst dann das CLT greift. Stochastik für die Naturwissenschaften June 6, 2018 Seite 23
24 6.5.5 X k N (µ, σ 2 ), σ bekannt Die (X k ) n seien also normalverteilt, dann ist der Schätzer für µ = E[X k] = E[X] x = 1 n x k Damit wird die Test-Statistik gebildet: z = x µ 0 σ/ n Sie ist als ZV Z unter H 0 standardnormalverteilt: Z N (0, 1). Für die zweiseitige Hypothese H 0 : µ = µ 0 mit Alternative H 1 : µ µ 0 ist das (1 α)-konfidenz- Intervall für µ ] σ σ KI α = [x z α n, x + z α n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α beibehalten, falls z z α und H 1 annehmen, falls z > z α Der kritische Wert ist ( Storrer S. 360) CV α,n = z α Für die einseitige (linksseitige, ) Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ < µ 0 ist das (1 α)-konfidenz-intervall für µ ] σ KI α = ], x + z 2α n H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α beibehalten, falls z z 2α und H 1 angenommen, falls z < z 2α Für die einseitige (rechtsseitige, ) Hypothese H 0 : µ µ 0 mit Alternative H 1 : µ > µ 0 ist das (1 α)-konfidenz-intervall für µ KI α = [ [ σ x z 2α n, + H 0 beibehalten, falls µ 0 KI α und H 1 annehmen, falls µ 0 / KI α beibehalten, falls z z 2α und H 1 angenommen, falls z > z 2α NB: Dieser Fall (auch bekannt als 1-Stichproben-Gauss-Test) ist eher unrealistisch, da σ selten wirklich bekannt ist! Stochastik für die Naturwissenschaften June 6, 2018 Seite 24
25 6.6 Stichproben-Grösse und Länge der KI Da in jeder der zweiseitigen KI-Formeln für eine Stichprobe das KI die Form [ KI = z b, z + b ] n n hat, gilt (mit diesen Variablen) Länge des KI = 2 b n 0 für n d.h. die Länge des KI kann belebig klein gemacht werden, indem n genügend gross gewählt wird! Sei nun d die vorgegebene (Maximal-)Länge des KI. Dann haben wir: Länge des KI = 2 b n! d 2b d! n Stichprobengrösse n! ( ) 2 2b d 7 α und β : Fehler 1. und 2. Art / P-Wert Wir machen einen statistischen Test. Dazu werden eine Hypothese H 0 und eine Alternative H 1 aufgestellt. Bei beiden werden gewisse Annahmen (über Verteilungen, Mittelwerte, Varianzen etc.) getroffen, die dann Berechnungen ermöglichen. Die Hypothese steht meist für die vernünftige/langweilige Annahme, den Stand des Wissens. NB: Die Alternative muss nicht die logische Verneinung der Hypothese sein! 7.1 Fehler 1. Art α Der Fehler 1. Art passiert, wenn: H 0 ist richtig, aber H 1 wird angenommen. Die (Fehler-)Wahrscheinlichkeit, mit der das passiert, wird als (das) α bezeichnet. Sie kann unter den getroffenen Annahmen berechnet werden. Das α heisst auch Signifikanz-Niveau oder Grösse (engl. size) des Tests. Philosophie: Je kleiner das α, desto statistisch signifikanter ist die Hypothese. 7.2 Fehler 2. Art β Der Fehler 2. Art passiert, wenn: H 1 ist richtig, aber H 0 wird beibehalten. Die (Fehler-)Wahrscheinlichkeit, mit der das passiert wird als (das) β bezeichnet. Sie kann unter den getroffenen Annahmen berechnet werden. 1 β heisst auch Macht (engl. power) des Stochastik für die Naturwissenschaften June 6, 2018 Seite 25
26 Tests. Philosophie: Je kleiner das β, desto mächtiger ist der Test. NB: In den beiden anderen möglichen Fällen (H 0 richtig und beibehalten/h 1 richtig und angenommen) wird kein Fehler begangen. 7.3 P-Wert Oft wird (z.b. von Statistik-Software wie R) der P-Wert einer (Messung deren) Test-Statistik T angegeben. Das ist die Wahrscheinlichkeit, dass ein zufälliger Versuch (unter Annahme von H 0!) mindestens so extrem ausgeht wie die gemachte Messung. D.h. zur Berechnung des P-Wertes wird H 0 vorausgesetzt. Der P-Wert hängt von den konkreten Daten ab und wird also a posteriori (lat. im Nachhinein ) berechnet. Er sollte aber nicht benutzt werden, um das α nachträglich kleiner ( sogar so klein wie noch möglich) zu machen: Das ist schlechter Stil! Dessen ungeachtet gelten die Regeln α P-Wert H 0 beibehalten. α > P-Wert H 1 annehmen. 8 χ 2 -Test (Auf Unabhängigkeit / Auf Verteilung) 8.1 χ 2 -Test auf Unabhängigkeit Hypothese und Alternative Wir haben total n Messungen, die nach je zwei Werten von je zwei Merkmalen sortiert/aufgeteilt werden. Die Frage ist, ob diese Merkmale voneinander (stochastisch) unabhängig sind. Hypothese H 0 : Die beiden Merkmale sind unabhängig. Alternative H 1 : Die beiden Mermale sind abhängig Messdaten erfassen Die gemessenen Anzahlen werden in einer Tabelle - der Kontingenztafel - erfasst: N 11 N 12 N 1. := N 11 + N 12 N 21 N 22 N 2. := N 21 + N 22 N.1 := N 11 + N 21 N.2 := N 12 + N 22 n = N N 22 Die N.i N j. sind die jeweiligen Randsummen der Zeilen Spalten. Stochastik für die Naturwissenschaften June 6, 2018 Seite 26
27 8.1.3 Testgrösse und Entscheidung Die Testgrösse u := 2 i,j=1 (N ij N i. N.j ) 2 N i. N.j = n (N 11N 22 N 12 N 21 ) 2 N 1. N 2. N.1 N.2 ist als entsprechende ZV U unter H 0 und für n χ 2 1-verteilt, also χ 2 mit ν = 1 Freiheitsgrad. Der kritische Wert CV α = χ 2 α,1 also das (1 α)-quantil der χ 2 1-Verteilung ( Storrer, S. 365) entscheidet nun: u CV α H 0 beibehalten u > CV α H 1 annehmen NB: Das Vorgehen lässt sich ausdehnen (vgl. Stahel, S. 230ff) auf r (Zeilen) und s (Spalten) Ausprägungen/Einteilungen von zwei Merkmalen. Die Testgrösse u hat dieselbe Formel, nur dass anders summiert wird r s... i=1 j=1 und die Formel ganz rechts nicht mehr anwendbar ist. Die Anzahl Freiheitsgrade ändert sich zu ν = (r 1)(s 1), gefragt ist dann also der kritische Wert CV α,r,s = χ 2 α,(r 1)(s 1). 8.2 χ 2 -Test auf Verteilung: Anpassungstest Hypothese und Alternative Messungen können in eine von m Gruppen 1, 2,..., m fallen, jeweils mit Wahrscheinlichkeit π k ]0, 1[. Wir stellen die Hypothese auf, dass der Zufallsvektor (X 1, X 2,..., X m ) multinomial-verteilt ist mit gewissen Wahrscheinlichkeiten π 1, π 2,..., π m. Dabei ist n die Anzahl Messungen: H 0 : (X 1, X 2,..., X m ) M(n, (π 1, π 2,..., π m )) Die Alternative ist H 1 : (X 1, X 2,..., X m ) M(n, (θ 1, θ 2,..., θ m )), mit mind. zwei i j: θ i π i, θ j π j Messdaten und Schätzer Seien s 1, s 2,... s m die Anzahlen, der in die Gruppe 1, 2,..., m fallenden Messungen. Es gilt m s k = n = Anzahl Messungen Die theoretischen Wahrscheinlichkeiten werden geschätzt mit π k = s k, k = 1, 2,..., m n Stochastik für die Naturwissenschaften June 6, 2018 Seite 27
28 8.2.3 Testgrösse und Entscheidung Die Testgrösse m (s k n π k ) 2 u := n π k χ 2 -Anpassung ist als entsprechende ZV U unter H 0 und für n χ 2 m 1-verteilt, also χ 2 mit ν = m 1 Freiheitsgraden. Der kritische Wert CV α = χ 2 α,m 1 also das (1 α)-quantil der χ 2 m 1-Verteilung ( Storrer S. 365) entscheidet nun: u CV α H 0 beibehalten u > CV α H 1 annehmen NB: Achtung: Es müssen immer die absoluten Anzahlen genommen werden! Werden alle Zahlen mit dem Faktor λ multipliziert, dann auch die Test-Statistiken: Vgl. z.b. Prüfungsaufgabe FS 2017 (REP) A7. u neu = λ u alt 9 ANOVA / Varianzanalyse ANOVA steht für Englisch Analysis Of Variation(s). Deutsch: Varianzanalyse. 9.1 Grundproblem Gegeben sind eine Gruppe von k Messreihen, die jeweils nicht den gleichen Umfang haben müssen. Also Daten y 1,1, y 2,1,..., y n1,1 y 1,2, y 2,2,..., y n2,2. y 1,k, y 2,k,..., y nk,k von der jeweiligen Länge n 1, n 2,..., n k. Die totale Anzahl der Daten ist n = k j=1 n j Die y i,j werden modelliert als ZVen Y i,j = µ j + ɛ i,j d.h. die j-te Gruppe hat einen Mittelwert µ j plus einen iid Fehler ɛ i,j N (0, σ 2 ), also immer dasselbe σ 2. Damit gilt Y i,j N (µ j, σ 2 ) Stochastik für die Naturwissenschaften June 6, 2018 Seite 28
29 9.2 Hypothese / Schätzer / Grand Mean Bei der ANOVA wird immer die Hypothese H 0 : µ 1 = µ 2 = = µ k betrachtet. Die Alternative ist H 1 : Es gibt i j mit µ i µ j d.h. mindestens zwei µ s sind verschieden. Und es wird mit den k Schätzern µ j := 1 n j n j y i,j, j = 1, 2,..., k i=1 für die Gruppen-Mittelwerte Y.,j = 1 n j n j gearbeitet. Ebenfalls wichtig ist das Grand Mean (Englisch für das grosse Mittel ): GM := 1 n also der Mittelwert aller ZVen Y i,j. i=1 Y i,j ( k n j ) Y i,j j=1 i=1 9.3 Fundi ANOVA Die Gesamt-Varianz der ZVen Y i,j (linke Seite) kann aufgeteilt werden in zwei Teile: n k j (Y i,j GM) 2 = j=1 i=1 k ( n j Y.,j GM ) n 2 k j ( ) 2 + Yi,j Y.,j j=1 j=1 i=1 Dies ist die Fundamentalgleichung der Varianzanalyse, kurz Fundi ANOVA. Dabei ist der 1. Summand = Summe quadrierter Abweichungen der Gruppenmittel vom GM 2. Summand = Summe quadrierter Abweichungen der Daten von den Gruppenmitteln. 9.4 Test-Statistik und Hypothesen-Entscheidung Die Test-Statistik also V = V := k j=1 n ( j Y.,j GM ) 2 /(k 1) k j=1 nj i=1 ( Yi,j Y.,j ) 2 /(n k) (Erster Summand Fundi-ANOVA)/(k 1) (Zweiter Summand Fundi-ANOVA)/(n k) Stochastik für die Naturwissenschaften June 6, 2018 Seite 29
30 ist unter H 0 F k 1,n k -verteilt: V F k 1,n k. Dann wird H 0 mit Signifikanz-Niveau α beibehalten, falls V F α/k 1,n k ansonsten wird H 0 verworfen und die Alternative H 1 angenommen. Der kritsche Wert CV α,k,n = F α/k 1,n k also das (1 α)-quantil der F k 1,n k -Verteilung, ist in der Tabelle für die F -Verteilung ( Link auf Vorlesungs-Homepage) zu finden. NB: Falls nur k = 2 Gruppen vorliegen, könnte auch ein 2-Stichproben-t-Test mit Datensätzen der Länge m = n 1 und n = n 2 gemacht werden. Für die so entstehende Test-Statistik t gilt t 2 = V 9.5 ANOVA in R: aov(dat groups, fr) Zuerst kommen alle Daten der Reihe nach in einen Vektor: > dat <-c(y 1,1,y 2,1,...,y n1,1,y 1,2,...,y n2,2,...,y 1,k,...,y nk,k) Nach der Aufspaltung in k Gruppen der Grössen n 1, n 2,..., n k durch die Zeilen > groups <-rep(letters[1:k],c(n 1, n 2,..., n k )) > groups <-factor(groups) > fr <-data.frame(groups, dat) wird die ANOVA berechnet mittels > analyse <- aov(dat groups, fr) Das Ergebnis direkt und mit summary(...): > analyse Terms: groups Residuals Sum of Squares (1.Summand) (2.Summand Fundi-ANOVA) Deg. of Freedom k 1 n k > summary(analyse) Df Sum Sq Mean Sq F value Pr(>F) groups k 1 (1.Summand) (1.Summand)/(k 1) (Test-Statistik V ) (P-Wert) Residuals n k (2.Summand) (2.Summand)/(n k) Stochastik für die Naturwissenschaften June 6, 2018 Seite 30
31 10 Lineare Regression 10.1 Grundmodell (OLS-Methode) Bei der linearen Regression geht es darum, zu zwei-dimensionalen Datensätzen von n Punkten (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ) eine lineare Funktion, d.h. eine Gerade y = β 0 + β 1 x, mit y-achsenabschnitt β 0 und Steigung β 1 so zu bestimmen, das die Summe der Abstands-Quadrate ( Sum of Squared Errors ) SSE = (β 0 + β 1 x k y k ) 2 =! min minimal wird (Methode der kleinsten Quadrate von C.F. Gauss). Diese Bedingung führt mit ( ) Methoden der Differentialrechnung (SSE)! β 0 = 0 =! (SSE) β 1 zu den Formeln für β 0 und β 1. Diese gesuchte Gerade heisst Regressions-Gerade. OLS steht für Englisch Ordinary Least Squares, also gewöhnliche kleinste Quadrate Parameter-Berechnung Wir berechnen der Reihe nach (SS yy nur für Korrelationskoeffizient nötig!) x := x1 n x k y := 1 n y k SS xx := (x k x) 2 = x 2 k n x 2 SS xy := (x k x) (y k y) = x k y k n x y SS yy := Dabei sind die jeweils letzten Ausdrücke praktische Abkürzungen! Damit ergeben sich nun die Formeln für die gesuchten Parameter: (y k y) 2 = yk 2 n y 2 β 1 = SS xy SS xx β0 = y β 1 x 10.3 Hypothesen-Tests zum Parameter β 1 Der eigentliche Ansatz im Sinne einer Schätzung ist Y k = β 0 + β 1 x k + ɛ k, k = 1, 2,..., n wobei die Fehler ɛ k normalverteilt sein sollen bei unbekanntem σ: ɛ k N (0, σ 2 ). Der Schätzer für σ ist σ 2 = 1 n 2 (y k ŷ k ) 2 = 1 n 2 SSE, wobei ŷ k = β 0 + β 1 x k Stochastik für die Naturwissenschaften June 6, 2018 Seite 31
32 Damit wird die Test-Statistik gebildet: T n 2 := β 1 b σ 2 (x k x) 2 = 1 n 2 β 1 b n (y k ŷ k ) 2 SS xx Sie ist t-verteilt mit ν = n 2 Freiheitsgraden: T n 2 t n 2. Wie beim 1-Stichproben-t-Test haben wir für die Hypothesen: Für die zweiseitige Hypothese H 0 : β 1 = b mit Alternative H 1 : β 1 b gilt: H 0 beibehalten mit Signifikanz-Niveau α, falls T n 2 t α,n 2 Der kritische Wert ist ( Storrer, S. 363 ) H 1 annehmen, falls T n 2 > t α,n 2 CV α,n = t α,n 2 Für die einseitige (linksseitige, ) Hypothese H 0 : β 1 b mit Alternative H 1 : β 1 < b gilt: H 0 beibehalten mit Signifikanz-Niveau α, falls T n 2 t 2α,n 2 H 1 annehmen, falls T n 2 < t 2α,n 2 Für die einseitige (rechtsseitige, ) Hypothese H 0 : β 1 b mit Alternative H 1 : β 1 > b gilt: H 0 beibehalten mit Signifikanz-Niveau α, falls T n 2 t 2α,n 2 NB: Eine weitere wichtige Summe ist H 1 annehmen, falls T n 2 > t 2α,n 2 SSR := (ŷ k y) 2 = ( β0 + β ) 2 1 x k y (R für Regression) Damit gilt (vgl. ANOVA!): SS yy = SSR + SSE 10.4 Korrelation Der (empirische) Korrelationskoeffizient zwischen den Daten (x k ) n und (y k) n durch r xy = corr(x, y) = n (x k x)(y k y) n (x k x) 2 n (y k y) 2 = SS xy SSxx SS yy Er liegt immer zwischen 1 und +1: 1 corr(x, y) +1 Faustregel: Je näher corr(x, y) bei 1 liegt, desto besser die Korrelation. Es gilt sogar: ist definiert corr(x, y) = 1 Die Daten (x k, y k ) liegen exakt auf einer Geraden, deren Steigung positiv ist, falls corr(x, y) = +1 negativ, falls corr(x, y) = 1 Stochastik für die Naturwissenschaften June 6, 2018 Seite 32
33 10.5 Lineare Regression in R: lm(y x) Nach Zuweisung der Daten (x k, y k ) n in Vektoren mittels c(...): > x <- c(x 1, x 2,..., x n ) > y <- c(y 1, y 2,..., y n ) wird mit > linreg = lm(y x) die entsprechende lineare Regression berechnet. lm steht für engl. linear model. Dabei ist x die erklärende Variable und y die Response-Variable. Das Ergebnis ist: > summary(linreg)... Residuals: x 1 x 2 x 3 x 4... y 1 ŷ 1 y 2 ŷ 2 y 3 ŷ 3 y 4 ŷ 4... Coefficients: Estimate Std.Error t value Pr(> t ) (Intercept) β x β1 (Nenner von T n 2 ) T n 2 (P-Wert) Beispiele: Vgl. die Lösungen zu den Prüfungsaufgaben FS2014, A8 und FS2017, A8! Stochastik für die Naturwissenschaften June 6, 2018 Seite 33
34 11 Quellen Luchsinger-Skript und -Übungen, ab UZH-Homepage der Vorlesung MAT 183 H. H. Storrer, Einführung in die mathematische Behandlung der Naturwissenschaften II, Birkhäuser, 3. Nachdruck der 1. Auflage, 2009 Werner A. Stahel, Statistische Datenanalyse, Vieweg, 4. verbesserte Auflage, 2002 Wikipedia, online 12 Changelog Erste Version Neu: Lineare Regression und ANOVA in R Korrekturen: P-Wert richtig definiert Kleinere Addons Korrekturen: Fehler bei Ge(p) und Po(λ) Kleine Korrekturen Addons: Tabelle und Graphik zu den z α s, Po(λ 1 ) + Po(λ 2 ) = Po(λ 1 + λ 2 ) Kleine Korrekturen Stochastik für die Naturwissenschaften June 6, 2018 Seite 34
Wichtige Definitionen und Aussagen
Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge
MehrZufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential
Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Stetige Zufallsvariable Verteilungsfunktion: Dichtefunktion: Integralrechnung:
MehrWichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung
Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 22. September 2015 Evelina Erlacher 1 Mengen Es sei Ω eine Menge (die Universalmenge ) und A, B seien Teilmengen von Ω. Dann schreiben
MehrStochastik für die Naturwissenschaften
Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 7. n (Konvergenz, LLN, CLT) Literatur Kapitel 7 n heisst für uns n gross * Statistik in Cartoons: Kapitel 5, Seite 114 in Kapitel 6 * Stahel:
MehrWirtschaftsmathematik
Einführung in einige Teilbereiche der Wintersemester 206 Prof. Dr. Stefan Etschberger HSA Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A
MehrWahrscheinlichkeit und Statistik: Zusammenfassung
HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1
MehrZufallsvariablen [random variable]
Zufallsvariablen [random variable] Eine Zufallsvariable (Zufallsgröße) X beschreibt (kodiert) die Versuchsausgänge ω Ω mit Hilfe von Zahlen, d.h. X ist eine Funktion X : Ω R ω X(ω) Zufallsvariablen werden
MehrStochastik für die Naturwissenschaften
Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 6. Ausgewählte Verteilungen (Distributions) * diskret: Bernoulli, Binomial, Geometrisch, Poisson * stetig: Uniform, Exponential, Normal, χ 2,
Mehr7.5 Erwartungswert, Varianz
7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k
Mehr1. Grundbegri e der Stochastik
Wiederholung von Grundwissen der Stochastik. Grundbegri e der Stochastik Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt
Mehr4. Verteilungen von Funktionen von Zufallsvariablen
4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten
Mehr2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung
2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung Die einfachste Verteilung ist die Gleichverteilung, bei der P(X = x i ) = 1/N gilt, wenn N die Anzahl möglicher Realisierungen von
Mehr1. Grundbegri e der Stochastik
. Grundbegri e der Stochastik Raum der Ereignisse. Die einelementigen Teilmengen f!g heißen auch Elementarereignisse. Das Ereignis A tritt ein, wenn ein! A eintritt. A ist ein geeignetes System von Teilmengen
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen
Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen Noémie Becker & Dirk Metzler http://evol.bio.lmu.de/_statgen 7. Juni 2013 1 Binomialverteilung 2 Normalverteilung 3 T-Verteilung
MehrStatistisches Testen
Statistisches Testen Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Differenzen Anteilswert Chi-Quadrat Tests Gleichheit von Varianzen Prinzip des Statistischen Tests Konfidenzintervall
MehrFit for Abi & Study Stochastik
Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen
MehrStochastik für die Naturwissenschaften
Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 7. n (Konvergenz, LLN, CLT) n heisst für uns n gross Literatur Kapitel 7 * Statistik in Cartoons: Kapitel 5, Seite 114 in Kapitel 6 * Stahel:
MehrDynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38
Dynamische Systeme und Zeitreihenanalyse Multivariate Normalverteilung und ML Schätzung Kapitel 11 Statistik und Mathematik WU Wien Michael Hauser Dynamische Systeme und Zeitreihenanalyse // Multivariate
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrReelle Zufallsvariablen
Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen
MehrStochastik für die Naturwissenschaften
Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 5. Erwartungswert E und Varianz V Literatur Kapitel 5 * Storrer: (37.9)-(37.12), (38.4), (40.6)-(40.9), (41.2) * Stahel: Kapitel 5 und 6 (nur
MehrWahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen
Wahrscheinlichkeitsrechnung und Statistik für Biologen Wiederholung: Verteilungen Noémie Becker & Dirk Metzler 31. Mai 2016 Inhaltsverzeichnis 1 Binomialverteilung 1 2 Normalverteilung 2 3 T-Verteilung
MehrDie Familie der χ 2 (n)-verteilungen
Die Familie der χ (n)-verteilungen Sind Z 1,..., Z m für m 1 unabhängig identisch standardnormalverteilte Zufallsvariablen, so genügt die Summe der quadrierten Zufallsvariablen χ := m Z i = Z 1 +... +
MehrTeil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation
Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle Patric Müller ETHZ Teil VIII Zentraler Grenzwertsatz und Vertrauensintervalle WBL 17/19, 29.05.2017 Wahrscheinlichkeit
Mehr3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate
MehrStochastik für die Naturwissenschaften
Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 4. Zufallsgrösse X Literatur Kapitel 4 * Storrer: Kapitel (37.2)-(37.8), (38.2)-(38.3), (38.5), (40.2)-(40.5) * Stahel: Kapitel 4, 5 und 6 (ohne
MehrStochastik. 1. Wahrscheinlichkeitsräume
Stochastik 1. Wahrscheinlichkeitsräume Ein Zufallsexperiment ist ein beliebig oft und gleichartig wiederholbarer Vorgang mit mindestens zwei verschiedenen Ergebnissen, bei dem der Ausgang ungewiß ist.
MehrStatistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management
Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger HSA Streuungsparameter Varianz Var(X) bzw. σ 2 : [x i E(X)] 2 f(x i ), wenn X diskret Var(X)
Mehr13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrPrüfungsvorbereitungskurs Höhere Mathematik 3
Prüfungsvorbereitungskurs Höhere Mathematik 3 Stochastik Marco Boßle Jörg Hörner Marcel Thoms Mathematik Online Herbst 211 PV-Kurs HM 3 Stochastik 1-1 Zusammenfassung Wahrscheinlichkeitsraum (WR): Menge
MehrZusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen
Zusammenfassung Mathe II Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen Zufallsexperiment: Ein Vorgang, bei dem mindestens zwei Ereignisse möglich sind
MehrKlassifikation von Signifikanztests
Klassifikation von Signifikanztests nach Verteilungsannahmen: verteilungsabhängige = parametrische Tests verteilungsunabhängige = nichtparametrische Tests Bei parametrischen Tests werden im Modell Voraussetzungen
MehrI Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...
Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................
Mehr70 Wichtige kontinuierliche Verteilungen
70 Wichtige kontinuierliche Verteilungen 70. Motivation Zufallsvariablen sind nicht immer diskret, sie können oft auch jede beliebige reelle Zahl in einem Intervall [c, d] einnehmen. Beispiele für solche
Mehr3 Grundlagen statistischer Tests (Kap. 8 IS)
3 Grundlagen statistischer Tests (Kap. 8 IS) 3.1 Beispiel zum Hypothesentest Beispiel: Betrachtet wird eine Abfüllanlage für Mineralwasser mit dem Sollgewicht µ 0 = 1000g und bekannter Standardabweichung
Mehr2 Zufallsvariable, Verteilungen, Erwartungswert
2 Zufallsvariable, Verteilungen, Erwartungswert Bisher: Zufallsexperimente beschrieben durch W-Räume (Ω, A, P) Häufig interessiert nur eine zufällige Größe X = X(ω), die vom Ergebnis ω des Zufallsexperiments
MehrGrundgesamtheit, Merkmale, Stichprobe. Eigenschaften der Stichprobe. Klasseneinteilung, Histogramm. Arithmetisches Mittel, empirische Varianz
- 1 - Grundgesamtheit, Merkmale, Stichprobe Dimension, Umfang Skalierung Eigenschaften der Stichprobe kennzeichnende Größen Eigenschaften der Stichprobe kennzeichnende Größen Punktediagramm, Regressionsgerade,
Mehr2 Aufgaben aus [Teschl, Band 2]
20 2 Aufgaben aus [Teschl, Band 2] 2.1 Kap. 25: Beschreibende Statistik 25.3 Übungsaufgabe 25.3 a i. Arithmetisches Mittel: 10.5 ii. Median: 10.4 iii. Quartile: x 0.25 Y 4 10.1, x 0.75 Y 12 11.1 iv. Varianz:
MehrInstitut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess
Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess Name: Vorname: Matrikelnummer: Lösungsvorschlag zur Klausur zur Vorlesung Wahrscheinlichkeitstheorie und Statistik (Stochastik) Datum: 07.
MehrFormelsammlung "Biometrie und Methodik"
Formelsammlung "Biometrie und Methodik" 1 Beschreibende Statistik Univariate Datenanalyse ( Beobachtungswerte x 1 ; :::; x n ) Absolute Häu gkeit Relative H keit/ Empirische Verteilung h k = n k =n Empirische
MehrWahrscheinlichkeitsrechnung und Statistik
5. Vorlesung Verteilungsfunktion (VF) Definition 9 Die Verteilungsfunktion (VF) einer Zufallsgröße X ist F : R R definiert als F (x) := P({ω Ω : X (ω) x}) = P( X x ) für jedes x R. Satz 9 - Eigenschaften
Mehr4. Gemeinsame Verteilung und Grenzwertsätze
4. Gemeinsame Verteilung und Grenzwertsätze Häufig in der Praxis: Man muss mehrere (n) ZV en gleichzeitig betrachten (vgl. Statistik I, Kapitel 6) Zunächst Vereinfachung: Betrachte n = 2 Zufallsvariablen
Mehr4. Gemeinsame Verteilung und Grenzwertsätze
4. Gemeinsame Verteilung und Grenzwertsätze Häufig in der Praxis: Man muss mehrere (n) ZV en gleichzeitig betrachten (vgl. Statistik I, Kapitel 6) Zunächst Vereinfachung: Betrachte n = 2 Zufallsvariablen
MehrFORMELSAMMLUNG STATISTIK B
Somersemester 2012 FORMELSAMMLUNG STATISTIK B Prof. Kneip / Dr. Scheer / Dr. Arns Version vom April 2012 Inhaltsverzeichnis 1 Wahrscheinlichkeitsrechnung 2 2 Diskrete Zufallsvariablen 5 3 Stetige Zufallsvariablen
MehrPrüfungsvorbereitungskurs Höhere Mathematik 3
Prüfungsvorbereitungskurs Höhere Mathematik 3 Stochastik Marco Boßle Jörg Hörner Mathematik Online Frühjahr 2011 PV-Kurs HM 3 Stochastik 1-1 Zusammenfassung Wahrscheinlichkeitsraum (WR): Menge der Elementarereignisse
MehrSozialwissenschaftlerInnen II
Statistik für SozialwissenschaftlerInnen II Henning Best best@wiso.uni-koeln.de Universität zu Köln Forschungsinstitut für Soziologie Statistik für SozialwissenschaftlerInnen II p.1 Wahrscheinlichkeitsfunktionen
MehrKapitel VII - Funktion und Transformation von Zufallsvariablen
Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VII - Funktion und Transformation von Zufallsvariablen Markus Höchstötter Lehrstuhl
MehrStatistik I für Betriebswirte Vorlesung 14
Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli
MehrÜbung zu Empirische Ökonomie für Fortgeschrittene SS 2009
Übung zu Empirische Ökonomie für Fortgeschrittene Steen Elstner, Klaus Wohlrabe, Steen Henzel SS 9 1 Wichtige Verteilungen Die Normalverteilung Eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte
MehrVorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 Einführung 1 Wahrscheinlichkeit: Definition und Interpretation 2
MehrEinführung in die Induktive Statistik: Testen von Hypothesen
Einführung in die Induktive Statistik: Testen von Hypothesen Jan Gertheiss LMU München Sommersemester 2011 Vielen Dank an Christian Heumann für das Überlassen von TEX-Code! Testen: Einführung und Konzepte
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Stetige und diskrete Wahrscheinlichkeitsverteilungen Lageparameter Streuungsparameter Diskrete und stetige Zufallsvariablen Eine Variable (oder Merkmal
Mehr4.1. Nullhypothese, Gegenhypothese und Entscheidung
rof. Dr. Roland Füss Statistik II SS 8 4. Testtheorie 4.. Nullhypothese, Gegenhypothese und Entscheidung ypothesen Annahmen über die Verteilung oder über einzelne arameter der Verteilung eines Merkmals
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.11. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler 2009 war genau 33.7%. Wie groß ist die Wahrscheinlichkeit, in einer Zufallsstichprobe von 1000 Personen genau
MehrWahrscheinlichkeitsverteilungen
Universität Bielefeld 3. Mai 2005 Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Das Ziehen einer Stichprobe ist die Realisierung eines Zufallsexperimentes. Die Wahrscheinlichkeitsrechnung betrachtet
MehrStochastik für die Naturwissenschaften
Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 5. Erwartungswert E und Varianz V Literatur Kapitel 5 * Storrer: (37.9)-(37.12), (38.4), (40.6)-(40.9), (41.2) * Stahel: Kapitel 5 und 6 (nur
MehrBestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler
6.6 Normalverteilung Die Normalverteilung kann als das wichtigste Verteilungsmodell der Statistik angesehen werden. Sie wird nach ihrem Entdecker auch Gaußsche Glockenkurve genannt. Die herausragende Stellung
MehrLösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK
Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über
MehrStatistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
MehrEinführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management
Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management Sommersemester 2013 Hochschule Augsburg Lageparameter: Erwartungswert d) Erwartungswert
MehrEinfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
MehrMathematische Statistik Aufgaben zum Üben. Schätzer
Prof. Dr. Z. Kabluchko Wintersemester 2016/17 Philipp Godland 14. November 2016 Mathematische Statistik Aufgaben zum Üben Keine Abgabe Aufgabe 1 Schätzer Es seien X 1,..., X n unabhängige und identisch
MehrBiostatistik, Winter 2011/12
Biostatistik, Winter 2011/12 Wahrscheinlichkeitstheorie:, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 7. Vorlesung: 09.12.2011 1/58 Inhalt 1 2 Kenngrößen von Lagemaße 2/58 mit Dichte Normalverteilung
MehrWahrscheinlichkeitstheorie und Statistik vom
INSTITUT FÜR STOCHASTIK SS 2007 UNIVERSITÄT KARLSRUHE Priv.-Doz. Dr. D. Kadelka Dipl.-Math. oec. W. Lao Klausur (Maschineningenieure) Wahrscheinlichkeitstheorie und Statistik vom 2.9.2007 Musterlösungen
MehrDefinition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=
Definition 2.34. Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) := x f(x)dx der Erwartungswert von X, sofern dieses Integral existiert. Entsprechend wird die Varianz V(X)
MehrKlausur zur Vorlesung
Institut für Mathematische Stochastik WS 2006/2007 Universität Karlsruhe 12. Februar 2007 Priv.-Doz. Dr. D. Kadelka Dipl.-Math. W. Lao Aufgabe 1 (15 Punkte) Klausur zur Vorlesung Statistik für Biologen
MehrProbeklausur zu Mathematik 3 für Informatik Lösungshinweise (ohne Garantie auf Fehlefreiheit)
Gunter Ochs 9. Juni 05 Probeklausur zu Mathematik für Informatik Lösungshinweise ohne Garantie auf Fehlefreiheit. Sei fx x x. a Bestimmen Sie den Grenzwert lim x fx. Da an der Stelle x Zähler Nenner Null
Mehr1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.
. Grundbegri e Menge der Ereignisse. Die Elemente! der Menge heißen Elementarereignisse und sind unzerlegbare Ereignisse. Das Ereignis A tritt ein, wenn ein! A eintritt. ist auch das sichere Ereignis,
MehrEinführung in Quantitative Methoden
Einführung in Quantitative Methoden Karin Waldherr & Pantelis Christodoulides 11. Mai 2011 Waldherr / Christodoulides Einführung in Quantitative Methoden- 8.VO 1/40 Poisson-Verteilung Diese Verteilung
Mehr8. Stetige Zufallsvariablen
8. Stetige Zufallsvariablen Idee: Eine Zufallsvariable X ist stetig, falls ihr Träger eine überabzählbare Teilmenge der reellen Zahlen R ist. Beispiel: Glücksrad mit stetigem Wertebereich [0, 2π] Von Interesse
Mehr2.3 Intervallschätzung
2.3.1 Motivation und Hinführung Bsp. 2.15. [Wahlumfrage] Der wahre Anteil der rot-grün Wähler unter allen Wählern war 2009 auf eine Nachkommastelle gerundet genau 33.7%. Wie groß ist die Wahrscheinlichkeit,
MehrKapitel 7. Regression und Korrelation. 7.1 Das Regressionsproblem
Kapitel 7 Regression und Korrelation Ein Regressionsproblem behandelt die Verteilung einer Variablen, wenn mindestens eine andere gewisse Werte in nicht zufälliger Art annimmt. Ein Korrelationsproblem
MehrHäufigkeitsverteilungen
Häufigkeitsverteilungen Eine Häufigkeitsverteilung gibt die Verteilung eines erhobenen Merkmals an und ordnet jeder Ausprägung die jeweilige Häufigkeit zu. Bsp.: 100 Studenten werden gefragt, was sie studieren.
MehrVerteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung
Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung Typisierung der stetigen theoretischen Verteilungen Bibliografie:
MehrChi-Quadrat-Verteilung
Chi-Quadrat-Verteilung Wikipedia http://de.wikipedia.org/wiki/chi-quadrat-verteilung 1 von 7 6/18/2009 6:13 PM Chi-Quadrat-Verteilung aus Wikipedia, der freien Enzyklopädie Die Chi-Quadrat-Verteilung ist
MehrKATA LOGO Mathematik Statistik Wahrscheinlichkeitsverteilungen - Beispiele
KATA LOGO Mathematik Statistik Wahrscheinlichkeitsverteilungen - Beispiele Verteilungen Problemstellung Ergebnisraum Ω Stichprobe (n aus N) mehrfaches Auswählen = wiederholen Formel für P Erwartungswert
MehrI Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...
Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................
MehrKapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion
Kapitel 1 Stetige Zufallsvariablen 1.1. Dichtefunktion und Verteilungsfunktion stetig Verteilungsfunktion Trägermenge T, also die Menge der möglichen Realisationen, ist durch ein Intervall gegeben Häufig
MehrEinige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)
Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.) 1 Zusammenfassung Bedingte Verteilung: P (y x) = P (x, y) P (x) mit P (x) > 0 Produktsatz P (x, y) = P (x y)p (y) = P (y x)p (x) Kettenregel
MehrPhilipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler
Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung
MehrWahrscheinlichkeitsrechnung und schließende Statistik
Karl Mosler Friedrich Schmid Wahrscheinlichkeitsrechnung und schließende Statistik Vierte, verbesserte Auflage Springer Inhaltsverzeichnis 0 Einführung 1 1 Zufalls Vorgänge und Wahrscheinlichkeiten 5 1.1
MehrFormelsammlung: Statistik und Wahrscheinlichkeitstheorie
Formelsammlung: Statistik und Wahrscheinlichkeitstheorie Kapitel 1: Deskriptive und explorative Statistik Empirische Verteilungsfkt (S15): Quantile (S24): Bei Typ7 1.Pkt = 0 Danach 1/(n-1) Median (S24):
MehrAuswertung und Lösung
Dieses Quiz soll Ihnen helfen, Kapitel 4.6 und 4.7 besser zu verstehen. Auswertung und Lösung Abgaben: 59 / 265 Maximal erreichte Punktzahl: 8 Minimal erreichte Punktzahl: 0 Durchschnitt: 4.78 1 Frage
MehrEinleitung. Statistik. Bsp: Ertrag Weizen. 6.1 Einfache Varianzanalyse
Einleitung Statistik Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Der Begriff Varianzanalyse (analysis of variance, ANOVA) taucht an vielen Stellen in der Statistik mit unterschiedlichen
MehrEinführung in die Statistik
Einführung in die Statistik Dr. C.J. Luchsinger 4 Ausgewählte Verteilungen * diskret: Bernoulli, Binomial, Geometrisch, Negativ-Binomial, Poisson * stetig: Uniform, (Negativ-)Exponential, Gamma, Normal,
MehrVarianz und Kovarianz
KAPITEL 9 Varianz und Kovarianz 9.1. Varianz Definition 9.1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X : Ω eine Zufallsvariable. Wir benutzen die Notation (1) X L 1, falls E[ X ]
MehrMathematik für Naturwissenschaften, Teil 2
Lösungsvorschläge für die Aufgaben zur Vorlesung Mathematik für Naturwissenschaften, Teil Zusatzblatt SS 09 Dr. J. Schürmann keine Abgabe Aufgabe : Eine Familie habe fünf Kinder. Wir nehmen an, dass die
MehrEinige Konzepte aus der Wahrscheinlichkeitstheorie (Review)
Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review) 1 Diskrete Zufallsvariablen (Random variables) Eine Zufallsvariable X(c) ist eine Variable (genauer eine Funktion), deren Wert vom Ergebnis c
MehrStatistik im Labor. BFB-tech Workshop Eugen Lounkine
Statistik im Labor BFB-tech Workshop 9.11.07 Eugen Lounkine Übersicht Darstellung und Charakterisierung von Daten Datentransformationen Lineare Korrelation Wahrscheinlichkeitsverteilung(en) Schätzer Konfidenzintervalle
Mehr4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
Mehr5 Binomial- und Poissonverteilung
45 5 Binomial- und Poissonverteilung In diesem Kapitel untersuchen wir zwei wichtige diskrete Verteilungen d.h. Verteilungen von diskreten Zufallsvariablen): die Binomial- und die Poissonverteilung. 5.1
MehrPrüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003
Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2003. Eine seltene Krankheit trete mit Wahrscheinlichkeit : 0000 auf. Die bedingte Wahrscheinlichkeit, dass ein bei einem Erkrankten durchgeführter
MehrMehrdimensionale Zufallsvariablen
Mehrdimensionale Zufallsvariablen Im Folgenden Beschränkung auf den diskreten Fall und zweidimensionale Zufallsvariablen. Vorstellung: Auswerten eines mehrdimensionalen Merkmals ( ) X Ỹ also z.b. ω Ω,
MehrDer Erwartungswert E[g(X)] von g(x) ist definiert. g(x k )w(x = x k ),
2.5 Parameter einer Verteilung 2.5. Erwartungswert X eine Zufallsvariable, g : R R stetig. Der Erwartungswert E[g(X)] von g(x) ist definiert durch: E[g(X)] := k g(x k )w(x = x k ), falls X diskret ist
MehrBeispiel 6 (Einige Aufgaben zur Gleichverteilung)
Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß
MehrZusammenfassung PVK Statistik
Zusammenfassung PVK Statistik (Diese Zusammenfassung wurde von Carlos Mora erstellt. Die Richtigkeit der Formeln ist ohne Gewähr.) Verteilungen von diskreten Zufallsvariablen Beschreibung Binomialverteilung
Mehr7.5 Erwartungswert, Varianz
7.5 Erwartungswert, Varianz Beispiel 7.5.1: Es werden drei ideale Münzen geworfen, und der Gewinn sei X := Anzahl von W. In Beispiel 7.4.1 hatten wir dazu eine Wahrscheinlichkeitverteilung ermittelt: X
MehrNachklausur zur Vorlesung
Institut für Mathematische Stochastik WS 003/004 Universität Karlsruhe 30. April 004 Priv.-Doz. Dr. D. Kadelka Nachklausur zur Vorlesung Statistik für Biologen Musterlösungen Aufgabe 1 Gemessen wurde bei
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
Mehr