Somersemester 2012 FORMELSAMMLUNG STATISTIK B Prof. Kneip / Dr. Scheer / Dr. Arns Version vom April 2012 Inhaltsverzeichnis 1 Wahrscheinlichkeitsrechnung 2 2 Diskrete Zufallsvariablen 5 3 Stetige Zufallsvariablen 10 4 Mehrdimensionale Zufallsvariablen 15 5 Parameterschätzung 19 6 Konfidenzintervalle 21 7 Testen von Hypothesen 23 Die geometrische Reihe und Summenformel: n k=0 q k = 1 qn+1 1 q (falls q 1) und für q < 1: k=0 q k = 1 1 q
Formelsammlung zur Statistik B Seite 2 1 Wahrscheinlichkeitsrechnung Kombinatorik Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln: Reihenfolge wichtig Reihenfolge nicht wichtig Sortieren nicht erlaubt Sortieren erlaubt ( ) N ohne Zurücklegen N (N 1) (N (n 1)) n ( ) n + N 1 mit Zurücklegen N n = n ( ) n + N 1 N 1 Binomialkoeffizienten Definition: ( ) n = k n (n 1) (n (k 1)) k (k 1) 1 = n! k!(n k)! Rechenregeln: ( ) ( ) ( ) ( ) n n n n = = 1 = = n 0 n 1 n 1 ( ) ( ) ( ) ( ) ( ) n n n n 1 n 1 = = + k n k k k k 1 Rechenregeln für Mengen Kommutativgesetz: A B = B A A B = B A Distributivgesetz: (A B) C = (A C) (B C) (A B) C = (A C) (B C) Assoziativgesetz: (A B) C = A (B C) (A B) C = A (B C) De Morgansche Regeln: (A B) = Ā B (A B) = Ā B Aus A B folgt B Ā Für die Differenzmenge A\B gilt: A\B = A B
Formelsammlung zur Statistik B Seite 3 Wahrscheinlichkeiten und Axiome von Kolmogoroff Endlicher Wahrscheinlichkeitsraum (S, P(S), P ) Grundraum S = {ω 1, ω 2,... ω N }. Ereignisse P(S) = Menge aller Teilmengen A S Wahrscheinlichkeit P P (A) = Wahrscheinlichkeit für das Eintreten von A Die Wahrscheinlichkeitsverteilung P erfüllt die Axiome von Kolmogoroff: (A1) (Nichtnegativität) P (A) 0 (A2) (Normiertheit) P (S) = 1 (A3) (Additivität) P (A B) = P (A) + P (B) für A B = Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt durch das Axiom (A3 ) (σ Additivität) P ( A k ) = P (A k ) für A i A j =, i j k=1 k=1 Rechenregeln für Wahrscheinlichkeiten 1. P ( ) = 0, P (S) = 1, 0 P (A) 1 2. A B P (A) P (B) 3. P (Ā) = 1 P (A) mit Ā = S\A 4. Additionssatz: P (A B) = P (A) + P (B) P (A B) 5. P (A 1 A 2 A n ) = P (A 1 ) + P (A 2 ) + + P (A n ), falls A 1, A 2,..., A n paarweise disjunkt, d.h. A i A j = 6. P (A 1 A 2 A n ) P (A 1 ) + P (A 2 ) + + P (A n ) 7. Wenn die Elementarwahrscheinlichkeiten p i = P ({ω i }), i = 1, 2,... bekannt sind, dann gilt für die Wahrscheinlichkeit eines Ereignisses A: P (A) = P ({ω i }) = i:ω i A i:ω i A p i
Formelsammlung zur Statistik B Seite 4 Laplace-Modell 1. Annahme: Endlicher Grundraum S = {ω 1,..., ω N } 2. Annahme: P ({ω 1 }) = P ({ω 2 }) = = P ({ω N }) Wahrscheinlichkeiten: P (A) = Anzahl ω i in A Anzahl ω i in S = #A #S = #A N Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit von A gegeben B P (A B) = P (A B) P (B) für A, B S mit P (B) > 0 Unabhängigkeit von Ereignissen Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn P (A B) = P (A) P (B) Ereignisse A 1,..., A n heißen stochastisch unabhängig, wenn für jede Auswahl A i1,..., A ik mit k n gilt: P (A i1... A ik ) = P (A i1 ) P (A i2 ) P (A ik ) Multiplikationssatz Für Ereignisse A 1,..., A n gilt: P (A 1... A n ) = P (A 1 ) P (A 2 A 1 ) P (A 3 A 1 A 2 ) P (A n A 1... A n 1 ) Falls die Ereignisse A 1,..., A n unabhängig sind, gilt: P (A 1 A 2... A n ) = P (A 1 ) P (A 2 ) P (A n ) Totale Wahrscheinlichkeit und Satz von Bayes Seien A 1,..., A k Ereignisse, die eine Zerlegung von S bilden (d.h. S ist disjunkte Vereinigung der A i ; es gilt: A i, A i A j =, i j, und A 1 A 2... A k = S). B sei ein Ereignis mit P (B) > 0. P (B A j ) P (A j ) = P (B A j ) = P (A j B) P (B) k k P (B) = P (B A i ) P (A i ) = P (B A i ) (totale Wahrscheinlichkeit) P (A j B) = P (B A j) P (A j ) P (B) = P (B A j) P (A j ) k P (B A i ) P (A i ) (Satz von Bayes)
Formelsammlung zur Statistik B Seite 5 2 Diskrete Zufallsvariablen Es sei X eine diskrete Zufallsvariable mit Werten x 1, x 2,..., x k,... Wahrscheinlichkeitsverteilung von X: P [X = x i ] = p i, i = 1, 2,..., k,... Wahrscheinlichkeitsfunktion von X: P [X = x] für x {x 1, x 2,..., x k,...} f(x) = 0 sonst Verteilungsfunktion von X: F (x) = P [X x] = x i x f(x i ) Erwartungswert von X: E(X) = µ X = x i p i = x i f(x i ) i 1 i 1 Varianz von X: Var(X) = σ 2 X = E(X µ X ) 2 = E(X 2 ) µ 2 X = i 1 (x i µ X ) 2 p i = i 1 x 2 i p i µ 2 X Standardabweichung: σ X = Var(X) Transformationsregel für Erwartungswerte: Sei g(x) eine reelle Funktion. Dann gilt für Y = g(x) E(Y ) = E(g(X)) = i 1 g(x i )p i = i 1 g(x i )f(x i )
Formelsammlung zur Statistik B Seite 6 Diskrete Gleichverteilung X diskret gleichverteilt (auf a 1 <... < a k ) Verteilung von X X = a 1, a 2,..., a k mit P ({X = a i }) = 1 k Werte der Verteilungsfunktion Erwartungswert und Varianz P ({X a i }) = i k E(X) = 1 k k a i Var(X) = 1 k k (a i E(X)) 2 Bernoulli-Verteilung Notation: X B(1, p) mit 0 p 1 Verteilung von X X = { 1 mit P ({X = 1}) = p 0 mit P ({X = 0}) = 1 p Erwartungswert und Varianz E(X) = p Var(X) = p (1 p)
Formelsammlung zur Statistik B Seite 7 Geometrische Verteilung Notation: X Geo(p) mit 0 < p 1 Verteilung von X X = 1, 2, 3... mit P ({X = k}) = (1 p) k 1 p Werte der Verteilungsfunktion P ({X i}) = i P ({X = k}) k=0 Erwartungswert und Varianz E(X) = 1 p Var(X) = 1 p p 2 Rekursionsformel P ({X = k + 1}) P ({X = k}) = (1 p) Binomialverteilung Notation: X B(n, p) mit 0 p 1 Verteilung von X X = 0, 1,..., n mit P ({X = k}) = Werte der Verteilungsfunktion ( ) n p k (1 p) n k k P ({X i}) = i P ({X = k}) k=0 Erwartungswert und Varianz Rekursionsformel E(X) = np Var(X) = np(1 p) P ({X = k + 1}) P ({X = k}) = n k k + 1 p 1 p
Formelsammlung zur Statistik B Seite 8 Hypergeometrische Verteilung Notation: X H(n, M, N) mit M N, n N Verteilung von X P ({X = k}) = ( M )( N M ) k n k ( N n) wobei X = { 0, 1,..., n falls n min(m, N M) max(0, n + M N),..., min(n, M) sonst Werte der Verteilungsfunktion P ({X i}) = i P ({X = k}) k=0 Erwartungswert und Varianz Rekursionsformel E(X) = n M N Var(X) = n M N ( 1 M ) N n N N 1 P ({X = k + 1}) P ({X = k}) = n k k + 1 M k N M (n k 1) Approximation der Hypergeometrischen Verteilung durch eine Binomialverteilung Für X H(n, M, N) und n klein gegenüber N, M und N M gilt approximativ: X B (n, p), p = M N d.h. P ({X = k}) = ( M )( N M ) k n k ( N n) ( ) n p k (1 p) n k k
Formelsammlung zur Statistik B Seite 9 Poisson-Verteilung Notation: X Po(λ) mit λ > 0 Verteilung von X X = 0, 1, 2, 3... mit P ({X = k}) = λk k! e λ Werte der Verteilungsfunktion P ({X i}) = i P ({X = k}) k=0 Erwartungswert und Varianz E(X) = λ Var(X) = λ Rekursionsformel P ({X = k + 1}) P ({X = k}) = λ k + 1 Approximation der Binomialverteilung durch eine Poisson-Verteilung Für X B(n, p) und großes n bei gleichzeitig kleiner Erfolgswahrscheinlichkeit p (Faustregel: np < 5 oder n(1 p) < 5) gilt approximativ: X P o(λ), λ = n p d.h. P ({X = k}) = ( n )p k (1 p) n k (np)k e np k k!
Formelsammlung zur Statistik B Seite 10 3 Stetige Zufallsvariablen Es sei X stetige Zufallsvariable (mit Werten x R) (Wahrscheinlichkeits-) Dichte von X Funktion f(x) 0, so dass für jedes Intervall [a, b]: b P [a X b] = f(x)dx; a es gilt: f(x)dx = 1 Verteilungsfunktion von X F (x) = P [X x] = x f(x)dx Erwartungswert von X E(X) = µ X = x f(x)dx Varianz von X Var(X) = σ 2 X = E(X µ X ) 2 = E(X 2 ) µ 2 X = (x µ X ) 2 f(x)dx Standardabweichung von X σ X = Var(X) Quantile Für 0 < p < 1 ist das p-quantil x p der Wert, für den gilt: F (x p ) = P [X x p ] = p und 1 F (x p ) = P [X x p ] = 1 p
Formelsammlung zur Statistik B Seite 11 Exponentialverteilung, X Ex(λ), mit λ > 0 Dichte- und Verteilungsfunktion { λe λx für x 0 f Ex (x) = 0 sonst Erwartungswert und Varianz F Ex (x) = { 0 für x < 0 1 e λx für x 0 E(X) = 1 λ Var(X) = 1 λ 2 Stetige Gleichverteilung, X U(a, b), mit a < b Dichte- und Verteilungsfunktion f U (x) = { 1 b a 0 sonst für a x b 0 für x < a x a F U (x) = für a x b b a 1 für x > b Erwartungswert und Varianz E(X) = a + b 2 Var(X) = (b a)2 12 Standardnormalverteilung, X N(0, 1) Dichte- und Verteilungsfunktion φ(x) = 1 ) exp ( x2 2π 2 für x R Φ(x) = 1 2π x ( ) exp t2 dt 2 Erwartungswert und Varianz E(X) = 0 Var(X) = 1
Formelsammlung zur Statistik B Seite 12 Normalverteilung (Gauß-Verteilung), X N(µ, σ 2 ) Dichte- und Verteilungsfunktion (für x R) f N (x) = 1 ) (x µ)2 exp ( 2πσ 2σ 2 F N (x) = 1 2πσ x ) (t µ)2 exp ( dt 2σ 2 Erwartungswert und Varianz E(X) = µ Var(X) = σ 2 Lineare Transformation: (a, b beliebige Zahlen) X N(µ, σ 2 ) und Y = a X + b Y N(a µ + b, a 2 σ 2 ) Linearkombination: X i N(µ i, σi 2 ) und unabhängig, a 1,..., a n beliebige Zahlen Y = a 1 X 1 + + a n X n N(a 1 µ 1 + + a n µ n, a 2 1 σ1 2 + + a 2 n σn) 2 Rückführung auf die Standardnormalverteilung Standardisierung X N(µ, σ 2 ) Z = X µ σ N(0, 1) Verteilungsfunktion X N(µ, σ 2 ) ( ) x µ P [X x] = F N (x) = Φ σ Quantile (Für 0 < p < 1) x p p-quantil von N(µ, σ 2 ) x p = µ + σz p wobei z p p-quantil von N(0, 1)
Formelsammlung zur Statistik B Seite 13 χ 2 -Verteilung Definition und Bezeichnung X 1,..., X n unabhängige und N(0, 1)-verteilte Zufallsvariablen. Die Verteilung von χ 2 = X1 2 + + Xn 2 heißt Chi-Quadrat-Verteilung mit n Freiheitsgraden, kurz χ 2 χ 2 (n). Erwartungswert und Varianz E(χ 2 ) = n Var(χ 2 ) = 2n Approximation durch die Normalverteilung für n > 30: χ 2 (n) N(n, 2n) für Quantile χ 2 p;n 1 2 (z p + 2n 1) 2 t-verteilung, Student-Verteilung Definition und Bezeichnung X N(0, 1) und Y χ 2 (n) unabhängig. Die Verteilung von T = Verteilung mit n Freiheitsgraden, kurz T t(n). X heißt t- Y/n Erwartungswert und Varianz E(T ) = 0 Var(T ) = n n 2 (n > 2) Approximation durch die Normalverteilung für n > 100: t(n) N(0, 1) für Quantile t p;n z p Fisher-Verteilung, F -Verteilung Definition und Bezeichnung Seien X χ 2 (m) und Y χ 2 (n) unabhängig. Dann heißt die Verteilung von F = X/m Y/n Fisher- oder F -Verteilung mit den Freiheitsgraden m und n, kurz F F (m, n). Erwartungswert E(F ) = n n 2 (n > 2)
Formelsammlung zur Statistik B Seite 14 Ungleichung von Tschebyscheff Zufallsvariable X mit E(X) = µ und Var(X) = σ(x) 2. Ungleichung von Tschebyscheff Für c > 0 gilt: P [{ X µ c}] Var(X) c 2 Ungleichung von Tschebyscheff als untere Schranke Zentrale Schwankungsintervalle Für c > 0 gilt: P [{ X µ < c}] 1 Var(X) c 2 Für κ = 2, 3, 4,... ]E[X] κσ(x), E[X] + κσ(x)[ Zentraler Grenzwertsatz Seien X 1,..., X n unabhängig und identisch verteilte Zufallsvariablen mit Mittelwert µ und Varianz σ 2. Dann gilt für großes n approximativ: P [ ] ) X µ σ/ n z Φ(z) d.h. X N (µ, σ2 n bzw. n X i N(nµ, nσ 2 ) Approximation der Binomialverteilung durch eine Normalverteilung Sei X B(n, p). Für großes n gilt approximativ X np np(1 p) N(0, 1) Anwendung mit Stetigkeitskorrektur: ( ) ( ) x 2 + 0, 5 np x P [x 1 X x 2 ] Φ 1 0, 5 np Φ np(1 p) np(1 p)
Formelsammlung zur Statistik B Seite 15 4 Mehrdimensionale Zufallsvariablen Zweidimensionale diskrete Zufallsvariablen (X, Y ) sei eine bivariate diskrete Zufallsvariable mit k bzw. m Ausprägungen Gemeinsame Wahrscheinlichkeitsfunktion (gemeinsame Verteilung) { P [X = x, Y = y] für (x, y) = (x1, y f(x, y) = 1 ),... 0 sonst Gemeinsame Verteilungsfunktion F (x, y) = P [X x, Y y] = f(x i, y j ) x i x y j y Randverteilung von X f X (x) = P [X = x] = m f(x, y j ) j=1 Randverteilung von Y f Y (y) = P [Y = y] = k f(x i, y) Bedingte Wahrscheinlichkeitsfunktion (bedingte Verteilung) Bedingte Wahrscheinlichkeitsfunktion von X gegeben Y = y f X (x y) = P [X = x Y = y] = f(x, y) f Y (y) (f X (x y) = 0, falls f Y (y) = 0.) Bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x f Y (y x) = P [Y = y X = x] = f(x, y) f X (x) (f Y (y x) = 0, falls f X (x) = 0.) Bedingter Erwartungswert von Y gegeben X = x µ Y X=x = E(Y X = x) = m y j f Y (y j x) j=1 Bedingter Erwartungswert von X gegeben Y = y µ X Y =y = E(X Y = y) = k x i f X (x i y)
Formelsammlung zur Statistik B Seite 16 Zweidimensionale stetige Zufallsvariablen (X, Y ) sei eine bivariate stetige Zufallsvariable (mit Werten (x, y) R 2 ) (Wahrscheinlichkeits-) Dichte von (X, Y ) 2-dimensionale Funktion f(x, y) 0, so dass für jedes Rechteck [a, b] [c, d]: b d P [a X b, c Y d] = f(x, y) dx dy; es gilt: f(x, y) dx dy = 1 a c Das Doppelintegral entspricht dem von der Funktion f(x, y) eingeschlossenen Volumen über der Grundfläche [a, b] [c, d]. Gemeinsame Verteilungsfunktion F (x, y) = P [X x, Y y] = x y f(s, t) ds dt Randdichten von X bzw. Y f X (x) = f(x, y) dy bzw. f Y (y) = f(x, y) dx Bedingte Dichte von X gegeben Y = y bzw. von Y gegeben X = x f X (x y) = f(x, y) f Y (y) bzw. f Y (y x) = f(x, y) f X (x) Bedingter Erwartungswert von Y gegeben X = x µ Y X=x = E(Y X = x) = yf Y (y x) dy Bedingter Erwartungswert von X gegeben Y = y µ X Y =y = E(X Y = y) = xf X (x y) dx
Formelsammlung zur Statistik B Seite 17 Kovarianz und Korrelation Zufallsvariablen X und Y, mit µ X = E(X), µ Y = E(Y ), Var(X) = σx 2, Var(Y ) = σ2 Y Kovarianz von X und Y σ XY = Cov(X, Y ) = E ((X µ X )(Y µ Y )) = E(X Y ) E(X) E(Y ) Erwartungswert E(X Y ) x i y j f(x i, y j ) i j E(X Y ) = xy f(x, y)dx dy X, Y diskret X, Y stetig Symmetrie Cov(X, Y ) = Cov(Y, X) Lineare Transformationen Für X = ax + b und Y = cy + d gilt Cov(X, Y ) = a c Cov(X, Y ) Korrelation zwischen X und Y ρ XY = Cov(X, Y ) Var(X) Var(Y ) = Varianz der Summe zweier Zufallsvariablen σ XY σ X σ Y Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y ) Falls X, Y unkorreliert Var(X + Y ) = Var(X) + Var(Y ) Gewichtete Summe von Zufallsvariablen Zufallsvariablen X 1,..., X k, Zahlen a 1,..., a k ; für X = a 1 X 1 + + a k X k gilt: E(X) = a 1 E(X 1 ) + + a k E(X k ) k Var(X) = a 2 i X i + 2 a i a j Cov(X i, X j ) i<j
Formelsammlung zur Statistik B Seite 18 Unabhängigkeit von zwei Zufallsvariablen Definition: X und Y heißen unabhängig, falls f(x, y) = f X (x) f Y (y) für alle x, y bzw. P [X x, Y y] = P [X x] P [Y y] für alle x, y Zusätzliche Rechenregeln: Falls X und Y unabhängig sind, gilt: E(X Y ) = E(X) E(Y ) Var(X + Y ) = Var(X) + Var(Y ) f Y (y X = x) = f Y (y) für alle x f X (x Y = y) = f X (x) für alle y E(Y X = x) = E(Y ) für alle x E(X Y = y) = E(X) für alle y Zwei diskrete Zufallsvariablen sind unabhängig, falls P [X = x, Y = y] = P [X = x] P [Y = y] für alle x, y Unabhängigkeit mehrerer Zufallsvariablen Defintion: Zufallsvariablen X 1,..., X n heißen unabhängig, falls P [X 1 x 1,..., X n x n ] = P [X 1 x 1 ] P [X n x n ] für alle x 1,..., x n bzw. f(x 1,..., x k ) = f X1 (x 1 ) f Xn (x n ) für alle x 1,..., x n f(x 1,..., x n ) bezeichnet die gemeinsame Dichte von X 1,..., X n. f Xi (x i ) bezeichnet die Randdichte von X i, 1 i n. Diskrete Zufallsvariablen X 1,..., X n sind unabhängig, falls P [X 1 = x 1,..., X n = x n ] = P [X 1 = x 1 ] P [X n = x n ] für alle x 1,..., x n
Formelsammlung zur Statistik B Seite 19 5 Parameterschätzung Statistisches Modell X 1,..., X n Zufallsstichprobe Verteilung von X hängt von einem Parameter θ ab Beobachtete (realisierte) Werte: x 1,..., x n Schätzer für θ: ˆθn = g(x 1,..., X n ) (Zufallsvariable) Schätzwert für θ: ˆθn = g(x 1,..., x n ) (reelle Zahl) Bias (Verzerrung, systematischer Schätzfehler von ˆθ n ): Bias(ˆθ n ) = E(ˆθ n ) θ Varianz (zufallsbedingter Schätzfehler): Var(ˆθ n ) = E(ˆθ n E(ˆθ n )) 2 Mittlerer quadratischer Schätzfehler (MSE, Mean Squared Error): ) MSE(ˆθ n ) = E ((ˆθ n θ) 2 = Var(ˆθ n ) + Bias(ˆθ n ) 2 Schwache Konsistenz: ˆθ n ist schwach konsistent für θ, falls für jedes c > 0 : P ( ˆθ n θ c) 0 für n gilt. MSE-Konsistenz: ˆθ n ist MSE-konsistent für θ, falls MSE(ˆθ n ) 0 für n gilt. MSE-Konsistenz schwache Konsistenz
Formelsammlung zur Statistik B Seite 20 Maximum Likelihood Schätzung Statistisches Modell X 1,..., X n einfache Zufallsstichprobe, d.h. unabhängige Wiederholungen von X Verteilung von X hängt von einem Parameter θ ab Beobachtete (realisierte) Werte: x 1,..., x n Likelihood Funktion L(θ) L(θ) L(x 1,..., x n θ) = n f(x i θ) = f(x 1 θ) f(x n θ) f(x) f(x θ) bezeichnet für diskretes X die Wahrscheinlichkeitsfunktion und für stetiges X die Dichtefunktion. Maximum Likelihood Schätzung von θ Schätzfunktion: ˆθ arg max L(X 1,..., X n θ) θ Schätzwert: ˆθ arg max L(x 1,..., x n θ) θ Log-Likelihood-Funktion ln L(θ) (rechentechnisch oft günstiger) ln L(θ) = ln L(x 1,..., x n θ) = n ln f(x i θ)
Formelsammlung zur Statistik B Seite 21 6 Konfidenzintervalle (1 α)-konfidenzintervall für θ Stichprobenfunktionen G u = g u (X 1,..., X n ) und G o = g o (X 1,..., X n ), so dass (zu vorgegebener Irrtumswahrscheinlichkeit α) P [G u G o ] = 1 und P [θ [G u, G o ]] = P [G u θ G o ] = 1 α [G u, G o ] = [g u (X 1,..., X n ), g o (X 1,..., X n )] ist ein (1 α)-konfidenzintervall für θ. Konfidenzniveau (Überdeckungs-, Vertrauenswahrscheinlichkeit): 1 α Realisiertes (1 α)-konfidenzintervall Beobachtete Werte x 1,..., x 2 [g u, g o ] = [g u (x 1,..., x n ), g o (x 1,..., x n )] Symmetrisches (1 α) Konfidenzintervall erfüllt zusätzlich: P [θ < G u ] = P [θ > G o ] = α 2 Einseitiges (1 α)-konfidenzintervall (mit unterer Schranke) [G u, [ mit P [G u θ] = 1 α Einseitiges (1 α)-konfidenzintervall (mit oberer Schranke) ], G o ] mit P [θ G o ] = 1 α Konfidenzintervall für einen Erwartungswert, bekannte Varianz Annahmen: X 1,..., X n unabhängig und identisch verteilt X i N(µ, σ 2 ) Bekannte Varianz σ 2 (1 α)-konfidenzintervall für µ und bekannter Varianz σ 2 : [ X z 1 α/2 σ n, X + z 1 α/2 σ n ] Anmerkung: Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes (1 α)-konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen aber großem Stichprobenumfang) um ein approximatives.
Formelsammlung zur Statistik B Seite 22 Konfidenzintervall für einen Erwartungswert, unbekannte Varianz Annahmen: X 1,..., X n unabhängig und identisch verteilt X i N(µ, σ 2 ) Unbekannte Varianz σ 2 (1 α)-konfidenzintervall für µ: [X t 1 α/2;n 1 S n, X + t 1 α/2;n 1 S n ] mit S 2 = 1 n 1 n (X i X) 2 Anmerkung: Falls die Annahme der Normalverteilung zutrifft, handelt es sich um ein exaktes (1 α)-konfidenzintervall andernfalls (d.h. für nicht normalverteilte Zufallsvariablen aber großem Stichprobenumfang) um ein approximatives. Konfidenzintervall für eine Varianz Annahmen: X 1,..., X n unabhängig und identisch verteilt X i N(µ, σ 2 ) (1 α)-konfidenzintervall für σ 2 : [ ] (n 1)S 2 (n 1)S2, χ 2 1 α/2;n 1 χ 2 α/2;n 1 mit S 2 = 1 n 1 n (X i X) 2 Approximatives Konfidenzintervall für einen Anteilswert Annahmen: X 1,..., X n unabhängig und identisch verteilt X i Bernoulli(p) Großer Stichprobenumfang; Faustregel: n > 30, np > 5 Approximatives (1 α)-konfidenzintervall für p: [ ] ˆp(1 ˆp) ˆp(1 ˆp) ˆp z 1 α 2 n, ˆp + z 1 α 2 n mit ˆp = X
Formelsammlung zur Statistik B Seite 23 7 Testen von Hypothesen Allgemein gelten folgende Annahmen und Hypothesen: Annahmen: X 1,..., X n unabhängig und identisch verteilt X i N(µ, σ 2 ) Bekannte Varianz σ 2 Hypothesen: (1) H 0 : µ = µ 0 gegen H 1 : µ µ 0 (2) H 0 : µ = µ 0 gegen H 1 : µ > µ 0 (3) H 0 : µ = µ 0 gegen H 1 : µ < µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 0 : µ = µ 0 H 1 : µ µ 0 H 1 : µ > µ 0 H 1 : µ < µ 0 Gauß AB z beob > z 1 α/2 z beob > z 1 α z beob < z 1 α p-wert 2 P [Z z beob ] P [Z z beob ] P [Z z beob ] t-test AB t beob > t 1 α/2;n 1 t beob > t 1 α;n 1 t beob < t 1 α;n 1 p-wert 2 P [T t beob ] P [T t beob ] P [T t beob ] approx. AB z beob > z 1 α/2 z beob > z 1 α z beob < z 1 α Binomi p-wert 2 P [Z z beob ] P [Z z beob ] P [Z z beob ]
Formelsammlung zur Statistik B Seite 24 Gauß-Test Teststatistik: Verteilung von Z unter H 0 : n( X µ0 ) Z = σ Z N(0, 1) Ablehnungsbereich (Test zum Niveau α): (1) z beob > z 1 α/2 (2) z beob > z 1 α (3) z beob < z 1 α Überschreitungswahrscheinlichkeit: Für Z N(0, 1) (1) p-wert = P [ Z z beob ] = 2 P [Z z beob ] (2) p-wert = P [Z z beob ] (3) p-wert = P [Z z beob ] Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für großen Stichprobenumfang i.allg. approximativ gültig.
Formelsammlung zur Statistik B Seite 25 t-test (Ein-Stichproben-Fall, σ 2 unbekannt) Teststatistik: T = n( X µ0 ) S mit S 2 = 1 n 1 n (X i X) 2 Verteilung von T unter H 0 : T t(n 1) Ablehnungsbereich (Test zum Niveau α): (1) t beob > t 1 α/2;n 1 (2) t beob > t 1 α;n 1 (3) t beob < t 1 α;n 1 Überschreitungswahrscheinlichkeit: Für T t(n 1) (1) p-wert = P [ T t beob ] = 2 P [T t beob ] (2) p-wert = P [T t beob ] (3) p-wert = P [T t beob ] Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen Stichprobenumfang i.allg. approximativ gültig.
Formelsammlung zur Statistik B Seite 26 Approximativer Binomialtest Teststatistik: Z = ˆp p 0 p0 (1 p 0 )/n mit ˆp = X Aproximative Verteilung von Z unter H 0 : Z N(0, 1) Ablehnungsbereich (Test zum Niveau α): (1) z beob > z 1 α/2 (2) z beob > z 1 α (3) z beob < z 1 α Überschreitungswahrscheinlichkeit: Für Z N(0, 1) (1) p-wert = P [ Z z beob ] = 2 P [Z z beob ] (2) p-wert = P [Z z beob ] (3) p-wert = P [Z z beob ] Anmerkung: Unter H 0 gilt (exakt): nˆp B(n, p 0 ). Mit den entsprechenden Quantilen der Binomialverteilung erhält man den sogenannten exakten Binomialtest.
Formelsammlung zur Statistik B Seite 27 Vergleich der Erwartungswerte, σ 2 x, σ 2 y bekannt Teststatistik: Verteilung von Z unter H 0 : Z = X Y σ 2 X n + σ2 Y m Z N(0, 1) Ablehnungsbereich (Test zum Niveau α): (1) z beob > z 1 α/2 (2) z beob > z 1 α (3) z beob < z 1 α Überschreitungswahrscheinlichkeit: Für Z N(0, 1) (1) p-wert = P [ Z z beob ] = 2 P [Z z beob ] (2) p-wert = P [Z z beob ] (3) p-wert = P [Z z beob ] Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von Z für große Stichprobenumfänge m, n i.allg. approximativ gültig.
Formelsammlung zur Statistik B Seite 28 t-test (Zwei-Stichproben-Fall), σ i unbekannt, aber σ 2 x=σ 2 y Teststatistik: T = X Y S 1/n + 1/m mit S 2 = (n 1)S2 X + (m 1)S2 Y n + m 2 Verteilung von T unter H 0 : T t(n + m 2) Ablehnungsbereich (Test zum Niveau α): (1) t beob > t 1 α/2;n+m 2 (2) t beob > t 1 α;n+m 2 (3) t beob < t 1 α;n+m 2 Überschreitungswahrscheinlichkeit: Für T t(n + m 2) (1) p-wert = P [ T t beob ] = 2 P [T t beob ] (2) p-wert = P [T t beob ] (3) p-wert = P [T t beob ] Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große Stichprobenumfänge m, n i.allg. approximativ gültig.
Formelsammlung zur Statistik B Seite 29 t-test (Zwei-Stichproben-Fall), σ i unbekannt, σ 2 x σ 2 y Teststatistik: Verteilung von T unter H 0 : T = X Y S 2 X n + S2 Y m T t(k) wobei k größte ganze Zahl mit k Ablehnungsbereich (Test zum Niveau α): (1) t beob > t 1 α/2;k (2) t beob > t 1 α;k (3) t beob < t 1 α;k Überschreitungswahrscheinlichkeit: Für T t(k) (1) p-wert = P [ T t beob ] = 2 P [T t beob ] (2) p-wert = P [T t beob ] (3) p-wert = P [T t beob ] 1 n 1 ( S 2 X n + S2 Y m Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für große Stichprobenumfänge m, n i.allg. approximativ gültig. ( S 2 X n ) 2 ) 2 + 1 m 1 ( ) S 2 2 Y m
Formelsammlung zur Statistik B Seite 30 t-test (verbundene Stichproben) Teststatistik: T = nd S D mit S 2 D = 1 n 1 n (D i D) 2 D i = X i Y i Verteilung von T unter H 0 : T t(n 1) Ablehnungsbereich (Test zum Niveau α): (1) t beob > t 1 α/2;n 1 (2) t beob > t 1 α;n 1 (3) t beob < t 1 α;n 1 Überschreitungswahrscheinlichkeit: Für T t(n 1) (1) p-wert = P [ T t beob ] = 2 P [T t beob ] (2) p-wert = P [T t beob ] (3) p-wert = P [T t beob ] Anmerkung: Ohne Normalverteilungsannahme ist die Verteilung von T für großen Stichprobenumfang i.allg. approximativ gültig. χ 2 -Unabhängigkeitstest Teststatistik: χ 2 = k m j=1 ( h ij h i h j n h i h j n Approximative Verteilung von χ 2 unter H 0 : ) 2 χ 2 χ 2 ((k 1)(m 1)) falls h i h j n 5 für alle i, j Ablehnungsbereich (Test zum Niveau α): χ 2 beob > χ2 1 α;(k 1)(m 1) Überschreitungswahrscheinlichkeit: Für χ 2 χ 2 ((k 1)(m 1)) p-wert = P [χ 2 χ 2 beob ]