3 Stetige Zufallsvariablen Eine Zufallsvariable heißt stetig, falls zu je zwei Werten a < b auch jeder Zwischenwert im Intervall [a, b] möglich ist Beispiele: X = Alter, X = Körpergröße, X = Temperatur, X = Intelligenzquotient In der Praxis kommen häufig Variablen vor, die als quasistetig aufzufassen sind. Quasistetig bedeutet, dass eine Zufallsvariable extrem viele Ausprägungen besitzt und die Wahrscheinlichkeit eines einzelnen möglichen Wertes vernachlässigbar klein ist. Solche Merkmale werden in der Statistik wie stetige Zufallsvariablen behandelt. Beispiele: X = Einkommen, X = Vermögen, X = Umsatz einer Firma, Statistik_II@finasto 3 1
3.1 Wahrscheinlichkeitsverteilungen Modellierung von stetigen Zufallsvariablen: P [X = x] = 0 für einen einzelnen möglichen Wert x Ansatz: Man betrachtet Intervalle und zugehörige Wahrscheinlichkeiten P [X [a, b]] Wahrscheinlichkeiten stetiger Zufallsvariablen Für stetige Zufallsvariablen X gilt P [a X b] = P [a < X b] = P [a X < b] = P [a < X < b] und P [X = x] = 0 für jedes x R Statistik_II@finasto 3 2
Die Verteilung einer stetigen Zufallsvariablen lässt sich durch die zugehörige Dichtefunktion charakterisieren. Wahrscheinlichkeiten ergeben sich als Flächen unter der Dichtefunktion. Analogie (Statistik I): Histogramm eines stetigen Merkmals Gruppierung anhand von Klassen benachbarter Intervalle [c 0, c 1 ), [c 1, c 2 ),..., [c k 1, c k ) der gleichen Klassenbreite δ Berechnung der relativen Häufigkeit f j Klasse [c j 1, c j ) für jede Histogrammwerte innerhalb jeder Klasse: f j /δ Fläche des Histogramms über [c j 1, c j ) = f j Verhalten für großes n: f j nahe an P [c j 1 X < c j ] Falls n und gleichzeitig δ 0, so konvergiert das Histogramm gegen eine Funktion f(x) 0 (=Dichtefunktion) P [a X b] = Fläche von f(x) über [a, b] = b a f(x)dx Statistik_II@finasto 3 3
ËØ Ø Ù ÐÐ Ú Ö Ð n=50 Histogramm 0 0.2 0.4 n=500 Histogramm 0 0.2 0.4 n=5000 Histogramm 0 0.2 0.4 Model Dichte 0 0.2 0.4 Statistik_II@finasto 3 4
Flächen und Integrale: Für eine positive Funktion f(x) 0 gilt b a f(x)dx = Fläche von f(x) über [a, b] Man betrachte eine allgemeine Funktion g(x) mit positiven und negativen Werten. positiver Teil von g(x): g + (x) = max{0, g(x)} negativer Teil von g(x): g (x) = min{0, g(x)} b a g(x)dx = Fläche von g + (x) über [a, b] Fläche von g (x) über [a, b] Statistik_II@finasto 3 5
Stetige Zufallsvariablen und Dichten X stetige Zufallsvariable: Es existiert eine Funktion f(x), so dass für jedes Intervall [a, b] P [a X b] = Eigenschaften von Dichten: b a f(x)dx f heißt (Wahrscheinlichkeits-) Dichte von X Positivität: f(x) 0 Normierung: Die Gesamtfläche zwischen x-achse und f(x) ist gleich 1, P [ < X < ] = f(x)dx = 1 Verteilungsfunktion einer stetigen Zufallsvariablen F (x) = P [X x] = x f(t)dt Statistik_II@finasto 3 6
Ï Ö ÒÐ Ø Ø Üµ ¼ Î ÖØ ÐÙÒ ÙÒ Ø ÓÒ ½ ½ ܵ Ü ½ ܵ ÑÓÒÓØÓÒ Û Ò ½µ ¼ ½µ ½ Dichtefunktion Verteilungsfunktion f(x) 0.2 0.4 0.6 0.8 1 F(b) f(x) b F(x) 0 0.2 0.4 0.6 0.8 1 F(b) b F(x) -3-2 -1 0 1 2 3 x -3-2 -1 0 1 2 3 x Statistik_II@finasto 3 7
Die Verteilungsfunktion ist ein zentrales Werkzeug zur Berechnung von Wahrscheinlichkeiten. Die Verteilungsfunktion einer stetigen Zufallsvariable besitzt folgende Eigenschaften: F (x) ist eine stetige, monoton wachsende Funktion, 0 F (x) 1. F (a) = P [X < a] P [X a] = P [X > a] = 1 F (a) P [a X b] = P [a < X < b] = F (b) F (a) Interpretation von Dichten: f(x) groß für alle Werte in einem Intervall [a, b]: Es besteht eine relativ hohe Wahrscheinlichkeit, dass X einen Wert in [a, b] annimmt f(x) sehr klein für alle Werte in einem Intervall [c, d]: Es besteht eine sehr geringe Wahrscheinlichkeit, dass X einen Wert in [c, d] annimmt Statistik_II@finasto 3 8
Klassifikation von Verteilungen symmetrisch, unimodal 0.4 0.3 0.2 0.1 0.0-3 -2-1 0 1 2 3 linkssteil rechtssteil 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0 1 2 3 4 0.0-4 -3-2 -1 bimodal multimodal 1.0 4 0.8 3 0.6 2 0.4 0.2 1 0.0-3 -2-1 0 1 2 3 0-2.5-2.0-1.5-1.0-0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0 Statistik_II@finasto 3 9
Spezialfall: Stetige Gleichverteilung Stetige Gleichverteilung Eine stetige Zufallsvariable mit Ausprägungen in einem Intervall [a, b] heißt gleichverteilt, falls für jedes Teilintervall [c, d] [a, b] gilt P [c X d] = d c b a Man schreibt: X U(a, b) Wahrscheinlichkeitsdichte 1 b a für a x b f U (x) = 0 sonst Verteilungsfunktion F U (x) = 0 für x < a x a b a für a x b 1 für x > b Statistik_II@finasto 3 10
Stetige Gleichverteilung auf [1, 6] Dichtefunktion (stetige Gleichverteilung) f(x) 0.05 0.1 0.15 0.2 0.25 1 2 3 4 5 6 x Verteilungsfunktion (stetige Gleichverteilung) f(x) 0 0.5 1 0 1 2 3 4 5 6 7 x Statistik_II@finasto 3 11
Beispiel: Wartezeit auf eine Straßenbahn Ideale Welt: An einer bestimmten Haltestelle hält jeweils genau alle 20 Minuten eine Straßenbahn Eine Person kommt ohne Kenntnis des Fahrplans zu einer zufälligen Zeit an die Haltestelle X = Wartezeit (in Minuten) auf die nächste Straßenbahn X U(0, 20) P [0 X 20] = 1 P [X 10] = 10 20 = 0, 5 P [X 10] = 1 10 20 = 0, 5 P [5 X 10] = 10 20 5 20 = 0, 25 Statistik_II@finasto 3 12
3.2 Verteilungsparameter Erwartungswert Diskrete Zufallsvariable: µ = E(X) = i 1 x i f(x i ) Stetige Zufallsvariable: µ = E(X) = x f(x)dx Rechenregeln: Y = ax + b, a, b beliebig E(Y ) = E(aX + b) = ae(x) + b Für zwei Zufallsvariablen X und Y E(X + Y ) = E(X) + E(Y ) Beispiel: X U(a, b) E(X) = a+b 2 Statistik_II@finasto 3 13
Beispiele: Zwei Verteilungen mit E(X) = x x f(x)dx = 0 Wahrscheinlichkeitsdichte f(x) y 0 0.1 0.2 0.3 0.4-5 0 5 x x f(x) -0.2-0.1 0 0.1 0.2 y Wahrscheinlichkeitsdichte f(x) y 0 0.1 0.2 0.3 0.4 0.5-3 -2-1 0 1 2 3 x x f(x) -0.5 0 0.5 y E(X) = 0-5 0 5 x E(X) = 0-3 -2-1 0 1 2 3 x Statistik_II@finasto 3 14
Beispiele mit E(X) = 0 und E(X) > 0 Wahrscheinlichkeitsdichte f(x) 0 0.1 0.2 0.3 0.4 y -5 0 5 x x f(x) -0.2-0.1 0 0.1 0.2 y E(X) = 0-5 0 5 x Wahrscheinlichkeitsdichte f(x) 0 0.1 0.2 0.3 0.4 y -5 0 5 x x f(x) 0 0.2 0.4 y E(X) = 1-5 0 5 x Wahrscheinlichkeitsdichte f(x) 0 0.1 0.2 0.3 0.4 y -5 0 5 x x f(x) 0 0.2 0.4 0.6 0.8 y E(X) = 2-5 0 5 x Statistik_II@finasto 3 15
Varianz Diskrete Zufallsvariable: σ 2 = Var(X) = i 1(x i µ) 2 f(x i ) Stetige Zufallsvariable: σ 2 = Var(X) = (x µ) 2 f(x)dx σ = Var(X) heißt Standardabweichung Rechenregeln: Var(X) = E(X µ) 2 = E(X 2 ) µ 2 Y = ax + b, a, b beliebig Var(Y ) = Var(aX + b) = a 2 Var(X) Für unabhängige Zufallsvariablen X und Y Var(X + Y ) = Var(X) + Var(Y ) Beispiel: X U(a, b) Var(X) = (b a)2 12 Statistik_II@finasto 3 16
Der Erwartungswert µ = E(X) ist ein Lageparameter, der Aufschluss über das Zentrum der Verteilung gibt. Die Standardabweichung ist ein Maß für die Dispersion Ungleichung von Tschebyscheff: P [ X µ > kσ] 1 k 2 für alle k > 0 P [µ kσ X µ + kσ] 1 1 k 2 [µ kσ, µ + kσ] heißt zentrales Schwankungsin- tervall k P [µ kσ X µ + kσ] 2 1 1 4 = 0, 75 3 1 1 9 0, 89 4 1 1 16 = 0, 9375 Achtung: Die Ungleichung gibt nur eine untere Schranke für die Wahrscheinlichkeit. Genauere Berechnungen auf der Basis spezieller Verteilungsmodelle. Statistik_II@finasto 3 17
Ô Ð Ù ÐÐ Ú Ö Ð Ñ Ø µ ¼ Î Ö µ ½ Ø ÐÓ Ò ÙÖÚ µ k=1: P(-1<X<1) = 0.6827 Y 0 0.2 0.4-4 -2 0 2 4 X k=2: P(-2<X<2) = 0.9545 Y 0 0.2 0.4-4 -2 0 2 4 X k=3: P(-3<X<3) = 0.9973 Y 0 0.2 0.4-4 -2 0 2 4 X k=4: P(-4<X<4) = 0.9999 Y 0 0.2 0.4-4 -2 0 2 4 X Statistik_II@finasto 3 18
Ô Ð Ù ÐÐ Ú Ö Ð Ñ Ø µ ¼ Î Ö µ ½ Ø Ø µ k=1: P(-1<X<1) = 0.5443 Y 0 0.2-3 -2-1 0 1 2 3 4 5 6 7 X k=2: P(-2<X<2) = 0.9089 Y 0 0.2-3 -2-1 0 1 2 3 4 5 6 7 X k=3: P(-3<X<3) = 0.9579 Y 0 0.2-3 -2-1 0 1 2 3 4 5 6 7 X k=4: P(-4<X<4) = 0.9808 Y 0 0.2-3 -2-1 0 1 2 3 4 5 6 7 X Statistik_II@finasto 3 19
Weitere Verteilungsparameter einer stetigen Zufallsvariable X Modus: x mod ist ein Wert, für den die Dichtefunktion f(x) maximal wird. Median: x med ist der Wert, für den gilt: F (x med ) = P [X x med ] = P [X x med ] = 1 F (x med ) = 1 2 Quantile: Für 0 < p < 1 ist das p-quantil x p der Wert, für den F (x p ) = P [X x p ] = p und 1 F (x p ) = P [X x p ] = 1 p gilt. Median und Quantile sind eindeutig bestimmt, wenn die Verteilungsfunktion F streng monoton ist. Statistik_II@finasto 3 20
Illustration: Quantil x p Verteilungsfunktion: P [X x p ] = F (x p ) = p 1.0 F(x) p 0.8 0.6 0.4 0.2 0.0-3 -2-1 0 1 2 3 x p Dichte: Das Quantil x p teilt die Gesamtfläche von f über der x-achse in zwei Teile der Größen p = P [X x p ] und 1 p = P [X x p ] auf. 0.4 0.3 0.2 0.1 p 1-p 0.0-3 -2-1 0 1 2 3 x p Statistik_II@finasto 3 21
Lageregeln Symmetrische Verteilung: x mod = x med = µ x mod = x med = µ Linkssteile Verteilung: x mod x med µ x mod x med µ Rechtssteile Verteilung: µ x med x mod µ x med x mod Statistik_II@finasto 3 22
3.3 Die Exponentialverteilung Exponentialverteilung Eine stetige Zufallsvariable X mit nichtnegativen Werten heißt exponentialverteilt mit Parameter λ > 0, kurz X Ex(λ), wenn sie die Dichte λe λx für x 0 f Ex (x) = 0 sonst besitzt. Es gilt: E(X) = 1 λ, Var(X) = 1 λ 2 Dichten der Exponentialverteilung 1.0 0.8 λ=1 0.6 0.4 0.2 λ=0,5 0.0 0 2 4 6 8 10 Statistik_II@finasto 3 23
Verteilungsfunktion 1 e λx für x 0 F Ex (x) = 0 für x < 0 Zusammenhang mit der Poisson-Verteilung: Y = Anzahl des Auftretens eines Ereignisses A in einem festen Zeitintervall [0, 1] Y t = Anzahl des Auftretens des Ereignisses A in dem Zeitintervall [0, t] Y P o(λ) Y t P o(λt) Für X = gilt dann Wartezeit bis zum ersten Auftreten des Ereignisses A X Ex(λ), denn P [X t] = 1 P [Y t = 0] = 1 e λt Statistik_II@finasto 3 24
3.4 Die Normalverteilung (Gauß-Verteilung) Normalverteilung Eine Zufallsvariable X heißt normalverteilt mit Parametern µ R und σ 2 > 0, kurz X N(µ, σ 2 ), wenn sie die Dichte f(x) = 1 2πσ exp ) (x µ)2 ( 2σ 2 für x R besitzt. Es gilt: E(X) = µ, Var(X) = σ 2 Die Normalverteilung wird auch als Gauß-Verteilung und die Dichte als Gauß-Kurve bezeichnet Die Normalverteilung spielt eine zentrale Rolle in der induktiven Statistik. Bei sehr vielen Zufallsphänomenen wird angenommen, dass sie zumindest approximativ normalverteilt sind. Normalverteilungen sind unimodal und symmetrisch un ihren Mittelwert µ Statistik_II@finasto 3 25
Gauß-Kurven mit µ = 0 und σ 2 = 0.25, 1, 4 0.8 N(0,0.25) 0.6 0.4 N(0,1) 0.2 N(0,2) 0.0-4 -2 0 2 4 Gauß-Kurven mit µ = 1, 0, 2 und σ 2 = 1 0.4 N(0,1) 0.3 N(-1,1) N(2,1) 0.2 0.1 0.0-4 -2 0 2 4 Gauß-Kurven mit verschiedenen µ und σ 2 1.0 N(2,0.16) 0.8 0.6 0.4 0.2 N(-1,2.25) N(0,1) 0.0-4 -2 0 2 4 Statistik_II@finasto 3 26
Spezialfall mit µ = 0, σ 2 = 1: Standardnormalverteilung N(0, 1) Dichte der Standardnormalverteilung N(0, 1): ϕ(x) = 1 ) exp ( x2 für x R 2π 2 Verteilungsfunktion: Φ(x) = x ϕ(t)dt = x ( 1 exp t2 2π 2 ) dt Die Standardnormalverteilung ist symmetrisch zum Nullpunkt, Φ( x) = 1 Φ(x) Die Werte von Φ(z) sind tabelliert. Statistik_II@finasto 3 27
Die Quantile der Standardnormalverteilung Die Quantile der Standardnormalverteilung sind durch Φ(z p ) = p bestimmt. Wegen der Symmetrie gilt z p = z 1 p p 50% 75% 90% 95% 97,5% 99% z p 0 = x med 0,675 1,282 1,645 1,960 2,326 0.4 φ(x) 0.3 0.2 0.1 0.0 1-p -3-2 -1 0 1 2 3 z p -z p 1-p Statistik_II@finasto 3 28
Rückführung einer allgemeinen N(µ, σ 2 )-Verteilung auf die Standardnormalverteilung: Standardisierung: Ist X N(µ, σ 2 ), so ist die standardisierte Zufallsvariable Z = X µ σ standardnormalverteilt, d.h. Z N(0, 1) Für die Verteilungsfunktion F von X gilt: ( ) x µ F (x) = Φ = Φ(z) mit z = x µ σ σ Quantile: Für 0 < p < 1 berechnet sich das p- Quantil x p der N(µ, σ)-verteilung durch z p = x p µ σ bzw x p = µ + σz p P [a X b] = F (b) F (a) ( ) ( ) b µ a µ = Φ Φ σ σ Statistik_II@finasto 3 29
Beispiel: Füllmenge von Bier In einer Abfüllanlage werden Flaschen mit nominal 50 cl Bier gefüllt. Die Anlage arbeitet jedoch nicht vollständig exakt. Im Mittel werden tatsächlich 50 cl eingefüllt, die Standardabweichung beträgt jedoch 1,2 cl. Modell: X = Füllmenge N(50, 1.44) P [X 52] = F (52) = P ( Z ) 52 50 1, 2 = P [Z 1, 67] = Φ(1, 67) = 0, 953 P [X 49] = 1 F (49) ( ) 49 50 = 1 Φ = 1 Φ( 0, 833) 1, 2 = 1 (1 Φ(0, 833)) = 0, 797 Statistik_II@finasto 3 30
Zentrale Schwankungsintervalle Ist X N(µ, σ 2 ), so gilt für α > 0 P [µ z 1 α/2 σ X µ + z 1 α/2 σ] = 1 α Für z 1 α/2 = k erhält man die Bereiche k = 1 : P [µ σ X µ + σ] = 0, 6827 k = 2 : P [µ 2σ X µ + 2σ] = 0, 9545 k = 3 : P [µ 3σ X µ + 3σ] = 0, 9973 1 α α/2 α/2 µ z 1-α/2 σ µ µ+z 1-α/2 σ Statistik_II@finasto 3 31
Beispiel: Füllmenge von Bier X = Füllmenge N(50, 1.44) Frage: Zwischen welchen Werten liegt die tatsächliche Füllmenge mit einer Wahrscheinlichkeit von 95%? 0, 95 = 1 α α = 0, 05, z 1 α/2 = z 0,975 = 1, 96 P [µ 1, 96σ X µ + 1, 96σ] = 1 α = 0, 95 Anwendung auf Füllmenge: P [47, 65 X 52, 35] = 0, 95 95% 2,5% µ 1.96σ µ µ+1.96σ 2,5% Statistik_II@finasto 3 32
Eigenschaften der Normalverteilung: Lineare Transformation Für X N(µ, σ 2 ) ist die linear transformierte Variable Y = ax + b wieder normalverteilt mit Y N(aµ + b, a 2 σ 2 ) Addition Sind X N(µ X, σx 2 ) und Y N(µ Y, σy 2 ) normalverteilt und unabhängig, so gilt X + Y N(µ X + µ Y, σ 2 X + σ 2 Y ) Verallgemeinerung: Sind X i N(µ i, σi 2) unabhängig, so ist jede Linearkombination Y = a 1 X 1 +... + a n X n normalverteilt mit Y N(a 1 µ 1 +... + a n µ n, a 2 1σ 2 1 +... + a 2 nσ 2 n) Statistik_II@finasto 3 33
Der zentrale Grenzwertsatz Zufallsvariable X (diskret oder stetig) Beispiele: X = Geschlecht einer zufällig ausgewählten Person (0/1 falls weiblich/männlich); X = Einkommen einer zufällig ausgewählten Person, Einfache Zufallsstichprobe des Umfangs n (bzw. n- malige unabhängige Wiederholung des Zufallsexperiments): Folge X 1,..., X n von Zufallsvariablen, die jeweils eine einzelne Ziehung (Wiederholung) beschreiben Alle X i haben die gleiche Verteilung wie X und X 1,..., X n sind voneinander unabhängig, µ = E(X) = E(X i ), σ 2 = Var(X) = Var(X i ) X 1,..., X n - unabhängig und identisch verteilte Zufallsvariablen (mit Mittelwert µ und Varianz σ 2 ) Statistik_II@finasto 3 34
Man betrachte nun den Mittelwert: X n = 1 n X i (Zufallsvariable!!) x = 1 n i=1 n i=1 x i tatsächlich beobachteter (realisierter) numerischer Wert (z.b. x = 0, 0456) Zentraler Grenwertsatz Seien X 1,..., X n unabhängig und identisch verteilte Zufallsvariablen mit Mittelwert µ und Varianz σ 2. Dann gilt ( ) X µ P σ/ n z Φ(z) für n Mit anderen Worten: Für großes n gilt approximativ ) X N (µ, σ2 n Folgerung für Summen von Zufallsvariablen: n groß, so gilt approximativ n X i N(nµ, nσ 2 ) i=1 Anmerkung: Die asymptotische Normalität von X gilt unabhängig von der Struktur der Verteilung der X i (diese Verteilung ist natürlich für alle Stichprobenumfänge n die gleiche (z:b. Exponentialverteilung, Bernoulli, etc.) Statistik_II@finasto 3 35
Beispiel: N = 7 Kugeln: 10, 11, 11, 12, 12, 12, 16 X: Zahl auf einer zufällig gezogenen Kugel x 10 11 12 16 f(x) 1/7 2/7 3/7 1/7 µ = E(X) = 12, σ 2 = Var(X) = 22/7 = 3.143 Einfache Zufallsstichprobe (n = 2): Unabhängig und identisch verteilte Zufallsvariablen X 1 und X 2 X 1 : Zahl auf der 1. gezogenen Kugel X 2 : Zahl auf der 2. gezogenen Kugel Mögliche Realisationen: 2.Kugel 1.Kugel 10 11 11 12 12 12 16 10 (10;10) 10;11 10;11 10;12 10;12 10;12 10;16 11 11;10 (11;11) 11;11 11;12 11;12 11;12 11;16 11 11;10 11;11 (11;11) 11;12 11;12 11;12 11;16 12 12;10 12;11 12;11 (12;12) 12;12 12;12 12;16 12 12;10 12;11 12;11 12;12 (12;12) 12;12 12;16 12 12;10 12;11 12;11 12;12 12;12 (12;12) 12;16 16 16;10 16;11 16;11 16;12 16;12 16;12 (16;16) Statistik_II@finasto 3 36
Mögliche Stichprobenmittelwerte x 2. Kugel 1. Kugel 10 11 11 12 12 12 16 10 (10) 10,5 10,5 11 11 11 13 11 10,5 (11) 11 11,5 11,5 11,5 13,5 11 10,5 11 (11) 11,5 11,5 11,5 13,5 12 11 11,5 11,5 (12) 12 12 14 12 11 11,5 11,5 12 (12) 12 14 12 11 11,5 11,5 12 12 (12) 14 16 13 13,5 13,5 14 14 14 (16) Wahrscheinlichkeitsverteilung von X x 10 10.5 11 11.5 12 13 13,5 14 16 f(x) 1 49 4 49 10 49 12 49 E(X) = 12 = µ, Var(X) = 22/14 = σ 2 /2 Für wachsendes n gibt es immer mehr mögliche Werte von X Übergang zu einer quasistetigen Verteilung, die sich für genügend großes n durch eine Normalverteilung approximieren lässt ( X N 12, 22/7 ) n 9 49 2 49 4 49 6 49 1 49 Statistik_II@finasto 3 37
Verteilungen der Zufallsvariablen X i E(X) E(X) E(X) E(X) Zugehörige Verteilungen des Mittelwertes X = 1 n n i=1 X i n = 2 E(X) E(X) E(X) E(X) n = 4 E(X) E(X) E(X) E(X) n = 30 E(X) E(X) E(X) E(X) Statistik_II@finasto 3 38
Verhalten von X für n : P [µ z 1 α/2 σ n X µ + z 1 α/2 σ n ] 1 α Die Länge 2z 1 α/2 σ n dieser zentralen Schwankungsintervalle wird für steigendes n immer kleiner. n=100 n=1600 α/2 1 α α/2 α/2 1 α α/2 µ µ Beispiel: σ = 1, α = 0, 05 z 1 α/2 σ n = 1,96 n n = 100 P [µ 0, 196 X µ + 0, 196] 0, 95 n = 1600 P [µ 0, 049 X µ + 0, 049] 0, 95 Für großes n ist zu erwarten, dass der beobachtete Mittelwert x sehr nahe am Erwartungswert µ der Zufallsvariablen liegt (Gesetz der großen Zahlen) Statistik_II@finasto 3 39
Anwendung des zentralen Grenzwertsatzes: Approximation der Binomialverteilung Zentraler Grenzwertsatz Sei X B(n, p). Für großes n gilt approximativ Z = X np np(1 p) N(0, 1) bzw. X N(np, np(1 p)) Faustregeln: np 5, n(1 p) 5 Anwendung (mit Stetigkeitskorrektur): ( ) x 0, 5 np P [X < x] Φ np(1 p) P [X x] Φ ( ) x + 0, 5 np np(1 p) P [x 1 X x 2 ] Φ ( x 2 + 0, 5 np np(1 p) ) Φ ( ) x 1 0, 5 np np(1 p) Statistik_II@finasto 3 40
3.5 Spezielle Verteilungsmodelle χ 2 -Verteilung Seien X 1,..., X n unabhängige und identisch N(0, 1)-verteilte Zufallsvariablen. Dann heißt die Verteilung von χ 2 = X 2 1 + + X 2 n Chi-Quadrat-Verteilung mit n Freiheitsgraden, kurz χ 2 χ 2 (n). Es gilt: E(χ 2 ) = n, Var(χ 2 ) = 2n Dichten der χ 2 -Verteilung 0.5 0.4 n=2 0.3 0.2 n=5 0.1 n=10 0.0 0 5 10 15 20 Statistik_II@finasto 3 41
Die Dichten der χ 2 -Verteilung sind linkssteil, nähern sich jedoch für große n der Gauß-Kurve an (zentraler Grenzwertsatz) n > 30: χ 2 (n) N(n, 2n) Wichtige Quantile der χ 2 (n)-verteilung sind tabelliert. Für n > 30 benutzt man eine Normalverteilungsapproximation χ 2 p;n = 1 2 (z p + 2n 1) 2 Anwendungsbereich: Verfahren der inferentiellen Statistik (Anpassungstests, Tests im Zusammenhang mit Varianzen); spezielle Lebensdauermodelle Statistik_II@finasto 3 42
t-verteilung, Student-Verteilung Seien X N(0, 1) und Y χ 2 n unabhängig. Dann heißt die Verteilung von T = X Y/n t-verteilung mit n Freiheitsgraden, kurz T t(n). Es gilt: E(T ) = 0, (n > 1), Var(T ) = n n 2, (n > 2) Dichten der Student-Verteilung 0.4 n=10 0.3 0.2 0.1 n=1 0.0-4 -2 0 2 4 Statistik_II@finasto 3 43
Die Dichten der t-verteilung sind symmetrisch um 0. Im Vergleich zu ϕ besitzen sie für kleine n größere Enden, d.h. die Flächen unter den Dichtekurven für kleine und große Werte x sind größer. n groß (n > 30): t(n) N(0, 1) Wichtige Quantile der t(n)-verteilung sind tabelliert. Für n > 30 benutzt man eine Normalverteilungsapproximation t p;n z p Anwendungsbereich: Verfahren der inferentiellen Statistik (Tests im Zusammenhang mit Mittelwerten); robuste Statistik (Modellierung von Daten mit einem hohen Anteil extremer Werte) Statistik_II@finasto 3 44
Fisher-Verteilung Seien X χ 2 (m) und Y χ 2 (n) unabhängig. Dann heißt die Verteilung von F = X/m Y/n Fisher- oder F -Verteilung mit den Freiheitsgraden m und n, kurz F F (m, n). Es gilt: E(F ) = n n 2 (für n > 2) Anwendungsbereich: Quantile der F -verteilung (tabelliert) werden bei Testverfahren in der Regressions- und Varianzanalyse benötigt Dichten der F-Verteilung F(50,50) 1.2 F(2,10) 0.8 F(10,3) 0.4 0.0 0 1 2 3 4 Statistik_II@finasto 3 45