Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie: 1.1 Zweidimensionale Verteilungsfunktionen; 1. Ungleichung von Tschebyscheff; 1.3 Grenzwertsätze. Prof. Dr. Ostap Okhrin Ostap Okhrin 1 of 3
1.1 Zweidimensionale Verteilungsfunktionen Es sei X = (X 1, X ) - -dimensionale Zufallsvektor Beispiele: - Renditen von Daimler und BMW, - Anzahl des verkauften Albums Legends - The Christmas Collection und die Zeit. Dann heißt F X (x 1, x ) = P ( ) {ω Ω : X 1 (ω) x 1, X (ω) x }, x 1, x IR die ( dimensionale) Verteilungsfunktion des Zufallsvektors X. Man schreibt hierfür kurz: F (x 1, x ) = P(X 1 x 1, X x ). Man schreibt (X 1, X ), sowie (X, Y ). Ostap Okhrin of 3
Nimmt X höchstens abzählbar viele verschiedene Werte an, so heißt X diskret und f(x 1, x ) = P(X 1 = x 1, X = x ) heißt die (gemeinsame) Wahrscheinlichkeitsfunktion von (X 1, X ). X heißt stetig, falls für die Verteilungsfunktion F von X gilt F (x 1, x ) = x1 x f(t 1, t ) dt dt 1, x 1, x IR mit f(t 1, t ) 0 für alle t 1, t gilt. Die Funktion f heißt (-dimensionale) Dichte von (X 1, X ). Ostap Okhrin 3 of 3
Randverteilung von X 1 : F X (x 1, ) = P(X 1 x 1 ) =: F 1 (x 1 ) Randverteilung von X : F X (, x ) = P(X x ) =: F (x ) Beachte: im diskreten Fall: P(X 1 = x 1,i ) = j P(X 1 = x 1,i, X = x,j ) P(X = x,j ) = i P(X 1 = x 1,i, X = x,j ) im stetigen Fall: + f 1 (x 1 ) = f(x 1, x ) dx und f (x ) = + f(x 1, x ) dx 1 Ostap Okhrin 4 of 3
Die -dimensionale Normalverteilung Die Dichte der -dimensionalen Normalverteilung ist gegeben durch 1 f(x 1, x ) = { (π) Σ exp 1 } (x µ) Σ 1 (x µ) [ 1 = π σ 1 σ exp 1 1 ρ (1 ρ ) { (x1 ) µ 1 ρ (x ( ) }] 1 µ 1 ) (x µ ) x µ + σ 1 σ σ 1 σ für x 1, x IR, wobei x = ( x1 x ) ( µ1, µ = µ ) ( σ und Σ = 1 ρσ 1 σ ρσ 1 σ σ ). Die Dichte hängt von 5 Parametern ab, nämlich µ 1, µ IR, σ 1, σ > 0 und ρ [ 1, 1]. Ostap Okhrin 5 of 3
Bemmerkung: µ heißt der Erwartungswert von X = (X 1, X ) : µ 1 = E(X 1 ) und µ = E(X ); Σ heißt die Kovarianzmatrix von X: σ1 = Var(X 1), σ = Var(X ) und ρ = Cor(X 1, X ). Notation: X N (µ, Σ) (X 1, X ) N (µ, Σ) ( ) (( ) ( X1 µ1 σ N, 1 ρσ 1 σ X µ ρσ 1 σ σ )) Ostap Okhrin 6 of 3
Die -dimensionale standardisierte Normalverteilung Ist µ 1 = µ = ρ = 0 und σ 1 = σ = 1, so spricht man von der -dimensionalen standardisierten Normalverteilung [ 1 f(x 1, x ) = π σ 1 σ exp 1 1 ρ (1 ρ ) { (x1 ) µ 1 ρ (x ( ) }] 1 µ 1 ) (x µ ) x µ + σ 1 σ σ 1 = 1 π exp = 1 π exp = φ(x 1 ) φ(x ). { 1 ( x 1 + x ) } ( ) x 1 ( ) 1 exp x π Hieraus erhält man die Randdichten zu f 1 (x 1 ) = φ(x 1 ) und f (x ) = φ(x ). σ Ostap Okhrin 7 of 3
Dichte der dim. Normalverteilung für µ 1 = 0, µ = 0, σ 1 = 1, σ = 1, ρ = 0 0.5 0.0 0.15 0.10 0.05 0.00 3 1 x 0 1 3 3 1 0 x1 1 3 3 1 0 1 3 0.06 0.1 0.14 0.1 0.08 0.04 0.0 3 1 0 1 3 Ostap Okhrin 8 of 3
Dichte der dim. Normalverteilung für µ 1 = 1, µ = 0, σ 1 = 1, σ = 1, ρ = 0 0.5 0.0 0.15 0.10 0.05 0.00 3 1 x 0 1 3 3 1 0 x1 1 3 3 1 0 1 3 0.06 0.1 0.14 0.1 0.08 0.04 0.0 3 1 0 1 3 Ostap Okhrin 9 of 3
Dichte der dim. Normalverteilung für µ 1 = 0, µ = 0, σ 1 =, σ = 1, ρ = 0 0.5 0.0 0.15 0.10 0.05 0.00 3 1 x 0 1 3 3 1 0 x1 1 3 3 1 0 1 3 0.1 0.01 0.03 0.05 0.08 0.11 0.07 0.04 0.01 0.09 0.06 0.0 3 1 0 1 3 Ostap Okhrin 10 of 3
Dichte der dim. Normalverteilung für µ 1 = 0, µ = 0, σ 1 = 1, σ = 1, ρ = 0.8 0.5 0.0 0.15 0.10 0.05 0.00 3 1 x 0 1 3 3 1 0 x1 1 3 3 1 0 1 3 0.06 0.1 0.18 0.14 0.16 0. 0.1 0.08 0.04 0.0 3 1 0 1 3 Ostap Okhrin 11 of 3
Verteilungsfunktion der dim. Normalverteilung für µ 1 = 0, µ = 0, σ 1 = 1, σ = 1, ρ = 0 0.8 0.6 F(x1,x) 0.4 0. 1 x 0 1 1 0 x1 1 Ostap Okhrin 1 of 3
Eigenschaften: Sei ( X1 X ) (( µ1 N µ ) ( σ, 1 ρσ 1 σ ρσ 1 σ σ = X 1 N(µ 1, σ 1 ) und X N(µ, σ ). Sei ( X1 X ) (( µ1 N µ = ρ = Cor(X 1, X ). ) ( σ, 1 ρσ 1 σ ρσ 1 σ σ )) )) X 1 und X unabhängig = ρ = 0 (und!!!). ( ) (( ) ( )) X1 µ1 σ Sei N, 1 ρσ 1 σ X µ ρσ 1 σ σ, dann X 1 und X unabhängig ρ = 0. Ostap Okhrin 13 of 3
Sei ( X1 X ) (( µ1 N µ ) ( σ, 1 ρσ 1 σ ρσ 1 σ σ )) = alle Linearkombinationen von X 1 und X sind (univariat) normalverteilt: für alle w 1, w IR Beispiel: w 1 X 1 + w X N ( w 1 µ 1 + w µ, w 1σ 1 + w σ + w 1 w σ 1 σ ρ ) Portfoliotheorie: Betrachte Portfolio bestehend aus Aktien mit relativen Anteilen w und 1 w. Sind die Renditen der Aktien R 1 und R zweidimensional normalverteilt, so ist die Portfoliorendite R P = wr 1 + (1 w)r ebenfalls normalverteilt und es gilt R P N ( wµ 1 + (1 w)µ, w σ 1 + (1 w) σ + w(1 w)σ 1σ ρ ) Ist w = 0.7 und µ 1 = 5%, µ = 8%, σ 1 = 6%, σ = 10%, ρ = 0.3, so ist R P N(5.9, 34.5). Ostap Okhrin 14 of 3
Bedingte Wahrscheinlichkeitsfunktionen und bedingte Dichten Ist f eine Wahrscheinlichkeitsfunktion oder eine Dichte von (X 1, X ) und ist f i die Wahrscheinlichkeitsfunktion oder Dichte von X i, so heißt f(x 1 x ) = f(x 1, x ) für f (x ) > 0 f (x ) die bedingte Wahrscheinlichkeitsfunktion bzw. bedingte Dichte von X 1, wenn X den Wert x annimmt. Analog heißt f(x x 1 ) = f(x 1, x ) f 1 (x 1 ) für f 1 (x 1 ) > 0 die bedingte Wahrscheinlichkeitsfunktion bzw. die bedingte Dichte von X, wenn X 1 den Wert x 1 annimmt. Ostap Okhrin 15 of 3
Beispiele: für dimensionale standardisierte Normalverteilung f 1 (x 1 x ) = f(x 1,x ) f (x ) = φ(x 1)φ(x ) φ(x ) = φ(x 1 ). für dimensionale Normalverteilung mit σ 1 = σ = 1, µ 1 = µ = 0 { } 1 f(x 1 x ) = π (1 ρ ) exp (x 1 ρ x ) (1 ρ. ) Die bedingte Dichte von X 1, wenn X den Wert x annimmt, ist wiederum eine Normalverteilung und zwar mit Erwartungswert ρx und Varianz 1 ρ. Ostap Okhrin 16 of 3
Bedingte Dichte von X 1 bei gegebenem X für die -dim. Normalverteilung im Falle σ 1 = σ = 1, µ 1 = µ = 0 und ρ = 0.8 x 1 0 1 1 0 1 0.00 0.05 0.10 0.15 0.0 0.5 0.30 0.35 f(x1 x) x1 Ostap Okhrin 17 of 3
Bedingte Verteilungsfunktionen Die Verteilungsfunktion zu f(x 1 x ) heißt die bedingte Verteilungsfunktion von X 1, wenn X den Wert x annimmt F (x 1 x ) = x1 f(u 1 x )du 1. Wir schreiben auch kurz X 1 X = x F ( x ). Im Falle der -dim. Normalverteilung ist X 1 X = x N { µ 1 + ρ(σ 1 /σ )(x µ ), σ 1(1 ρ ) }. Beispiel: Für die obigen Werte gilt im Falle ρ = 0.3, dass X 1 X = x N(5 + 0.1875(x 8), 3.76) ist. Insbesondere ist E(X 1 X = 8) = 5 und E(X 1 X = 6) = 4.65. Für den Fall von Wahrscheinlichkeitsfunktionen erklärt man die bedingte Verteilungsfunktion analog. Ostap Okhrin 18 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1. Ungleichung von Tschebyscheff 1. Ungleichung von Tschebyscheff Ungleichung von Tschebyscheff: Es gilt für alle ε > 0 P( X µ ε) 1 Var(X) ε. Dies ist äquivalent zu P( X µ > ε) Var(X) ε. Die Ungleichung von Tschebyscheff gibt eine Aussage darüber, wie groß die Wahrscheinlichkeit für X [µ ε, µ + ε] ( X µ ε) mindestens ist. Die untere Schranke wird durch die Varianz bestimmt. Je kleiner die Varianz ist, desto mehr konzentriert sich die Verteilung um den Erwartungswert. Ostap Okhrin 19 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1. Ungleichung von Tschebyscheff Wählt man ε = kσ mit k > 0, so erhält man P ( X [µ k σ, µ + k σ]) = P( X µ k σ) 1 1/k. k untere Schranke P( X µ kσ) für Normalverteilung 0.7500 0.9545 3 0.8889 0.9973 4 0.9375 0.9999 5 0.9600 0.9999 6 0.97 1.0 Ostap Okhrin 0 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze 1.3 Grenzwertsätze Ziel: Aussage über das Verhalten des Mittelwertes bei wachsendem Stichprobenumfang Beispiel: Würfelspiel { 1 falls beim i-ten Wurf eine Sechs; X i = 0 falls beim i-ten Wurf keine Sechs. Die relative Häufigkeit für eine Sechs ist gleich X = 1 n n i=1 X i. Wegen X i B(1, 1/6) ist E( X) = 1/6 und Var( X) = 1 n Var(X 1) = 5 36 n. Ostap Okhrin 1 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Beispiel: Mit der Tschebyscheff Ungleichung folgt Folglich ist etwa P ( X 1/6 > ε ) Var( X) ε = 5 36 n ε. Insbesondere gilt P ( X 1/6 > 0.01 ) { 0.139 für n = 10 4 0.0014 für n = 10 6. für alle ε > 0. lim P ( X 1/6 > ε ) = 0 n Ostap Okhrin of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Experiment mit Würfelwürfen X 0.3 0.. 0.1 n 1 3 5 7 9 11... 30 Ostap Okhrin 3 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Das schwache Gesetz der großen Zahlen (SGGZ) SGGZ: Es seien X 1, X,... unabhängige und identisch verteilte (d.h. X 1, X,... haben die gleiche Verteilungsfunktion) Zufallsvariable mit E(X i ) = µ und X n = 1 n X i. n Dann gilt für alle ε > 0 i=1 lim P ( X n µ > ε ) = 0. n Man schreibt hierfür kurz X p µ und spricht von der stochastischen Konvergenz (convergence in probability). Ostap Okhrin 4 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Beispiel: Empirische Verteilungsfunktion (a) Es seien X 1, X,... unabhängige und identisch verteilte Zufallsvariable mit X i F ; (b) Y i = I (,x] (X i ); (c) Y 1, Y,... sind wiederum unabhängig und identisch verteilt; (d) Y i B(1, p) mit p = P(Y i = 1) = P(X i x) = F (x); (e) = µ = E (Y i ) = p = F (x); (f) die empirische Verteilungsfunktion ˆF n (x) = Ȳn = 1 n (g) SGGZ = lim n P ( Ȳn µ > ε ) = 0; (h) lim n P ( ˆF n (x) F (x) > ε ) = 0; (i) ˆF n (x) p F (x). n Y i ; i=1 Ostap Okhrin 5 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Verteilung der Zufallsvariablen X, n = 1 E(X) E(X) E(X) E(X) Verteilung der Zufallsvariablen X, n = E(X) E(X) E(X) E(X) Ostap Okhrin 6 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Verteilung der Zufallsvariablen X, n = 4 E(X) E(X) E(X) E(X) Verteilung der Zufallsvariablen X, n = 30 E(X) E(X) E(X) E(X) Ostap Okhrin 7 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Der zentrale Grenzwertsatz (ZGWS) ZGWS: Es seien X 1, X,... unabhängige und identisch verteilte Zufallsvariable mit E(X i ) = µ und Var(X i ) = σ. Dann gilt für alle x IR ( ) n lim P X µ x = Φ ( x ). n σ Dieses Ergebnis lässt sich auch folgendermaßen formulieren: ( ) X E( lim P X) x n Var( X) = Φ ( x ). Man schreibt hierfür kurz n X µ d σ Z, wobei Z Φ (weak convergence oder convergence in distribution). Der ZGWS gibt eine Aussage über die asymptotische Verteilung eines Mittelwertes, weshalb die Normalverteilung eine zentrale Rolle einnimmt. Der ZGWS geht auf Lindeberg(19) und Feller(1935) zurück. Ostap Okhrin 8 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Beispiel: Empirische Verteilungsfunktion (a) Es seien X 1, X,... unabhängige und identisch verteilte Zufallsvariable mit X i F ; (b) Y i = I (,x] (X i ); (c) Y 1, Y,... sind wiederum unabhängig und identisch verteilt; (d) Y i B(1, p) mit p = P(Y i = 1) = P(X i x) = F (x); (e) = µ = E (Y i ) = p = F (x), und σ = Var (Y i ) = p(1 p) = F (x){1 F (x)}; (f) die empirische Verteilungsfunktion ˆF n (x) = Ȳn = 1 n (g) ZGWS = ˆF n (x) N [F (x), nf (x){1 F (x)}]. n Y i ; i=1 Ostap Okhrin 9 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Eine unmittelbare Konsequenz aus dem ZGWS ist das folgende Ergebnis. Folgerung: Für a < b gilt ( lim P a < n X ) µ b n σ = Φ(b) Φ(a). Dies ist äquivalent zu ( P X (µ + a n σ, µ + b n σ ]) Φ(b) Φ(a). n Ostap Okhrin 30 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Beispiel: Würfelexperiment: Wie groß ist die Wahrscheinlichkeit, dass bei 100 Würfen die Anzahl der auftretenden Sechsen größer als 10, aber kleiner gleich 0 ist? ( ) 100 P 10 < X i 0 i=1 = B 100,1/6 (0) B 100,1/6 (10) = 0 i=11 ( 100 i ) ( ) 1 i ( ) 5 100 i 6 6 Problem: explizite Bestimmung von B 100,1/6 (x) für 1 < x < 100! Ostap Okhrin 31 of 3
Statistik II 1. Ergänzungen zur Wahrscheinlichkeitstheorie 1.3 Grenzwertsätze Beispiel: Approximation n = 100, E(X i ) = 1/6, Var(X i ) = 5/36 ( ) 100 P 10 < X i 0 = P ( 0.1 < X 0. ) i=1 0.1 1/6 = P 100 5/36 }{{} = 1.7888 < 100 X 1/6 5/36 100 0. 1/6 5/36 } {{ } =0.8944 Φ(0.8944) Φ( 1.7888) = Φ(0.8944) 1 + Φ(1.7888) = 0.8143 1 + 0.9631 = 0.7774 (exakte Wahrscheinlichkeit: 0.8054). Ostap Okhrin 3 of 3