Anhang A Appendix: Stetige Verteilungen In diesem Appendix werden der üblichen statistischen Praxis folgend Zufallsvariablen mit Großbuchstaben und Realisationen mit Kleinbuchstaben bezeichnet. A. Gleichverteilung Die Gleichverteilung spielt für das Folgende zwar keine große Rolle, aber aufgrund ihrer Einfachheit ist sie aus didaktischen Gründen gut geeignet um die Grundkonzepte zu wiederholen. Eine diskrete Zufallsvariable ist gleichverteilt, wenn jede ihrer möglichen m Ausprägungen mit gleicher Wahrscheinlichkeit eintritt: f(x) = Pr[X = x i ] = m (i =,...,m) Die Wahrscheinlichkeitsfunktion der Augenzahl eines Würfels ist z.b. Pr[X = x i ] = /6 für (i =,...,6). Für eine stetige Zufallsvariable liegen die möglichen Realisationen zwischen den beiden endlichen Grenzen a und b. Da für jede Dichtefunktion gilt + f(x)dx = folgt für die Dichtefunktion einer gleichverteilten stetigen Zufallsvariable X { für a b b a f(x) = sonst Die Wahrscheinlichkeit, dass eine Realisation von X einen Wert zwischen x und x 2 annimmt, ist x2 f(x)dx = Pr[x x x 2 ] = (x 2 x ) x b a Durch Integration der Dichtefunktion erhält man die Verteilungsfunktion F(x)
Empirische Wirtschaftsforschung 2 f(x) F(x) b a a x x 2 b x Abbildung A.: Dichte- und Verteilungsfunktion einer stetigen gleichverteilten Zufallsvariable. a b x für x < a x a F(x) = für a x b b a für x > b Abbildung A. zeigt die Dichte- und Verteilungsfunktion einer stetigen gleichverteilten Zufallsvariable. Der Erwartungswert ist E(X) = = = + b xf(x)dx = x a b a dx x 2 b 2(b a) = b2 a 2 2(b a) = a+b 2 weil (b 2 a 2 ) = (a+b)(b a). a a x dx+ b a xf(x)dx+ + b x dx Die Varianz var(x) = E[X E(X)] 2 = E(X 2 ) [E(X)] 2 kann ebenfalls berechnet werden: b ( ) ] E(X 2 ) = x 2 x 3 b dx = = b3 a 3 a b a 3(b a) a 3(b a) Unter Verwendung von b 3 a 3 = (b a)(a 2 +ab+b 2 ) erhalten wir schließlich var(x) = (a2 +ab+b 2 ) 3 ( ) 2 a+b = (a2 +b 2 2ab) 2 2 = (a b)2 2 Die Gleichverteilung ist also durch die zwei Parameter a und b vollständig bestimmt. A.2 Normalverteilung Die Normalverteilung spielt in der Ökonometrie eine besondere Rolle, und dies aus mehreren Gründen. Erstens sind viele Variablen in ihren Grundgesamtheiten
Empirische Wirtschaftsforschung 3 f(x) N(,.25).4 N(,4).2 N(2,2.25) 4 3 2 2 3 4 Abbildung A.2: Dichtefunktionen von normalverteilten Zufallsvariablen mit unterschiedlichem µ und σ 2. annähernd normalverteilt (z.b. Körpergröße, Intelligenz, Meßfehler, etc.), zweitens können viele andere Verteilungen aus ihr hergeleitet werden (z.b. die χ 2 -, t- oder F-Verteilung), und drittens nähern sich bei sehr großen Beobachtungszahlen andere Verteilungen manchmal der Normalverteilung an (z.b. die Binomialverteilung). Außerdem werden wir später sehen, sind für große Beobachtungszahlen die Stichprobenkennwertverteilungen unabhängig von der Verteilung der Grundgesamtheit annähernd normalverteilt (zentraler Grenzwertsatz). Die Normalverteilung ist eine stetige Verteilung mit der Dichte f(x) = 2πσ 2 e (/2)[(x i µ)/σ] 2 mit µ = Erwartungswert, σ = Standardabweichung von X, π = 3.459...,e = 2.7828... Wenn eine Zufallsvariable X normalverteilt ist mit Mittelwert µ und Varianz σ 2, d.h. wird dies üblicherweise geschrieben als E(X) = µ var(x) = σ 2 X N(µ,σ 2 ) Abbildung A.2 zeigt drei Dichtefunktionen von normalverteilten Zufallsvariablen mit unterschiedlichem µ und σ 2. Eigenschaften der Normalverteilung:. Die Verteilung ist stetig und symmetrisch um den Erwartungswert µ.
Empirische Wirtschaftsforschung 4 f(x) 3σ 2σ σ µ σ 2σ 3σ 68.27% 95.45% 99.73% Abbildung A.3: Dichtefunktion einer normalverteilten Zufallsvariable und % der Fläche darunter. F(X).5 Abbildung A.4: Verteilungsfunktion einer normalverteilten Zufallsvariable. 2. Die Verteilung ist unbeschränkt und erstreckt sich von bis +. 3. Das Maximum der Verteilung liegt beim Mittelwert µ und der Wendepunkt bei x = µ±σ. Außerdem gilt: Pr(µ.96σ < x i < µ+.96σ).95 Pr(µ 2.57σ < x i < µ+2.57σ).99 4. Die Normalverteilung ist durch die zwei Parameter µ und σ 2 vollständig spezifiziert, wir schreiben X N(µ,σ 2 ). Abbildung A.3 zeigt die Dichtefunktion einer Normalverteilung. Die Verteilungsfunktion einer normalverteilten Zufallsvariable ist in Abbildung A.4 dargestellt. Theorem Wenn X, Y,..., Z normal und unabhängig verteilte Zufallsvariablen und a,b,...,c beliebige Konstanten sind, dann ist die Linearkombination ax+by + +cz auch normalverteilt.
Empirische Wirtschaftsforschung 5 Beispiel: Wenn X i N(µ,σ 2 ) mit i =, 2, 3 drei unabhängig verteilte Zufallsvariablen sind, und dann sind Erwartungswert und Varianz der Zufallsvariable W = 2X +X 2 4X 3 E(W) = 2E(X )+E(X 2 ) 4E(X 3 ) = 2µ+µ 4µ = µ var(w) = 2 2 var(x )+ 2 var(x 2 )+4 2 var(x 3 ) = 2σ 2 d.h. W N( µ,2σ 2 ). Oder, wenn X N(µ,σ 2 ) dann ist Y = a+bx N(a+bµ,b 2 σ 2 ), z.b. X N(3,4) und Y = 2X 5 dann ist Y N(,6). Dieses Theorem gestattet eine Standardisierung der Normalverteilungen auf einen Mittelwert von Null und eine Standardabweichung von Eins (z Transformation). z i = (x i µ) σ bzw. Z = (X µ) σ mit Z N(, ), man sagt Z ist standardnormalverteilt. Die Tabelle der Standardnormalverteilung findet sich in jedem Statistiklehrbuch. Wenn X und Y gemeinsam normalverteilt sind, dann sind sie unabhängig wenn und nur wenn cov(x,y) =. Achtung, dies gilt nur für die Normalverteilung! Sind zwei Zufallsvariablen nicht gemeinsam normalverteilt ist cov(x, Y) = in der Regel nicht hinreichend um Unabhängigkeit zu garantieren. Bivariate Normalverteilung: (X,Y) N(µ X,µ Y,σX 2,σ2 Y,ρ), ρ oder in Matrixschreibweise ( ) [( ) ( )] X µx σ 2 N, X σ XY Y µ Y σ XY σy 2 mit der Dichtefunktion f(x,y) = 2πσ x σ y ρ 2 exp { 2( ρ 2 ) [ ] } z 2 X z X z Y +zy 2 mit siehe Abbildung A.5. z X = x µ X σ X, z Y = y µ Y σ Y
Empirische Wirtschaftsforschung 6 µ X = µ Y =, σ 2 X = σ2 Y = ; ρ = µ X = µ Y =, σ 2 X = σ2 Y = ; ρ =.7 Abbildung A.5: Bivariate Normalverteilungen
Empirische Wirtschaftsforschung 7 Übungsbeispiele:. Zwei Zufallsvariablen X und Y seien bivariat normalverteilt mit X N(2,3), Y N(,2), und Cov(X,Y) =.5. bzw. in Matrixschreibweise ( ) [( ) ( )] X 2 3.5 N, Y.5 2 Wie ist dann eine Zufallsvariable V = 2X +3Y verteilt? V ist univariat normalverteilt mit und Also ist V N(7,36). E(V) = E(2X +3Y) = 2E(X)+3E(Y) = 2 2+3 = 7 var(v) = var(2x +3Y) = var(2x)+var(3y)+2cov(2x,3y) = 2 2 var(x) +3 2 var(y) +2 2 3cov(X,Y) } {{ } } {{ } } {{ } 3 2.5 = 2+8+6 = 36 Dies kann einfach simuliert werden, z.b. mit R. Der Befehl mvrnorm aus dem Packet MASS erzeugt Zufallszahlen (Realisationen) aus einer multivariaten Normalverteilung. Der folgende Code demonstriert das obige Resultat anhand von Replikationen. library(mass) mu = c(2,) Sigma <- matrix(c(3,.5,.5,2), nrow=2, ncol=2) set.seed(234567) XY <- mvrnorm(n=, mu, Sigma) V <- 2*XY[,] + 3*XY[,2] mean(v) # -> 7.538 var(v) # -> 36.783 2. Erzeugen Sie in einem Computerprogramm zwei unabhängige Zufallsvariablen X N(2,3), Y N(,2), und cov(x,y) =, d.h. ( ) [( ) ( )] X 2 3 N, Y 2 mit je, Beobachtungen, und erzeugen Sie eine Grafik mit den Histogrammen.
Empirische Wirtschaftsforschung 8 Berechnen Sie V = 2X + 3Y und zeigen Sie das Histogramm. Welchen Mittelwert und welche Varianz von V erwarten Sie? Stimmen die erwarteten Werte näherungsweise mit den empirischen Werten überein? Wenn Z N(,) ist X = 2+ 3Z N(2,3), da var(x) = var(2+ 3Z) = 3 2 var(z) = 3. In EViews wird eine standardnormalverteilte Zufallszahl z.b. mit der Funktion @rnorm erzeugt. Der folgende EViews Code legt einen Workfile mit dem Namen TEST für Querschnitts-Beobachtungen (Option u für undated ) an und erzeugt die drei Zufallsvariablen (Befehle series). Die freeze-befehle erzeugen die Grafiken mit den drei einzelnen Histogrammen, die mit dem graph und merge Befehl zu einer Grafik zusammengefaßt und mit dem Befehl show angezeigt werden. wfcreate(wf=test) u series X = 2 + @sqrt(3)*@rnorm series Y = + @sqrt(2)*@rnorm series V = 2*X + 3*Y freeze(hx) X.hist freeze(hy) Y.hist freeze(hv) V.hist graph GRAFIK.merge HX HY HV show GRAFIK 2 8 6 4 2-5. -2.5. 2.5 5. 7.5. Series: X Sample Observations Mean.998357 Median 2.39 Maximum.7465 Minimum -5.26255 Std. Dev..72459 Skewness -.2583 Kurtosis 2.997558 Jarque-Bera.3678 Probability.934224 4 2 8 6 4 2-4 -2 2 4 6 Series: Y Sample Observations Mean.99866 Median.3436 Maximum 6.69872 Minimum -5.385578 Std. Dev..4645 Skewness -.394 Kurtosis 3.453 Jarque-Bera.3276 Probability.84998 2 6 2 8 4-2 - 2 3 Series: V Sample Observations Mean 6.992699 Median 7.22 Maximum 28.82242 Minimum -9.896 Std. Dev. 5.469949 Skewness -.448 Kurtosis 2.99394 Jarque-Bera 3.768226 Probability.5964
Empirische Wirtschaftsforschung 9 var(v) = var(2x +3Y) = var(2x)+var(3y)+2cov(2x,3y) = 2 2 var(x) +3 2 var(y) +2 2 3cov(X,Y) } {{ } } {{ } } {{ } 3 2 = 2+8+ = 3 Std.Dev.(V) = var(v) = 3 = 5.477 5.469949 A.3 Die Chi Quadrat Verteilung: Die Chi Quadrat oder χ 2 Verteilung geht auf den Astronomen F.R. Helmert (875) zurück. Theorem 2 Sind Z,Z 2,...,Z ν unabhängig standardnormalverteilte Zufallsvariablen (d.h. normalverteilte Zufallsvariable mit Mittelwert und Varianz ), so folgt die Quadratsumme χ 2 = Z 2 +Z2 2 + +Z2 ν einer χ2 Verteilung mit ν Freiheitsgraden. Z i N(,) ν Zi 2 χ 2 ν i= Die χ 2 Verteilung ist nicht symmetrisch und abhängig von der Anzahl der Freiheitsgrade ν. Da sie eine Quadratsumme ist kann eine χ 2 -verteilte Zufallsvariable natürlich nie negativ sein. Erwartungswert und Varianz sind E(χ 2 ) = ν var(χ 2 ) = 2ν Wenn X und X 2 zwei unabhängig χ 2 -verteilte Zufallsvariablen mit ν bzw. ν 2 Freiheitsgraden sind, so ist die Summe X +X 2 auch χ 2 -verteilt mit ν +ν 2 Freiheitsgraden. Diese Verteilung wird v.a. für Tests benötigt, die Varianzen von Zufallsvariablen betreffen. Abbildung A.6 zeigt Dichtefunktionen von χ 2 -verteilten Zufallsvariablen mit unterschiedlichen Freiheitsgraden. Um dies zu verdeutlichen haben wir in EViews das Quadrat von standardnormalverteilten Variablen mit je Beobachtungen erzeugt. Abbildung A.7 zeigt ein Histogramm von Z 2, von 5 i= Z2 i, i= Z2 i und i= Z2 i. Auch wenn Sie das Programm, das Abbildung A.7 erzeugt, im Moment noch nicht verstehen können, so sei es hier doch für eine spätere Referenz wiedergegeben. Erzeugung von Chi2 - verteilten Variablen. wfcreate temp u for!i = to series x{!i} = @rnorm
Empirische Wirtschaftsforschung f(χ 2 ).4 ν =.3.2. ν = 3 ν = 5 ν = 5 5 2 Abbildung A.6: Dichtefunktionen von χ 2 verteilten Zufallsvariablen mit ν =, 3, 5 und Freiheitsgraden. Chiquadrat Verteilung mit Freiheitsgraden Chiquadrat Verteilung mit 5 Freiheitsgraden 6 5 4 3 2 Series: SXQ Sample Observations Mean.4459 Median.49899 Maximum 3.5228 Minimum 5.88e-6 Std. Dev..378388 Skewness 2.47384 Kurtosis 2.982 Jarque-Bera 53.78 Probability. 6 4 2 8 6 4 2 Series: SX5Q Sample Observations Mean 5.675 Median 4.688 Maximum 24.3535 Minimum.93946 Std. Dev. 3.4745 Skewness.32974 Kurtosis 6.4697 Jarque-Bera 77.3328 Probability. 2 4 6 8 2 4 2 4 6 8 2 4 6 8 2 22 24 Chiquadrat Verteilung mit Freiheitsgraden Chiquadrat Verteilung mit Freiheitsgraden 8 6 4 2 Series: SXQ Sample Observations Mean.498 Median 9.5729 Maximum 33.46934 Minimum.6559 Std. Dev. 4.5734 Skewness.88534 Kurtosis 4.674 Jarque-Bera 82.4485 Probability. 8 7 6 5 4 3 2 Series: SXQ Sample Observations Mean.6243 Median.336 Maximum 54.8295 Minimum 62.863 Std. Dev. 4.7422 Skewness.23737 Kurtosis 2.9322 Jarque-Bera 9.74222 Probability.7773 2 4 6 8 2 4 6 8 2 22 24 26 28 3 32 34 7 8 9 2 3 4 5 Abbildung A.7: Histogramme der Summe von quadrierten standardnormalverteilten Zufallsvariablen.
Empirische Wirtschaftsforschung series x{!i}q = x{!i}^2 if!i = then series sxq = xq else!j =!i- series sx{!i}q = x{!i}q + sx{!j}q endif if!i = or!i = 5 or!i = or!i = then freeze(graph{!i}) sx{!i}q.hist graph{!i}.addtext(t) Chiquadrat Verteilung mit!i Freiheitsgraden endif next graph gr.merge graph graph5 graph graph show gr.align(2,3,) A.4 Die t-verteilung: Die t- bzw. Studentverteilung verdankt ihren Namen W.S. Gosset, der deren Ableitung 98 unter dem Pseudonym Student veröffentlichte. Theorem 3 Sei Z eine standardnormalverteilte Zufallsvariable [Z N(, )] und V eine χ 2 -verteilte Zufallsvariable mit ν Freiheitsgraden [V χ 2 (ν)], wobei Z und V unabhängig voneinander verteilt sind, dann ist die Zufallsvariable T t-verteilt mit ν Freiheitsgraden. t = Z (V/ν) t ν Wie aus Abbildung A.8 ersichtlich ist die t Verteilung symmetrisch und flacher als die Standardnormalverteilung. Sie nähert sich mit steigender Zahl von Freiheitsgraden der Standardnormalverteilung an und ist für ν 2 nahezu mit dieser identisch. Weiters ist E(t) = für ν > ν var(t) = für ν > 2 ν 2 Wir werden die t-verteilung v.a. benötigen, wenn die Varianz der Grundgesamtheit nicht bekannt ist, sondern aus der Stichprobe geschätzt werden muss. A.5 Die F-Verteilung: Die F Verteilung werden wir später häufig benötigen, z.b. für Tests, die mehrere Regressionskoeffizienten betreffen, oder um die Gleichheit zweier Varianzen zu testen. Sie ist nach R.A. Fisher benannt.
Empirische Wirtschaftsforschung 2 f(x).4 ν > 2 ν = 5.2 ν = 5 4 3 2 2 3 4 5 Abbildung A.8: Dichtefunktionen für t-verteilte Zufallsvariablen mit ν =, 5 und Freiheitsgraden. Theorem 4 Wenn V und V 2 zwei unabhängig χ 2 -verteilte Zufallsvariablen mit ν bzw. ν 2 Freiheitsgraden sind, dann ist F = V /ν V 2 /ν 2 F ν,ν 2 F-verteilt mit ν Zähler- und ν 2 Nennerfreiheitsgraden. Wie aus Abbildung A.9 ersichtlich ist die F Verteilung schief. Für große ν und ν 2 nähert sie sich einer Normalverteilung an. Man kann zeigen, dass E(F ν,ν 2 ) = ν 2 ν 2 2 für ν 2 > 2 var(f ν,ν 2 ) = 2ν2 2(ν +ν 2 2) ν (ν 2 2) 2 (ν 2 4) für ν 2 > 4 Das Quadrat einer t-verteilten Zufallsvariable mit ν Freiheitsgraden folgt einer F Verteilung mit Zähler- und ν Nennerfreiheitsgraden, d.h. t 2 ν F,ν
Empirische Wirtschaftsforschung 3 f(f).9.8.7 F 2,2 F, F 5,2.6.5.4.3.2. 2 3 4 5 F Abbildung A.9: Dichtefunktionen für F-verteilte Zufallsvariablen mit unterschiedlichen Freiheitsgraden.