Mathematische Ökonometrie Ansgar Steland Fakultät für Mathematik Ruhr-Universität Bochum, Germany ansgar.steland@ruhr-uni-bochum.de Skriptum zur LV im SoSe 2005. Diese erste Rohversion erhebt keinen Anspruch auf Korrektheit.
KAPITEL 1 Grundlagen In diesem Kapitel stellen wir einige Grundresultate der Wahrscheinlichkeitstheorie zusammen, die in der asymptotischen Statistik für unabhängige Daten benötigt werden. 1. Konvergenzbegriffe {X n } sei eine Folge von R-wertigen Zufallsvariablen. X n konvergiert fast sicher gegen eine Zufallsvariable X, wenn X n (ω) X(ω) im Sinne der reellen Analysis gilt, für alle ω einer Menge vom Maß 1, d.h.: P ( lim n X n = X) = 1 Wir schreiben dafür: X n f.s. X, n. Man spricht von stochastischer Konvergenz und notiert wenn für jedes ε > 0 gilt: X n P X, n, lim P ( X n X > ε) = 0, n d.h. die Wahrscheinlichkeit, dass der Abstand von X n zu X höchstens ε beträgt, konvergiert für n gegen 0. Seien nun X, X 1, X 2,... Zufallsvariablen mit E X p, E X i p <, p N. {X n } konvergiert im p-ten Mittel gegen X, falls In Zeichen: E(X n X) p 0, n. L p X n X, n. 3
Die Menge der Zufallsvariablen (genauer: Äquivalenzklassen P -f.s. äquivalenter Zufallsvariablen) mit E X p < bildet einen linearen normierten Raum. Die Norm ist durch X Lp = (E X p ) 1/p, X L p, gegeben. Konvergenz im p-ten Mittel ist also gerade die Normkonvergenz im Raum L p. Für die Anwendungen ist die Konvergenz im quadratischen Mittel besonders wichtig. Es gilt f.s. P und L p P Ferner erzwingt L p -Konvergenz auch die Konvergenz bzgl. niederer Mittel, d.h. L p L q, falls p q 1.1. Konvergenz von Summen, Produkten,... 1.1.1. Summen: Aus der f.s., stochastischen oder L p -Konvergenz von Summanden darf man auf die Konvergenz der Summen schließen: Satz 1.1. Seien X, X n, Y, Y n Zufallsvariablen. Dann gilt X n X, Y n Y X n + Y n X + Y, wenn n, für die Konvergenzbegriffe f.s., P und Lp. 1.1.2. Produkte: Bei der Produktbildung folgt aus der L 2 -Konvergenz der Faktoren lediglich die L 1 -Konvergenz, da mit X und Y das Produkt nicht in L 2 sein muss (jedoch auf jeden Fall in L 1 ). Satz 1.2. Seien X, X n, Y, Y n Zufallsvariablen. Dann gilt X n X, Y n Y X n Y n XY, wenn n, für die Konvergenzbegriffe f.s. und P. Ferner gilt wenn n. L X 2 L n X, 2 L Yn Y Xn Y 1 n XY, 4
1.1.3. Stetige Abbildungen: Fast sichere und stochastische Konvergenz respektieren stetige Abbildungen. Satz 1.3. Sei g : R R stetig. Dann gilt X n X g(x n ) g(x), wenn n, für die Konvergenzbegriffe f.s. und P. 1.2. Satz von der dominierten Konvergenz. Die f.s. Konvergenz X n X zieht nicht automatisch die Konvergenz der Erwartungswerte nach sich. Für integrable Zufallsvariablen hat man den folgenden wichtigen Satz. Satz 1.4. (Satz v.d. dominierten Konvergenz) X, X 1, X 2,... seien integrabel. Es gelte für alle ω Ω X n (ω) X(ω), n. Ferner gebe es eine integrable Majorante Y L 1, d.h. X n Y für alle n, sowie EY <. Dann folgt Konvergenz der Erwartungswerte: lim E(X n) = E(X). n L Die L 1 -Konvergenz X 1 n X, n, zieht wegen E(Xn ) E(X) E X n X die Konvergenz der Erwartungswerte nach sich: E(X n ) E(X), n. Somit konvergieren L p die Erwartungswerte erst recht, wenn X n X. 2. Verteilungskonvergenz {X n } sei eine Folge von R-wertigen Zufallsvariablen. Die zugehörigen Verteilungsfunktionen seien mit bezeichnet. F n (x) = P (X n x), x R, Die Folge {X n } konvergiert in Verteilung gegen X, wenn lim F n(x) = F (x), n 5
für alle x R, in denen F stetig ist. Man schreibt hierfür F d n F, X d n X, oder X d n F. Beispiel 1.1. Es sei X n U(1/2 1/n, 1/2 + 1/n) und X = 1/2. Dann ist { 0 t < 1/2 F X (t) := P (X t) = 1 t 1/2 Also ist F X stetig in [0, 1/2) sowie (1/2, 1], aber unstetig in 1/2. Es gilt F n (x) F (x) für x [0, 1/2) und x (1/2, 1], aber für alle n gilt: F n (1/2) = 1/2 F (1/2) = 1. Es ist wichtig festzuhalten, dass Konvergenz in Verteilung nichts über die Konvergenz der Zufallsvariablen X n besagt, sondern über die Konvergenz der zugehörigen (nichtstochastischen) Verteilungsfunktionen. Die stochastische Konvergenz von X n gegen eine Zufallsvariable X ist jedoch hinlänglich für die Verteilungskonvergenz: Proposition 1.1. Aus X P n X, n, folgt X d n X, n. 2.1. Konvergenz von Summen und Produkten. Im Allgemeinen ist der Schluss X d n X, Y d n Y X n + Y d n X + Y falsch. Er ist jedoch richtig, wenn einer der beteiligten Grenzwerte eine Konstante ist: Satz 1.5. (Slutzky) Gilt X d n X und Y d n c R, so folgt X n + / / Y d n X + / / Y, wenn n. Eine Standardsituation, in der man den Satz von Slutzky anwendet ist die folgende: X n = Y n + R n, mit R n P 0, n Kann man nun zeigen, dass Y n in Verteilung gegen Y konvergiert, so ist dies auch für X n richtig: X n 6 d Y
Satz 1.6. (Cauchy-Schwarz-Ungleichung). 3. Einige Ungleichungen Für Zufallsvariablen X, Y L 2, d.h. E(X 2 ) < und E(Y 2 ) < gilt: d.h. XY L1 X L2 Y L2. Satz 1.7. (Jensen-Ungleichung). E XY E(X 2 ) E(Y 2 ), X sei eine integrable Zufallsvariable, d.h. E(X) R. g : R R sei eine konvexe Funktion, so dass Eg(X) R. Dann gilt Ist g hingegen konkav, so gilt g(e(x)) E(g(X)) g(e(x)) E(g(X)) Satz 1.8. (Tschebyscheff-Ungleichung). X sei eine positive Zufallsvariable und g positiv und monoton wachsend auf R +. Dann gilt für jedes a > 0 P (X > a) E(g(X)). g(a) 4. Gesetz der großen Zahl Der Umgang mit arithmetischen Mitteln als Schätzung für den Erwartungswert gehört gewissermaßen zum Alltag des Ökonometrikers. Es stellt sich die Frage, unter welchen Bedingungen Konvergenz vorliegt. Seien X 1,..., X n unabhängig und identisch verteilt mit existierendem Erwartungswert µ = E(X). Sei X n = 1 n X i. Das schwache Gesetz besagt, dass X n gegen µ konvergiert, wenn n, im Sinne der stochastischen Konvergenz X P n µ, n. 7
Gilt σ 2 = E(X1) 2 <, so folgt dies sofort aus der Tschebyscheff-Ungleichung (mit g(z) = z 2 ), da P ( X n µ > ε) E X n µ 2 mit E X n µ 2 = Var (X n ) = σ 2 /n. Das starke Gesetz liefert die f.s. Konvergenz. Wir formulieren das Ergebnis ohne Beweis. Satz 1.9. (Starkes Gesetz der großen Zahl) X 1,..., X n seien unabhängig und identisch verteilt. Dann gilt ε 2 X n = 1 n X i f.s. µ = E(X 1 ) für n genau dann, wenn E X 1 <. 5. Zentraler Grenzwertsatz Sind X 1,..., X n unabhängig und identisch normalverteilt mit µ = E(X 1 ) und 0 < σ 2 = Var (X 1 ) <, so ist das arithmetische Mittel ebenfalls normalverteilt: X n N(µ, σ 2 /n). Anders geschrieben: n(xn µ) N(0, σ 2 ). Es stellt sich die Frage, ob solch ein Ergebnis zumindest näherungsweise für große n auch dann gilt, wenn die X i nicht normalverteilt sind. Wir formulieren den zentralen Grenzwertsatz für unabhängige, aber nicht notwendigerweise identisch verteilte Zufallsvariablen, die von n abhängen dürfen. Es sei also {X ni : i = 1,..., n, n 1} ein Schema von zeilenweise unabhängigen Zufallsvariablen, d.h., für alle n sind X n1,..., X nn unabhängig verteilt. Setze S n = und σ 2 n = Var (S n ) = X ni 8 Var (X ni )
Satz 1.10. (ZGWS unter Lindeberg-Bedingung). Für jedes n seien X n1,..., X nn seien unabhängig verteilt mit E(X ni ) = 0 und E(X 2 ni) < für alle i = 1,..., n. Ist die Lindeberg-Bedingung 1 ε > 0 : lim E(X n σ ni1( X 2 n 2 ni > εσ n )) = 0 erfüllt, dann folgt wenn n. S n E(S n ) Var (Sn ) Wir betrachten einige wichtige Spezialfälle: d N(0, 1), (1) Sind die X i (f.s.) gleichmäßig beschränkt, d.h. P ( X i K) = 1, für alle i und gilt σ 2 n = Var (X i ), dann ist die Lindeberg-Bedingung erfüllt: Wähle n so groß, dass εσ n > K. Dann gilt { X i > εσ n } = für i = 1,..., n, so dass n E(X2 i 1( X i > εσ n )) = 0. (2) Sind X 1,..., X n i.i.d. mit gemeinsamer Varianz σ 2, so gilt σ 2 n = nvar (X i ) = nσ 2. Die Lindeberg-Bedingung hat dann die Gestalt 1 E( X i 2 1( X i > εσ n )) = 1 σ E( X 1 2 1( X 2 1 > ε nσ)). σ 2 n Man hat für alle ω Ω X i (ω) 2 1( X i (ω) > ε nσ) 0, n, also ω-punktweise Konvergenz gegen 0. Wegen X i (ω) 2 1( X i (ω) > ε nσ) X i (ω) 2 ist Xi 2 ist eine integrierbare Dominante. Nach dem Satz von der dominierten Konvergenz folgt daher: E( X i 2 1( X i > εσ n)) 0, n. 9
Wir notieren noch die folgende Varianten für Summenstatistiken mit nicht-stochastischen Gewichten. Satz 1.11. (ZGWS für gewichtete Summen) X 1, X 2,... seien i.i.d. mit E(X i ) = 0 und 0 < Var (X i ) <. {a ni : i = 1,..., n, n 1} seien nicht-stochastische Gewichte mit max,...,n a ni (1) n 0, n. a2 ni Dann ist die gewichtete Summe asymptotisch normalverteilt, d.h. S n = a ni X i wobei Var (S n ) = σ 2 n a2 ni. S n Var (Sn ) d N(0, 1), n, Beweis. Wir überprüfen die Lindeberg-Bedingung für die Zufallsvariablen Dann ist E(Z ni ) = 0 und Var ( Z ni = a ni X i / n, Z ni ) = σ2 n Die Lindeberg-Bedingung nimmt die Form [ ] 1 σ 2 n E a 2 nix 2 i a2 i 1( X i > εσ a2 ni ni a ni an. Den Indikator können wir nach oben durch 1( X i > εσ i a2 ni / max i a ni ) abschätzen. Da die X i identisch verteilt sind, ist E a 2 nixi 2 1( X i > εσ a 2 ni / max a ni ) = a 2 nie [ X11( X 2 1 > εσ ]. i Somit ist i [ 1 σ E X11( X 2 2 1 > εσ a 2 ni. i a2 ni max i a ni nachzuweisen. Dies folgt wie in 2. durch den Satz von der dominierten Konvergenz, da i a2 ni / max i a ni, wenn n. 10 ] 0
Korollar 1.1. Die Bedingung (1) ist insbesondere dann erfüllt, wenn und M n = max,...,n a ni 0, n, a 2 ni τ > 0, n. Dann folgt für i.i.d.-zufallsvariablen X 1, X 2,... mit E(X i ) = 0 und 0 < σ 2 = Var (X i ) < wenn n. Beispiel 1.2. Betrachte a ni X i S n = 1 n d N(0, σ 2 τ), i n X i wobei X 1, X 2,... i.i.d. mit E(X i ) = 0 und 0 < σ 2 S n = n a nix i mit Gewichtsschema a ni = i n 3/2. = Var (X i ) < seien. Dann ist Für die Gewichte a ni = (i/n)/ n 1/ n gilt offensichtlich M n = max i a ni 0, wenn n, und Somit folgt a 2 ni = 1 n 3 i 2 = n(n + 1)(2n + 1) 6n 3 1 3, n. i n X d i N(0, σ 2 /3), n. Der zentrale Grenzwertsatz liefert zunächst die punktweise Konvergenz von gegen F n (x) = P ( n(x n µ) x), x R, F (x) = Φ(x/σ), x R, wobei Φ(x) = (2π) 1 exp( x 2 /2) die Verteilungsfunktion der Standardnormalverteilung ist, da Φ(x) in allen Punkten x R stetig ist. Gilt diese Konvergenz auch gleichmäßig in x? Dies folgt aus einem allgemeinen Satz von Polya. 11
Satz 1.12. (Polya) {F n } sei eine Folge von Verteilungsfunktionen. F sei eine stetige Verteilungsfunktion. Gelte F n (x) F (x), n, für alle x R, d.h. F n d F, für n. Dann folgt Es folgt somit sup F n (x) F (x) 0, n. x R lim sup P ( n(x n µ)/σ x) Φ(x) = 0. n x Existiert das dritte absolute Moment, so kann man die Konvergenzrate angeben. Satz 1.13. (Berry-Esseen) X 1, X 2,... seien i.i.d. mit µ = E(X i ) und σ 2 = Var (X i ), i = 1,..., n. Ferner existiere Dann gilt für alle n N: ρ 3 = E X i µ 3, 0 < ρ 3 <. P ( n(x n µ)/σ x) Φ(x) cρ3 σ 3 n, wobei c eine Konstante ist, die nicht von n abhängt. 6. Verteilungskonvergenz für Zufallsvektoren X = (X 1,..., X p ), X n = (X n1,..., X np ), n N, seien unabhängige Zufallsvektoren mit Werten in R p für ein p N. Definiere F n (x) = P (X n x), x R p, sowie F (x) = P (X x), x R p. {X n } konvergiert in Verteilung gegen X, wenn F n (x) = F (x), n, für alle x, in denen F stetig ist. Das wichtigste Hilfsmittel, um die Verteilungskonvergenz von Folgen von Zufallsvektoren zu verifizieren, ist die Rückführung auf den univariaten Fall durch die sog. Cramer-Wold- Technik. 12
Satz 1.14. (Cramer-Wold) X, X 1, X 2,... seien Zufallsvektoren mit X n d X, n, genau dann, wenn für alle λ = (λ 1,..., λ p ) Verteilung gegen λ X konvergiert, d.h. p λ k X nk für n. k=1 d R p {0} die univariate Folge λ X n in p λ k X k, k=1 Satz 1.15. (Multivariater zentraler Grenzwertsatz) X 1, X 2,... seien i.i.d. Zuvallsvektoren mit Erwartungswert µ = E(X 1 ) R p und Kovarianzmatrix Σ = E(X 1 µ)(x 1 µ). Dann gilt 1 (X i µ) = n ( ) d X 1 µ 1,..., X p µ p N(0, Σ), n für n. Mitunter würde man in Formeln auftretende stochastische Terme X n gerne durch eine Konstante abschätzen. Sind die X n nicht f.s. gleichmäßig beschränkt, so kommt man oft noch zum Ziel, wenn die Folge stochastisch beschränkt ist. Definition 1.1. Man nennt eine Folge {X n } stochastisch beschränkt, i.z. X n = O P (1), wenn es zu jedem ε > 0 eine Konstante M = M(ε) > 0 und einen Index n 0 N gibt, so dass P ( X n > M) ε, n n 0. Hinreichend für stochastische Beschränktheit ist Verteilungskonvergenz. Lemma 1.1. Es gelte Dann folgt X n d X F, n, X n = O P (1) 13
Beweis. Sei ε > 0 und H(z) = P ( X z), x R. Man hat für n n 0 P ( X n > M) P ( X n > M) (1 H)(M) + (1 H)(M) ε, wenn M = F 1 (1 ε/2) und n 0 so groß gewählt wird, dass für n n 0 der erste Term auf der rechten Seite höchstens ε/2 ist. 7. Stetigkeitssatz (CM-Theorem) Verteilungskonvergenz bleibt unter stetigen Funktionen erhalten. Dies besagt dass häufig angewandte CM-Theorem (continuous mapping theorem). Satz 1.16. (CM-Theorem) Es gelte X d n X, n. Ist ϕ eine stetige Funktion, so folgt ϕ(x n ) d ϕ(x), n Beispiel 1.3. X 1,..., X n seien i.i.d. mit E(X i ) = µ und 0 < σ 2 = Var (X i ) <. Dann gilt d.h. T n T n = n X µ d N(0, 1), n, σ d U, wenn U N(0, 1). Sei ϕ(z) = z 2, z R. Nach dem CM-Theorem folgt T 2 n = ϕ(t n ) d ϕ(u) χ 2 (1), n. Das folgende Beispiel formulieren wir lieber als Lemma, da wir es oft (ohne Hinweis) verwenden werden. Lemma 1.2. Ist X n ein Folge von Zufallsvektoren, die in Verteilung gegen eine multivariate Normalverteilung konvergieren, X n d N(µ, Σ), n, und ist {A n } eine Folge von Matrizien, die gegen eine deterministische Matrix A konvergiert, d.h. so folgt A n P A, n, A n X n d N(Aµ, AΣA ), 14
für n. Beweis. Zunächst ist klar, dass AN(µ, Σ) = d N(Aµ, AΣA ) Die Abbildung ϕ(x) = Ax ist stetig, also folgt nach dem CM-Theorem AX n = ϕ(x n ) d ϕ(n(µ, Σ)) = N(Aµ, AΣA ), wenn n. Wir wollen eigentlich A n X n betrachten: A n X n = AX n + (A n A)X n. Die Behauptung folgt, wenn wir (A n A)X P n 0, n zeigen. Da X n = O P (1), gibt es zu jedem ε > 0 eine Konstante M > 0, so dass P ( X n > M) ε/2 für hinreichend großes n. Somit folgt für beliebiges η > 0 P ( (A n A)X n > η) P ( A n A X n > η) P ( A n A X n > η, X n M) + P ( X n > M) P ( A n A > η/m) + ε/2. Nach Voraussetzung wird der 1. Term ε/2, wenn n hinreichend groß wird. 15