Empirische Prozesse. Lutz Dümbgen Universität Bern. November 2010 (kleine Korrekturen im Mai 2012)

Größe: px
Ab Seite anzeigen:

Download "Empirische Prozesse. Lutz Dümbgen Universität Bern. November 2010 (kleine Korrekturen im Mai 2012)"

Transkript

1 Empirische Prozesse Lutz Dümbgen Universität Bern November 2010 kleine Korrekturen im Mai 2012

2 2 Vorwort Dieses Skriptum erstellte ich für eine gleichnamige vierstündige Kursusvorlesung im Sommersemester 1997 in Heidelberg. Es ging hervor aus meiner Ausarbeitung einer Spezialvorlesung Empirische Prozesse von D.W. Müller im Sommersemester 1988, welche sich an Pollard 1984 anlehnte. Seitdem verwendete ich das Skriptum in anderen Kursen Lübeck und Bern und ergänzte es um Teile, die meines Erachtens für Studenten der Mathematischen Statistik wissenswert sind. Insbesondere wird die allgemeine Theorie der Konvergenz in Verteilung komplett behandelt, wobei ich aber bewusst auf die Einführung von messbaren Einhüllenden verzichtete, da dies meines Erachtens die Theorie unnötig kompliziert macht. Bei Ulrich Erlenmaier, Sandra Freitag, Markus Fuchs, Martin Kania, Dirk Klingbiel, Johannes Schmidt-Hieber, Wiebke Schreiber, Kaspar Stucki und Uwe Wehrspohn möchte ich mich für gute Fragen, zahlreiche Korrekturen und Verbesserungsvorschläge bedanken. Ganz herzlichen Dank auch an Dominic Schuhmacher, der große Teile der aktuellen Version kritisch durchleuchtete. Für Fehlermeldungen und Kommentare bin ich jederzeit dankbar. Bern, im Mai 2012, Lutz Dümbgen

3 Inhalt 1 Einführung Empirische Prozesse Partialsummenprozesse Abstrakter Rahmen Uniforme Konsistenz mittels Approximationen Bracketing Endlichdimensionale Approximationen Aufgaben Symmetrisierungen Die erste Symmetrisierung Eine Anwendung auf empirische Verteilungsfunktionen Die zweite Symmetrisierung Entsymmetrisierung Mehr Details zum uniformen empirischen Prozess Aufgaben Univariate Exponentialungleichungen Die allgemeine Vorgehensweise Die Ungleichungen von Hoeffding und Bennett Concentration of Measure Aufgaben Mengenindizierte empirische Prozesse Glivenko-Cantelli-Klassen

4 4 INHALT 5.2 Vapnik-Červonenkis-Theorie Vapnik-Červonenkis-Klassen Aufgaben Abstrakte Gesetze der grossen Zahlen Überdeckungszahlen Funktionenklassen Uniforme Konsistenz allgemein Zufällige signierte Masse Verfeinerungen Anwendung auf Dichteschätzung Aufgaben Konvergenz in Verteilung Äussere Erwartungswerte Definition und Eigenschaften der Verteilungskonvergenz Stetige und asymptotisch stetige Abbildungen Gleichmässige Konvergenz Schwache Konvergenz in Wahrscheinlichkeit Straffheit Funktionale Grenzwertsätze Exkurs: Der Satz von Stone Weierstrass Aufgaben Brownsche Bewegung und Brücke Stochastische Gleichstetigkeit auf [0, 1] Donskers Invarianzprinzipien Anwendung auf getrimmte Mittelwerte Verteilungen von Funktionalen von Gaussprozessen Maximum und Supremumsnorm der Brownschen Brücke Lineare und quadratische Funktionale von Gaußprozessen Der uniforme Quantilprozess Anwendungen auf Rangstatistiken und -prozesse

5 INHALT Aufgaben Chaining Maximalungleichungen Anwendungen Eine Maximalungleichung für empirische Prozesse Prozesse mit Lipschitz-stetigen Pfaden Ein Funktionaler Zentraler Grenzwertsatz Empirische Prozesse und P -Brücken Partialsummenprozesse und P -Bewegungen Vorzeichentests für lineare Regression Aufgaben Kombinatorische Prozesse Aufgaben Weitere statistische Anwendungen Maximum-Likelihood-Schätzer Zensierte Daten Aufgaben A Anhang 159 A.1 Literatur A.2 Notation

6 6 INHALT

7 Kapitel 1 Einführung Die Theorie der empirischen Prozesse verbindet Resultate und Techniken aus der Wahrscheinlichkeitstheorie, insbesondere für Gaußsche Prozesse und Zufallselemente mit Werten in Banachräumen, mit Fragestellungen der nichtparametrischen Statistik. In diesem Kapitel wollen wir zwei wichtige Klassen von Prozessen vorstellen und den abstrakten Rahmen einführen, in welchem wir diese Prozesse behandeln werden. 1.1 Empirische Prozesse Seien X 1, X 2,..., X n stochastisch unabhängige, identisch verteilte Zufallsvariablen mit Werten in einem messbaren Raum X, B und Verteilung P. Ein Schätzer für P ist die empirische Verteilung ˆP n := 1 n δ Xi. Dabei bezeichnet δ x das Dirac-Maß im Punkt x. Für eine messbare Menge D X ist also ˆP n D = 1 n 1{X i D} ein Schätzer für P D, und für eine bezüglich P integrierbare Funktion f : X R ist ˆP n f := f d ˆP n = 1 n fx i ein Schätzer für das Integral P f := f dp. Die Frage ist nun, wie präzise dieser Schätzer ˆP n ist. 7

8 8 KAPITEL 1. EINFÜHRUNG Konsistenz. integrierbaren Funktionen: Bekanntlich gilt für jede feste Funktion f aus L 1 P, der Menge aller bezüglich P IE ˆPn f P f 0 und ˆPn f P f fast sicher nach dem schwachen bzw. starken Gesetz der großen Zahlen. Sofern nichts anderes gesagt wird, beziehen sich asymptotische Aussagen immer auf den Fall, dass n. Aber viele statistische Verfahren basieren auf ˆP n f für unendlich viele Funktionen f, und die punktweise Konvergenz ist nicht ausreichend. Sei daher F eine Familie von Funktionen f L 1 P. Eine der zentralen Fragen, mit denen wir uns beschäftigen werden, ist: Unter welchen Voraussetzungen an P und F gilt: ˆP n P F := sup ˆPn f P f 0 f F im Mittel bzw. fast sicher? Da man Mengen mit ihren Indikatorfunktionen identifizieren kann, formulieren wir viele Resultate für Funktionenfamilien, was den Spezialfall von Mengenfamilien beinhaltet. Beispiel 1.1 Data-Mining Angenommen eine Handelskette möchte ihre typischen Kunden genauer untersuchen und beschreiben. Zu diesem Zweck werden die Kassenzettel von n Kunden ausgewertet. Für den i ten Kunden enthalte X i = X i j q j=1 seine absoluten oder relativen Ausgaben für Produkte aus q verschiedenen Kategorien. Nun betrachtet man alle möglichen Kombinationen der q Variablen. Genauer gesagt, berechnet man ˆP n D für verschiedenste Rechtecke D = D 1 D 2 D q in [0, q ; das heißt, D 1, D 2,..., D q sind Intervalle in [0,. Zum Beispiel ist der relative Anteil von Kunden, welche höchstens den Betrag a für Waren aus Kategorie 1 und 2 aber nichts in Kategorie 3 ausgaben, gleich ˆP n D mit D = [0, a] [0, a] {0} [0, q 3. Nun betrachten wir die n untersuchten Kunden als zufällige Stichprobe aus der Population aller Kunden, und P sei die Verteilung aller Kundenprofile in [0, q. Dann stellt sich die Frage, wie groß die maximale Abweichung ˆP n P D ist, wenn D die Familie aller Rechtecke in [0, q ist. Beispiel 1.2 Projection Pursuit Sei X = R q mit q >> 2. Um den hochdimensionalen Datensatz X i n zu analysieren, betrachtet man mitunter Scatterplots von beliebig vielen Projektionen auf den R 2, wobei die Daten möglicherweise erst noch affin linear transformiert werden. Folglich betrachten wir für diverse Paare v, w von linear unabhängigen Vektoren v, w R q einen Scatterplot der Punkte v X i, w X i R R. Wenn nun für ein bestimmtes Paar v, w eine interessante Struktur sichtbar ist, zum Beispiel zwei deutlich getrennte Punktwolken, dann fragt man sich natürlich, ob diese real ist oder ein Artefakt aufgrund von Stichprobenfehlern. Hierzu könnte man ˆP n P D analysieren, wobei D aus allen Mengen der Form { } x R q : v x, w x B mit Vektoren v, w R q und einem Rechteck B R R besteht.

9 1.2. PARTIALSUMMENPROZESSE 9 Asymptotische Normalität. Für jede Funktion f aus L 2 P, dem Raum aller bezüglich P quadratintegrierbaren Funktionen, folgt aus dem Zentralen Grenzwertsatz, dass L n ˆP n P f w N 0, P f 2 P f 2. Dabei steht w für schwache Konvergenz siehe auch Kapitel 7, und N µ, σ 2 ist die Normalverteilung mit Mittelwert µ und Varianz σ 2. Eine naheliegende Frage ist nun, unter welchen Voraussetzungen an P und eine Familie F L 2 P ein Wahrscheinlichkeitsmaß L existiert, so dass L n ˆP n P F w L? Wenn ja, wie kann man L charakterisieren? Gilt eine analoge Aussage für andere Funktionale von n ˆPn P wie beispielsweise n mit einem gegebenem Maß M auf F? ˆP n P f 2 Mdf Beispiel 1.3 Goodness-of-Fit-Tests Um die Nullhypothese, dass P = P o, versus die Alternativhypothese, dass P P o, zu testen, kann man für eine hinreichend große Familie F von Funktionen die Testgröße T := n ˆP n P o F oder T := n ˆP n P o f 2 Mdf berechnen. Dabei ist M ein gewisses Maß auf der Menge F. Die Frage ist dann, ob T im Falle von P = P o eine Grenzverteilung hat, und wie man deren Quantile bestimmen kann. Ferner möchte man wissen, wie sich T im Falle von P P o verhält. Bezeichnung. Stochastische Prozesse d.h. zufällige Funktionen wie ˆPn f oder die zentrierte Variante ˆP n P f f F oder die standardisierte Variante n ˆP n P f f F f F nennt man empirische Prozesse indiziert durch die Funktionenklasse F. Ein wichtiger Spezialfall sind mengenindizierte empirische Prozesse ˆPn D, wobei D eine Familie von messbaren Teilmengen von X D D ist. 1.2 Partialsummenprozesse Eine zweite wichtige Klasse von stochastischen Prozessen sind Partialsummenprozesse. Dabei betrachtet man feste Punkte x n1, x n2,..., x nn X und unabhängige, identisch verteilte Zufallsvariablen Y n1, Y n2,..., Y nn R mit Erwartungswerten µ n1, µ n2,..., µ nn. Für eine Familie F von Funktionen auf X sei dann Ŝn = Ŝ n f definiert durch f F Ŝ n f := c n fx ni Y ni mit einer Normierungskonstanten c n > 0. Die Frage ist nun, wie sehr sich Ŝn und IE Ŝn unterscheiden.

10 10 KAPITEL 1. EINFÜHRUNG Beispiel 1.4 Bildverarbeitung Die x ni seien Punkte auf einem regelmäßigen Gitter im R 2, und Y ni = βx ni + ɛ ni, wobei β : R 2 R eine unbekannte Bildfunktion ist, und ɛ n1, ɛ n2,..., ɛ nn sind unabhängige Zufallsvariablen Rauschen mit Mittelwert Null. Um das Rauschen zu eliminieren oder bestimmte Eigenschaften der Bildfunktion β zu extrahieren, wendet man oft einen linearen Filter an. Das heißt, man berechnet für eine gewisse Filterfunktion F : R 2 R und verschiedene Punkte t R 2 Summen der Form c n F x ni ty ni. Je nach Gestalt von F schätzt man mit dieser Summe zum Beispiel den Wert von β oder eine ihrer Ableitungen an der Stelle t. 1.3 Abstrakter Rahmen Man kann sowohl empirische Prozesse als auch Partialsummenprozesse in einen abstrakten Rahmen einbetten. Hierzu seien φ n1, φ n2,..., φ nn unabhängige stochastische Prozesse auf einer beliebigen Indexmenge T. Dann betrachten wir den stochastischen Prozess Z n := φ ni auf T. Die in Abschnitt 1.1 gestellten Fragen lauten nun: Uniforme Konsistenz? Unter welchen Voraussetzungen konvergiert Z n IE Z n im Mittel oder in Wahrscheinlichkeit gegen Null? Dabei ist IE Z n = IE Z n t t T der punktweise Erwartungswert von Z n, und für eine Funktion x : T R setzen wir x = x T := sup t T xt. Grenzverteilungen? Unter welchen Voraussetzungen konvergiert die Verteilung eines gegebenen Funktionals HZ n schwach gegen ein Wahrscheinlichkeitsmaß? Wie kann man diese Grenzverteilung charakterisieren? In den Abschnitten 1.1 bzw. 1.2 ist T = F und φ ni f := 1 n fx i oder φ ni f := 1 n fx i P f bzw. φ ni f := c n fx ni Y ni.

11 Kapitel 2 Uniforme Konsistenz mittels Approximationen Bevor wir uns in dem abstrakten Rahmen aus Abschnitt 1.3 bewegen, behandeln wir in diesem und dem nächsten Kapitel einige klassische Resultate. 2.1 Bracketing Der folgende Satz liefert ein einfaches, aber oft erfolgreiches Kriterium, um uniforme Konsistenz von ˆP n nachzuweisen. Letzteres bedeutet, dass ˆP n P F in Wahrscheinlichkeit gegen Null konvergiert. Dabei wird die Funktionenklasse F durch endliche Teilmengen approximiert. Satz 2.1 Angenommen, zu jedem ɛ > 0 existieren m N und Funktionen g 1, h 1, g 2, h 2,..., g m, h m in L 1 P mit folgenden Eigenschaften: Für alle i m ist g i h i punktweise und P h i g i ɛ; zu jedem f F existiert ein j m mit g j f h j. Dann konvergiert IE ˆP n P F gegen Null. Anmerkung 2.2 Die Paare g i, h i sind sogenannte Brackets Klammern, daher der Name Bracketing. Anmerkung 2.3 Wir ignorieren hier die Frage der Messbarkeit von ˆP n P F. Der Beweis wird zeigen, dass ˆP n P F Y n mit Zufallsvariablen Y n derart, dass IE Y n 0. Beweis von Satz 2.1. Für beliebiges festes ɛ > 0 und Funktionen g 1, h 1, g 2, h 2,..., g m, h m mit den genannten Eigenschaften gilt: Ist f F mit g j f h j, so ist ˆP n P f ˆP n h j P g j = ˆP n P h j + P h j g j ˆP n P h j + ɛ, ˆP n P f ˆP n g j P h j = ˆP n P g j P h j g j ˆP n P g j ɛ. 11

12 12 KAPITEL 2. UNIFORME KONSISTENZ MITTELS APPROXIMATIONEN Folglich ist ˆP n P F m ˆPn P g j m + ˆPn P h j + ɛ. j=1 j=1 Der Erwartungswert der rechten Seite konvergiert gegen ɛ, denn nach dem schwachen Gesetz der großen Zahlen konvergiert IE ˆP n P h gegen Null für jedes feste h L 1 P. Für ɛ 0 ergibt sich dann die Behauptung. Beispiel 2.4 Satz von Glivenko-Cantelli für Verteilungsfunktionen Es sei X = R, und für t R seien F t := P, t] sowie ˆF n t := ˆP n, t]. Dann gilt: IE ˆF n F R 0. Beweis. Die Supremumsnorm ˆF n F R ist gleich ˆP n P D mit der Mengenfamilie D := {, t] : t R }. Für ɛ > 0 sei k := 1/ɛ und t j := min { t R : F t j/k } 1 j < k. Ferner seien t 0 := und t k :=. Nun betrachten wir alle 2k 1 Mengenpaare der Form, tj 1 ],, t j 1 j k sowie, tj ],, t j ] 1 j < k. Dann existiert zu jeder Halbgerade D D ein solches Paar G, H mit G D H, und P H \ G ɛ. 2.2 Endlichdimensionale Approximationen Ein etwas anderes aber ähnliches Kriterium wie Satz 2.1 liefert der folgende Satz: Satz 2.5 Angenommen, für jedes ɛ > 0 existieren m N und Funktionen g 1, g 2,..., g m, h in L 1 P mit folgenden Eigenschaften: P h ɛ, und für jedes f F existieren Zahlen λ 1, λ 2,..., λ m [ 1, 1] derart, dass f Dann konvergiert IE ˆP n P F gegen Null. m λ j g j h. j=1

13 2.2. ENDLICHDIMENSIONALE APPROXIMATIONEN 13 Beweis von Satz 2.5. Für festes ɛ > 0 seien g 1,..., g m und h Funktionen mit den besagten Eigenschaften. Für f F und geeignete Zahlen λ 1,..., λ m [ 1, 1] ist dann Daher ist ˆP n P f ˆP n P f ˆP n + P h + m m λ j g j + λ j ˆP n P g j j=1 j=1 m ˆPn P g j j=1 2ɛ + ˆP n P h + lim sup n und für ɛ 0 ergibt sich die Behauptung. m ˆP n P g j. j=1 IE ˆP n P F 2ɛ, Beispiel 2.6 Bounded-Lipschitz-Distanz Sei X, d ein separabler metrischer Raum. Mit F BL bezeichnen wir die Menge aller Funktionen f : X R mit folgenden Eigenschaften: fx 1 und fx fy dx, y für beliebige x, y X. Dann gilt: IE ˆP n P FBL 0. Beweis: Sei {x j : j N} eine dichte Teilmenge von X. Für ein festes δ > 0 definieren wir h m,δ := max 1 d, xj /δ +, m N, j=1,...,m und h 0,δ := 0. Dann gilt für die Funktionen g j,δ := h j,δ h j 1,δ, j N: 0 g j,δ 1 d, x j /δ + m, g j,δ = h m,δ 1 m. j=1 Für eine beliebige Funktion f F BL und x X ist nun fx m fx j g j,δ x fx fxh m,δ x + j=1 1 h m,δ x + 1 h m,δ x + δ. m fx fx j g j,δ x j=1 m δg j,δ x Sei also ɛ > 0 beliebig vorgegeben. Setzen wir δ := ɛ/2 und wählen wir m N derart, dass P 1 h m,δ δ, dann erfüllen die Funktionen g j := g j,δ und h := 1 h m,δ + δ die in Satz 2.5 genannten Bedingungen, wobei λ j := fx j. j=1

14 14 KAPITEL 2. UNIFORME KONSISTENZ MITTELS APPROXIMATIONEN Beispiel 2.7 Es sei X, d ein separabler metrischer Raum und D eine Familie von Borelmengen D X mit folgender Eigenschaft: sup P U ɛ D 0 für ɛ 0; D D Dabei bezeichnet D den topologischen Rand der Menge D, und für nichtleere Mengen A X ist U ɛ A die Menge aller x X mit dx, A := inf y A dx, y < ɛ. Unter dieser Voraussetzung an P und D konvergiert IE ˆP n P D gegen Null. Beweis: Jede Abstandsfunktion d, A ist lipschitzstetig auf X mit Lipschitzkonstante 1. Für festes ɛ > 0 betrachten wir die Funktionenfamilie { 1 } + F ɛ D := d, A/ɛ : A D oder X \ A D. Dann besteht F ɛ D aus lipschitzstetigen Funktionen mit Lipschitzkonstante ɛ 1 und Wertebereich [0, 1]. Hieraus ergibt sich, dass IE ˆP n P FɛD ɛ 1 IE ˆP n P FBL 0. Andererseits gelten für eine beliebige Menge D D mit D X und die Funktionen f ɛ := 1 d, D/ɛ + sowie gɛ := 1 d, X \ D/ɛ + aus Fɛ D die Ungleichungen Alles in allem ist also ˆP n P D ˆP n f ɛ P 1 D = ˆP n P f ɛ + P f ɛ 1 D ˆP n P FɛD + P U ɛ D, P ˆP n D = ˆP n P X \ D ˆP n P g ɛ + P g ɛ 1 X \D ˆP n P D Das heißt, für beliebige feste ɛ > 0 ist ˆP n P FɛD + P U ɛ D. ɛ 1 ˆP n P FBL + sup P U ɛ D. D D lim sup IE ˆP n P D n und die rechte Seite konvergiert gegen Null für ɛ 0. sup P U ɛ D, D D Beispiel 2.8 Satz von Glivenko-Cantelli für konvexe Mengen Sei C die Menge aller konvexen Borelmengen C R q. Falls P C = 0 für alle C C, konvergiert IE ˆP n P C gegen Null. Und zwar kann man zeigen, dass C die in Beispiel 2.7 genannten Voraussetzungen erfüllt Blaschkes Auswahlsatz. Die Bedingung, dass P C = 0 für alle C C, ist beispielsweise erfüllt, wenn P eine Lebesgue- Dichtefunktion hat.

15 2.3. AUFGABEN 15 Wir geben noch ein einfaches Gegenbeispiel, welches zeigt, dass diese Bedingung an P und C essentiell ist: Sei P die Gleichverteilung auf der euklidischen Einheitssphäre {x R 2 : x = 1}. Für die konvexe Hülle C n von {X 1, X 2,..., X n } gelten dann die Gleichungen ˆP n C n = 1 und P C n = 0, also ˆP n P C Aufgaben Aufgabe 2.1 Sei P ein Wahrscheinlichkeitsmaß auf N, und sei D die Familie aller Teilmengen von N. Zeigen Sie, dass IE ˆP n P D 0. Aufgabe 2.2 Seien P und D wie in Aufgabe 2.1. Unter welcher Voraussetzung an P existiert eine Konstante CP < derart, dass IE ˆP n P D CP n 1/2 für alle n N? Vorschlag: Zeigen Sie zunächst, dass für zwei beliebige Wahrscheinlichkeitsverteilungen P, Q auf N gilt: Q P D = 1 P {k} Q{k}. 2 k N Aufgabe 2.3 Sei X, d ein separabler metrischer Raum, und sei F L die Familie aller lipschitzstetigen Funktionen f : X R mit Lipschitzkonstante 1, das heißt, Zeigen Sie, dass IE ˆP n P FL 0, falls fx fy dx, y für alle x, y X. P d, x o < für ein x o X.

16 16 KAPITEL 2. UNIFORME KONSISTENZ MITTELS APPROXIMATIONEN

17 Kapitel 3 Symmetrisierungen In diesem Kapitel geht es darum, für stochastische Prozesse Z auf einer Menge T die Supremumsnorm Z = Z T nach oben abzuschätzen, indem man Z mit geeigneten Prozessen Z vergleicht, deren Verteilung man mitunter besser handhaben kann. Um sicherzustellen, dass Zufallselemente wie Z T messbar sind, nehmen wir stets an, dass T abzählbar ist. In der Regel kann man sich mit Hilfe eines einfachen Approximationsargumentes auf diesen Fall zurückziehen. 3.1 Die erste Symmetrisierung Oftmals ist Z Z einfacher zu behandeln als Z, wenn Z eine unabhängige Kopie von Z ist. Falls eine solche Kopie nicht existiert, kann man den ursprünglichen Wahrscheinlichkeitsraum Ω, A, IP mit Z : Ω R T in den Produktraum Ω Ω, A A, IP IP einbetten vermöge Ztω 1, ω 2 := Ztω 1, Z tω 1, ω 2 := Ztω 2. Das nächste Lemma beschreibt zwei von vielen Möglichkeiten, wie man von Z Z auf Z schließen kann, wobei Z nicht unbedingt die gleiche Verteilung wie Z haben muss. Lemma 3.1 Seien Z, Z unabhängige stochastische Prozesse auf T. a Angenommen, es existieren Konstanten δ, β > 0, so dass IP Z t δ β für beliebige t T. Dann ist IP Z > η + δ β 1 IP Z Z > η für alle η 0. b Angenommen, IE Z existiert in R T. Dann ist IE Ψ Z IE Z IE Ψ Z Z für jede konvexe und monoton wachsende Funktion Ψ : [0, [0,. 17

18 18 KAPITEL 3. SYMMETRISIERUNGEN Beweis von Lemma 3.1. Für Teil a sei ohne Einschränkung T N, und sei { min { t T : Zt > η + δ } falls Z > η + δ, τ = τz := mint sonst. Dann ist τ eine T -wertige Zufallsvariable, so dass Z > η +δ genau dann, wenn Zτ > η +δ. Nun ist IP Z > η + δ = IP Zτ > η + δ = IE 1 { Zτ > η + δ } IE 1 { Zτ > η + δ } β 1 IP Z τ δ Z = β 1 IE IP Zτ > η + δ, Z τ δ Z = β 1 IP Zτ > η + δ, Z τ δ β 1 IP Zτ Z τ > η β 1 IP Z Z > η. Für den Beweis von Teil b benötigt man die Jensensche Ungleichung: Für ein Wahrscheinlichkeitmaß Q auf R mit x Qdx < und eine konvexe Funktion h : R R ist stets h x Qdx hx Qdx. Vermöge Ψ r := Ψr für r > 0 wird Ψ eine gerade, konvexe Funktion auf R, und IE Ψ Z IE Z = IE sup Ψ Zt IE Z t t T = IE sup Ψ IE Zt Z t Z t T IE sup IE Ψ Zt Z t Z t T IE IE sup t T = IE Ψ Z Z. Ψ Zt Z t Z 3.2 Eine Anwendung auf empirische Verteilungsfunktionen Seien X 1, X 2,..., X n stochastisch unabhängige, reellwertige Zufallsvariablen mit Verteilungsfunktion F, und sei ˆF n die entsprechende empirische Verteilungsfunktion, ˆF n t = 1 1{X i t}. n P. Massart 1990 bewies folgende Ungleichung für ˆF n F = ˆF n F R : IP ˆF n F η 2 exp 2nη 2 für beliebige η 0. Der Beweis dieser Ungleichung ist sehr technisch. In diesem Abschnitt werden wir mit Hilfe der ersten Symmetrisierung eine schwächere, doch ähnliche Ungleichung beweisen.

19 3.2. EINE ANWENDUNG AUF EMPIRISCHE VERTEILUNGSFUNKTIONEN 19 Quantiltransformation. Mit Hilfe eines Standardtricks können wir uns auf einen Spezialfall zurückziehen. Sei nämlich F 1 die Quantilfunktion von F auf 0, 1, das heißt, F 1 u := min { t R : F t u }. Dann gilt für beliebige u 0, 1 und t R: F 1 u t genau dann, wenn u F t. Hieraus ergeben sich folgende Tatsachen: Seien U 1, U 2, U 3,... stochastisch unabhängige, nach U[0, 1] verteilte Zufallsvariablen. Dann sind die Variablen X i := F 1 U i stochastisch unabhängig und nach F verteilt. Definiert man Ĝ n v := 1 n 1{U i v} und Gv := v für v [0, 1], dann gilt mit den speziell konstruierten Zufallsvariablen X i die Darstellung: ˆFn t t R = Ĝ n F t t R. Insbesondere ist mit Gleichheit, falls F stetig ist. ˆF n F Ĝn G [0,1] Symmetrisierung von Ĝn G und Spiegelungsprinzip. Mit Ĝ nv := 1 n ergibt sich aus Lemma 3.1 b, dass 2 i=n+1 1{U i v} IE Ψ Ĝn G [0,1] IE Ψ Ĝ n Ĝ n [0,1] für jede monoton wachsende und konvexe Funktion Ψ : [0, [0,. Dabei nutzen wir aus, dass die Funktionen Ĝn, Ĝ n rechtsseitig stetig sind, so dass die hier auftretenden Suprema über [0, 1] durch Suprema über die abzählbare Menge [0, 1] Q ersetzt werden können. Aus Symmetriegründen ist IP Ĝn Ĝ n [0,1] η 2 IP sup v [0,1] Ĝn Ĝ nv η für beliebige η 0. Daher untersuchen wir nun die Verteilung von sup [0,1] Ĝn Ĝ n. Zu diesem Zweck betrachten wir die Ordnungsstatistiken 0 < U 1 < U 2 < < U 2n < 1 der Zufallsvariablen U 1, U 2,..., U 2n. Die Differenz Ĝn Ĝ n ist eine Treppenfunktion, welche auf [0, U 1 und [U 2n, 1] den Wert Null annimmt und auf den Intervallen [U k, U k+1, 1 k < 2n, konstant ist. An der Stelle U k, 1 k 2n, ändert sich ihr Wert um +1/n oder 1/n, je nachdem,

20 20 KAPITEL 3. SYMMETRISIERUNGEN ob U k in der Menge {U 1,..., U n } oder {U n+1,..., U 2n } liegt. Nun betrachten wir das zufällige Tupel W = W k 2n k=0 Z{0,1,...,2n} mit W k := nĝn Ĝ nu k, wobei U 0 := 0. Dieses Tupel liegt in der Menge { } W := w Z {0,1,...,2n} : w 0 = 0, w k w k 1 = 1 für 1 k 2n und erfüllt die Gleichung W 2n = 0. Am besten stellt man sich ein Tupel w W als Zickzackpfad, der die Punkte 0, w 0, 1, w 1,..., 2n, w 2n miteinander verbindet, vor; siehe Abbildung 3.1. Aus Symmetriegründen ist W uniform verteilt auf der Menge {w W : w 2n = 0}. Folglich gilt für l {0, 1,..., n}: IP sup [0,1]Ĝn Ĝ n l n = IP max W k l k=0,1,...,2n { } # w W : max k w k l, w 2n = 0 = # { w W : w 2n = 0 }. Um den Zähler auf der rechten Seite zu bestimmen, verwenden wir nun das Spiegelungsprinzip: Zu jedem Pfad w W definieren wir seine Spiegelung w wie folgt: { w k falls max j k w j < l, w k := l w k l = 2l w k falls max j k w j l. Diese Abbildung w w ist eine bijektive Abbildung von W nach W, und zwar ist w = w. Illustriert wird sie in Abbildung 3.1 für n = 50 und l = 7. Ein Pfad w W erfüllt die Bedingungen max k 2n w k l und w 2n = 0 genau dann, wenn w 2n = 2l. Daher ist { } 3.1 IP sup [0,1]Ĝn Ĝ n l # w W : w 2n = 2l = n # { w W : w 2n = 0 } = 2n n + l / 2n n Denn w W erfüllt die Bedingung w 2n = 2l genau dann, wenn w k w k 1 = 1 für genau n + l Zeitpunkte k {1, 2,..., 2n}.. Eine Abschätzung. Die in 3.1 gegebene Formel ist für unsere Zwecke noch zu unhandlich. Wir verwenden daher folgende Abschätzung für l {1, 2,..., n}: ist gleich 2n / 2n = n + l n exp log1 + l/n + n!n! n + l!n l! = l 1 i=0 n i n i l 1 n i = 1 + l/n 1 n + i l 1 1 i/n l 1 log exp log1 + l/n 2 i/n 1 + i/n = exp l/n log1 + l/n l 2 /n exp 1 log2 l 2 /n. i=0

21 3.2. EINE ANWENDUNG AUF EMPIRISCHE VERTEILUNGSFUNKTIONEN Abbildung 3.1: Ein Pfad w W und seine Spiegelung w an einer Horizontalen in Höhe l. Dabei verwendeten wir die Abschätzung log1 x/1 + x 2x für x [0, 1 sowie die Tatsache, dass t log1 + t monoton wachsend in t [0, 1] ist. Da sup [0,1] Ĝn Ĝ n nur Werte in {0, 1/n, 2/n,..., 1} annehmen kann, ergibt sich hieraus die allgemeine Ungleichung 3.2 IP Ĝn Ĝ n [0,1] η exp1 nη 2 für beliebige η 0. Zurück zu ˆF n. Für den maximalen Fehler ˆF n F = ˆF n F R zeigen wir nun dass IP ˆF n F η e 2 exp nη 2 für alle η 0. Beweis: Für 0 γ < η ist IP ˆF n F η IE ˆF n F γ + η γ = IE Ψ ˆF n F, η γ wobei Ψt := t γ + monoton wachsend und konvex in t 0 ist. Folglich ist IE Ψ ˆF n F IE Ψ Ĝn G [0,1] IE Ψ Ĝ n Ĝ n [0,1], und die rechte Seite ist gleich 0 IP Ψ Ĝn Ĝ n [0,1] r dr = 0 γ IP Ĝn Ĝ n [0,1] r + γ dr exp1 ns 2 ds.

22 22 KAPITEL 3. SYMMETRISIERUNGEN Doch s 2 = η + s η 2 η 2 + 2ηs η, weshalb Folglich ist γ exp1 ns 2 ds IP ˆF n F η = γ exp 2nηs η ds exp1 nη 2 exp2nηη γ 2nη exp2nηη γ 2nηη γ exp1 nη 2. exp1 nη 2 für 0 γ < η. Die Funktion 0 < t e t /t hat eine eindeutige Minimalstelle bei t = 1, so dass IP ˆF n F η exp2 nη 2 falls 2nη 2 1. Doch im Falle von 2nη 2 1 ist exp2 nη 2 exp2 1/2 > 1, und die Behauptung ist trivial. 3.3 Die zweite Symmetrisierung Nun betrachten wir den speziellen Prozess Z n = n φ ni aus Abschnitt 1.3. Seien stochastisch unabhängig, wobei φ n1, φ n2,..., φ nn, φ n1, φ n2,..., φ nn, ξ 1, ξ 2,..., ξ n Lφ ni = Lφ ni und Lξ i = U{ 1, 1}. Die Zufallsfolge ξ 1, ξ 2,..., ξ n ist eine sogenannte Rademacher-Folge. Die erste Symmetrisierung, angewandt auf Z = Z n IE Z n und Z = Z n IE Z n = Z n IE Z n mit Z n := n φ ni, führt zu dem Prozess Z n Z n = φ ni φ ni. Da für alle i n die Prozesse φ ni und φ ni identisch verteilt sind, ist mit { φ ni, φ φni, φ ni := ni falls ξ i = 1, φ ni, φ ni falls ξ i = 1, das Tupel φ n1,..., φ nn, φ n1,..., φ nn genauso verteilt wie φ n1,..., φ nn, φ n1,..., φ nn. Deshalb ist Z n Z n = L φ ni φ ξ i φ ni φ ni = Zn o Z n, o wobei Z o n := ni = ξ i φ ni und Zo n := ξ i φ ni. Diese Prozesse Z o n und Z o n sind zwar nicht unabhängig, aber identisch verteilt. Hieraus ergeben sich folgende Ungleichungen.

23 3.4. ENTSYMMETRISIERUNG 23 Lemma 3.2 a Für beliebige η 0 ist IP Z n Z n > η 2 IP Z o n > η/2. b Für beliebige konvexe und monoton wachsende Funktionen Ψ : [0, [0, ist IE Ψ Z n Z n IE Ψ 2 Z o n. Beweis von Lemma 3.2. Da Z n Z n = L Z o n Z o n Z o n + Z o n, ist IP Z n Z n η IP Z o n η/2 + IP Z o n η/2 = 2 IP Z o n η/2. Ferner ist IE Ψ Z n Z n 1 IE Ψ 2 Z o 2 n + 2 Z n o 1 2 IE Ψ2 Zo n IE Ψ2 Z n o = IE Ψ2 Zn. o Nach der zweiten Symmetrisierung kann man mit der bedingten Verteilung von Zn o gegeben φ n1, φ n2,..., φ nn arbeiten. Das heißt, die φ ni werden als feste Funktionen auf T betrachtet, und nur noch die ξ i sind zufällig. 3.4 Entsymmetrisierung Eine naheliegende Frage ist, ob die Abschätzungen bei den zwei Symmetrisierungen sehr konservativ sind. Mit anderen Worten, haben Z n IE Z n und Z o n ähnliche Eigenschaften? Zumindest im Falle von Prozessen φ ni mit identischen Erwartungswerten kann man folgende Aussagen machen. Lemma 3.3 Angenommen, die Prozesse φ n1, φ n2,..., φ nn haben ein und denselben Erwartungswert in R T, also IE φ ni = IE Z n /n. Dann gilt für jede konvexe und monoton wachsende Funktion Ψ : [0, [0, sowie eine beliebige Zahl 0 < λ < 1: 1 IE Ψ 2 Z n IE Z n IE Ψ Zn o 2 1 n λ IE Ψ λ Z n IE Z n + 1 λ IE Ψ ξ i IE Z n. 1 λ n Speziell für Ψ := id ergibt sich eine einfache Ungleichungskette. Korollar IE Z n IE Z n IE Zn o 2 IE Z n IE Z n + IE ξ i /n IE Z n 2 IE Z n IE Z n + 1 n IE Z n.

24 24 KAPITEL 3. SYMMETRISIERUNGEN Falls also IE Z n = o n, dann ist IE Z n IE Z n = o1 genau dann, wenn IE Z o n = o1. Beweis von Lemma 3.3. Die erste Ungleichung folgt aus den Symmetrisierungslemmata 3.1 und 3.2 mit ψr := ψr/2 an Stelle von ψr. Für die zweite Ungleichung seien I := {i n : ξ i = 1} und J := {j n : ξ j = 1} = {1,..., n} \ I. Dann ist Z o n = ξ i φ ni IE φ n1 + ξ i IE φ n1 = φ ni IE φ n1 nj IE φ n1 + Y n IE Z n i I j Jφ = Z I Z J + Y n IE Z n, wobei Y n := n ξ i/n und Z M := i M φ ni IE φ n1. Doch Z n IE Z n = Z I + Z J, und Z I, Z J sind stochastisch unabhängig und zentriert, gegeben I. Man kann also das Symmetrisierungslemma 3.1 auf die bedingte Verteilung von Z, Z = Z I, Z J beziehungsweise Z, Z = Z J, Z I gegeben I anwenden und erhält IE Ψ Zn o λ 2 2 IE Ψ λ Z I + λ 2 2 IE Ψ λ Z Yn J + 1 λ IE Ψ 1 λ IE Z n λ 2 2 IE Ψ λ Z I + Z J + λ 2 2 IE Ψ λ Z J + Z I Yn + 1 λ IE Ψ 1 λ IE Z n 2 = λ IE Ψ λ Z Yn n IE Z n + 1 λ IE Ψ 1 λ IE Z n. 3.5 Mehr Details zum uniformen empirischen Prozess Wegen der besonderen Bedeutung von empirischen Verteilungsfunktionen kehren wir noch einmal zurück zu Abschnitt 3.2, auch wenn die nachfolgenden Betrachtungen nichts mit Symmetrisierungen zu tun haben. Wir betrachten stochastisch unabhängige Zufallsvariablen U 1, U 2,..., U n mit uniformer Verteilung auf [0, 1]. Ordnet man diese der Größe nach, so erhält man die n Ordnungsstatistiken U n,1 < U n,2 < < U n,n. Man kann leicht zeigen, dass die Verteilung des Vektors U n,i 1 i n die Dichtefunktion u fu := n! 1{0 < u 1 < u 2 < < u n < 1} bezüglich des Lebesguemaßes auf R n hat. Eine andere, bisweilen sehr nützliche Darstellung ist die folgende: Seien Y 1, Y 2, Y 3,... stochastisch unabhängige, standardexponentialverteilte Zufallsvariablen; das heißt, IPY i > t = e t für t 0. Dann ist 3.3 Un,k n k=1 = L k Y i n+1 j=1 Y j n k=1.

25 3.5. MEHR DETAILS ZUM UNIFORMEN EMPIRISCHEN PROZESS 25 Insbesondere gilt für den Vektor der Spacings U n,k U n,k 1, 1 k n + 1: 3.4 Un,k U n,k 1 n+1 k=1 = L Y k n+1 j=1 Y j n+1 wobei U n,0 := 0 und U n,n+1 := 1. Hieraus kann man beispielsweise ableiten, dass 3.5 IP und dass min k=1,2,...,n+1 k=1 t Un,k U n,k 1 > n 2 exp t für alle t > 0, n 3.6 max Un,k U n,k 1 1 k n+1 log n p 1. Beweis von 3.3. Es genügt zu zeigen, dass der Vektor n U n,k U n,k 1 genauso verteilt k=1 ist wie Y k /Y + n k=1, wobei Y + := n+1 Y i. Die lineare Abbildung R n u u 1, u 2 u 1, u 3 u 2,..., u n u n 1 R n hat Determinante Eins. Daher ist der Vektor n U n,k U n,k 1 nach der Dichtefunktion k=1 auf 0, 1 n verteilt, wobei Der Vektor Y := Y i n+1 Σ := x gx := n! 1{x Σ} { x 0, 1 n : ist nach der Dichtefunktion } x i < 1. y hy := exp y + auf 0, n+1 verteilt. Die Abbildung T : 0, n+1 Σ 0, mit y1 T y :=, y 2,..., y n, y + y + y + y + ist bijektiv. Ihre Umkehrabbildung ist gegeben durch T 1 x = x n+1 x 1, x 2,..., x n, 1, x i. Insbesondere sind T und T 1 stetig differenzierbar, und x n x 1. DT 1 0 x.. n+1. x2 x = x n+1 x n x n+1 x n+1 x n+1 1 n x i

26 26 KAPITEL 3. SYMMETRISIERUNGEN Addiert man nun die ersten n Zeilen zur letzten, dann zeigt sich, dass detdt 1 x = x n n+1. Folglich ist der Zufallsvektor T Y Σ 0, nach der Lebesgue-Dichtefunktion x gx := detdt 1 x ht 1 x = x n n+1 exp x n+1 verteilt. Doch man kann schreiben gx = gx 1, x 2,..., x n xn n+1 exp x n+1. n! Dies zeigt, dass der Zufallsvektor Y k /Y + n k=1 und die Zufallsvariable Y + stochastisch unabhängig sind. Dabei ist Y k /Y + n k=1 nach der Dichtefunktion g verteilt, und Y + ist gammaverteilt mit Parameter n + 1; siehe auch Aufgabe Aufgaben Aufgabe 3.1 Warum wird eine Verteilung P auf R durch ihre Verteilungsfunktion F eindeutig charakterisiert? Aufgabe 3.2 Zeigen Sie, dass eine Verteilungsfunktion F rechtsseitig stetig und die entsprechende Quantilsfunktion F 1 linksseitig stetig ist. Aufgabe 3.3 Zeigen Sie, dass im Falle einer stetigen Verteilungsfunktion F gilt: h ˆF n t, F t F dt = L hĝnu, u du, R R h ˆF n t, F t ˆF n dt = L [0,1] [0,1] hĝnu, u Ĝndu für messbare Funktionen h : [0, 1] 2 [0, [. Aufgabe 3.4 Berechnen Sie im Falle einer stetigen Verteilungsfunktion F den Grenzwert von IP n sup R ˆF n ˆF n η für festes η 0. Aufgabe 3.5 Sei W gleichverteilt auf der Menge W aller Pfade w = w k n k=0 mit w 0 = 0 und w k w k 1 = 1 für 1 k n. a Berechnen Sie mithilfe des Spiegelungsprinzips die Wahrscheinlichkeit, dass max 0 k n W k b für eine ganze Zahl b 0. Wie verhält sich diese Wahrscheinlichkeit asymptotisch, wenn b = b n und n? b Berechnen Sie für ganze Zahlen a < b mit b 0 die Wahrscheinlichkeit, dass W I = b und W J = a für geeignete Indizes 0 I < J n.

27 3.6. AUFGABEN 27 Hinweis: Versuchen Sie in beiden Teilen, die fraglichen Wahrscheinlichkeiten durch Wahrscheinlichkeiten der Form IPW c mit geeigneten ganzen Zahlen c 0 auszudrücken. Aufgabe 3.6 Beweisen Sie die Aussagen 3.5 und 3.6 über minimale und maximale Spacings. Aufgabe 3.7 Gamma- und Beta-Verteilungen Die Gamma-Verteilung mit Parameter a > 0 ist definiert als die Verteilung mit Dichtefunktion Dabei ist Γa := 0 x a 1 expx dx. 0, x xa 1 exp x. Γa Die Beta-Verteilung mit Parametern a, b > 0 ist definiert als die Verteilung mit Dichtefunktion Dabei ist Ba, b := 1 0 xa 1 1 x b 1 dx. 0, 1 x xa 1 1 x b 1. Ba, b a Seien X und Y stochastisch unabhängig und gammaverteilt mit Parameter a bzw. b. Zeigen Sie, dass X/X + Y und X + Y stochastisch unabhängig sind, wobei X/X + Y betaverteilt ist mit Parametern a und b, während X + Y gammaverteilt ist mit Parameter a + b. Betrachten Sie hierfür die Transformation 0, 0, x, y T x, y := Zeigen Sie ferner, dass 3.7 Ba, b = ΓaΓb Γa + b. x x + y, x + y 0, 1 0,. b Berechnen Sie mit Hilfe der Gleichung 3.7 sowie der bekannten Formel Γa + 1 = aγa den Erwartungswert und die Varianz einer betaverteilten Zufallsvariable. c Zeigen Sie, dass die Ordnungsstatistik U n,i betaverteilt ist mit Parametern j und n + 1 j. Bestimmen Sie ihren Erwartungswert und ihre Varianz. Aufgabe 3.8 Sei F eine stetige Verteilungsfunktion auf R. a Berechnen Sie den Erwartungswert von n ˆF n F 2 df. b Berechnen Sie den Erwartungswert von 2, Fn X i F X i wobei F n := nn ˆFn. Hinweis: Betrachten Sie die Ordnungstatistiken X n,i = L F 1 U n,i. Verwenden Sie nun Aufgabe 3.7 c.

28 28 KAPITEL 3. SYMMETRISIERUNGEN

29 Kapitel 4 Univariate Exponentialungleichungen In diesem Kapitel geht es darum, Wahrscheinlichkeiten von Abweichungen einer reellwertigen Zufallsvariable von ihrem Erwartungswert abzuschätzen. 4.1 Die allgemeine Vorgehensweise Zunächst sei an die Markov-Ungleichung erinnert, wonach IP±Y η IEY ± /η für reelle Zufallsvariablen Y und Konstanten η > 0. Diese Schranke ist oft sehr konservativ. Ersetzt man jedoch ±Y und η durch e ±ry und e rη mit r > 0, also IP±Y η = IP exp±ry exprη IE exp±ry exprη, dann ist die resultierende Schranke oftmals erstaunlich präzise, wenn man r > 0 geeignet wählt. Dies demonstrieren wir zunächst für eine standardnormalverteilte Zufallsvariable Y. Bekanntlich ist Andererseits ist IP±Y η = exp η2 /2 2πη 1 + o1 = exp η 2 /2 + oη 2 η. IP±Y η inf IE exp±ry / exprη = inf r>0 r>0 expr2 /2 rη = exp η 2 /2 für beliebige η 0. Andere Beispiele werden in den Aufgaben 4.3 und 4.4 behandelt. Die Theorie der Großen Abweichungen large deviations erklärt genauer, weshalb diese Methode zu recht präzisen Abschätzungen führt. 4.2 Die Ungleichungen von Hoeffding und Bennett Satz 4.1 Hoeffding 1963 Seien Y 1, Y 2,..., Y n stochastisch unabhängige, reellwertige Zufallsvariablen derart, dass IEY i = 0 und a i Y i b i 29

30 30 KAPITEL 4. UNIVARIATE EXPONENTIALUNGLEICHUNGEN mit Konstanten a i < b i. Dann ist IP Y i η exp 2η 2 n b i a i 2 Korollar 4.2 Für beliebige reelle Zahlen c 1, c 2,..., c n und η 0 ist η 2 IP ξ i c i η 2 exp 2 n. c2 i Dabei ist ξ 1, ξ 2,..., ξ n eine Rademacherfolge wie in Kapitel 3. für alle η > 0. Das Korollar folgt aus Hoeffdings Ungleichung, angewandt auf Y i := ±ξ i c i und a i, b i := c i, c i. Man beachte, dass n c2 i gleich der Varianz von n ξ ic i ist. Hier ist eine allgemeine Exponentialungleichung, welche explizit Varianzen berücksichtigt: Satz 4.3 Bennett 1962 Seien Y 1, Y 2,..., Y n unabhängige, reellwertige Zufallsvariablen, so dass IEY i = 0 und Y i M < für 1 i n. Ferner sei n VarY i V <. Dann ist wobei IP Y i η exp Bx := η2 Mη 2V B V 1 + x log1 + x x x 2. /2 für beliebige η > 0, Anmerkung 4.4 Die Funktion B in Satz 4.3 hat folgende Eigenschaften: Bx ist stetig und monoton fallend in x > 0 mit Grenzwert B0 := lim x 0 Bx = 1; xbx ist monoton wachsend in x 0; Bx = 2 + o1 logx/x für x. Korollar 4.5 Seien Y 1, Y 2,..., Y n unabhängige, identisch verteilte Zufallsvariablen mit IEY i = 0, Y i M < und VarY i σ 2 für alle i = 1, 2,..., n. Dann ist 1 IP nσ 2 Y i η exp η2 ηm 2 B nσ für beliebige η > 0. 2 Nach Anmerkung 4.4 ist Bx für kleine Zahlen x nahe an Eins. Korollar 4.5 zeigt also, dass für die Summe nσ 2 1/2 n Y i ähnliche Ungleichungen gelten wie für eine standardnormalverteilte Zufallsgröße. Anmerkung 4.6 Bernstein-Ungleichung Für beliebige x > 0 ist Bx x/3. Setzt man dies in Korollar 4.5 ein, so erhält man die Bernstein-Ungleichung.

31 4.2. DIE UNGLEICHUNGEN VON HOEFFDING UND BENNETT 31 Eine wesentliche Zutat für die Hoeffding-Ungleichung ist folgende Momentenungleichung: Lemma 4.7 Hoeffding 1963 Sei Y eine reellwertige Zufallsvariable mit IEY = 0 und Y [a, b] für Konstanten a b. Dann ist log IE expty t2 b a 2 8 für beliebige t R. Beweis von Lemma 4.7. Ohne Einschränkung sei a < 0 < b. Denn a > 0 oder b < 0 ergäbe einen Widerspruch zu IEY = 0, und a = 0 oder b = 0 würde implizieren, dass Y = 0 fast sicher. Aus der Konvexität der Exponentialfunktion folgt, dass b Y expty = exp b a ta + Y a b a tb b Y b a expta + Y a b a exptb, und wegen IEY = 0 ist log IE expty b log b a expta + = uλ + log1 λ + λe u =: Lu, wobei λ := a/b a 0, 1 und u := tb a. Nun ist aber a b a exptb L0 = 0, L u = λ λ + 1 λe u + λ und L 0 = 0, L u = λe u λe u 1 λ + λe u 1 1 λ + λe u 1/4 wegen der bekannten Ungleichung x1 x 1/4 für beliebige x R. Folglich ist nach der Taylorschen Formel Lu = L0 + ul 0 + u 2 L u /2 = u 2 L u /2 u 2 /8 = t 2 b a 2 /8 mit einer geeigneten Zwischenstelle u R. Beweis der Hoeffding-Ungleichung. Nach der Markov-Ungleichung ist IP ± Y i η exp tη IE exp ±t n Y i = exp tη IE exp±ty i für beliebige t > 0. Nach Lemma 4.7 ist die rechte Seite nicht größer als exp tη n exp t 2 b i a i 2 /8 = exp tη + t 2 b i a i 2 /8. Für t = 4η/ n b i a i 2 ergibt sich dann die gewünschte Abschätzung.

32 32 KAPITEL 4. UNIVARIATE EXPONENTIALUNGLEICHUNGEN Beweis der Bennett-Ungleichung. Indem man Ỹi, Ṽ, η := Y i/m, V/M 2, η/m anstelle von Y i, V, η betrachtet, genügt es den Fall M = 1 zu behandeln. Wie wir später zeigen werden, ist 4.1 IE exp t Y i exp V e t 1 t für alle t > 0. Nun folgt aus der Markov Ungleichung, dass IP Y i η inf exp V e t 1 t tη t>0 = exp V e to 1 t o t o η mit t o = log1 + η/v = exp η2 η 2V B. V Beweis von 4.1. Zu zeigen ist im Wesentlichen, dass für festes t > 0 und eine beliebige Zufallsvariable Y mit IEY = 0, Y 1 und endlicher Varianz σ 2 gilt: IE expty 1 + σ 2 e t 1 t exp σ 2 e t 1 t. Falls Y 1, folgt dies einfach aus IE expty = 1 + t k IEY k /k! 1 + σ 2 t k /k! = 1 + σ 2 e t 1 t. k=2 Im allgemeinen Fall, d.h. < Y 1, ist die Sache etwas komplizierter. Für ein beliebiges Polynom p zweiten Grades hängt IE py nur von σ ab. Nun konstruieren wir ein solches Polynom p derart, dass e ty k=2 py für beliebige y 1. Dann ist nämlich IE expty IE py, und letzterer Erwartungswert hängt nur von p, t und σ 2 ab. Für µ > 0 sei qx := 1 + x + µ 2 e µ 1 µx 2. Dann ist Denn einerseits ist qx { > e x für x, µ \ {0}, qx e x = x 2 /2 = e x für x {0, µ}. µ k 2 x k 2 /k! > 0 für 0 < x < µ. Andererseits ist qx = 1 + x ɛx 2 /2 für ein ɛ > 0, weshalb für x < 0. Für y o < 1 sei nun µ := t1 y o und k=2 x qx ex = ɛx e x ɛx < 0 py := e tyo qty y o.

33 4.3. CONCENTRATION OF MEASURE 33 Dann ist py { > e ty für y, 1 \ {y o }, = e ty für y {y o, 1}. Folglich ist IE expty IE py, und Gleichheit gilt genau dann, falls LY auf {y o, 1} konzentriert ist. Ist Y o eine {y o, 1} wertige Zufallsvariable mit IEY o = 0 und IEY 2 o = σ 2, dann ist notwendig y o = σ 2 und IP{Y o = y o } = 1/1 + σ 2, IP{Y o = 1} = σ 2 /1 + σ 2. Somit haben wir gezeigt, dass IE expty IE expty o = e tσ2 + σ 2 e t 1 + σ 2. Der Ausdruck auf der rechten Seite ist nicht größer als 1 + σ 2 e t 1 t. Denn für t = 0 gilt Gleichheit, und es genügt zu zeigen, dass t 1 + σ2 e t 1 t e tσ2 + σ 2 e t t 1 + σ 2 = σ 2 e t 1 σ 2 et e tσ2 1 + σ 2 0 für alle t 0. Auch hier gilt Gleichheit für t = 0, und für alle t 0. e t 1 et e tσ2 t 1 + σ 2 = e t et + σ 2 e tσ2 1 + σ Concentration of Measure Die vorangehenden Exponentialungleichungen kann man unter anderem dazu benutzen, die Abweichungen eines Stichprobenmittelwertes von seinem Erwartungswert abzuschätzen. Inzwischen gibt es jedoch eine umfangreiche Literatur über das allgemeinere Phänomen der Massenkonzentration. Hier ist eines der ersten Resultate in diese Richtung: Satz 4.8 Azuma McDiarmid Seien X 1, X 2,..., X n stochastisch unabhängige Zufallsvariablen mit Werten in X, B, und sei H : X n R eine messbare Funktion derart, dass 4.2 Hx Hy 1{x i y i }c i für beliebige x, y Y n mit gewissen Konstanten c 1, c 2,..., c n > 0. Dann ist IP HX 1, X 2,..., X n IE HX 1, X 2,..., X n η für beliebige η 0. η 2 2 exp 2 n c2 i Anmerkung 4.9 Hier ist eine von vielen möglichen Anwendungen des Satzes 4.8: Die Zufallsvariablen X 1, X 2,..., X n seien stochastisch unabhängig mit Verteilung P auf X, B. Für beliebige Mengensysteme D B gilt dann: IP ˆPn P D IE ˆP n P D η 2 exp nη 2 /2 für beliebige η 0,

34 34 KAPITEL 4. UNIVARIATE EXPONENTIALUNGLEICHUNGEN sofern ˆP n P D messbar ist. Die Standardabweichung von ˆP n P D ist also stets von der Größenordnung On 1/2, selbst wenn IE ˆP n P D langsamer oder nicht gegen Null konvergiert. Dies folgt aus Satz 4.8, angewandt auf HX 1, X 2,..., X n := ˆP n P D, denn diese Funktion erfüllt Ungleichung 4.2 mit c i := 1/n. Beweis von Satz 4.8. Für ganze Zahlen a, b sei X a:b := X i b i=a, falls 1 a b n, und ansonsten X a:b :=. Dann definieren wir die Zufallsvariablen Y k := IE HX 1:n X 1:k für 0 k n, also Y n = HX 1:n und Y 0 = IE HX 1:n. Dann gilt für 1 k n: Denn mit P a:b := LX a:b ist IEY k X 1:k 1 = Y k 1 und Y k Y k 1 c k. Y k = HX 1:k, z k+1:n P k+1:n dz k+1:n, X n k IEY k X 1:k 1 = HX 1:k 1, z k, z k+1:n P k+1:n dz k+1:n P k:k dz k X X n k = HX 1:k 1, z k:n P k:n dz k:n X n k+1 = Y k 1 und Y k Y k 1 = HX1:k 1, X k, z k+1:n HX 1:k 1, z k, z k+1:n P k:n dz k:n X n k+1 HX1:k 1, X k, z k+1:n HX 1:k 1, z k, z k+1:n Pk:n dz k:n X n k+1 c k. Folglich ist IE exp ty k Y 0 = IE exp ty k 1 Y 0 exp ty k Y k 1 = IE IE exp ty k 1 Y 0 exp ty k Y k 1 X1:k 1 = IE exp ty k 1 Y 0 IE exp ty k Y k 1 X1:k 1 IE exp ty k 1 Y 0 expt 2 c 2 k /2 gemäß Lemma 4.7, angewandt auf die bedingte Verteilung von Y k Y k 1, gegeben X 1:k 1. Wendet man dies induktiv für k = n, n 1, n 2,..., 2, 1 an, so ergibt sich die Ungleichung IE exp ty n Y 0 exp t 2 c 2 k, /2 und man kann wie im Beweis von Satz 4.1 argumentieren. k=1

35 4.4. AUFGABEN Aufgaben Aufgabe 4.1 Sei Y standardnormalverteilt. Zeigen Sie, dass für beliebige η 0. IPY η exp η 2 /2/2 + η Aufgabe 4.2 Sei Y eine reellwertige Zufallsvariable mit IE Y = 0 und IE expty < für alle t in einer Nullumgebung. a Sei Kt := log IE expty. Zeigen Sie, dass K im Inneren des Intervalls {K < } unendlich oft differenzierbar ist, und dass K0 = K 0 = 0, K 0 = VarY. b Seien Y 1, Y 2,..., Y n unabhängige Kopien von Y und Ȳn ihr arithmetischer Mittelwert. Zeigen Sie, dass log IP±Ȳn ɛ n Zeigen Sie ferner, dass Aufgabe 4.3 Chernoff-Ungleichungen infk±t tɛ < 0 für alle ɛ > 0. t>0 inf K±t tɛ = ɛ 2 t>0 2VarY + Oɛ3 für ɛ 0. a Zeigen Sie, dass für p 0, 1 und q [0, 1] folgende Ungleichung gilt: Ψp, q := q log q p + 1 q log 1 q 1 p 2p q2. b Sei X = n 1 n X i mit stochastisch unabhängigen Zufallsvariablen X i [0, 1], wobei p := IE X 0, 1. Zeigen Sie, dass IP X q IP X q } exp nψp, q Aufgabe 4.4 Berechnen Sie Exponentialungleichungen für falls { q p, q p. IPY IEY + η und IPY IEY η im Falle einer Gamma- beziehungsweise Poisson-verteilten Zufallsvariable Y. Aufgabe 4.5 Berechnen Sie Exponentialungleichungen für im Falle einer Beta-verteilten Zufallsvariable Y. IPY IEY + η und IPY IEY η Hinweis: Stellen Sie Y Betaa, b dar als V/V + W mit stochastisch unabängigen Zufallsvariablen V Gammaa und W Gammab. Schreiben Sie dann Ungleichungen der Form Y r oder Y r als 1 rv rw 0 beziehungsweise 1 rv rw 0.

36 36 KAPITEL 4. UNIVARIATE EXPONENTIALUNGLEICHUNGEN Aufgabe 4.6 Eine weitere Ungleichung von Hoeffding Wie in Aufgabe 4.3 sei X der Mittelwert von stochastisch unabhängigen Zufallsvariablen X 1, X 2,..., X n [0, 1], und sei p := IE X 0, 1. Ferner sei Y Binn, p. Zeigen Sie, dass IE ψ X IE ψy/n für beliebige konvexe Funktionen ψ : R R. Vorschlag: Zeigen Sie zunächst durch Bedingen auf alle bis auf einen Summanden X i, dass es genügt, den Fall von Bernoulli-Variablen X i Bin1, p i zu betrachten. Zeigen Sie dann, dass IE ψ X zunimmt, wenn man zwei beliebige Wahrscheinlichkeiten p i und p j durch ihren Mittelwert p i + p j /2 ersetzt. Aufgabe 4.7 Beweisen Sie die in den Anmerkungen 4.4 und 4.6 genannten Eigenschaften der Funktion B.

37 Kapitel 5 Mengenindizierte empirische Prozesse Nun untersuchen wir ˆP n D D D mit einer Familie D von messbaren Teilmengen von X. Wir setzen generell voraus, dass D punktweise separabel im folgenden Sinne ist. Es gibt eine abzählbare Teilmenge D o von D, so dass für alle D D eine Folge D k k in D o existiert mit Unter dieser Bedingung ist lim 1 D k x = 1 D x für alle x X. k ν D = ν Do für jedes endliche signierte Maß ν auf X. Schreibt man nämlich ν = ν + ν mit endlichen Maßen ν +, ν, dann folgt aus dem Satz von der majorisierten Konvergenz, dass νd νd k ν + + ν 1 D 1 Dk 0 k. Daher kann man die Resultate aus Kapitel 3, welche eine abzählbare Indexmenge voraussetzen, anwenden. 5.1 Glivenko-Cantelli-Klassen Das erste Ziel ist, notwendige und hinreichende Bedingungen zu finden, unter welchen ˆP n P D p 0. In letzterem Falle nennt man D eine Glivenko-Cantelli-Klasse für P. Zunächst halten wir fest, dass folgende drei Aussagen äquivalent sind: ˆP n P D p 0; IE ˆP n P D 0; IE ˆP o n D 0. Dabei ist ˆP o n := n 1 n ξ iδ Xi mit einer von X i i unabhängigen Rademacherfolge ξ i i. Die Äquivalenz von 5.1 und 5.2 folgt aus der Tatsache, dass ˆP n P D stets kleiner oder gleich 37

38 38 KAPITEL 5. MENGENINDIZIERTE EMPIRISCHE PROZESSE Eins ist. Denn für beliebige Zufallsvariablen Y mit Werten in [0, 1] und 0 < ɛ 1 gelten die Ungleichungen IPY ɛ IEY /ɛ und IEY ɛ + 1 ɛ IPY ɛ. Die Äquivalenz von 5.2 und 5.3 ergibt sich aus den Symmetrisierungsungleichungen in Korollar 3.4, wonach IE ˆP n P D /2 IE ˆP o n D 2 IE ˆP n P D + n 1/2. Zunächst beweisen wir eine hinreichende Bedingung, die auf der folgenden Zufallsgröße beruht: ˆ n := #{D ˆX n : D D}, wobei ˆX n := {X 1, X 2,..., X n }. Diese Zahl ˆ n ist stets kleiner oder gleich 2 n. Satz 5.1 Konvergiert log ˆ n /n in Wahrscheinlichkeit gegen Null, so ist die Mengenfamilie D eine Glivenko-Cantelli-Klasse für P. Beweis. Es genügt zu zeigen, dass 5.3 erfüllt ist, sofern log ˆ n /n p 0. Wegen ˆP n o D 1 ist nur zu zeigen, dass IP ˆP n o D ɛ 0 für eine beliebige feste Zahl ɛ > 0. Wegen IP ˆP n o D ɛ = IE IP ˆP n o D ɛ X 1,..., X n genügt es zu zeigen, dass IP ˆP o n D ɛ X 1,..., X n p 0. Nun ist ˆP o n D = max 1 n a Ân ξ i a i mit der zufälligen Menge Ân := { 1 D X i n : D D}, die aus ˆ n Vektoren in {0, 1} n besteht. Ferner folgt aus Korollar 4.2, dass 1 IP n ξ i a i ɛ X1,..., X n 2 exp nɛ2 2 für alle a {0, 1} n.

39 5.1. GLIVENKO-CANTELLI-KLASSEN 39 Folglich ist IP ˆP o n D ɛ X 1,..., X n a Ân IP n 1 ξ i a i ɛ X1,..., X n 2 ˆ n exp nɛ2 2 ɛ 2 = 2 exp n 2 log ˆ n n p 0. Beispiel 5.2 Rechtecke im R d Sei D die Menge aller achsenparallelen Rechtecke im R d. Dann ist nn + 1 d. ˆ n Denn jede nichtleere Menge D ˆX n mit D D lässt sich schreiben als [a 1, b 1 ] [a 2, b 2 ] [a d, b d ] ˆX n mit Zahlen a j b j aus der Menge {X 1 j,..., X n j}. Dabei bezeichnet X i j die j-te Komponente von X i. Nach Satz 5.1 ist also D eine Glivenko-Cantelli-Klasse für beliebige Wahrscheinlichkeitsmaße P. Beispiel 5.3 Halbräume im R 2 Sei D die Menge aller abgeschlossenen Halbräume im R 2, also aller Mengen der Form {x R 2 : u x r} mit einem Vektor u R 2 \ {0} und einer reellen Zahl r. Auch diese Familie ist eine Glivenko-Cantelli-Klasse für beliebige Verteilungen P. Denn im Falle von n 2 ist stets ˆ n 2nn 1. Um dies nachzuweisen, betrachten wir einen beliebigen Halbraum D = {x : u x r}. Die Zahl r können wir so wählen, dass u X i = r für mindestens einen Index i. Falls dies für genau einen Index i der Fall ist, können wir den Richtungsvektor u noch gegen den Uhrzeigersinn drehen, bis erstmalig u X j = r für einen weiteren Index j i. Die ursprüngliche Menge D ˆX n entspricht jetzt der Menge D ˆX n mit einem nicht notwendig abgeschlossenen Halbraum D der folgenden Form: Sein Rand wird von zwei verschiedenen Punkten X k, X l aus ˆX n aufgespannt, und D D ist von der Form {1 tx k + tx l : t 0} oder {1 tx k + tx l : t R}. Ferner liegt das Innere von D auf der rechten Seite von der Verbindungsgerade von X k und X l, wenn man in Richtung X l X k schaut. Nun gibt es maximal nn 1 Möglichkeiten ein Paar X k, X l von zwei verschiedenen Datenpunkten auszuwählen, und dann muss man sich noch für eine von zwei Versionen von D D entscheiden. Also ist ˆ n 2nn 1.

40 40 KAPITEL 5. MENGENINDIZIERTE EMPIRISCHE PROZESSE Die Bedingung an ˆ n in Satz 5.1 ist nicht nur hinreichend sondern auch notwendig für Um dies zu beweisen, führen wir noch eine weitere Zufallsgröße ein, nämlich ˆV n := max { #S : S ˆX n, #{D S : D D} = 2 #S}. Dann kann man Satz 5.1 wie folgt abrunden. Satz 5.4 Vapnik Červonenkis, Steele Die Mengenfamilie D ist eine Glivenko-Cantelli-Klasse für P genau dann, wenn eine der beiden folgenden Aussagen zutrifft: log ˆ n n ˆV n n p 0; p 0. Beweis von Satz 5.4. Aus Satz 5.1 wissen wir bereits, dass D eine Glivenko-Cantelli-Klasse für P ist, sofern 5.4 gilt. Im nachfolgenden Abschnitt werden wir zeigen, dass log2 ˆV n n log ˆ n n ˆV n n log e ṋ ; V n siehe Korollar 5.9. Diese Ungleichungen implizieren die Äquivalenz von 5.4 und 5.5. Zu zeigen bleibt also nur noch, dass 5.3 auch Aussage 5.5 impliziert. Dazu sei În eine zufällige Teilmenge von {1,..., n} mit #În = ˆV n und # { {X i : i În} D : D D } = 2 ˆV n. Insbesondere sind alle Punkte X i mit i În paarweise verschieden. Ferner definieren wir Z := 1 ξ i δ Xi und Z 1 := ξ i δ Xi. n n i În i {1,...,n}\În Nach Konstruktion der Menge În ist Z D = max M În 1 ξ i n i M ˆVn 2n. Ferner sind Z und Z stochastisch unabhängig und zentriert, gegeben X 1,..., X n. Zusammen mit Symmetrisierungslemma 3.1 b folgt also, dass ˆVn IE 2n IE Z D = IE IE Z D X 1,..., X n IE IE Z Z D X 1,..., X n = IE ˆP n. o

41 5.2. VAPNIK-ČERVONENKIS-THEORIE Vapnik-Červonenkis-Theorie In diesem Abschnitt beschäftigen wir uns systematisch mit den Zahlen ˆ n und ˆV n. Dazu betrachten wir eine beliebige endliche Teilmenge E von X und definieren E = E, D := #D E, wobei D E := {D E : D D}. Die Familie D zerlegt E vollständig, falls D E = {A : A E}, was äquivalent ist zu E = 2 #E. Ferner sei V E = V E, D := max { #B : B E, B wird von D vollständig zerlegt } = max { #B : B E, B = 2 #B} mit der Konvention max := 0. Beispiel 5.5 Sei X = R und D = {, t] : t R }. Für jede nichtleere endliche Menge E R ist E = #E + 1 und V E = 1. Beispiel 5.6 Sei X = R 2, und D sei die Menge aller abgeschlossenen Halbräume im R 2 ; siehe auch Beispiel 5.3. Hier kann man sich schnell an Hand von Skizzen davon überzeugen, dass V E 3. Einen formalen Beweis werden wir später liefern. Beispiel 5.7 Sei X = R d und D = { konvexe Mengen D R d}. Ist speziell E eine Teilmenge der Euklidischen Einheitssphäre {x R d : x x = 1}, dann ist E = 2 #E und somit V E = #E. Denn für A E ist A = conva E, wobei conva die konvexe Hülle von A bezeichnet. Der nachfolgende Satz und sein Korollar zeigen, dass die Funktionen und V in engem Zusammenhang stehen. Satz 5.8 Für jede endliche Teilmenge E von X ist E V E i=0 #E i. Korollar 5.9 Für endliche Mengen E X ist stets log2 V E #E log E #E V E #E log e #E. V E

42 42 KAPITEL 5. MENGENINDIZIERTE EMPIRISCHE PROZESSE Beweis von Satz 5.8. Ohne Einschränkung der Allgemeinheit sei X = E = {1, 2,..., n}, also E, D = #D. Überlegung 1. Angenommen, D erfüllt die folgende besondere Eigenschaft: 5.6 Für beliebige D D und j E ist auch D \ {j} D. In diesem Falle wird jede Menge D D von D vollständig zerlegt. Somit ist D enthalten in der Menge { A E : #A V E, D } und #D V E,D k=0 n. k Überlegung 2. Angenommen, D erfüllt die Bedingung 5.6 nicht. Nun zeigen wir, dass man D durch eine neue Familie ersetzen kann, so dass #D unverändert bleibt, während V E, D nicht zunimmt: Nach Voraussetzung existiert ein j E mit { D \ {j} : D D } D. Für diesen speziellen Index j definieren wir T D = T j,d D := { D \ {j} falls D \ {j} D, D sonst. Man kann sich leicht davon überzeugen, dass diese Abbildung T injektiv auf D ist. Also enthält T D := {T D : D D} gleich viele Mengen wie D. Ferner ist V E, T D V E, D. Dazu genügt es zu zeigen, dass B E von D vollständig zerlegt wird, falls es von T D vollständig zerlegt wird. Ist j B, dann folgt dies aus der Tatsache, dass T D B = D B für beliebige D D. Ist j B, so existiert nach Voraussetzung zu jedem A B ein D D mit A {j} = T D B. Doch dann ist notwendig j T D = D und D \ {j} D. Folglich ist { D B falls j A, A = D \ {j} B falls j A, also A D B. Überlegung 3. Die in Überlegung 2 beschriebene Prozedur D T D wiederholen wir so oft, bis Bedingung 5.6 erfüllt ist. Dass dieser Fall nach endlich vielen Schritten eintritt, folgt aus der Tatsache, dass D D #T D < D D Doch dann ergibt sich die Behauptung aus Überlegung 1. #D.

43 5.3. VAPNIK-ČERVONENKIS-KLASSEN 43 Beweis von Korollar 5.9. Im Falle von V E = 0 besteht D nur aus einer Menge, und die behaupteten Ungleichungen sind Gleichungen, wenn man 0 loge/0 als lim x 0 x loge/x = 0 interpretiert. Sei also k := V E 1, und wir schreiben n := #E. Falls B E von D vollständig zerlegt wird, ist E = #D E #D B = 2 #B. Dies zeigt, dass E 2 V E, woraus die erste behauptete Ungleichung folgt. Da x loge/x monoton wachsend in x [0, 1] ist, gilt im Falle von k/n 1/2 die Ungleichung k e n log n k 1 2 log2e 1 2 i n log E log2 2 = log2. n Es genügt daher, den Fall 0 < k/n < 1/2 zu untersuchen. Nach Satz 5.8 ist log E 1 n n n log i i k 1 n n log e λk i [für beliebige λ 0] i = 1 n log e λk 1 + e λ n = λ k n + log1 + e λ k [ n = H für λ = log n k 1 ] > 0, wobei Hx := x log x 1 x log1 x für 0 < x < 1. Doch 1 x log1 x = 1 x k=1 x k k 1 x x k = x, weshalb Hx x x logx = x loge/x, also log E/n k/n logen/k. k=1 5.3 Vapnik-Červonenkis-Klassen Die Familie D heißt Vapnik-Červonenkis-Klasse VC-Klasse, falls es eine ganze Zahl V 0 gibt, so dass D keine V + 1-elementige Teilmenge von X zerlegt. In Formeln: D ist eine VC-Klasse, falls V D := sup { #A : A X endlich, A, D = 2 #A} endlich ist. Mitunter nennt man diese Zahl V D den Vapnik-Červonenkis-Index oder die Vapnik- Červonenkis-Dimension von D. Für manche Autoren z.b. van der Vaart und Wellner 1996 ist auch V D + 1 die Vapnik-Červonenkis-Dimension von D. Offensichtlich ist V E, D V D für beliebige endliche Mengen E X. Hier ist eine andere Charakterisierung der VC-Eigenschaft.

44 44 KAPITEL 5. MENGENINDIZIERTE EMPIRISCHE PROZESSE Lemma 5.10 Eine Mengenfamilie D ist genau dann eine Vapnik-Červonenkis-Klasse, wenn es ein reelles Polynom p gibt, so dass E, D p#e für beliebige endliche Teilmengen E von X. Aus diesem Grunde spricht man auch von Mengenfamilien mit polynomialer Diskrimination. Beweis. Ist V := V D <, dann folgt aus Satz 5.8, dass E p#e mit dem Polynom pn := V i=0 n. i Andererseits gibt es zu einem beliebigen Polynom p eine ganze Zahl V 0 mit 2 n > pn für alle n > V. Falls also E, D p#e für beliebige endliche Mengen E X, so ist sicher V D V. Das folgende Lemma ist oft nützlich, wenn man nachweisen will, dass ein bestimmtes Mengensystem eine VC-Klasse ist, indem man es durch endlich viele Boolesche Operationen aus einfacheren Mengenfamilien aufbaut. Den Beweis überlassen wir dem Leser als Übungsaufgabe. Lemma 5.11 Seien C, D Familien von Teilmengen von X. Dann ist E, {X \ D : D D} = E, D, E, {C D : C C, D D} E, C E, D für beliebige endliche Teilmengen E von X. Dabei bezeichnet eine der Booleschen Verknüpfungen, oder \. Hier ist ein anderes Kriterium für die VC-Eigenschaft. Satz 5.12 Sei G ein endlichdimensionaler Vektorraum von reellen Funktionen auf X. Dann ist D := { {x X : gx 0} : g G } eine VC-Klasse mit VC-Index V D dimg. Beweis von Satz Sei E X mit #E > dimg. Die Menge { gxx E : g G } ist ein Untervektorraum von R E mit Dimension d dimg < dimr E = #E. Daher existiert ein h = hx x E in RE derart, dass hxgx = 0 für alle g G x E

45 5.3. VAPNIK-ČERVONENKIS-KLASSEN 45 und hx 0 für mindestens ein x E. Multipliziert man h mit 1, falls nötig, dann ist A := {x E : hx 0} E. Doch A {g 0} E für beliebige g G. Denn anderenfalls wäre hxgx = hxgx + hxgx }{{}}{{} x E x A 0 x E\A >0 Also wird E von D nicht vollständig zerlegt. > 0. Beispiel 5.13 Halbräume und Kegelschnitte Sei G die Menge aller affin linearen Funktionen x gx = λ 0 + d λ i x i λ 0,..., λ d R auf R d. Dann ist { {g 0} : g G } die Menge aller abgeschlossenen Halbräume inklusive R d und und stellt eine VC-Klasse mit Index V D d + 1. Betrachtet man stattdessen die Menge G aller Funktionen x gx = λ 0 + d λ i x i + d λ ij x i x j mit reellen Koeffizienten λ i, λ ij = λ ji, dann ist { {g 0} : g G } die Menge aller abgeschlossenen Kegelschnitte Ellipsen, Hyperboloide, Halbräume, Paraboloide und zerlegt keine Teilmenge von R d mit mehr als d + 1d + 2/2 Elementen. i,j=1 Hier ist noch eine Anmerkung zur punktweisen Separabilität von D: Lemma 5.14 Seien G und D wie in Satz Ferner enthalte G eine strikt positive Funktion. Dann ist D punktweise separabel. Beweis von Lemma Sei G = spanv 0, v 1, v 2,..., v d mit v 0 > 0. Die Menge G o aller Linearkombinationen von v 0, v 1, v 2,..., v d mit rationalen Koeffizienten ist abzählbar und liefert eine Menge D o := { {g 0} : g G o } mit den gewünschten Eigenschaften. Seien nämlich λ 0, λ 1,..., λ d beliebige reelle Zahlen. Dann wähle man Folgen λ ik k von rationalen Zahlen, so dass für 0 i d. Mit gx := d i=0 lim k λ ik λ i = 0 k λ i v i x und g k x := v 0x k + d λ ik v i x konvergiert dann g k k punktweise gegen g, und für jedes x X gibt es eine Zahl k o x, so dass g k x > gx falls k k o x. Dies impliziert, dass i=0 lim 1{g kx 0} = 1{gx 0} für alle x X. k

46 46 KAPITEL 5. MENGENINDIZIERTE EMPIRISCHE PROZESSE 5.4 Aufgaben Aufgabe 5.1 Sei X = N und D die Menge aller Teilmengen von N. Beweisen Sie die uniforme Konsistenz von ˆP n auf D mit Hilfe des Satzes 5.4. Hinweis: Zeigen Sie, dass IE ˆV n /n k N minp {k}, 1/n. Aufgabe 5.2 Beweisen Sie Lemma Aufgabe 5.3 Für m, d N sei D m,d die Menge aller konvexen Hüllen von bis zu m Punkten in R d. Zeigen Sie, dass D m,d eine Vapnik-Červonenkis-Klasse ist. Geben Sie auch eine explizite Schranke für V D m,d an. Für welche Kombinationen m, d ist D m,d punktweise separabel? Aufgabe 5.4 Seien C und D VC-Klassen über Mengen X bzw. Y. Zeigen Sie, dass C D := {C D : C C, D D} eine VC-Klasse über X Y ist. Aufgabe 5.5 Sei D die Familie aller Mengen der Form { x, y R R : y hx } mit einer monoton wachsenden Funktion h : R R. Zeigen Sie, dass V D =.

47 Kapitel 6 Abstrakte Gesetze der grossen Zahlen In diesem Kapitel werden die Resultate für mengenindizierte empirische Prozesse auf den abstrakten Rahmen von Abschnitt 1.3 übertragen. Hierbei spielt die Approximation der Indexmenge T durch endliche Teilmengen eine zentrale Rolle. Dabei werden wir auch verstehen, weshalb man von der Vapnik-Červonenkis-Dimension spricht. 6.1 Überdeckungszahlen Sei T, ρ ein pseudometrischer Raum. Das heißt, ρ ist eine Funktion auf T T, so dass für beliebige s, t, u T gilt: ρs, t = ρt, s, ρs, t 0 mit Gleichheit, falls s = t, ρs, t ρs, u + ρu, t. Für ɛ > 0 definieren wir nun die Überdeckungszahl Dabei ist Nɛ = Nɛ, T, ρ := min { #T o : T o T, ρt, T o ɛ für alle t T }. ρt, T o := inf s T o ρt, s. Mit anderen Worten, Nɛ, T, ρ ist die kleinste Anzahl von abgeschlossenen Kugeln mit Radius ɛ bezüglich ρ, welche die Menge T überdecken. Mitunter betrachtet man auch die Kapazitätszahl Dɛ = Dɛ, T, ρ := max { #T o : T o T, ρs, t > ɛ für verschiedene s, t T o }. Falls T Teilmenge eines normierten Raumes V, und ρ die durch die Norm induzierte Metrik ist, schreiben wir auch Nɛ, T, und Dɛ, T, an Stelle von Nɛ, T, ρ bzw. Dɛ, T, ρ. Zwischen Überdeckungs- und Kapazitätszahlen besteht folgender Zusammenhang: 47

48 48 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN Lemma 6.1 Nɛ Dɛ Nɛ/2. Aufgrund dieser Ungleichungen kann man mit Überdeckungs- oder Kapazitätszahlen arbeiten, je nachdem, was gerade praktischer ist. Beweis von Lemma 6.1. Sei T o eine maximale Teilmenge von T, so dass 6.1 ρs, t > ɛ für verschiedene Punkte s, t T o. Dann ist ρu, T o ɛ für alle u T. Denn anderenfalls gäbe es einen Punkt u o T mit ρu o, T o > ɛ. Doch dann könnte man T o durch die größere Menge T o {u o } ersetzen, ohne 6.1 zu verletzen, was der Maximalität von T o widerspricht. Dies zeigt, dass Nɛ #T o = Dɛ. Nun sei T eine minimale endliche Teilmenge von T, so dass ρs, T ɛ/2 für alle s T. Ferner sei T o eine Menge von Punkten aus T, die paarweise echt größeren Abstand als ɛ haben. Nach der Voraussetzung an T kann man jedem Punkt t o T o einen Punkt t T zuordnen, so dass ρt o, t ɛ/2. Aus der Voraussetzung an T o und der Dreiecksungleichung folgt außerdem, dass diese Zuordnung injektiv sein muss. Denn sonst gäbe es zwei verschiedene Punkte s, t T o und ein t T mit ρs, t ρs, t + ρt, t ɛ/2 + ɛ/2 = ɛ. Dies zeigt, dass #T o #T = Nɛ/2, weshalb Dɛ Nɛ/2. Nun betrachten wir ein einfaches, aber wichtiges Beispiel für die Abschätzung von Kapazitätszahlen. Lemma 6.2 Sei V, ein endlichdimensionaler normierter Vektorraum über R, und sei B := {t V : t 1} die entsprechende abgeschlossene Einheitskugel. Dann ist CB ɛ dimv Dɛ, B, dimv ɛ für beliebige ɛ > 0 mit einer Konstante CB > 0. Insbesondere ist log Dɛ, B, lim ɛ 0 log1/ɛ Allgemein nennt man die Abbildung = lim ɛ 0 log Nɛ, B, log1/ɛ = dimv. die metrische Entropie von T, ρ, und ɛ log Nɛ, T, ρ oder ɛ log Dɛ, T, ρ lim sup ɛ 0 log Nɛ, T, ρ log1/ɛ = lim sup ɛ 0 log Dɛ, T, ρ log1/ɛ ist die metrische Dimension von T, ρ.

49 6.2. FUNKTIONENKLASSEN 49 Beweis von Lemma 6.2. Ohne Einschränkung sei V = R d. Sei B o B derart, dass ρs, t > ɛ für verschiedene s, t B o. Dann sind die Kugeln t + ɛ/2b mit Mittelpunkten t B o paarweise disjunkt und in der Menge 1 + ɛ/2b enthalten. Folglich ist Leb1 + ɛ/2b t B o Lebt + ɛ/2b, also 1 + ɛ/2 d LebB #B o ɛ/2 d LebB, weshalb #B o 1 + 2/ɛ d. Dies zeigt, dass Dɛ, B, 1 + 2/ɛ d. Andererseits gibt es strikt positive Konstanten c 1 = c 1 B und c 2 = c 2 B derart, dass [ c 1, c 1 ] d B [ c 2, c 2 ] d. Für δ > 0 ist dann B o := { c 1 + δk i d : k {0, 1,..., 2c 1 /δ } d} eine Teilmenge von B derart, dass s t δ, δ d = δ/c 2 c 2, c 2 d, also s t δ/c 2 für zwei verschiedene Punkte s, t B o. Ferner ist #B o 2c 1 /δ d = CB/δ/c 2 d mit CB := 2c 1 /c 2. Dies zeigt, dass Dɛ, B, CB/ɛ d für alle ɛ > 0. Aus den beiden Ungleichungen für Dɛ, B, und Lemma 6.1 ergibt sich die Behauptung über den Grenzwert von log Nɛ/ log1/ɛ bzw. log Dɛ/ log1/ɛ. 6.2 Funktionenklassen Sei F eine Familie von messbaren Funktionen auf X, und sei M ein Maß auf X. Nun betrachten wir folgende Pseudometrik ρ M auf F: ρ M f, g := f g dm. Wir nehmen an, dass F eine messbare Einhüllende F besitzt. Das heißt, F ist eine messbare Funktion auf X, so dass f F für alle f F. Ferner nehmen wir an, dass 0 < F dm <. Zur Abschätzung der metrischen Entropie von F, ρ M betrachten wir für eine Funktion f F ihren Subgraphen sgrf := { x, r X R : r fx }. Wenn die Mengenfamilie sgrf := {sgrf : f F} eine Vapnik-Červonenkis-Klasse ist, kann man die Kapazitätszahlen Dɛ, F, ρ M konkret nach oben abschätzen, fast unabhängig vom Maß M.

50 50 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN Satz 6.3 Dudley, Pollard Angenommen, sgrf ist eine VC-Klasse und F dm = 1. Dann ist log Dɛ, F, ρ M V sgrf loge/ɛ + log loge/ɛ + 3 für beliebige ɛ 0, 1]. Anmerkung 6.4 Dieser Satz zeigt, dass lim sup ɛ 0 log Dɛ, F, ρ M log1/ɛ V sgrf. Vergleicht man dies mit Lemma 6.2, dann wird verständlich, warum man auch von der VC- Dimension V sgrf spricht. Anmerkung 6.5 Für eine Mengenfamilie D sei D die Familie der entsprechenden Indikatorfunktionen. Dann ist D eine VC-Klasse genau dann, wenn sgr D eine VC-Klasse ist. Genauer gesagt, ist V D = V sgr D. Beweis von Satz 6.3. Sei V := V sgrf 1, denn anderenfalls besteht F ohnehin nur aus einer Funktion. Sei F o eine beliebige Teilmenge von F mit m := #F o < und ρ M f, g > ɛ für verschiedene f, g F o. Nun konstruieren wir zufällige endliche Teilmengen von X R mit Hilfe von unabhängigen und identisch verteilten Zufallsvariablen X 1, R 1, X 2, R 2, X 3, R 3,... mit Werten in X R, wobei IPX 1 B = B F dm und LR 1 X 1 = U [ F X 1, F X 1 ]. Dann definieren wir E n := { X i, R i : 1 i n }, also #E n n mit Gleichheit fast sicher. Nun zeigen wir, dass E n, sgrf = m mit strikt positiver Wahrscheinlichkeit, falls n hinreichend groß ist. Für beliebige f, g F o mit f g gilt: IP sgrf E n = sgrg E n = IP X i, R i sgrf sgrg für alle i n = IP X 1, R 1 sgrf sgrg n = 1 IP X 1, R 1 sgrf sgrg n n = 1 IE IP R 1 [, fx 1 ] [, gx 1 ] X 1 = 1 IE fx 1 gx 1 n 2F X 1 = 1 ρ M f, g/2 n < 1 ɛ/2 n exp nɛ/2.

51 6.2. FUNKTIONENKLASSEN 51 Folglich ist IP E n, sgrf o < m m exp nɛ/2 < exp2 log m nɛ/2 log 2 1, 2 falls n größer oder gleich 4 log m 2 log 2 4 log m n o := ɛ ɛ ɛ ist. Es existiert also eine Teilmenge E von X R mit höchstens n o Elementen derart, dass E, sgrf m. Nach Korollar 5.9 ist log m n o V log n o also log m 6.2 log e 4 log m = log log m + log 4 + log e V V ɛ V ɛ. Zu zeigen ist nun, dass y := logm/v nicht größer ist als x+log x+3, wobei x := loge/ɛ 1. Ungleichung 6.2 kann man umformen zu e n o V 6.3 y log y x + log 4. Angenommen y > x + log x + 3, also insbesondere y > 4. Dann folgte aus Ungleichung 6.3 und der strikten Isotonie von y y log y auf [1,, dass, x + log 4 > x + log x + 3 logx + log x + 3 = x + 3 log1 + log x + 3/x x + 3 log 4, denn x log x + 3/x ist monoton fallend auf [1,. Dies ergäbe aber die Ungleichung 3 < 2 log 4 = log 16, welche falsch ist. Uniforme Überdeckungszahlen. Bisher betrachteten wir den Spezialfall, dass MF = F dm = 1. Diese Einschränkung kann man durch eine geeignete Normierung von M aufheben. Wir gehen noch einen Schritt weiter und definieren die uniformen Überdeckungszahlen Nɛ, F := sup {N } MF ɛ, F, ρ M : M ein Maß auf X, 0 < MF <. Für ein beliebiges Maß M mit 0 < MF < ist also ɛ Nɛ, F, ρ M N MF, F. Aus Satz 6.3 folgt nun, dass log Nɛ, F V sgrf loge/ɛ + log loge/ɛ + 3 für 0 < ɛ 1. Im Falle einer VC-Klasse sgrf kann man also die uniformen Überdeckungszahlen explizit nach oben abschätzen.

52 52 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN Kombinationen von Funktionenklassen und andere Metriken. Oftmals kann man eine Funktionenklasse durch elementare Rechenoperationen aus einfacheren Funktionenklassen aufbauen. Die Überdeckungszahlen lassen sich dann wie folgt abschätzen: Lemma 6.6 Seien F und G Familien messbarer Funktionen auf X mit messbaren Einhüllenden F beziehungsweise G, und sei M ein Maß auf X. Für beliebige u > 0 gilt: Nu, F G, ρ M Nu/2, F, ρ M Nu/2, G, ρ M. Dabei ist F G := {f g : f F, g G}, und f g bezeichnet punktweises Maximum, Minimum, Summe oder Differenz. Ferner ist Nu, FG, ρ M Nu/2, F, ρ GM Nu/2, G, ρ F M mit der Familie FG := {fg : f F, g G}. Dabei ist HMB := B H dm. Später werden wir anstelle von ρ M auch andere Pseudometriken betrachten. Dabei ist folgende Ungleichung von Nutzen: Lemma 6.7 Für 1 q < ist Nu, F, ρ M,q N u q, F, ρ 2F M, q 1 wobei ρ M,q f, g := f g q dm 1/q. Die Beweise beider Lemmata überlassen wir dem Leser als Übungsaufgabe. 6.3 Uniforme Konsistenz allgemein Nun geben wir Bedingungen an, unter welchen IE Z n IE Z n gegen Null konvergiert. Mit Hilfe der zwei Symmetrisierungen wird dies zurückgeführt auf die Behauptung, dass IE Z o n 0, wobei Z o n := n ξ iφ ni wie in Kapitel 3. Die Zufallsvariable Z o n wird durch Z o n ˆTn approximiert, wobei ˆT n eine zufällige, in der Regel endliche Teilmenge von T ist. Für zwei beliebige Punkte s, t T ist stets wobei Z o ns Z o nt ˆρ n s, t, ˆρ n s, t = ˆρ n s, t φ n := φ ni s φ ni t mit φ n = φ ni n. Dies definiert eine Pseudometrik ˆρ n auf T. Wenn nun ˆρ n t, ˆT n δ für alle t T mit einer positiven Zahl δ, so ist Z o n T δ + Z o n ˆTn. Der Term Z o n ˆTn wird dann mithilfe von Hoeffdings Ungleichung weiter abgeschätzt.

53 6.3. UNIFORME KONSISTENZ ALLGEMEIN 53 Satz 6.8 Der Erwartungswert von Z n IE Z n konvergiert gegen Null, falls für eine Nullfolge δ n n folgende drei Bedingungen erfüllt sind: 6.4 IE φ ni = O1, 6.5 IE 1 { } φ ni > δ n φni 0, 6.6 log Nɛ, T, ˆρ n = o p δ 1 n für beliebige ɛ > 0. Dieser Satz beinhaltet zwei Spezialfälle: Korollar 6.9 IE Z n IE Z n konvergiert gegen Null, falls gilt: { lim IE 1 φ ni > K } φ ni = 0, n,k n log Nɛ, T, ˆρ n = o p n für beliebige ɛ > 0. Korollar 6.10 IE Z n IE Z n konvergiert gegen Null, falls für beliebige δ, ɛ > 0 gilt: IE IE φ ni = O1, 1 { φ ni > δ } φ ni 0, log Nɛ, T, ˆρ n = O p 1. Beweis von Satz 6.8. Seien Dann ist φ ni := 1 { φ ni δ n } φni und Zn := φ ni. IE Z n IE Z n Z n IE Z n 2 IE Z n Z n = 2 IE 1 { } φ ni > δ n φni 2 IE 0 nach 6.5. Außerdem ist φ ni φ ni und 1 { } φ ni > δ n φni ˆρ n s, t φ n ˆρ n s, t φ n

54 54 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN für alle s, t T. Deshalb kann man ohne Einschränkung der Allgemeinheit annehmen, dass stets φ ni δ n. Nach Symmetrisierungslemma 3.1 b ist IE Z n IE Z n 2 IE Zn. o Ferner ist IE Zn o 2 IE φ ni φ nj Für beliebige ɛ > 0 ist somit = i,j=1 IE φ ni 2 + δ n IE = O1. φ ni + 1{i j} IE φ ni IE φ nj i,j=1 IE 2 φ ni IE Z o n ɛ + IE 1{ Z o n > ɛ} Z o n ɛ + IP Z o n > ɛ IE Z o n 2 = ɛ + o1, sofern wir zeigen können, dass IP Z o n > ɛ gegen Null konvergiert. Zu diesem Zweck sei ˆT n = ˆT n φ n eine zufällige Teilmenge von T mit Nɛ/2, T, ˆρ n Elementen, so dass ˆρ n t, ˆT n ɛ/2 für alle t T. Dann ist Z o n ɛ/2 + Z o n ˆTn, wie schon am Anfang dieses Abschnitts gezeigt wurde. Aus Korollar 4.2 folgt, dass IP Z o nt ɛ/2 φn 2 exp ɛ 2 8 n φ nit 2 2 exp ɛ2, 8δ n S n wobei S n := n φ ni stochastisch beschränkt ist nach Voraussetzung 6.4. Folglich ist IP Zn o ɛ φn IP Zn o ˆTn ɛ/2 φn t ˆTn IP Z o nt ɛ/2 φn 2Nɛ/2, T, ˆρ n exp ɛ2 = 2 exp 1 = 2 exp 1 p 0. 8δ n S n ɛ 2 δ n S n 8 δ ns n log Nɛ/2, T, ˆρ n ɛ 2 δ n S n 8 + o1 6.4 Zufällige signierte Masse Sei F eine Familie von messbaren Funktionen auf X. Ähnlich wie im vorigen Kapitel nehmen wir an, dass F punktweise separabel ist. Das bedeutet, es gibt eine abzählbare Teilmenge F o von F, so dass für alle f F eine Folge f k k in F o existiert mit lim f kx = fx für alle x X. k

55 6.4. ZUFÄLLIGE SIGNIERTE MASSE 55 Unter dieser Bedingung ist die Einhüllende F x := sup fx = sup fx f F f F o von F ebenfalls messbar, und für jedes signierte Maß γ auf X mit γ F < ist γ F = γ Fo γ F. Hier ist γ := γ + + γ die Totalvariation von γ, wobei γ + und γ den Positiv- beziehungsweise Negativteil von γ = γ + γ bezeichnen. Nun sei Z n = n φ ni mit unabhängigen stochastischen Prozessen φ ni auf F. Angenommen, φ ni f = f dγ ni mit zufälligen signierten Maßen γ ni auf X, wobei auch γ ni F messbar und fast sicher endlich sei. Der empirische Prozess ˆP n und der Partialsummenprozess Ŝn sind von dieser Form, nämlich beziehungsweise γ ni = γ ni = 1 n δ X i und γ ni F = F X i n, γ ni = c n Y ni δ xni, γ ni = c n Y ni δ xni und γ ni F = c n Y ni F x ni. Nun betrachten wir nochmals die Gesetze der großen Zahlen im vorigen Abschnitt. Da φ ni F γ ni F, ist Bedingung 6.4 sicher erfüllt, falls 6.7 IE ˆM n F = O1. Dabei ist ˆMn das zufällige Maß ˆM n := γ ni. Die zweite Bedingung von Korollar 6.10 ist erfüllt, wenn 6.8 IE 1 { γ ni F > δ } γ ni F 0 für beliebige δ > 0. Was die dritte Bedingung von Korollar 6.10 anbelangt, so ist ˆρ n f, g f g d ˆM n = ρ ˆMn f, g. Folglich ist Nu, F, ˆρ n Nu, F, ρ ˆMn N u ˆM n F, F mit den uniformen Überdeckungszahlen Nɛ, F aus Abschnitt 6.2. Im Falle von 6.7 muss man also nur noch sicherstellen, dass 6.9 Nɛ, F < für beliebige ɛ > 0. Im Falle von V sgrf < ist diese Bedingung erfüllt. Speziell für empirische Prozesse und Partialsummenprozesse ergeben sich folgende Resultate:

56 56 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN Satz 6.11 Im Falle von 6.9 konvergiert IE ˆP n P F gegen Null, sofern P F <. Satz 6.12 Sei Ŝ n f = n 1 n fx niy ni mit unabhängigen Zufallsvariablen Y ni, welche zentriert und gleichgradig integrierbar sind. Das heißt, IEY ni = 0, und max IE 1{ Y ni > K} Y ni 0 1 i n minn, K. Im Falle von 6.9 konvergiert dann IE Ŝn F gegen Null, sofern n 1 n 1 F x ni = O1, 1 { F x ni > nδ } F x ni 0 für beliebige δ > 0. Beweis von Satz Hier ist ˆMn = ˆP n, so dass IE ˆM n F = P F konstant in n und endlich ist. Dies liefert Bedingung 6.7. Ferner ist IE 1 { γ ni F δ } γ ni F = P 1{F > nδ}f, und dies konvergiert für beliebige δ > 0 gegen Null. Also ist auch Bedingung 6.8 erfüllt. Beweis von Satz Hier ist γ ni F = n 1 F x ni Y ni. Daher folgt Bedingung 6.7 aus Ferner ist IE IE ˆM n F = n 1 F x ni IE Y ni n 1 1 { γ ni F δ } γ ni F n 1 F x ni IE 1{ Y ni > K} Y ni + Kn 1 = O1 max 1 j n IE 1{ Y nj > K} Y nj + o1 F x ni max 1 j n IE Y nj = O1. 1 { F x ni > nδ/k } F x ni für beliebige feste K > 0, und der limes superior der rechten Seite wird nach Voraussetzung beliebig klein, wenn man K hinreichend groß wählt. Hieraus ergibt sich Bedingung 6.8. Beispiel 6.13 Familien F für Kerndichte-, M- und S-Schätzer Sei H : R R monoton wachsend oder monoton fallend. Mit X := R d betrachten wir F 1 := F 2 := { Hb θ 2 : b > 0, θ R d}, { x Hx θ Bx θ : B R d d, θ R d}.

57 6.4. ZUFÄLLIGE SIGNIERTE MASSE 57 Dann ist sgrf j eine VC-Klasse mit Index V sgrf 1 d + 3 und V sgrf 2 d 2 /2 + 3d/ Dies kann man besonders leicht einsehen, wenn H eine isotone Bijektion von R ist. Dann ist nämlich sgr Hb θ 2 = { } x, r R d R : b θ 2 2bθ x + bx x H 1 r 0 = {g 0} mit einer Funktion g in dem Vektorraum G, welcher von den d + 3 Funktionen aufgespannt wird. Analog ist v 0 x, r := 1, v i x, r := x i für 1 i d, v d+1 x, r := H 1 r, v d+2 x, r := x x sgr x Hx θ Bx θ = {g 0} mit einer Funktion g aus dem Vektorraum G, der von obigen Funktionen v 1,..., v d+1 sowie den Funktionen v ij x, r := x i x j 1 i j d aufgespannt wird. Nun folgt die Behauptung aus Satz Im allgemeinen Fall muss man einen geeigneten Ersatz für die Funktion H 1 finden. Sei E eine endliche Teilmenge von R d R, welche von sgrf 1 vollständig zerlegt wird. Zu A E existieren also b A > 0 und θ A R d mit Nun definieren wir die endliche Menge T := A = E sgr Hb A θ A 2. { } b A x θ A 2 : x, r E, A E. Dann ist E sgr Hb A θ A 2 = = = { } x, r E : r Hb A x θ A 2 { } x, r E : b A θaθ A 2b A θax + b A x x Hr 0 { } x, r E : gx, r 0 mit einer Funktion g G := span{v 0, v 1, v 2,..., v d+2 }, wobei nun Analog lässt sich die Familie F 2 behandeln. { } v d+2 x, r := Hr := min t T : Ht r.

58 58 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN Reduktion auf Mengenfamilien. Mitunter kann man sich komplizierte Abschätzungen von Überdeckungszahlen mit folgendem Trick ersparen: Sei F eine Familie von messbaren Funktionen auf X mit beschränktem Wertebereich [0, c]. Dann gilt für jedes endliche signierte Maß γ auf X die Ungleichung mit der Mengenfamilie Denn für f F ist f dγ = γ F c γ DF DF := { {f t} : f F, t R }. c 0 γ{f t} dt c 0 γ{f t} dt c γ D. Beispiel Isotone Funktionen Sei F die Menge aller monoton wachsenden Funktionen f : R [0, 1]. Dann besteht DF aus allen offenen und abgeschlossenen Halbgeraden r, bzw. [r, sowie und R. Folglich ist Symmetrische konvexe Hüllen. γ F sup γr,. r R Ein anderer oft hilfreicher Trick ist die Darstellung einer Funktionenfamilie als symmetrische konvexe Hülle einer einfacheren Funktionenklasse. Genauer gesagt, sei F eine Funktionenfamilie mit messbarer Einhüllender F, und sei GF die Menge aller punktweisen Limites von Funktionenfolgen in { } λ i f i : f i F, λ i R, λ i 1. Ist nun γ ein signiertes Maß auf X mit γ F <, dann ist γ GF = γ F. Beispiel Funktionen mit beschränkter Totalvariation Sei F die Familie aller Indikatorfunktionen von Halbgeraden [r,, r R. Dann ist GF die Menge aller Funktionen g : R R mit Grenzwert g = 0 und { m TVg := sup gxi gx i 1 } : m N, x0 < x 1 < < x m 1. Dies ergibt sich im Wesentlichen aus Aufgabe Verfeinerungen Das Gesetz der Großen Zahlen, Satz 6.8, kann man noch verfeinern, sofern Bedingung 6.5 durch eine stärkere Bedingung ersetzt wird. Im Beweis von Satz 6.8 tauchte in einer entscheidenden Ungleichung die Größe exp ɛ 2 8 n φ nit 2

59 6.5. VERFEINERUNGEN 59 auf, und die Summe wurde durch max i φ ni j φ nj nach oben abgeschätzt. Der entscheidende Schritt ist nun, diese grobe Abschätzung zu verbessern. Lemma 6.14 Angenommen φ ni δ n für alle i. Ferner sei Dann ist IP sup t T für beliebige τ > V n. φ ni t 2 8τ V n := sup t T IE φ ni t 2. 2 τ 1 V n /τ IE min N, T, ˆρ n exp τ 16δ n 8δn 2, 1 Satz 6.15 Unter den Voraussetzungen von Lemma 6.14 ist IP Z n IE Z n 3η τ 16 IE min N, T, ˆρ n exp τ 16δ n η + 8 IE min N 2, T, ˆρ n exp η2 64τ für beliebige η 2V n und τ 2V n. 8δ 2 n, 1 Korollar 6.16 Die Voraussetzungen von Lemma 6.14 seien erfüllt mit δ n := 1/n, und für beliebige n N, ɛ 0, 1] sei Nɛ, T, ˆρ n Aɛ B fast sicher, 1 mit Konstanten A, B > 0. Für hinreichend großes κ > 0 ist dann IP Z n IE Z n κ max lognvn, log n n n=1 <. Beweis von Lemma Die Grundidee des Beweises ist LeCams square root trick. Seien I := { i {1, 2,..., n} : ξ i = 1 }, J := {1, 2,..., n} \ I, S K := φ 2 ni für K {1, 2,..., n}, i K S := S {1,2,...,n} = S I + S J. Dann sind S I, S J identisch verteilt, weshalb IP S 8τ 2 IP S I 4τ = 2 IP SI 2 τ. Doch für beliebige t T ist IP SI t τ ξ1,..., ξ n IE S I t ξ 1,..., ξ n τ IE St τ V n τ,

60 60 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN und S I, S J sind stochastisch unabhängig, gegeben ξ 1,..., ξ n. Wendet man Symmetrisierungslemma 3.1 a auf diese bedingte Verteilung an, so folgt, dass IP SI 1 2 τ 1 V/τ IP SI S J τ. Für beliebige s, t T ist SI s S J s SI t S J t S I s S I t + S J s S J t φni s φ ni t 2 1/2 + φni s φ ni t 2 1/2 2 i I φni s φ ni t 2 1/2 4δ n ˆρ n s, t. i J Ist also ˆT n = ˆT n φ n1,..., φ nn eine Teilmenge von T mit # ˆT τ n = N, T, ˆρ n und 16δ n so ist IP t ˆTn sup t T S I S J τ φ n1,..., φ nn IP S I τ S J ˆTn φ n1,..., φ nn 2 IP SI t τ S J t 2 t ˆTn t ˆTn ˆρ n t, ˆT n φ n1,..., φ nn τ 16δ n, SI IP t S J t S I t + S J t τ φ n1,..., φ nn 2 SI Stτ IP t S J t φ n1,..., φ nn 2 = IP t ˆTn 2 exp t ˆTn 2 # ˆT n exp τ 8δn 2 ξ i φ ni t 2 Stτ 2 Stτ 8 n φ nit 4. φ n1,..., φ nn Beweis von Satz Da Var[Z n t] V n für beliebige t T, folgt aus Symmetrisierungslemma 3.1 a, dass 6.10 IP Z n IE Z n 3η 1 1 V n /η 2 IP Z n Z n 2η 2 1 V n /η 2 IP Zn o η.

61 6.6. ANWENDUNG AUF DICHTESCHÄTZUNG 61 Doch mit X n := sup t T n φ nit 2 kann man wie im Beweis von Satz 6.8 zeigen, dass IP Z o n η φ n1,..., φ nn 2N η 2, T, ˆρ n Zusammen mit Lemma 6.14 ergibt dies die Ungleichungen exp η2. 8X n IP Zn o η IPX n 8τ η + 2 IE min N 2, T, ˆρ n exp η2, 1 64τ 4 τ 1 V n /τ IE min N, T, ˆρ n exp τ 16δ n η + 2 IE min N 2, T, ˆρ n exp η2, 1. 64τ 8δ 2 n, 1 Setzt man dies in 6.10 ein und setzt voraus, dass minη 2, τ 2V n, ergibt sich die Behauptung. Beweis von Korollar Die Behauptung folgt aus Satz 6.15 vermöge τ = τ n := C τ max η = η n := C η lognτ n V n, log n n 2, = C τ C η max lognvn, log n n mit hinreichend großen Konstanten C τ, C η > 0. Denn für hinreichend großes n ist η 2 n τ n 2V n, und nτn log N 16, T, ˆρ n n2 τ n 8 log n const. B log n B C τ 8 const. + ηn log N 2, T, ˆρ n η2 n log n const. B log 64τ n n const. + B C η 64 C τ log n 8 log n, C η log n 64 log n. 6.6 Anwendung auf Dichteschätzung Sei P ein Wahrscheinlichkeitmaß auf R d mit Dichte p bezüglich des Lebesgue-Maßes. Ein Kernschätzer für px ist ˆp n x := 1 n k n x X i = k n x y ˆP n dy, wobei k n eine willkürlich gewählte Funktion ist, so dass k n x dx = 1. Mit anderen Worten, ˆp n ist die Dichte der Faltung von ˆP n mit dem signierten Maß k n x dx. Mit p n x := IE ˆp n x

62 62 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN ist ˆp n p = p n p + ˆp n p n =: Bias + Fluktuation. Speziell sei k n x := 1 x h d k n h n mit einer Bandbreite h n > 0. Je kleiner die Bandbreite h n, desto kleiner wird im allgemeinen der Bias sein, aber desto größer ist die Fluktuation. Abschätzung des Bias. Angenommen, p ist Lipschitz-stetig, also 6.11 px py L x y für beliebige x, y R d mit einer Konstanten L <. Ferner sei 6.12 k 1, kz dz = 1 und z kz dz <, wobei die Supremumsnorm über T := R d bezeichnet. Dann ist p n x px = 1 x y h d k py px dy = kz px h n z px dy, n h n so dass p n p L x kx dx h n = Oh n. Abschätzung der Fluktuation. Angenommen, 6.13 { sgrk t : t R d } ist eine VC-Klasse; siehe Beispiel Nun definieren wir φ ni x := 1 n k x Xi h n. Dann ist ˆp n = h d n Z n, φ ni 1/n, und IE φ ni x 2 = 1 x n IE k X1 2 h n = 1 x y 2py k dy n h n kz dz p hd n n h d = O n. n Man beachte, dass aus 6.11 die Endlichkeit von p folgt. Gemäß Satz 6.3 sind die Bedingungen von Korollar 6.16 erfüllt, und zwar ist ˆp n p n = 1 h d O max h d n n log n n, log n n fast sicher.

63 6.7. AUFGABEN 63 Dabei verwendeten wir das Borel-Cantelli-Lemma. Nun versuchen wir Bias und Fluktuation zu balancieren. Die Gleichung h n = 1 h d h d log n n n n impliziert, dass h n = logn/n 1/d+2, und es ergibt sich folgendes Resultat: Korollar 6.17 Unter den Bedingungen 6.11, 6.12 und 6.13 ist log n 1/d+2 ˆp n p = O n fast sicher, falls h n log n 1/d+2 = c n n mit einer Folge c n n in 0,, die von 0 und weg beschränkt ist. 6.7 Aufgaben Aufgabe 6.1 Beweisen Sie Lemma 6.6. Aufgabe 6.2 Beweisen Sie Lemma 6.7. Aufgabe 6.3 Sei F die Menge aller Funktionen f auf [0, 1], so dass f 1 und fx fy x y für beliebige x, y [0, 1], und sei ρf, g := f g [0,1]. Zeigen Sie, dass log Nɛ, F, ρ Aɛ 1 für 0 < ɛ 1 mit einer Konstanten A > 0. Zusatz: Für β > 0 sei F β die Menge aller k-mal stetig differenzierbaren Funktionen f auf [0, 1], wobei k = kβ := β 1, so dass gilt: f l 1 für 0 l k, f k x f k y x y β k für beliebige x, y [0, 1]. Dabei ist f l die l-te Ableitung von f mit f 0 := f. Zeigen Sie, dass log Nɛ, F β, ρ Aɛ 1/β für 0 < ɛ 1 mit einer Konstanten A > 0. Aufgabe 6.4 Sei D eine Familie von Teilmengen von X, und sei D die Menge der entsprechenden Indikatorfunktionen. Zeigen Sie, dass V D = V sgr D.

64 64 KAPITEL 6. ABSTRAKTE GESETZE DER GROSSEN ZAHLEN Aufgabe 6.5 Totalvariation von Funktionen Für ein Intervall J R und eine Funktion f : J R definieren wir { m TVf, J := sup fx i fx i 1 : m N; x 0, x 1,..., x m J; x 0 < x 1 < < x m }, { m TV ± f, J := sup fxi fx i 1 ± : m N; x 0, x 1,..., x m J; x 0 < x 1 < < x m }. a Zeigen Sie, dass TVf, J = TV + f, J + TV f, J. b Zeigen Sie, dass T f, J = T f, J, b] + T f, J [b, für beliebige b R, wobei T f, für TVf, oder TV ± f, steht, und T f, := 0. c Sei f : R R mit TVf, R <. Zeigen Sie, dass Grenzwerte f± existieren. Zeigen Sie ferner, dass lim T f,, b] = b lim T f, [b, = 0. b d Sei f : R R mit Grenzwert f = 0 und TVf, R <. Zeigen Sie, dass fx = TV + f,, x] TV f,, x] für alle x R. Das heißt, f lässt sich schreiben als Differenz zweier monoton wachsender Funktionen f 1, f 2 darstellen, und deren Grenzwerte erfüllen die Gleichungen f 1 = f 2 = 0 sowie f 1 + f 2 = TVf, R. Aufgabe 6.6 Angenommen, der Kern k in Abschnitt 6.6 erfüllt folgende Bedingungen: k 1, kz dz = 1, zkz dz = 0 und z 2 kz dz <. Welche Konvergenzrate kann man für ˆp n p erzielen, wenn man voraussetzt, dass p differenzierbar ist mit Lipschitz-stetiger Ableitung p : R d R d? Wie muss man die Bandweite wählen, um diese zu erreichen?

65 Kapitel 7 Konvergenz in Verteilung In diesem Kapitel behandeln wir die allgemeine Theorie der Verteilungskonvergenz beziehungsweise der schwachen Konvergenz. Im Hinblick auf empirische Prozesse betrachten wir von Anfang an auch nicht-messbare Funktionen auf Wahrscheinlichkeitsräumen. Dieser Zugang geht auf Jørgen Hoffmann-Jørgensen zurück und wurde unter anderem von Richard Dudley weiterentwickelt. 7.1 Äussere Erwartungswerte Sei Ω, A, IP ein beliebiger Wahrscheinlichkeitsraum, und im Folgenden seien X, Y, Z generische beschränkte Funktionen von Ω nach R. Der äußere Erwartungswert von Y ist definiert als IE Y := inf { IEX : X messbar, X Y }. Dies ist eine Verallgemeinerung der äußeren Wahrscheinlichkeit IP B := inf { IPA : A A, A B } einer Menge B Ω, da IP B = IE 1 B. Denn offensichtlich ist IE 1 B IP B, und die umgekehrte Ungleichung folgt aus der Tatsache, dass für messbare Funktionen X mit X 1 B stets X 1{X 1}, und B {X 1} A. Analog definiert man den inneren Erwartungswert von Y als IE Y := sup { IEX : X messbar, X Y } = IE Y, und die innere Wahrscheinlichkeit von B ist gleich IP B := sup { IPA : A A, A B } = { 1 IP Ω \ B, IE 1 B. Die folgenden Eigenschaften der äußeren Erwartung kann man leicht nachweisen. 65

66 66 KAPITEL 7. KONVERGENZ IN VERTEILUNG Lemma 7.1 Das Funktional Y IE Y ist sublinear, das heißt, IE ry = r IE Y für beliebige r 0, IE Y + Z IE Y + IE Z. Insbesondere ist IE Y + IE Y 0 mit Gleichheit, falls Y messbar ist. Ferner ist IE Y IE Z falls Y Z, IE r + Y = r + IE Y für beliebige r R. Lemma 7.2 Im Falle Y 0 ist IE Y = 0 IP Y r dr = 0 IP Y > r dr. Beweis. Sei X : Ω R messbar mit X Y. Für jede Zahl δ > 0 ist Y δ 1{Y > δi} und X δ 1{X δi}. i=0 Folglich ist IE Y δ IP Y > δi δ IP Y > δi + δ i=0 und IEX δ IPX δi δ IP Y δi Für δ 0 und IEX IE Y folgt die Behauptung. 0 0 IP Y > r dr + δ IP Y r dr δ. 7.2 Definition und Eigenschaften der Verteilungskonvergenz Sei M eine Menge, versehen mit einer Metrik d und der entsprechenden Borel-σ-Algebra BM. Zunächst führen wir einige Bezeichnungen ein. Es seien CM := { stetige Funktionen auf M }, C b M := { beschränkte, stetige Funktionen auf M }, C Lip M := { Lipschitz-stetige Funktionen auf M }, C Lip M, [0, 1] := { f C Lip M : 0 f 1 }. Streng genommen, hängen all diese Funktionenklassen von der Metrik d oder zumindest von der hiervon induzierten Topologie ab, doch wird diese Abhängigkeit nicht hervorgehoben. Desweiteren seien für x M, ɛ 0 und S M dx, S := inf dx, y für x M, S M, y S US, ɛ := { y M : dy, S < ɛ }, BS, ɛ := { y M : dy, S ɛ }.

67 7.2. DEFINITION UND EIGENSCHAFTEN DER VERTEILUNGSKONVERGENZ 67 Bekanntlich ist d, S Lipschitzstetig mit Konstante Eins. Daher sind die Mengen US, ɛ und BS, ɛ offen bzw. abgeschlossen. Speziell ist Ux, ɛ := U{x}, ɛ und Bx, ɛ := B{x}, ɛ die offene bzw. abgeschlossene Kugel um x mit Radius ɛ. Ein M-Zufallselement ist eine Abbildung von einem Wahrscheinlichkeitsraum nach M. Eine messbare Abbildung von einem Wahrscheinlichkeitsraum nach M heißt M-Zufallsvariable. Im folgenden sei stets Z n n eine Folge von M-Zufallselementen, und Z sei eine M-Zufallsvariable. Definition 7.3 Die Folge Z n n konvergiert in Verteilung gegen Z, falls In Symbolen: Z n L Z. lim n IE fz n = IE fz für beliebige f C b M. Die Limesvariable Z ist in Verteilung eindeutig, das heißt: Ist Z eine weitere M-Zufallsvariable, so dass Z n L Z, dann ist L Z = LZ. Äquivalent zu Zn L Z ist, dass IE fz n IE fz für alle f C b M, denn IE fz ist gleich IE fz. Insbesondere hat Z n n dann folgende Eigenschaft: Definition 7.4 Die Folge Z n n heißt asymptotisch messbar, falls IE fz n IE fz n = 0 für beliebige f C b M. lim n Man kann die Verteilungskonvergenz noch auf andere Arten charakterisieren, indem man nur Teilklassen von C b M, bestimmte Borelmengen oder halbstetige Funktionen betrachtet. Eine Funktion f : M R heißt halbstetig von unten, falls für beliebige r R die Menge {f > r} offen ist. Sie heißt halbstetig von oben, wenn f halbstetig von unten ist. Satz 7.5 Portmanteau-Theorem Die folgenden Aussagen über Z n n und Z sind äquivalent: Z n L Z; lim n IE fz n = IE fz für alle f C Lip M, [0, 1]; lim sup IP Z n A IPZ A für alle abgeschlossenen A M; n lim inf IP Z n U IPZ U für alle offenen U M; n lim sup IE fz n IE fz n für alle von oben halbstetigen, beschränkten f : M R; lim inf IE fz n IE fz n für alle von unten halbstetigen, beschränkten f : M R; lim n IP Z n B = lim IP Z n B = IPZ B n für alle B BM mit IPZ B = 0. Beweis des Portmanteau-Theorems. Offensichtlich folgt 7.2 aus 7.1. Die Äquivalenz von 7.3 und 7.4 beziehungsweise von 7.5 und 7.6 ist leicht nachzuweisen. Ebenfalls trivial ist die Tatsache, dass 7.1 aus folgt.

68 68 KAPITEL 7. KONVERGENZ IN VERTEILUNG Angenommen es gilt 7.2. Für eine beliebige abgeschlossene Menge A X und R > 0 sei f R x := max 1 R dx, A, 0. Dann ist 1 A f R C Lip M, [0, 1], und lim sup n IP Z n A lim n IE f R Z n = IE f R Z. Doch für R konvergiert die rechte Seite gegen IPZ A, und somit folgt 7.3. Bei diesem Beweisschritt hängt man über den Kleiderbügel 1 A den Mantel f R, was eine von mehreren Erklärungen für den Namen Portemanteau-Theorem ist. Angenommen es gilt 7.3. Ist f eine von oben halbstetige Funktion auf M mit Werten in [a, b], dann ergibt sich aus Lemma 7.1, Lemma 7.2 und dem Lemma von Fatou, dass also Aussage 7.6. lim sup n IE fz n = lim sup a + n = a + lim sup a + a + n b a b a = IE fz, b a b a IP fz n t dt IP Z n {f t} dt lim sup IP Z n {f t} dt n IP Z {f t} dt Zu zeigen bleibt die Äquivalenz von und 7.7. Mit dem Abschluss B und dem Inneren B o von B BM folgt aus den Aussagen , dass lim sup n IP Z n B lim sup n IP Z n B IPZ B lim inf n IP Z n B lim inf n IP Z n B o IPZ B o = IPZ B, sofern IPZ B = 0. Umgekehrt gelte Aussage 7.7. Für beliebige abgeschlossene Mengen A M sind die Mengen BA, ɛ { d, A = ɛ }, ɛ > 0, paarweise disjunkt. Folglich ist IP Z BA, ɛ = 0 für alle bis auf abzählbar viele ɛ > 0. Für solche ɛ > 0 ist lim sup n IP Z n A lim sup n und für ɛ 0 ergibt sich Aussage 7.3. IP Z n BA, ɛ = IP Z BA, ɛ, Als Korollar zum Portmanteau-Theorem ergeben sich zwei Resultate, die in vielen statistischen Anwendungen von Nutzen sind: Korollar 7.6 Slutzkis Lemma, I Für n N sei Z n ein M-Zufallselement, das auf dem gleichen Wahrscheinlichkeitsraum wie Z n definiert ist. Angenommen Z n n konvergiert in Verteilung gegen Z, und dz n, Z n p 0; das heißt, IP dz n, Z n > ɛ 0 für beliebige ɛ > 0. Dann konvergiert auch Z n in Verteilung gegen Z.

69 7.3. STETIGE UND ASYMPTOTISCH STETIGE ABBILDUNGEN 69 Korollar 7.7 Slutzkis Lemma, II Sei M, ein normierter Raum. Für n N sei L n : M M ein zufälliger linearer Operator, definiert auf dem gleichen Wahrscheinlichkeitsraum wie Z n, so dass L n Id = Dann folgt aus Z n L Z, dass auch L n Z n L Z. sup L n x x p 0. x M : x 1 Beweis von Korollar 7.6. Für beliebige f C Lip M, [0, 1] mit Lipschitzkonstante c und ɛ > 0 ist IE fz n IE f Z n IE fz n f Z n IE 1 { dz n, Z n ɛ } fzn f Z n + IP dz n, Z n > ɛ cɛ + o1. Beweis von Korollar 7.7. Es genügt zu zeigen, dass L n Z n Z n p 0. Doch für jedes feste ɛ > 0 und beliebige δ > 0 ist lim sup n IP L n Z n Z n ɛ lim sup n IP L n Id δ + lim sup n 0 + IP Z ɛ/δ, und die rechte Seite konvergiert gegen Null für δ 0. IP Z n ɛ/δ 7.3 Stetige und asymptotisch stetige Abbildungen In diesem Abschnitt seien M, d und M, d zwei metrische Räume, und Z n n sei stets eine Folge von M-Zufallselementen, die in Verteilung gegen eine M-wertige Zufallsvariable Z konvergiert. Eine erste Frage ist, für welche Abbildungen H : M M folgt, dass HZ n n L HZ. Man kann leicht nachweisen, dass alle stetigen Abbildungen H dies leisten. Diese Aussage lässt sich noch etwas verallgemeinern: Satz 7.8 von der stetigen Abbildung Die Menge M o aller Stetigkeitsstellen von H ist eine Borelmenge in M. Falls Z nur Werte in M o annimmt, konvergiert HZ n n in Verteilung gegen HZ. Beweis des Satzes von der stetigen Abbildung. Wir beweisen nur die Aussage, dass M o eine Borelmenge ist, denn die Konvergenz in Verteilung von HZ n ergibt sich aus dem allgemeineren Satz von Rubin Satz 7.9. Ein Punkt x M gehört zu M o genau dann, wenn zu jedem k N ein l N existiert derart, dass dhy, Hz k 1 für alle y, z Ux, l 1. Mit anderen Worten, x gehört nicht zu M o, falls für ein k N und beliebige l N zwei Punkte y, z M existieren derart, dass

70 70 KAPITEL 7. KONVERGENZ IN VERTEILUNG dhy, Hz > k 1 aber x Uy, l 1 Uz, l 1. Somit lässt sich M \ M o schreiben als k N l N W k,l mit den offenen Mengen W k,l := Uy, l 1 Uz, l 1. y,z M : dhy,hz>k 1 Satz 7.8 ist ein Spezialfall eines noch allgemeineren Resultates über Folgen von Abbildungen: Satz 7.9 Rubin Für n N sei H n eine Abbildung von M nach M. Angenommen, für alle Punkte x in einer Borelmenge M o M existiert Hx := lim H ny. n,y x Dann ist H : M o M stetig. Falls Z nur Werte in M o annimmt, konvergiert H n Z n n in Verteilung gegen HZ. Anmerkung 7.10 Ist M, d vollständig, so ist die Menge M o aller x M derart, dass Hx := lim H ny n,y x existiert, eine Borelmenge in M, d. Denn ein Punkt x gehört zu M \ M o genau dann, wenn lim l sup m,n l; y,z Ux,l 1 dh m y, H n z > 0. Folglich kann man M \ M o darstellen als k N l N W k,l mit den offenen Mengen W k,l := Uy, l 1 Uz, l 1. m,n l; y,z M : dh my,h nz>k 1 Beweis von Satz 7.9. Für beliebiges festes ɛ > 0 ist M o = l N V ɛ,l, wobei V ɛ,l := { x M o : dhx, } H n y ɛ für alle n l, y Ux, l 1. Insbesondere ist dhx, Hy ɛ, falls x V ɛ,l und y M o Ux, l 1. Dies impliziert die Stetigkeit von H. Ferner ergibt sich für beliebige abgeschlossene Mengen à M und l N, dass lim sup n lim sup n IP H n Z n à IP Z n UV ɛ,l, l 1 + lim sup n IPZ V ɛ,l + lim sup n IP Z n UV ɛ,l, l 1 und H n Z n à IP Z n UV ɛ,l, l 1 und H n Z n à IPZ V ɛ,l + lim sup IP Z n B 1 H BÃ, ɛ, l 1 n IPZ V ɛ,l + IP Z B H 1 BÃ, ɛ, l 1.

71 7.3. STETIGE UND ASYMPTOTISCH STETIGE ABBILDUNGEN 71 Die zweite und vierte Ungleichung folgen aus dem Portmanteau-Theorem. Die dritte Ungleichung ergibt sich wie folgt: Ist Z n UV ɛ,l, l 1 und H n Z n Ã, dann existiert ein x V ɛ,l mit Z n Ux, l 1. Insbesondere ist dhx, H n Z n ɛ, sobald n l, also Hx BÃ, ɛ und Z n U H 1 BÃ, ɛ, l 1. Doch wegen der Stetigkeit von H ist H 1 BÃ, ɛ = A ɛ M o für eine abgeschlossene Menge A ɛ M. Folglich ist IPZ V ɛ,l + IP Z B H 1 BÃ, ɛ, l 1 IPZ V ɛ,l + IP Z BA ɛ, l 1 IPZ A ɛ l = IPZ A ɛ M o = IP HZ BÃ, ɛ IP HZ Ã ɛ 0. Hadamard-differenzierbare Funktionale. Eine typische Anwendungssituation von Satz 7.9 sind Hadamard-differenzierbare Funktionale. Seien M und M normierte Vektorräume; die Norm bezeichnen wir in beiden Fällen mit. Eine Abbildung T : M M heißt Gateaux-differenzierbar an der Stelle x o M, falls es einen linearen Operator DT x o, : M M gibt derart, dass lim t 1 T x o + tv T x o DT x o, v = 0 t 0 für beliebige v M. Die Abbildung heißt Fréchet-differenzierbar an der Stelle x o M, falls die lineare Abbildung DT x o, sogar stetig ist und sup t 1 T x o + tv T x o DT x o, v = 0 lim t 0 v B für jede beschränkte Teilmenge B von M. Man kann leicht zeigen, dass dies gleichbedeutend mit folgender Aussage ist: lim v 1 T x o + v T x o DT x o, v = 0 M\{0} v 0 Nun gibt es noch eine Abschwächung der Fréchet-Differenzierbarkeit, die in einigen statistischen Anwendungen nachweisbar und ausreichend ist: Die Abbildung T heißt Hadamard-differenzierbar an der Stelle x o M, falls es eine stetige lineare Abbildung DT x o, : M M gibt derart, dass sup t 1 T x o + tv T x o DT x o, v = 0 lim t 0 v K für jede kompakte Teilmenge K von M. In Aufgabe 7.1 wird gezeigt, dass diese Aussage gleichbedeutend ist mit folgender Charakterisierung: Es existiert eine lineare Abbildung DT x o, : M M derart, dass lim λ T x o + λ 1 w T x o = DT x o, v für beliebige v M. λ,w v

72 72 KAPITEL 7. KONVERGENZ IN VERTEILUNG Der Spezialfall, dass M = l T. Seien M und M o M abgeschlossene lineare Teilräume von l T, versehen mit der Supremumsnorm = T. Für ein festes F l T sei T ein reellwertiges Funktional auf dem affinen Raum F + M. Ferner sei ˆF n n eine Folge von F + M-Zufallselementen, so dass gilt: Z n := n ˆF n F L Z mit einer M o -Zufallsvariablen Z. Oftmals existiert der Grenzwert Hx := lim λ T F + λ 1 y T F λ,y x für beliebige x M o, wobei λ eine positive reelle Zahl und y eine Funktion aus M bezeichnen. Ist H linear auf M o, dann nennt man T Hadamard-differenzierbar kompakt differenzierbar im Punkt F tangential zu M o. Mit H n y := n T F + y/ n T F folgt dann aus Satz 7.9, dass n T ˆFn T F = H n Z n L HZ. Beispiel 7.11 Sei T G := sup t T Gt. Ferner sei ρ eine Metrik auf T. Angenommen, F erfüllt die folgenden zwei Bedingungen: K := { t T : F t = T F } ist nichtleer und kompakt bezüglich ρ; sup F t < T F für beliebige δ > 0. t T :ρt,k δ Dann ist lim λ T F + λ 1 y T F = max xt λ,y x t K für beliebige Funktionen x l T, welche in jedem Punkt t K stetig sind. Die Menge M o all dieser Funktionen ist ein abgeschlossener linearer Teilraum von M; siehe Aufgabe 7.2. Beweis. Für beliebige δ > 0 gilt: λ λ sup t T :ρt,k δ sup t T :ρt,k<δ λ sup t T F + λ 1 yt T F F + λ 1 yt T F F + λ 1 yt T F λ sup t T :ρt,k δ F t T F + y für λ und y x, sup yt t T :ρt,k<δ max xt für y x und δ 0, t K λ F + λ 1 yt T F = sup t K max t K sup t K yt xt für y x.

73 7.3. STETIGE UND ASYMPTOTISCH STETIGE ABBILDUNGEN 73 Beispiel 7.12 Sei T = R, sei M die Menge aller x l R, so dass xr 0 für r, und sei F eine feste Verteilungsfunktion. Für 0 < β < 1 und G F + M sei T G := inf { r R : Gr β }, das β-quantil von G. Angenommen, F r = β + cr T F + o r T F für r T F mit c > 0. Dann ist lim λ T F + λ 1 y T F xt F = λ,y x c für beliebige Funktionen x M, welche in T F stetig sind. Beweis. Für beliebige δ > x /c gilt: λ sup r T F λ 1 δ F + λ 1 yr β λ inf F + r T F +λ 1 δ λ 1 yr β λ F T F λ 1 δ β + y cδ + x λ, y x < 0, λ F T F + λ 1 δ β y cδ x λ, y x > 0, und λ F + λ 1 y T F + λ 1 s β cs + xt F λ, y x gleichmäßig in s [ δ, δ]. Beispiel 7.13 Die Länge des Shorth, Grübel 1988 Seien T = R, F und M wie in Beispiel Für G F + M sei nun T G := inf { u t : < t < u <, Gu Gt 1/2 }, ein robustes Skalenfunktional. Ein Intervall [t, u] mit Gu Gt 1/2 und u t = T G ist ein shorth shortest interval with probability at least one h alf von G. Angenommen, F hat eine stetige Dichte f derart, dass {f > 0} = a, b. Ferner sei f streng monoton wachsend auf a, mf ] und streng monoton fallend auf [mf, b für ein mf a, b. Für jedes feste δ 0, b a hat dann die Funktion r F r + δ F r δ ein eindeutiges Maximum an der Stelle r δ, so dass fr δ + δ = fr δ δ. Insbesondere ist T F = 2δ o, wobei r o = r δo und δ o > 0 eindeutig charakterisiert werden durch fr o + δ o = fr o δ o und F r o + δ o F r o δ o = 1/2.

74 74 KAPITEL 7. KONVERGENZ IN VERTEILUNG Hier kann man zeigen, dass 7.8 lim λ,y x λ T F + λ 1 y T F = xr o δ o xr o + δ o fr o + δ o für beliebige x M, welche in r o ± δ o stetig sind Aufgabe Gleichmässige Konvergenz Sei F eine Familie von messbaren, beschränkten Funktionen f auf M. Der Satz von der stetigen Abbildung impliziert, dass IE fz n IE fz, falls Z n L Z und f LZ-fast überall stetig ist. Das kann man auch wie folgt formulieren: lim IP δ 0 sup x,y UZ,δ fx fy > ɛ = 0 für beliebige ɛ > 0. Als Funktion von z ist sup x,y Uz,δ fx fy von unten halbstetig. Nun geht es um die Frage, unter welchen Voraussetzungen IE fz n IE fz gleichmäßig in f F gegen Null konvergiert. Satz 7.14 Billingsley, Topsøe 1967 Angenommen, IPZ M o = 1 für eine separable Borelmenge M o M. Folgende zwei Bedingungen an F und LZ sind äquivalent: 7.9 sup IE fz n IE fz 0 wann immer Zn L Z. f F 7.10 sup f F lim δ 0 sup fx fy < x,y M sup IP f F sup x,y UZ,δ und fx fy > ɛ = 0 für beliebige ɛ > 0. Dieser Satz verallgemeinert folgendes Resultat: Korollar 7.15 Rao 1962 Angenommen, IPZ M o = 1 für eine separable Borelmenge M o M. Sei sup f F sup x,y M fx fy <, und F sei in jedem Punkt x M o gleichgradig stetig. Das heißt, lim δ 0 Dann folgt aus Z n L Z, dass sup fy fx = 0 für beliebige x M o. f F,y Ux,δ sup IE fz n IE fz 0. f F Ein spezielles Beispiel für F in Korollar 7.15 ist die Klasse aller Funktionen f auf M mit fx 1 und fx fy dx, y für alle x, y M.

75 7.4. GLEICHMÄSSIGE KONVERGENZ 75 Korollar 7.16 Angenommen, IPZ M o = 1 für eine separable Borelmenge M o M. Dann folgt aus Z n L Z, dass sup IP Z n A IPZ UA, ɛ + 0 für beliebige ɛ > 0. A M Korollar 7.17 Angenommen, M = R d und Dann folgt aus Z n L Z, dass IPZ H = 0 für beliebige Halbräume H R d. sup IP Z n H IPZ H 0. Halbräume H R d Beweis von Satz Zunächst weisen wir die Notwendigkeit von 7.10 für 7.9 nach. Angenommen die erste Teilbedingung von 7.10 ist nicht erfüllt. Dann existieren Folgen f n n in F und x 1n n, x 2n n in M mit 1 r n := f n x 1n f n x 2n. Nun seien Z n 1 n und Z n 2 n Folgen von Zufallsvariablen mit LZ j n := Beide Folgen konvergieren in Verteilung gegen Z, aber 1 1 rn LZ + 1 rn δ xjn. IE f n Z 1 n IE f n Z 2 n = r n. Folglich kann dann auch 7.9 nicht erfüllt sein. Angenommen, die zweite Teilbedingung von 7.10 ist nicht erfüllt. Dann existiert ein ɛ o > 0 und eine Folge f n n in F mit IP f n x f n y > ɛ o ɛ o für alle n. sup x,y UZ,1/n Nun seien X n 1, X n 2 : M M Abbildungen mit X n j z Uz, n 1 und f n X n 1 z f n X n 2 z 1 sup f n x f n y 2 x,y Uz,1/n für beliebige z M. Dann sind Z j n Z j n := X j n Z M-Zufallselemente mit dz j, Z < n 1, also L Z nach Korollar 7.6. Aber Aussage 7.9 kann nicht erfüllt sein, da IE f n Z n 1 IE f n Z n 2 IE fn Z n 1 IE f n Z n 2 ɛ o 2 IP sup f n x f n y > ɛ o x,y UZ,1/n n ɛ2 o 2.

76 76 KAPITEL 7. KONVERGENZ IN VERTEILUNG Somit ist Bedingung 7.10 notwendig für 7.9. Eine Frage, der wir hier nicht nachgehen, ist: Kann man erreichen, dass die X n j Dann wären die Z n j sogar Zufallsvariablen. messbar sind? Angenommen es gilt Die Wahrheit von Aussage 7.9 bleibt unverändert, wenn man jede Funktion f F mit einer Konstanten c > 0 multipliziert und eine Konstante a f addiert. Daher nehmen wir ohne Einschränkung an, dass 0 f 1 für alle f F. Für δ > 0 gibt es paarweise disjunkte Borelmengen B δ,1, B δ,2, B δ,3,... mit folgenden Eigenschaften: sup dx, y < δ x,y B δ,k 2, IPZ B δ,k = 0 und M o B δ,l. l N Sei nämlich {x k : k N} eine dichte Teilmenge von M o. Für jedes k existiert ein δ k [δ/8, δ/4 mit IPZ Bx k, δ k = 0. Dann haben die Mengen B δ,1 := Bx 1, δ 1 und B δ,k+1 := Bx k+1, δ k+1 \ l k Bx l, δ l die gewünschten Eigenschaften. Nun gilt für beliebige N N, ɛ > 0 und f F: IE fz n IP Z n k N IP Z n + k N k N B δ,k + IP Z n B δ,k sup fx k N x B δ,k B δ,k + IP Z n B δ,k IPZ B δ,k k N IPZ B δ,k sup x B δ,k fx. Ferner ist IE fz IPZ B δ,k inf fx x B δ,k k N = k N k N k N IPZ B δ,k sup x B δ,k fx k N IPZ B δ,k sup x B δ,k fx ɛ IP IPZ B δ,k sup fx ɛ sup IP x B δ,k g F IPZ B δ,k sup fx fy x,y B δ,k sup fx fy > ɛ x,y UZ,δ sup x,y UZ,δ gx gy > ɛ. Denn für beliebige z B δ,k ist B δ,k Uz, δ, so dass aus sup x,y Bδ,k fx fy > ɛ folgt, dass auch sup x,y Uz,δ fx fy > ɛ. Falls also Z n L Z, so folgt aus dem Portmanteau-

77 7.5. SCHWACHE KONVERGENZ IN WAHRSCHEINLICHKEIT 77 Theorem, dass sup IE fz n IE fz f F IP Z n B δ,k k N + ɛ + sup IP g F IP Z k N sup x,y UZ,δ + k N B δ,k + ɛ + sup IP f F IP Z n B δ,k IPZ B δ,k gx gy > ɛ 0 N ; dann δ 0; dann ɛ 0. Ersetzt man f F durch 1 f, dann folgt analog, dass lim sup n = lim sup n sup IE fz IE fz n f F sup x,y UZ,δ fx fy > ɛ sup IE 1 fz n IE1 fz 0. f F Beweis von Korollar Aus der gleichgradigen Stetigkeit von F in jedem Punkt von M o folgt, dass M o δ>0 { } z M : sup fx fy ɛ f F,x,y Uz,δ für beliebige ɛ > 0, und dies impliziert den zweiten Teil von Bedingung 7.10 für beliebige M o -Zufallsvariablen Z. Beweis von Korollar Für beliebiges festes ɛ > 0 und A M ist 1 A f A := 1 d, A/ɛ + 1UA,ɛ, und f A ist Lipschitz-stetig mit Konstante 1/ɛ. Folglich ist IP Z n A IPZ UA, ɛ IE f A Z n IE f A Z, und die Behauptung folgt aus Korollar 7.15, angewandt auf F := {f A : A M}. Beweis von Korollar Nach Korollar 7.16 genügt es zu zeigen, dass sup IP Z UH, ɛ \ H 0 für ɛ 0. Halbräume H R d Diese Aussage ist Bestandteil von Aufgabe Schwache Konvergenz in Wahrscheinlichkeit Seien P und P n, n N, Wahrscheinlichkeitsmaße auf M. Dann konvergiert die Folge P n n schwach gegen P, falls lim n f dp n = f dp für beliebige f C b M.

78 78 KAPITEL 7. KONVERGENZ IN VERTEILUNG In Symbolen: P n w P. Mit Zufallsvariablen Z P und Z n P n ist dies äquivalent zu Z n L Z. Folglich kann man alle bisherigen Resultate über Verteilungskonvergenz umformulieren in Resultate über schwache Konvergenz. Angenommen, man ersetzt die P n durch zufällige Wahrscheinlichkeitsmaße P n. Das bedeutet, jedes P n ist eine Abbildung von einem Wahrscheinlichkeitsraum in die Menge der Wahrscheinlichkeitsmaße auf BM. Eine naheliegende Verallgemeinerung der schwachen Konvergenz ist die schwache Konvergenz in Wahrscheinlichkeit: Die Folge P n n konvergiert schwach gegen P in Wahrscheinlichkeit, wenn f d P n p f dp für beliebige f C b M. In Symbolen: P n w,p P. Man kann alle bisherigen Resultate auf zufällige Folgen P n n übertragen. Zum Beispiel besagt hier das Portmanteau-Theorem unter anderem, dass P n w,p P genau dann, wenn Pn A P A + p 0 für beliebige abgeschlossene Mengen A M. Ferner folgt aus der schwachen Konvergenz von P n n gegen P in Wahrscheinlichkeit, dass f d P n f dp p 0, sup f F vorausgesetzt, P ist auf einer separablen Borelmenge M o M konzentriert, und die Funktionenfamilie F erfüllt Bedingung 7.10 mit Z P. Im Falle X = M konvergiert ˆP n n schwach gegen P in Wahrscheinlichkeit. Denn für beliebige Funktionen f L 2 P ist IE ˆP n f = P f und Var ˆP n f = P f 2 P f 2 /2 = O1/n. Insofern bietet Satz 7.14 eine andere Möglichkeit, um uniforme Konsistenz von ˆP n nachzuweisen. 7.6 Straffheit Im folgenden sei M o eine feste Borelmenge in M. Definition 7.18 Die Zufallsvariable Z heißt straff auf M o, wenn zu jedem ɛ > 0 ein Kompaktum K M o existiert, so dass IPZ K ɛ. Mit anderen Worten, es gibt eine σ-kompakte Teilmenge von M o, die Z mit Wahrscheinlichkeit Eins enthält. Definition 7.19 Die Folge Z n n heißt asymptotisch straff auf M o, wenn zu jedem ɛ > 0 ein Kompaktum K M o existiert, so dass lim sup n IP Z n U ɛ für alle offenen U K.

79 7.6. STRAFFHEIT 79 Im Falle von M o = M spricht man einfach von Straffheit anstelle von Straffheit auf M o. Satz 7.20 Prohorov, LeCam Angenommen die Folge Z n n ist sowohl asymptotisch messbar als auch asymptotisch straff auf M o. Dann existiert zu jeder Teilfolge von Z n n eine Teilteilfolge, welche in Verteilung gegen eine auf M o straffe Zufallsvariable konvergiert. Eine naheliegende Frage ist, ob Straffheit beziehungsweise asymptotische Straffheit sehr spezielle Eigenschaften sind. Aus dem Portmanteau-Theorem folgt direkt, dass die Folge Z n n asymptotisch straff ist auf M o, sofern sie in Verteilung gegen eine auf M o straffe Zufallsvariable konvergiert. Unter gewissen Voraussetzungen an den Teilraum M o ist jede M o -Zufallsvariable notwendig straff, und es gibt auch ein einfacheres Kriterium für asymptotische Straffheit. Satz 7.21 Prohorov, LeCam Sei M o separabel und vollständig bezüglich der Metrik d. I Angenommen zu jeder Teilfolge von Z n n existiert eine Teilteilfolge, welche in Verteilung gegen eine M o -Zufallsvariable konvergiert. Dann ist Z n n asymptotisch straff auf M o. Sind darüber hinaus alle Z n M o -Zufallsvariablen, dann gibt es sogar zu jedem ɛ > 0 ein Kompaktum K M o mit sup IPZ n K ɛ. n N II Angenommen zu jedem ɛ > 0 existiert ein Kompaktum K M o mit lim sup n IP Z n UK, ɛ ɛ. Dann ist die Folge Z n n asymptotisch straff auf M o. Beweis von Satz Für l N sei K l M o kompakt, so dass lim sup n IP {Z n U} l 1 für alle offenen U K l. Erster Schritt: Zu jeder Teilfolge von Z n n existiert eine Teilteilfolge Z nk k, so dass für beliebige f C b M der Grenzwert existiert. Lf := lim k IE fz nk Beweis: Bekanntlich ist C b M, Kl separabel; siehe auch Abschnitt 7.7. Folglich kann man eine abzählbare Teilmenge G l von C b M mit folgender Eigenschaft konstruieren: Für beliebige f C b M und ɛ > 0 existiert ein g G l mit f g Kl ɛ und g M = g Kl. Nach dem zweiten Cantorschen Diagonalverfahren existiert zu jeder Teilfolge von Z n n eine Teilteilfolge Z nk k, so dass die Folge IE gz nk für beliebige g in der abzählbaren Menge k

80 80 KAPITEL 7. KONVERGENZ IN VERTEILUNG l=1 G l konvergiert. Doch dann konvergiert sogar IE fz nk k für beliebige f C bm. Denn zu beliebigem l N und ɛ > 0 sei g G l wie oben. Dann ist IE fz n IE gz n f g UKl,δ + 2 f M + ɛ/l + o1 für beliebige δ > 0. Wegen der Kompaktheit von K l konvergiert f g UKl,δ gegen f g Kl für δ 0. Folglich ist lim sup j,k IE fz nj IE fz nk 2ɛ + 22 f M + ɛ/l. Für l und ɛ 0 folgt, dass IE fz nk eine Cauchyfolge ist, also konvergiert. k Zweiter Schritt: Das Funktional C b M f Lf aus dem ersten Schritt ist eine Linearform, so dass gilt: Lf 0, falls f 0, L1 = 1, und 7.11 Lf f Kl + f M /l für alle l N und f C b M. Beweis: Aus Lemma 7.1 folgt, dass L sublinear ist, das heißt, Lrf = rlf und Lf + g Lf + Lg für r 0 und f, g C b M. Denn alle Funktionale IE fz n haben diese Eigenschaft. Außerdem ist offensichtlich Lf 0, falls f 0, und L1 = 1. Doch die asymptotische Meßbarkeit von Z n n impliziert, dass stets Lf = L f. Zusammen mit der Sublinearität folgt daraus die Linearität von L. Aus der Konstruktion der Mengen K l folgt, dass stets Lf f Kl + f M /l für alle l N; siehe auch den Beweis des ersten Schrittes. Dritter und letzter Schritt: Es existiert ein Wahrscheinlichkeitsmaß Q auf BM, so dass Lf = f dq für alle f C b M, und QM \ K l l 1 für alle l N. Insbesondere konvergiert Z nk k in Verteilung gegen eine M-Zufallsvariable Z mit LZ = Q, welche auf M o straff ist. Beweis: Aus 7.11 und dem Satz von Dini folgt, dass Lf = lim Lf m m für jede Folge f m m in C b M, welche punktweise monoton wachsend gegen f C b M konvergiert. Denn für beliebige l N ist lim sup Lf Lf m lim sup f f m Kl + f f 1 M /l nach 7.11 m m = f f 1 M /l Satz von Dini 0 für l. Nach dem Satz von Daniell-Port-Stone aus der Maßtheorie existiert ein Wahrscheinlichkeitsmaß Q auf BM mit Lf = f dq für alle f C b M; siehe auch die nachfolgende Beweisskizze. Insbesondere ist QM \ K l gleich dem Grenzwert lim k L minkd, K l, 1 l 1.

81 7.6. STRAFFHEIT 81 Konstruktion von Q im Beweis von Satz Für offene Mengen U M sei QU := sup { Lf : f CM, 0 f 1 U }. Für beliebige Mengen S M definiert QS := inf { QU : U S, U offen } ein äußeres Wahrscheinlichkeitsmaß auf M. Denn offensichtlich ist Q = 0, QM = 1 und QS QT für S T M. Zu zeigen ist die σ-subadditivität von Q. Sei S := k=1 S k mit beliebigen Mengen S k M. Für festes ɛ > 0 wählen wir offene Mengen U k S k derart, dass QU k QS k + 2 k ɛ. Dann ist U := k=1 U k eine offene Umgebung von S, also sicherlich QS QU. Für k, N N sei h k,n := min Nd, M \ U k, 1, eine stetige Funktion mit 0 h k,n 1 Uk und h k,n 1 Uk für N. Aus den Eigenschaften von L folgt daher, dass für jede stetige Funktion f mit 0 f 1 U gilt: Lf = lim L min f, N QS k + ɛ. k=1 N h k,n k=1 lim N k=1 N Lh k,n QU k k=1 Für Lf QU und ɛ 0 ergibt sich, dass QS k=1 QS k. Nach dem Satz von Caratheodory aus der Maßtheorie genügt es nun zu zeigen, dass für eine beliebige abgeschlossene Menge A M gilt: 7.12 QS A + QS \ A QS für alle S M. Denn die Familie aller Mengen A M mit Eigenschaft 7.12 ist eine σ-algebra über M, und Q ist auf dieser Familie σ-additiv. Zum Nachweis von 7.12 für eine abgeschlossene Menge A halten wir zunächst fest, dass QS T = QS + QT für beliebige Mengen S, T M mit strikt positivem Abstand inf { dx, y : x S, y T }. Dies kann man leicht aus der Definition von Q ableiten. Nun betrachten wir die abgeschlossenen Mengen B k := {x : dx, A k 1 } und die Mengen C k := B k \ B k 1 mit B 0 :=. Zwei Mengen C k und C l haben strikt positiven Abstand, wenn k l 2. Daher ist k=1 QC k gleich lim N N QC 2j 1 + j=1 N j=1 QC 2j N N = lim Q C 2j 1 + Q C 2j N j=1 j=1 2,

82 82 KAPITEL 7. KONVERGENZ IN VERTEILUNG also endlich. Dies impliziert, dass für beliebige Indizes k o N gilt: QS A + QS \ A = QS A + Q S B ko k>k o C k QS A + QS B ko + k>k o QC k = Q S A B ko + k>k o QC k QS + k>k o QC k, und für k o ergibt sich Zu zeigen bleibt, dass tatsächlich Lf = f dq für alle f C b M. Hierzu genügt es, den Fall f 0 zu betrachten. Für beliebige feste δ > 0 ist f = δ h i mit h i x := minδ 1 fx, i i + 1 { + 1 { fx > δi 1 }, 1 { fx > δi }, und h i 0 für hinreichend großes i. Folglich ist δ Q{f > δj} j=0 Lf = δ Lh i δ Q{f > δi} 0 0 Q{f > r} dr + δ = Q{f > r} dr δ = f dq + δ, f dq δ, denn δz+1 δz Q{f > r} dr δq{f > δz} δz δz 1 Q{f > r} dr. Für δ 0 folgt die Behauptung. Beweis von Satz Sei {x i : i N} eine dichte Teilmenge von M o. Sowohl unter den Voraussetzungen von Teil I als auch unter denen von Teil II gibt es zu jedem δ > 0 ein N N mit 7.13 lim sup n IP Z n N Ux i, δ δ. Nachweis von 7.13 unter den Voraussetzungen von Teil I. Angenommen, es existieren ein δ o > 0 und Indizes n1 < n2 < n3 <..., so dass IP Z nk k Ux i, δ o > δ o für alle k N. Nach Voraussetzung kann man die Teilfolge Z nk k weiter ausdünnen, so dass für neue Indizes n1 < n2 < n3 < und m1 < m2 < m3 < gilt: Z nk L Z k

83 7.6. STRAFFHEIT 83 für eine M o -wertige Zufallsvariable Z, aber IP Z nk Nach dem Portmanteau-Theorem ist mk Ux i, δ o > δ o für alle k N. δ o lim sup IP mk Z nk Ux i, δ o k IP Z N k=1 Ux i, δ o für jedes feste N N. Doch wegen M o k=1 Ux i, δ o ist die rechte Seite strikt kleiner als δ o für hinreichend großes N, ein Widerspruch zu unserer Annahme. Nachweis von 7.13 unter den Voraussetzungen von Teil II. Für beliebiges δ > 0 fixieren wir eine Zahl 0 < ɛ < δ und ein Kompaktum K M derart, dass lim sup n IP Z n UK, ɛ ɛ. Doch K N Ux i, δ ɛ für hinreichend großes N N, und dies impliziert, dass UK, ɛ N Ux i, δ. Anwendung von Nun können wir die Teile I und II gemeinsam abhandeln. Für ein beliebiges festes ɛ > 0 und für k N sei also Nk N so gewählt, dass lim sup n IP Z n A k 2 k ɛ mit A k := Nk Bx i, 2 k ɛ. Die Menge K := ist abgeschlossen und nichtleer, denn alle A k sind abgeschlossen, und x 1 K. Außerdem ist K k N BM o, 2 k ɛ = M o, da M o vollständig und somit abgeschlossen ist. Die folgende Behauptung, die wir am Ende begründen, impliziert Kompaktheit von K: k=1 A k 7.14 Zu jeder Folge y m m von Punkten y m m k=1 A k existiert eine Teilfolge, die gegen einen Punkt in K konvergiert. Nun sei U eine beliebige offene Umgebung von K. Dann kann man aus 7.14 ableiten, dass L k=1 A k U für ein hinreichend großes L N. Folglich ist lim sup n IP Z n U L k=1 lim sup n IP Z n A k ɛ. In dem Spezialfall, dass in I alle Z n M o -Zufallsvariablen sind, kann man die Nk so wählen, dass IPZ n A k 2 k ɛ für alle n, k N, und folglich ist IPZ n K ɛ für beliebige n N.

84 84 KAPITEL 7. KONVERGENZ IN VERTEILUNG Beweis von 7.14: Aufgrund der Abgeschlossenheit aller A k liegt jeder Häufungspunkt von y m m in K. Man muss also nur nachweisen, dass es eine konvergente Teilfolge gibt. Sei N0 := N. Für k = 1, 2, 3,... wählen wir nun induktiv ik {1, 2,..., Nk}, so dass die Menge Nk := { m Nk 1 : y m Bx ik, 2 k ɛ } unendlich ist. Ferner sei mk das k-tkleinste Element von Nk. Dies liefert eine Teilfolge y mk k, so dass gilt: y mj Bx ik, 2 k ɛ für j k. Insbesondere ist diese Folge eine Cauchy-Folge mit dy mk, M o 2 k ɛ für alle k. Wegen der Vollständigkeit von M o konvergiert sie gegen einen Punkt y M o. Straffheit und der Satz von Stone-Weierstrass. Schließlich sei noch erwähnt, dass man im Falle von Straffheit mithilfe des Satzes von Stone-Weierstrass die asymptotische Messbarkeit und Verteilungskonvergenz oft einfacher nachweisen kann. Auch die Gleichheit in Verteilung von M- Zufallsvariablen wird dadurch vereinfacht. Satz 7.22 Sei F eine Teilfamilie von C b M mit folgenden Eigenschaften: Mit f, g F ist auch fg F; für beliebige verschiedene x, y M o existiert ein f F mit fx fy. a Seien Z, Z auf M o straffe Zufallsvariablen mit 7.15 IE fz = IE f Z für alle f F. Dann ist LZ = L Z. b Angenommen, die Folge Z n n N ist asymptotisch straff auf M o. Ferner sei 7.16 lim IE fz n IE fz n = 0 für alle f F. n Dann ist die Folge Z n n asymptotisch messbar. Zusätzlich existiere Lf := lim n IE fz n für alle f F. Dann konvergiert Z n n in Verteilung gegen eine auf M o straffe Zufallsvariable Z. Beweis. Sei G der von F {1} aufgespannte Vektorraum, und sei G sein Abschluss bezüglich M. Dann überträgt sich Eigenschaft 7.15 von F auf G. Aus Lemma 7.1 kann man ableiten, dass sich auch Eigenschaft 7.16 von F auf G überträgt. Zu beliebigem ɛ > 0 wählen wir nun ein Kompaktum K M o, so dass IPZ K, IP Z K ɛ

85 7.6. STRAFFHEIT 85 in Teil a, beziehungsweise lim sup n IP Z n UK, δ ɛ für beliebige δ > 0 in Teil b. Aus dem Satz von Stone-Weierstrass Satz 7.34 folgt, dass zu jeder Funktion f C b M ein g G existiert, so dass Somit ist f g K = 0 und g M f M. IE fz IE f Z f M IPZ K + f M IP Z K 2 f M ɛ, und für δ > 0 gilt: lim sup IE fz n IE fz n n 2 f g UK,δ + 2 f M lim sup n 2 f g UK,δ + 2 f M ɛ 2 f M ɛ δ 0. IP Z n UK, δ Dies beweist Teil a und die asymptotische Messbarkeit von Z n n in Teil b. Angenommen, in Teil b existiert der Grenzwert Lf := lim n IE fz n für alle f F. Aus Prohorovs Theorem und Teil a folgt die Existenz einer Zufallsvariablen Z M, so dass zu jeder Teilfolge von Z n n eine Teilteilfolge existiert, welche in Verteilung gegen Z konvergiert. Mit einem einfachen Widerspruchsbeweis zeigt man nun, dass dann auch die Folge Z n n selbst in Verteilung gegen Z konvergiert. Dieser Satz vereinheitlicht eine ganze Reihe von Techniken, um schwache Konvergenz nachzuweisen. In manchen Fällen hat man noch das Glück, dass die Konvergenz von IE fz n und IE fz n für beliebige f F bereits die asymptotische Straffheit von Z n n impliziert. Beispiel 7.23 Charakteristische Funktionen Sei M = R d und F die Menge aller Funktionen fx = α sinv x + β cosv x mit α, β R und v R d. Diese Klasse F erfüllt die Voraussetzungen von Satz Die Verteilung einer R d -wertigen Zufallsvariable Z wird also durch ihre charakteristische Funktion, eindeutig festgelegt. R d v IE exp 1 v Z C, Betreffend Konvergenz in Verteilung betrachten wir der Einfachheit halber nur Zufallsvariablen: Für beliebige v R d existiere der Grenzwert lv := lim n IE cosv Z n, wobei l im Nullpunkt stetig ist. Dann ist Z n n asymptotisch straff. Denn für beliebige Vektoren v R d ist Cv := 1 0 lrv dr = lim n 1 0 IE cosrv Z n dr = lim n IE sinv Z n v Z n,

86 86 KAPITEL 7. KONVERGENZ IN VERTEILUNG wobei sin0/0 := 1. Doch sinx/x 1{ x < 2}+1{ x 2}/2 = 1 1{ x 2}/2, weshalb lim sup n IP v Z n Cv. Mit einer Orthonormalbasis u 1, u 2,..., u d des R d ergibt sich also für R > 0, dass lim sup n IP max j=1,...,d u j Z n 2R 2 d 1 CR 1 u i 0 R 0, da nach Voraussetzung lim v 0 Cv = l0 = 1. Aus diesen Betrachtungen und Satz 7.22 ergibt sich folgender Stetigkeitssatz für charakteristische Funktionen: Korollar 7.24 Lévy-Cramér Sei Z n n eine Folge von R d -wertigen Zufallsvariablen derart, dass für beliebige v R d der Grenzwert lv := lim IE exp 1 v Z n C n existiert. Ist l im Nullpunkt stetig, dann ist lv = IE exp 1 v Z für eine R d -wertige Zufallsvariable, und Z n L Z. Beispiel 7.25 Laplace-Transformierte Sei M = [0, und F die Menge aller Funktionen fx = exp λx mit λ 0. Diese Familie erfüllt die Voraussetzungen von Satz Die Verteilung einer [0, - wertigen Zufallsvariable Z wird also durch ihre Laplace-Transformierte, eindeutig festgelegt. [0, λ IE exp λz, Angenommen, für beliebige λ 0 existiert der Grenzwert lλ := lim n IE exp λz n, und l ist im Nullpunkt stetig. Dann ist Z n n asymptotisch straff. Denn für λ > 0 und x 0 ist exp λx 1{x < λ 1 } + e 1 1{x λ} = 1 1 e 1 1{x λ 1 }, so dass also IE exp λz n 1 1 e 1 IP Z n λ 1, lim sup n IP Z n λ 1 1 lλ 1 e 1. Dies liefert einen Stetigkeitssatz für die Laplace-Transformierte von nichtnegativen Zufallsvariablen: Korollar 7.26 Sei Z n n eine Folge von [0, -wertigen Zufallselementen derart, dass für beliebige λ 0 der Grenzwert lλ := lim n IE exp λz n = lim IE exp λz n n existiert. Ist l im Nullpunkt stetig, dann ist lλ = IE exp λz für eine [0, -wertige Zufallsvariable Z, und Z n L Z.

87 7.7. FUNKTIONALE GRENZWERTSÄTZE 87 Beispiel 7.27 Sei M = l T, versehen mit der Supremumsnorm T. Dann erfüllt die Menge F aller Funktionen fx := f o xtt To mit endlichen Mengen T o T und beschränkten stetigen Funktionen f o : T o R die Voraussetzungen von Satz Hier ist asymptotische Straffheit schwieriger nachzuweisen; siehe Abschnitt Funktionale Grenzwertsätze Hier betrachten wir die Menge l T aller beschränkten Funktionen x : T R versehen mit der Supremumsnorm = T. Das erste Resultat charakterisiert die separablen Teilmengen von l T. Lemma 7.28 Sei M o eine separable Teilmenge von l T. Dann existiert eine Pseudometrik ρ auf T, so dass gilt: T, ρ ist präkompakt, und alle Funktionen in M o sind gleichmäßig stetig bezüglich ρ. Ein pseudometrischer Raum T, ρ heißt präkompakt oder totalbeschränkt, wenn man für beliebige δ > 0 die Menge T mit endlich vielen Kugeln mit Radius δ bezüglich ρ überdecken kann. Mit anderen Worten, für beliebige δ > 0 ist die Überdeckungszahl Nδ, T, ρ endlich; siehe Abschnitt 6.1. Beweis von Lemma Sei {x k : k N} eine dichte Teilmenge von M o. Dann definieren wir ρs, t = k N min x k s x k t, 2 k. Man kann zeigen, dass ρ eine Pseudometrik auf T ist; siehe unter anderem Aufgabe 7.9. Ferner sind alle Funktionen x k gleichmäßig stetig bezüglich ρ, denn aus ρs, t δ < 2 k folgt notwendig, dass x k s x k t δ. Dann sind aber auch alle Funktionen in M o gleichmäßig stetig bezüglich ρ; siehe Aufgabe Zu zeigen ist nun, dass T, ρ präkompakt ist. Für ɛ > 0 wählen wir N N mit 2 N ɛ/2. Dann ist ρs, t k N x ks xt + ɛ/2. Die Menge { xk t k N : t T } ist eine beschränkte Teilmenge des R N, da alle Funktionen x k beschränkt sind. Folglich existiert eine endliche Teilmenge T o von T, so dass Somit ist ρt, T o ɛ für beliebige t T. min x k s x k t ɛ/2 für alle t T. s T o k N

88 88 KAPITEL 7. KONVERGENZ IN VERTEILUNG Im folgenden sei ρ eine feste Pseudometrik auf T, so dass T, ρ präkompakt ist, und T sei eine dichte Teilmenge von T bezüglich ρ. Ferner sei C u T, ρ die Menge aller bezüglich ρ gleichmäßig stetigen Funktionen auf T. Mit dem Stetigkeitsmodul ωx, δ = ωx, δ ρ := einer Funktion x l T kann man schreiben: C u T, ρ = sup xs xt s,t T :ρs,t<δ { } x l T : lim ωx, δ = 0. δ 0 Lemma 7.29 Der Raum C u T, ρ ist vollständig und separabel bezüglich. Beweis von Lemma Wir konstruieren zunächst eine spezielle Folge von Abbildungen, die wir mehrfach verwenden werden: Für k N sei T k eine endliche Teilmenge von T derart, dass sup t T ρt, T k < k 1, und es seien T 1 T 2 T 3. Nun definieren wir λ k t, u := 1 kρt, u / kρt, v für t T und u T k. Man beachte, dass die Summe im Nenner von Null weg beschränkt ist. Offensichtlich ist 0 λ k, u 1{ρ, u < k 1 } und λ k, u 1. u T k Ferner wird in Aufgabe 7.11 gezeigt, dass die Funktionen λ k, u, u T k lipschitzstetig bezüglich ρ sind. Für x l T oder x l T k = R T k sei nun Π k x := xuλ k, u C u T, ρ. u T k v T k Dann ist Π k eine lineare Abbildung von l T beziehungsweise l T k nach C u T, ρ, so dass gilt: 7.17 Π k x x Tk für alle x l T l T k, x Π k x ωx, k 1 für alle x l T. Letztere Ungleichung folgt aus xt Π k xt = xt xuλ k t, u u T k u T k xt xu λ k t, u u T k ωx, k 1 λ k t, u = ωx, k 1.

89 7.7. FUNKTIONALE GRENZWERTSÄTZE 89 Nun zum eigentlichen Beweis von Lemma 7.29: Die Vollständigkeit von C u T, ρ ist Gegenstand von Aufgabe Aus 7.17 folgt, dass { Πk y : y Q T } k k N eine abzählbare, dichte Teilmenge von C u T, ρ darstellt. Denn für beliebige x C u T und k N ist inf y Q T k x Π k y ωx, k 1 + inf y Q T k x y Tk = ωx, k 1 0 k. Lemma 7.30 Ein C u T, ρ-zufallselement Z ist genau dann messbar, wenn Zt für beliebige t T messbar ist. Die Verteilung einer C u T, ρ-wertigen Zufallsvariable Z wird eindeutig bestimmt durch ihre endlichdimensionalen Randverteilungen, L Zt t To, To T endlich. Beweis. Sei D die Menge aller Durchschnitte von endlich vielen abgeschlossenen Kugeln in C u T, ρ. Dann ist D ein erzeugendes System der Borelmengen von C u T, ρ. Denn aufgrund der Separabilität von C u T, ρ kann man jede offene Teilmenge hiervon als abzählbare Vereinigung abgeschlossener Kugeln darstellen. Doch jede Menge D D hat folgende Form: Für ein m N, Funktionen x 1,..., x m C u T, ρ und Zahlen η 1,..., η m 0 ist m { } D = y Cu T : y x i η i = m k=1 = k N D k { } y Cu T : y x i Tk η i mit D k := m { y Cu T : y x i Tk η i } und den Mengen Tk T aus dem Beweis von Lemma Die Indikatorfunktion 1{Z D k } ist eine messbare Funktion von Zt t Tk. Daher ist Z genau dann messbar, wenn Zt für alle t T messbar ist. In diesem Falle ist IPZ D = lim k IPZ D k, da D 1 D 2 D 3. Also wird IPZ D durch die Randverteilungen L Zt t Tk, k N, bestimmt. Da D durchschnittstabil ist, bestimmen diese Verteilungen sogar LZ. Im Hinblick auf Abschnitt 7.6 ist eine naheliegende Frage, wie präkompakte Teilmengen von C u T, ρ aussehen. Dies wird durch den Satz von Arzelà-Ascoli aus der Funktionalanalysis beantwortet. Es sei nur darauf hingewiesen, dass folgende Eigenschaft von Z n n in engem Zusammenhang mit asymptotischer Straffheit steht. Definition 7.31 Eine Folge von Folge Z n n N von l T -Zufallselementen heißt asymptotisch stochastisch gleichstetig bezüglich ρ, wenn lim lim sup IP ωz n, δ > ɛ = 0 für beliebige ɛ > 0. δ 0 n

90 90 KAPITEL 7. KONVERGENZ IN VERTEILUNG Nun kommen wir zum Hauptsatz dieses Abschnitts. Satz 7.32 Sei Z n n eine Folge von l T -Zufallselementen. Dann sind folgende Aussagen äquivalent: a Z n n ist stochastisch gleichstetig, und für beliebige endliche Mengen T o T konvergiert Z n t t To in Verteilung gegen eine l T o -Zufallsvariable Y To. b Z n n konvergiert in Verteilung gegen eine C u T, ρ-wertige Zufallsvariable Z. Unter diesen Bedingungen ist L Zt t To = LYTo für alle endlichen Teilmengen T o von T. Beweis. Daß Bedingung b Bedingung a impliziert, folgt aus dem Satz von der stetigen Abbildung und dem Portmanteau-Theorem. Denn x xt t To und x ωx, δ sind stetige Abbildungen auf l T, wobei lim IP ωz, δ ɛ = 0 für beliebige ɛ > 0. δ 0 Umgekehrt sei Bedingung a erfüllt. Zu beliebigem ɛ > 0 existiert ein k N mit lim sup n IP ωz n, k 1 ɛ ɛ/2. Mit T k und Π k aus dem Beweis von Lemma 7.29 ist also lim sup n IP Z n Π k Z n ɛ ɛ/2; siehe Doch Z n t t Tk konvergiert in Verteilung gegen eine l T k -Zufallsvariable Y k. Insbesondere existiert eine reelle Zahl R > 0 mit Doch dann ist K := { Π k y : y Tk Stetigkeit von Π k, und IP Y k Tk R ɛ/2. R } eine kompakte Menge in C u T, ρ aufgrund der IP Z n UK, ɛ IP Z n Π k Z n ɛ + IP Π k Z n K IP Z n Π k Z n ɛ + IP Z n Tk R ɛ + o1, gemäß dem Portmanteau-Theorem. Nach Lemma 7.29 und Teil II von Satz 7.21 ist also Z n n asymptotisch straff auf C u T, ρ. Doch nun folgt Aussage b aus Satz 7.22, angewandt auf die Menge F aller Funktionen der Form fx = g xt t To mit endlichen Teilmengen T o von T und beschränkten stetigen Funktionen g auf R To.

91 7.8. EXKURS: DER SATZ VON STONE WEIERSTRASS 91 Skizze eines anderen Beweises von a = b. Man kann die Resultate aus Abschnitt 7.6 wie folgt umgehen. Die Limites Y k l T k von Z n t t Tk, k N, erfüllen folgende Bedingung: LY k = L Y l t t Tk für 1 k < l. Nach dem Existenzsatz von Kolmogorov existiert ein stochastischer Prozess Z auf T := k T k mit L Zt t Tk = LYk für alle k N. Mit den Stetigkeitsmoduli ω k, und ω, von Funktionen auf T k bzw. T gilt: ω k, ω, für k, weshalb IP ω Z, δ > ɛ = lim k IP ω k Z, δ > ɛ lim k lim sup n lim sup n 0 δ 0. IP ω k Z n, δ ɛ IP ωz n, δ ɛ Also hat Z fast sicher gleichmäßig stetige Pfade auf T bezüglich ρ. Zusammen mit Lemma 7.30 kann man also folgern, dass eine C u T, ρ-zufallsvariable Z existiert, so dass L Zt t Tk = LY k für alle k. Für f C Lip l T, [0, 1] mit Lipschitzkonstante L gilt demnach: IE fz n IE fz IE fz n fπ k Z n + IE fz fπ k Z + IE fπ k Z n IE fπ k Z = IE fz n fπ k Z n + IE fz fπ k Z + o1 2Lɛ + IP ωz n, k 1 ɛ + IP ωz, k 1 ɛ + o1, und der limes superior der rechten Seite wird beliebig klein, für geeignete k N und ɛ > Exkurs: Der Satz von Stone Weierstrass In diesem Abschnitt behandeln wir ein klassisches Resultat über die Approximation beliebiger durch spezielle stetige Funktionen. Zunächst erinnern wir an ein einfaches Resultat über die Approximation stetiger Funktionen durch Bernstein-Polynome: Lemma 7.33 Sei f : [a, b] R lipschitzstetig mit Konstante L. Für n N sei B n fx := j=0 n j x a b a j b x n j f a + b a j. b a n Dann ist B n f f [a,b] Lb a 2 n. Beweis von Lemma Für p [0, 1] sei Y p Binn, p. Dann ist B n f a + b ap = IE f a + b ay p /n.

92 92 KAPITEL 7. KONVERGENZ IN VERTEILUNG Folglich ist B n f a + b ap f a + b ap f IE a + b ayp /n f a + b ap IE Lb a Y p /n p Lb a VarY p /n Lb a/ 4n. Nun formulieren wir das allgemeine Resultat für stetige Funktionen auf einem metrischen Raum M, d. Resultat und Beweis sind sogar für beliebige topologische Räume gültig. Satz 7.34 Stone Weierstrass Sei K eine kompakte Teilmenge von M. Ferner sei A eine Teilmenge von C b M mit folgenden Eigenschaften: i Für beliebige λ R und g, h A gehören auch λg und g + h zu A. ii Für beliebige g, h A gehört auch gh zu A. iii Die konstante Funktion 1 gehört zu A. iv Für beliebige x, y K mit x y existiert ein g A derart, dass gx gy. Bezeichnen wir mit A den Abschluss von A bezüglich M, dann existiert zu jedem f C b M ein g A derart, dass g f auf K und g M f K. Beweis von Satz Man kann sich leicht davon überzeugen, dass die Eigenschaften i - iv erhalten bleiben, wenn man A durch A ersetzt. Wir können also ohne Einschränkung annehmen, dass A = A. Schritt 1: Aus den Bedingungen i - iv ergibt sich eine zusätzliche Eigenschaft von A: Für beliebige g, h A gehören auch ming, h und maxg, h zu A. Denn ming, h und maxg, h lassen sich schreiben als g + h + g h /2 bzw. g + h g h /2. Folglich genügt es zu zeigen, dass g A für beliebige g A. Doch mit [a, b] := [ g M, g M ] und fx := x in Lemma 7.33 folgt, dass g der uniforme Grenzwert der Funktionen B n f g für n ist. Wegen der Eigenschaften i - iii gehört mit g auch B n f g zu A. Schritt 2: Für beliebige kompakte Mengen A, B K mit A B = existiert eine Funktion h A mit Werten in [0, 1], so dass h 0 auf A und h 1 auf B. Um dies zu zeigen, wählen wir für beliebige x, y K mit x y eine Funktion h o x,y A derart, dass h o x,y < 0 und h o x,y > 1. Dies ist möglich wegen i, iii, iv. Dann ist aber h x,y := max minh o x,y, 1, 0 eine Funktion in A mit Werten in [0, 1], und es existieren offene Umgebungen U x,y von x sowie V x,y von y, so dass h x,y 0 auf U x,y und h x,y 1 auf V x,y. Für festes x A bilden die Mengen

93 7.9. AUFGABEN 93 V x,y, y B, eine offene Überdeckung von B. Folglich existiert eine endliche Teilmenge B o x von B derart, dass B y B ox V x,y. Insbesondere ist h x := max y B ox h x,y eine Funktion in A mit Werten in [0, 1], so dass h x 0 auf der offenen Umgebung U x := y B ox U x,y von x, und h x 1 auf B. Nun bilden die Mengen U x, x A, eine offene Überdeckung von A. Es existiert also eine endliche Teilmenge A o von A derart, dass A x A o U x. Doch dann ist h := min x A o h x eine Funktion mit den gewünschten Eigenschaften. Schritt 3: Nun sei f eine beliebige Funktion in C b M. Dann konstruieren wir eine Funktion h 1 A wie folgt: Wir wählen Funktionen h ± 1 mit Werten in [ 0, 2 1 ] ± f K derart, dass h 1 0 auf {±f 0} K und h ± f K auf { ± f 2 1 } f K K. Mit h1 := h + 1 h 1 kann man leicht zeigen, dass h 1 A und h 1 M 2 1 f K, h 1 f K 2 1 f K. Nun wiederholen wir diesen Prozess induktiv: Seien h 1,..., h l bereits gewählt, so dass h j M 2 j f K für j = 1,..., l und l h j f 2 l f K. K j=1 Dann wiederhole die obige Konstruktion von h 1 mit f l j=1 h j an Stelle von f um h l+1 zu erhalten. Letztlich ist dann der Grenzwert g := j=1 h j eine Funktion in A mit den gewünschten Eigenschaften. 7.9 Aufgaben Aufgabe 7.1 Seien M, und M, normierte Räume, T : M M eine Abbildung und x o ein fester Punkt in M. Zeigen Sie, dass die folgenden Aussagen äquivalent sind: a Es existiert eine stetige Abbildung H : M M derart, dass lim t 0 für jede kompakte Teilmenge K von M. sup t 1 [T x o + tv T x o ] Hv = 0 v K b Es existiert eine Abbildung H : M M derart, dass lim λ T x o + λ 1 w T x o = Hv λ, w v für alle v M. Insbesondere ist H dann stetig.

94 94 KAPITEL 7. KONVERGENZ IN VERTEILUNG Aufgabe 7.2 Sei T, ρ ein metrischer Raum und S eine beliebige Teilmenge von T. Zeigen Sie, dass die Menge aller x l T, welche in jedem Punkt s S stetig sind, ein abgeschlossener Untervektorraum von l T ist. Aufgabe 7.3 Zeigen Sie, dass die Menge M aller x l R mit lim t xt = 0 ein abgeschlossener linearer Teilraum von l R ist. Aufgabe 7.4 Beweisen Sie die kompakte Differenzierbarkeit des Funktionals T in Beispiel 7.13, i.e. Aussage 7.8. Aufgabe 7.5 Sei P ein Wahrscheinlichkeitsmaß auf R d mit der Eigenschaft, dass P { x R d : u x = r } = 0 für beliebige u R d und r R. Zeigen Sie, dass lim ɛ 0 sup P { x R d : r u x r + ɛ } = 0. u R d,r R Aufgabe 7.6 Momentenmethode Sei M = [0, 1] und F = {f 1, f 2, f 3,...} mit f k x := x k. Formulieren und begründen Sie nun mit Hilfe von Satz 7.22 Aussagen über a die Charakterisierung von Verteilungen auf [0, 1] und b Konvergenz in Verteilung von [0, 1]-wertigen Zufallselementen. Aufgabe 7.7 Sei M = M 1 M 2 mit metrischen Räumen M 1, d 1 und M 2, d 2, und sei dx 1, x 2, y 1, y 2 := max d 1 x 1, x 2, d 2 x 2, y 2. a Angenommen, Z ist straff. Zeigen Sie, dass Z n n genau dann in Verteilung gegen Z konvergiert, wenn lim n IE fz n = IE fz für alle stetigen Funktionen f der Form fx 1, x 2 = f 1 x 1 f 2 x 2 mit f i CM i, [0, 1]. b Zeigen Sie, dass Z n n genau dann asymptotisch straff und asymptotisch messbar ist, wenn mit Z n = Z n1, Z n2 beide Folgen Z n1 n und Z n2 n asymptotisch straff und asymptotisch messbar sind. Aufgabe 7.8 Zeigen Sie, dass N d µ n, Σ n w N d µ, Σ genau dann, wenn µ n µ und Σ n Σ. Aufgabe 7.9 Sei ρ, eine Pseudo- Metrik auf einer Menge T. Ferner sei h : [0, [0, monoton wachsend und stetig mit h0 = 0, Grenzwert h > 0, und hr + s hr + hs für alle r, s 0. Zeigen Sie, dass h ρ ebenfalls eine Pseudo- Metrik auf T darstellt und die gleiche Topologie wie ρ definiert.

95 7.9. AUFGABEN 95 Aufgabe 7.10 Sei T, ρ ein pseudometrischer Raum, und für n N sei x n : T R eine bezüglich ρ gleichmäßig stetige Funktion. Angenommen, x n n konvergiert gleichmäßig gegen eine Funktion x. Zeigen Sie, dass auch x gleichmäßig stetig bezüglich ρ ist. Aufgabe 7.11 Sei T o eine endliche Teilmenge eines pseudometrischen Raumes T, ρ, und sei sup t T ρt, T o < δ für eine Konstante δ > 0. Für t T und u T o sei λt, u := 1 δ 1 ρt, u / + 1 δ 1 ρt, v +. v T o Zeigen Sie, dass die Funktionen λ, u, u T o, lipschitzstetig bezüglich ρ sind. Aufgabe 7.12 Sei Ŝn der Partialsummenprozess aus Abschnitt 1.2, und sup f F fx ni sei für alle i n endlich. Zeigen Sie, dass Ŝn eine l F-Zufallsvariable ist. Aufgabe 7.13 Zeigen Sie, dass die Abbildung nicht Borel-messbar ist. R y 1{y } l R Hinweis: Zeigen Sie, dass für beliebige Mengen B R die Menge der Indikatorfunktionen 1{y }, y B, abgeschlossen ist in l R. Verallgemeinerung: Für n N ist die Abbildung R n y n 1{y i } nicht Borel-messbar.

96 96 KAPITEL 7. KONVERGENZ IN VERTEILUNG

97 Kapitel 8 Brownsche Bewegung und Brücke In diesem Kapitel betrachten wir die Funktionenräume l [0, 1] und l R, wobei R mit der üblichen Metrik ρs, t := t s versehen wird. 8.1 Stochastische Gleichstetigkeit auf [0, 1] Lemma 8.1 Sei Z ein l [0, 1]-Zufallselement. Für beliebige 0 < δ 1 und η > 0 ist IP ωz, δ/2 > 2η 2δ 1 sup IP sup Zu Zt > η. t [0,1 δ] u [t,t+δ] Beweis. Für 0 j 2/δ sei I j := [jδ/2, j +1δ/2] [0, 1]. Zu u, v [0, 1] mit u v < δ/2 existiert stets ein j < 2/δ mit u, v I j I j+1, und I j I j+1 [t j, t j + δ] mit t j := minjδ/2, 1 δ. Folglich ist IP ωz, δ/2 > 2η 2/δ 1 j=0 2/δ 1 j=0 2δ 1 sup t [0,1 δ] IP sup Zu Zv > 2η u,v I j I j+1 IP sup Zu Zt j > η u I j I j+1 IP sup u [t,t+δ] Zu Zt > η. Die Frage ist nun, wie man die rechte Seite der Ungleichung in Lemma 8.1 abschätzen kann. Lemma 8.2 Lévy. Sei Z ein stochastischer Prozess auf [a, b] mit rechtsseitig stetigen Pfaden und unabhängigen Zuwächsen; das heißt, für a t < u b sind Zs s [a,t] und Zu Zt stochastisch unabhängig. Für beliebige η > 0 ist IP Z [a,b] > η IP Zb > η/2 + sup IP Zb Zt > η/2. t [a,b] Falls zusätzlich 0 MedianZb Zt für a t < b, ist sogar IP Z [a,b] > η 2 IP Zb > η. 97

98 98 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Beweis. Wegen der rechtsseitigen Stetigkeit der Pfade von Z genügt es, die Behauptung mit Z T an Stelle von Z [a,b] zu beweisen, wobei T {b} eine beliebige endliche Teilmenge von [a, b] ist. Sei Dann ist {t } τ := min T : Zt > η { }. { Z T > η} = {τ T } { τ T, Zb η/2 } { Zb > η/2 }, und { τ T, Zb η/2 } ist gleich { } τ = t, Zb η/2 {τ = t} { Zb Zt > η/2 }, t T denn Zt > η auf {τ = t}. Folglich ist IP Z T > η IP Zb > η/2 + IP τ T, Zb η/2 t T IP Zb > η/2 + t T IPτ = t IP Zb Zt > η/2 IP Zb > η/2 + sup IP Zb Zt > η/2. t [a,b] Wenn zusätzlich IP Zb Zt 0 1/2 und IP Zb Zt 0 1/2 für a t b, dann ist IPτ = t = IP τ = t, Zt > η + IP τ = t, Zt < η 2 IP τ = t, Zt > η, Zb Zt IP τ = t, Zt < η, Zb Zt 0 2 IP τ = t, Zb > η + 2 IP τ = t, Zb < η = 2 IP τ = t, Zb > η, und die gewünschte Ungleichung folgt durch Aufsummieren über alle t T. 8.2 Donskers Invarianzprinzipien Definition 8.3 Gaußprozess Ein Gaußprozess auf einer beliebigen Indexmenge T ist ein stochastischer Prozess Z auf T, so dass für beliebige m N und t 1, t 2,..., t m T der Vektor Zt j 1 j m R m Gauß-verteilt ist. Ist IEZ 0, so nennt man den Prozess Z zentriert. Definition 8.4 Brownsche Bewegung Eine Brownsche Bewegung auf T = [0, 1] oder T = [0, ist ein zentrierter Gaußprozess W auf T mit fast sicher stetigen Pfaden und Kovarianzen IEW tw u = mint, u für t, u T. Eine äquivalente Definition: Eine Brownsche Bewegung auf T ist ein zentrierter Gaußprozess W auf T mit fast sicher stetigen Pfaden und unabhängigen Zuwächsen, wobei W 0 = 0 fast sicher, und W u W t N 0, u t für 0 t < u T.

99 8.2. DONSKERS INVARIANZPRINZIPIEN 99 Definition 8.5 Brownsche Brücke Eine Brownsche Brücke ist ein zentrierter Gaußprozess B auf [0, 1] mit stetigen Pfaden und Kovarianzen IEBtBu = mint, u tu. Anmerkung 8.6 Eigenschaften der Brownschen Bewegung und Brücke Die Existenz einer Brownschen Bewegung bzw. Brücke ist nicht offensichtlich sondern folgt implizit aus den Sätzen 8.7 und 8.8. Wir weisen bereits auf folgende Eigenschaften und Zusammenhänge hin: Sei B eine Brownsche Brücke, und sei Y standardnormalverteilt und unabhängig von B. Dann definiert W t := Bt + ty eine Brownsche Bewegung auf [0, 1], t W t := 1 + tb eine Brownsche Bewegung auf [0,. 1 + t Sei W eine Brownsche Bewegung auf [0, 1]. Dann definiert Bt := W t tw 1 eine Brownsche Brücke, weshalb man die Brownsche Brücke auch als tied-down Brownian motion bezeichnet. Sei W eine Brownsche Bewegung auf [0,, und seien σ > 0, v > u 0. Dann definiert W t := σ 1 W σ 2 t, { tw 1/t falls t > 0, W t := 0 falls t = 0, W t := W v + t W v jeweils eine Brownsche Bewegung auf [0,. Ferner definiert Bt := W 1 tu + tv 1 tw u tw v v u eine Brownsche Brücke. Nun kommen wir zu den Sätzen von Donsker. Im ersten Fall betrachten wir Partialsummenprozesse [0, 1] t W n t := n 1/2 1{i nt}y ni. Satz 8.7 Donsker Angenommen, für jedes n sind Y n1, Y n2,..., Y nn unabhängig und identisch verteilt mit Ferner sei IEY n1 = 0 und VarY n1 = 1. lim IE 1{Y 2 n n1 ɛn}yn1 2 = 0 für beliebige ɛ > 0. Dann konvergiert W n n in Verteilung gegen eine Brownsche Bewegung auf [0, 1].

100 100 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Im zweiten Fall betrachten wir den uniformen empirischen Prozess Ĝn aus Abschnitt 3.2, genauer gesagt, die Standardisierung [0, 1] t B n t := n 1/2 Ĝnt t = n 1/2 1{Ui t} t. Satz 8.8 Donsker Die Folge B n n konvergiert in Verteilung gegen eine Brownsche Brücke. Beweis von Satz 8.7. Aus dem Lindebergschen Zentralen Grenzwertsatz kann man folgern, dass für beliebige f C b R gilt: 8.1 lim n sup 0 u<v 1 IE f W n u W n t IE f u t Y = 0, wobei Y standardnormalverteilt ist. Ferner hat der Prozess W n unabhängige Zuwächse, weshalb Wn L t i W n t i 1 1 i m w N m 0, diag t i t i 1 m für beliebige m N und 0 = t 0 < t 1 < t 2 < < t m 1. Zusammen mit W n 0 0 folgt hieraus die schwache Konvergenz der endlichdimensionalen Randverteilungen von W n gegen zentrierte Normalverteilungen mit der gewünschten Kovarianzstruktur. Zu zeigen bleibt die stochastische Gleichstetigkeit von W n n. Nach Lemma 8.1 und 8.2 genügt hierzu der Nachweis, dass lim δ 0 lim sup n Doch aus 8.1 folgt, dass lim sup n sup δ 1 IP W n u W n t ɛ = 0 für alle ɛ > 0. 0<u t δ sup δ 1 IP W n u W n t ɛ 0<u t δ sup δ 1 IP u t Y ɛ = δ 1 IP Y δ 1/2 ɛ δ 1 exp δ 1 ɛ 2 /2, 0<u t δ und für δ 0 konvergiert die rechte Seite gegen Null. Beweis von Satz 8.8. Für beliebiges festes n ist der Erwartungswert von B n gleich Null, und IE B n tb n u = mint, u tu. Aus dem multivariaten Zentralen Grenzwertsatz folgt, dass L B n t i 1 i m w N m 0, mint i, t j t i t j m i,j=1 für beliebige m N und t 1, t 2,..., t m [0, 1]. Zu zeigen bleibt also die stochastische Gleichstetigkeit von B n n. Diese folgt direkt aus Lemma 8.9. Lemma 8.9 Für 0 < δ 1 und η δ ist stets IP ωb n, δ/2 > 5η 32 exp δ η2 4δ + exp 3 8 nδ.

101 8.3. ANWENDUNG AUF GETRIMMTE MITTELWERTE 101 Wählt man in Lemma 8.9 η = κδ loge/δ mit κ > 4, dann konvergiert die obere Schranke gegen Null für δ 0 und nδ/ log n. Bis auf die große Konstante κ beschreibt dies das exakte Verhalten von ωb n,, denn W. Stute 1982 zeigte, dass hier ωb n, δ = 2δ log1/δ1 + o p 1. Beweis von Lemma 8.9. Wir betrachten zunächst B n als stochastischen Prozess auf einer abzählbaren dichten Teilmenge der Menge T aller Paare s, t [0, 1] 2 mit 0 < t s < δ/2 vermöge B n s, t := B n t B n s. Dann ist nämlich ωb n, δ/2 = B n T, und für alle s, t T gilt: Var[B n s, t] δ/2, also IP B n s, t η 1/2. Mit einer unabhängigen Kopie B n von B n und dem symmetrisierten Prozess B o nt := n 1/2 n ξ i1{u i t} gilt also: IP ωb n, δ/2 > 5η 2 IP ωb n B n, δ/2 > 4η 4 IP ωb o n, δ/2 > 2η nach Symmetrisierungslemma 3.1 a und Symmetrisierungslemma 3.2 a. Diese obere Schranke ist nach Lemma 8.1 und Lemma 8.2 nicht größer als 8 δ sup IP t [0,1 δ] sup u [t,t+δ] Bnu o Bnt o > η = 8 δ IP = 8 δ IE IP sup u [0,δ] sup u [0,δ] Bnu o > η Bnu o > η U 16 δ IE IP B o nδ > η U mit U := U i n. Nun verwenden wir Hoeffdings und Bennetts Ungleichung und erhalten IP ωb n, δ/2 > 5η 32 δ IE exp 32 δ 32 δ exp exp η2 η2 2Ĝnδ + IP Ĝ n δ > 2δ 4δ η2 4δ + exp B1nδ 2 Die Behauptung folgt jetzt aus der Ungleichung B1 3/4; siehe Anmerkung Anwendung auf getrimmte Mittelwerte Seien P und P n Wahrscheinlichkeitsverteilungen auf R mit Verteilungsfunktionen F bzw. F n. Ferner sei ˆP n die empirische Verteilung von unabhängigen Zufallsvariablen X n1, X n2,..., X nn mit Verteilung P n. Die Verteilungsfunktion von ˆP n sei ˆF n. Eine Standardmethode, um den empirischen Mittelwert zu robustifizieren, besteht darin, die Variablen X ni der Größe nach zu ordnen und die kn größten sowie die kn kleinsten Zahlen aus der Stichprobe zu entfernen, wobei kn := nα mit 0 < α < 1/2. Der Mittelwert dieser reduzierten Stichprobe ist ein getrimmter Mittelwert. Im Falle von paarweise verschiedenen Beobachtungen X ni ist dieser getrimmte Mittelwert bis auf einen Faktor 1 + O1/n gleich T ˆP n,

102 102 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE wobei allgemein T P := 1 2α 1 1{α < F x β} x P dx mit β := 1 α. Es ist T P = µ, falls P stetig und um µ symmetrisch ist. Satz 8.10 Angenommen P n n konvergiert schwach gegen P, wobei F stetig und auf dem Intervall {0 < F < 1} streng isoton ist. Ferner sei ωf n, 0+ = max P {x} = on 1/2. x R Dann ist wobei T ˆP n T P n = 1 2α 1 H d ˆP n P n + o p n 1/2, Hx := 1{F x α}f 1 α + 1{α < F x β} x + 1{β < F x}f 1 β. Die Funktion H ist stetig und beschränkt. Aus dem Lindebergschen Zentralen Grenzwertsatz folgt daher, dass L n P n := L n 1/2 [T ˆP n T P n ] w N 0, 1 2α 2 Var X P [HX]. Andererseits folgt aus den Voraussetzungen des Satzes, dass auch ˆF n F R = o p 1 und ω ˆF n, 0+ = o p n 1/2 Aufgabe 8.2. Folglich konvergiert auch L n ˆP n schwach gegen N 0, 1 2α 2 Var X P [HX] in Wahrscheinlichkeit, ist also ein konsistenter Schätzer für L n P n. Die Verteilung L n ˆP n ist ein sogenannter Bootstrap-Schätzer für L n P n und kann auch wie folgt beschrieben werden: Sei ˆP n die empirische Verteilung von Zufallsvariablen X n1, X n2,..., X nn mit L Xn1, Xn2,..., Xnn X n1, X n2,..., X nn = ˆPn ˆP n ˆP n. Dann ist L n ˆP n = L n 1/2 [T ˆP n T ˆP n ] X n1, X n2,..., X nn. Der Beweis von Satz 8.10 beruht im wesentlichen auf folgender Ungleichung: Lemma 8.11 Sei Q ein weiteres Wahrscheinlichkeitsmaß auf R mit Verteilungsfunktion G. Sei tp := 1{α < F x β} x P dx. Falls G F < α, so ist tq tp = h dq P + R, wobei hx := 1{F x α}f 1 α+ + 1{α < F x β} x + 1{β < F x}f 1 β+.

103 8.3. ANWENDUNG AUF GETRIMMTE MITTELWERTE 103 und R 10 + δ ωg F, δ+ + ωf, 0+ := max F 1 u+, u {α,β} δ := max F 1 u + G F + u {α,β} + 4δ G F, F 1 u G F +. Beweis von Satz Aus den Voraussetzungen an F und F n folgt, dass F n F R = o1 und δ n := sup F 1 u + r+ F 1 u = o1. u {α,β}, r n 1/3 n Mit dem uniformen empirischen Prozess Ĝn und B n := n 1/2 Ĝn id ist ferner ˆF n F n verteilt wie n 1/2 B n F n, also ˆF n F n R = O p n 1/2, ω ˆF n F n, δ n = L n 1/2 ωb n F n, δ n n 1/2 ω B n, ωf n, δ n + = o p n 1/2. Aus Lemma 8.11 folgt dann, dass T ˆP n T P n = 1 2α 1 H n d ˆP n P n + o p n 1/2, wobei H n x := 1{F n x α}f 1 n α+ + 1{α < F n x β}x + 1{β < F n x}f 1 β+. Doch aus F n F R = o1 kann man leicht ableiten, dass H n H R = o1, weshalb Hn d ˆP n P n = H d ˆP n P n + o p n 1/2. n Beweis von Lemma Wir teleskopieren tq tp = 1{α < Gx β} 1{α < F x β} x Qdx + 1{α < F x β} x Q P dx und analysieren nun das erste Integral auf der rechten Seite. Es ist 1{α < G β} 1{α < F β} = 1{α < G} 1{β < G} 1{α < F } + 1{β < F } = 1 J1 α 1 J2 α 1 J1 β + 1 J2 β, wobei J 1 u := {F u < G} und J 2 u := {G u < F }

104 104 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE für u {α, β}. Zum einen ist J 1 u {F u < F + G F } = { F u G F, u ]} J 2 u {F G F u < F } = { F u, u + G F ]} { F u G F, u + G F ]} [ F 1 u G F +, F 1 u + G F + ]. } Mit x u := F 1 u+ gilt demnach für beliebige δ o > δ: für k = 1, 2. Insbesondere ist LebJ k u < δ o und sup x x u < δ o x J k u QJ k u P J k u ω o := ωg F, δ o. Ferner ist aufgrund der Tatsache, dass P J k u G F + 2ωF, P F K LebK 2ωF, 0+ für beliebige Intervalle K [0, 1]. Alles in allem ist J k u x Qdx x u P J k u x x u Qdx + QJk u P J k u J k u δ o QJ k u + QJ k u P J k u + δ o ω o + δ o G F + 2δ o ωf, 0+, und somit 1{α < Gx β} 1{α < F x β} x Qdx = x α P J1 α P J 2 α x β P J1 β P J 2 β + R, wobei R 4 + δ o ω o + 4δ o G F + 8δ o ωf, 0+.

105 8.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSSPROZESSEN 105 Nun betrachten wir die Differenz P J 1 u P J 2 u. Es ist J 1 u = { x J 1 u : F x u < F x + G F x } { F u < F + G F x u + ω o } = { F u G F x u ω o, u ]}, J 1 u = { x : u G F < F x u < F x + G F x } Analog zeigt man, dass { x : u G F F x u < F x + G F x u ω o } = { x : F x u < F x + G F x u ω o } = { F u G F x u + ω o, u ]}. { F u, u G F xu ω o ]} J2 u { F u, u G F x u + ω o ]}. Zusammen mit 8.2 folgt also, dass P J1 u P J 2 u G F x u 2ωo + 4ωF, 0+. Ferner ist G F x u 1{F u} dq P max Q{x} P {x} ω o, x R und 1{F u} dq P = 1{u < F } dq P. Folglich ist x α P J1 α P J 2 α x β P J1 β P J 2 β = 1{F < α}xα + 1{β < F }x β dq P + R, wobei R 6 ω o + 8 ωf, 0+. Insgesamt erhalten wir die Entwicklung tq tp = h dq P + R mit R 10 + δ o ω o + ωf, δ o G F. Für δ o δ ergibt sich die Behauptung. 8.4 Verteilungen von Funktionalen von Gaussprozessen Maximum und Supremumsnorm der Brownschen Brücke Nachfolgend ermitteln wir die Verteilungen von max t [0,1] Bt und B [0,1] für eine Brownsche Brücke B. Als Hilfsmittel benötigen wir zwei nützliche Eigenschaften der Brownschen Bewegung.

106 106 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Satz 8.12 Starke Markov-Eigenschaft Sei M ein stochastischer Prozess auf [0, mit folgenden Eigenschaften: M0 0, und M hat rechtsseitig stetige Pfade; M hat unabhängige Zuwächse, wobei LMt + δ Mt = LMδ für t, δ 0. Sei τ = τm eine Markovzeit. Das heißt, τ ist eine Zufallsvariable mit Werten in [0, ], so dass {τ t} σms : s t für 0 t <. Ferner sei M eine unabhängige Kopie von M. Dann definiert Mt := Mmint, τ + M t τ + = { Mt für t τ, Mτ + M t τ für t τ, einen stochastischen Prozess M mit der gleichen Verteilung und den gleichen Pfadeigenschaften wie M. Beispiele für solche Prozesse M sind der Standard-Poissonprozess und die Brownsche Bewegung auf [0,. Im letzteren Falle ist M symmetrisch, und man kann folgendes Resultat anwenden. Korollar 8.13 Spiegelungsprinzip Sei M ein stochastischer Prozess wie in Satz 8.12, so dass L M = LM. Sei τ = τm eine Markovzeit. Dann definiert M o t := Mmint, τ Mt Mmint, τ = { Mt für t τ, 2Mτ Mt für t τ, einen stochastischen Prozess M o mit der gleichen Verteilung und den gleichen Pfadeigenschaften wie M. Man sagt, der Prozess M o geht aus M durch Spiegelung zur Markovzeit τ hervor. Korollar 8.13 folgt aus Satz 8.12, indem man dort Mo wie M mit M anstelle von M definiert. Denn man kann leicht nachweisen, dass τm = τ M, und es ist M o t = Mmint, τ Mt Mmint, τ. Beweis von Satz Man sieht leicht, dass sich die Pfadeigenschaften von M und M auf M übertragen. Zu zeigen bleibt, dass M ein stochastischer Prozess mit der gleichen Verteilung wie M ist. Zu diesem Zweck betrachten wir für n N die Variablen τ n := 2 n 2 n τ und τ n := 2 n 2 n τ. Auch τ n ist eine Markovzeit, denn {τ n t} = { τ 2 n 2 n t }. Ferner konvergiert τ n n antiton und τ n n isoton gegen τ mit τ n τ n 2 n, falls τ <. Wegen der rechtsseitigen Stetigkeit von M und M ist Mmint, τ = lim n Mmint, τ n und M t τ + = lim n Mt τ n +,

107 8.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSSPROZESSEN 107 also ist auch Mt messbar. Ferner ist IP M t τ n + M t τ n + > ɛ IP τ n = 2 n k, sup M t M 2 n k > ɛ = k=1 IPτ n = 2 n k IP k=1 t [2 n k 1,2 n k] sup t [2 n k 1,2 n k] IP sup M t M 2 n > ɛ t [0,2 n ] 0 n M t M 2 n k > ɛ für beliebige ɛ > 0. Definiert man also M n wie M mit τ n anstelle von τ, dann konvergiert M n t n stochastisch gegen Mt, und es genügt zu zeigen, dass M n genauso verteilt ist wie M. Zu diesem Zwecke benutzen wir die Tatsache, dass für beliebige k < gilt: L M2 n k + t t 0 Ms : s 2 n k 8.3 = L M2 n k + M t t 0 Ms : s 2 n k. Für m N und 0 t 1 < t 2 < < t m sowie Borelmengen B 1, B 2,..., B m R ist folglich IP Mn t i B i für 1 i m = IP τ n = 2 n k, M n t i B i für 1 i m = = = = 0 k 0 k 0 k 0 k 0 k IP τ n = 2 n k, Mt i B i falls t i 2 n k, M2 n k + M t i 2 n k B i falls t i > 2 n k IE IP τ n = 2 n k, Mt i B i falls t i 2 n k, M2 n k + M t i 2 n k B i falls t i > 2 n k Ms : s 2 n k IE IP τ n = 2 n k, Mt i B i für 1 i m Ms : s 2 n k IP τ n = 2 n k, Mt i B i für 1 i m = IP Mt i B i für 1 i m, wobei der die vierte drittletzte Gleichung eine Folgerung aus 8.3 ist. Satz 8.14 Sei B eine Brownsche Brücke. Für beliebige η > 0 ist 8.4 IP max Bt η = exp 2η 2 und t [0,1] 8.5 IP B [0,1] η = 2 1 k 1 exp 2k 2 η 2. k=1

108 108 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Anmerkung 8.15 Man kann zeigen, dass eine Brownsche Brücke B fast sicher eine eindeutige Maximalstelle U = arg max t [0,1] Bt besitzt, wobei U U[0, 1]; siehe Aufgabe 8.5. Beweis von Satz Sei W eine Brownsche Bewegung auf [0, und Bt = W t tw 1 für t [0, 1]. Dann sind B und W 1 stochastisch unabhängig, weshalb Nach dem Portmanteau-Theorem ist also L W t t [0,1] W 1 ɛ w LB für ɛ lim ɛ 0 IP φw η W 1 ɛ = IPφB η, falls φb η fast sicher. Hierbei ist φx = max [0,1] x oder φx = x [0,1]. Angenommen, wir weisen nach, dass der Grenzwert in 8.6 für alle η > 0 existiert und in η stetig ist. Aus der Monotonie von IP φb η in η folgt dann die Gültigkeit von 8.6 für alle η > 0. Im Falle von φx = max [0,1] x sei τ = τw := inf { t 0 : W t η }. Spiegeln von W zur Stoppzeit τ liefert die Brownsche Bewegung W o t := W mint, τ W t W mint, τ, und für 0 < ɛ η gilt: IP max W η, W 1 ɛ [0,1] = IP τ 1, W 1 ɛ = IP τ 1, W o 1 2η ɛ = IP W o 1 2η ɛ, denn aus W o 1 2η ɛ η folgt bereits, dass τw = τw o 1. Daher ist IP max W η W 1 ɛ = IP W o 1 2η ɛ [0,1] IP W o 1 ɛ = N 0, 1 [2η ɛ, 2η + ɛ] N 0, 1[ ɛ, ɛ] Dies beweist Behauptung 8.4. exp 2η 2. Im Falle von φx = x [0,1] ist φw η genau dann, wenn W A 1 B 1 mit den Mengen A 1 := { x C[0, : xt = η für ein t [0, 1] }, B 1 := { x C[0, : xt = η für ein t [0, 1] }. Allerdings sind diese Ereignisse nicht disjunkt. Vielmehr ist A 1 B 1 = A 2 B 2, wobei allgemein A k := { x C[0, : es existieren 0 t 1 < t 2 < < t k 1 derart, dass xt i = 1 i 1 η für 1 i k }, B k := { x C[0, : es existieren 0 t 1 < t 2 < < t k 1 derart, dass xt i = 1 i η für 1 i k }.

109 8.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSSPROZESSEN 109 Im Falle von x [0,1] η existiert ein kx N mit A k B k falls 1 k < kx, x A k B k falls k = kx, A k B k falls k > kx. Insbesondere kann man nun zeigen, dass 1 { x [0,1] η } = 1 k 1 1{x A k } + 1{x B k } und k=1 N 1 k 1 1{x A k } + 1{x B k } {0, 1, 2} für alle N N. k=1 Aus dem Satz von der majorisierten Konvergenz folgt also, dass IP W [0,1] η, W 1 ɛ = 1 k 1 IP W A k, W 1 ɛ + IP W B k, W 1 ɛ = 2 k=1 1 k 1 IP W A k, W 1 ɛ. k=1 Um die Wahrscheinlichkeit von {W A k, W 1 ɛ} zu berechnen, betrachten wir für a 0, k N und 0 < ɛ η folgende Menge: C a,k := { x C[0, : es existieren 0 t 1 < t 2 < < t k 1 derart, dass xt i = a + 1 i 1 η für 1 i k und x1 a ɛ }. Die Spiegelung von x C[0, zur Stoppzeit τx := inf{t 0 : xt a + η} ergibt eine bijektive Abbildung von C a,k nach C a+2η,k 1, wobei C b,0 := {x : x1 b ɛ}. Aus dem Spiegelungsprinzip für W folgt also, dass IPW C a,k = IPW C a+2η,k 1, und induktiv ergibt sich die Formel IPW A k, W 1 ɛ = IPW C 0,k = IPW C 2η,k 1 = = IP W 1 2kη ɛ. Folglich ist IP W [0,1] η W 1 ɛ = 2 1 k 1 N 0, 1 [2kη ɛ, 2kη + ɛ] N 0, 1[ ɛ, ɛ] k=1 2 1 k 1 exp 2k 2 η 2 für ɛ 0. Dabei ist zu beachten, dass stets N 0, 1 [2kη ɛ, 2kη + ɛ] N 0, 1[ ɛ, ɛ] k=1 exp 2kη ɛ 2 /2 exp 2k 1 2 η 2. Man kann also den Grenzübergang summandenweise durchführen.

110 110 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Lineare und quadratische Funktionale von Gaußprozessen Sei T, ρ ein präkompakter pseudometrischer Raum und X ein Gaußprozess auf T mit gleichmäßig stetigen Pfaden. Dies impliziert, dass auch µ := IEX und K := CovX gleichmäßig stetige Funktionen auf T beziehungsweise T T sind. Dabei wird T T vermöge ρs, t, s, t := ρs, s + ρt, t metrisiert. Dies folgt im wesentlichen aus Aufgabe 7.8. Ferner sei Q ein Wahrscheinlichkeitsmaß auf den Borelmengen in T. Lemma 8.16 Sei Y ein stochastischer Prozess auf T mit gleichmäßig stetigen Pfaden, definiert auf dem Wahrscheinlichkeitsraum Ω, A, IP. Dann ist die Abbildung T Ω t, w Y tw BorelT A-messbar. Insbesondere ist IE Q { t T : Y t = ft } = IPY t = ft Qdt für beliebige messbare Funktionen f auf T, und IE Y t Qdt = IE Y t Qdt, falls Y 0 oder IE Y t Qdt <. Beweis. Für n N sei B n1, B n2,..., B nkn eine Partition von T in Borelmengen B ni mit diamb ni < n 1. Für feste Punkte t ni B ni ist Y n t := kn 1{t B ni }Y t ni ein stochastischer Prozess auf T mit Y n tw Y tw ωy, n 1 0 für beliebige t, w T Ω. Außerdem ist Y n messbar als Funktion auf T Ω, da { } t, w T Ω : Y n tw r = kn { } B ni w Ω : Y t ni w r. Somit ist auch Y eine messbare Funktion auf T Ω. Die weiteren Aussagen folgen nun aus dem Satz von Fubini. Satz 8.17 Für beliebige g L 1 Q ist Xg dq normalverteilt mit Mittelwert µg dq und Varianz Ks, tgsgt QdsQdt. Korollar 8.18 Für beliebige d N und g 1, g 2,..., g d L 1 Q ist Xg i dq d verteilt nach N µg i dq 1 i d, Ks, tg i sg j t QdsQdt 1 i,j d.

111 8.4. VERTEILUNGEN VON FUNKTIONALEN VON GAUSSPROZESSEN 111 Eine mögliche Charakterisierung von Normalverteilungen auf R d lautet wie folgt: Ein Zufallsvektor Y R d ist normalverteilt genau dann, wenn l Y R normalverteilt ist für beliebige l R d. Die Verallgemeinerung auf Banachräume lautet dann: Sei Y eine Zufallsvariable mit Werten in einem Banachraum B,. Man nennt Y normalverteilt, wenn LY normalverteilt ist für beliebige stetige Linearformen L auf B. Speziell für C u T, ρ, T besagt der Rieszsche Darstellungssatz, dass jede stetige Linearform L auf C u T, ρ von der Form Lx = x dν mit einem endlichen signierten Maß ν auf T ist. Aus Satz 8.17 und Lemma 7.30 folgt somit: Korollar 8.19 Die Menge der normalverteilten C u T, ρ-wertigen Zufallsvariablen ist identisch mit der Menge aller Gaußprozesse mit gleichmäßig stetigen Pfaden. Satz 8.20 Sei X zentriert. Es existiert ein vollständiges Orthonormalsystem φ k k von L 2 Q und eine monoton fallende Folge λ k k in [0, mit Ks, tφ j sφ k t QdsQdt = 1{j = k}λ k für alle j, k. Ferner ist k λ k = Kt, t Qdt und X 2 dq = L λ k Zk 2 k mit unabhängigen, standardnormalverteilten Zufallsvariablen Z 1, Z 2, Z 3,.... Im Falle einer Brownschen Brücke B und der Gleichverteilung auf [0, 1] definiert φ k t := 2 sinkπt ein vollständiges Orthonormalsystem von L 2 [0, 1] mit φ j tφ k ukt, u dt du = 1{j = k} π 2 k 2, wobei hier Kt, u = mint, u tu. Wie im Beweis von Satz 8.20 zeigt man, dass 1 0 Bt 2 dt = L k=1 Z 2 k π 2 k 2. Beweis von Satz Sei X n t := kn 1{t B ni}xt ni mit B ni und t ni B ni wie im Beweis von Lemma Dann konvergiert X n g dq in Verteilung gegen Xg dq. Doch X n g dq = Xt ni g dq i B ni N i µt ni g dq, B ni i,j Kt ni, t nj gsgt QdsQdt, B ni B nj und aus der gleichmäßigen Stetigkeit von µ und K folgt, dass Mittelwert und Varianz dieser Normalverteilung gegen µg dq beziehungsweise Ks, tgsgt QdsQdt konvergieren.

112 112 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Beweis von Satz Aus der Funktionalanalysis ist bekannt, dass Sgt := Kt, ugu Qdu g L 2 Q einen kompakten linearen Operator von L 2 Q nach L 2 Q definiert. Da Ks, t = Kt, s für alle s, t T, ist dieser Operator S symmetrisch und positiv semidefinit, denn Sgh dq = Ks, tgsht QdsQdt = Cov Xg dq, { = Shg dq, Xh dq 0 falls g = h. Aus dem Spektralsatz für kompakte, normale Operatoren auf Hilberträumen folgt die Existenz eines vollständigen Orthonormalsystems φ k k von L 2 Q mit Sφ k = λ k φ k, wobei λ 1 λ 2 λ 3 0. Nach Korollar 8.18 sind die Variablen Xφ k dq, k 0, stochastisch unabhängig und normalverteilt mit Mittelwert Null und Varianz λ k. Nach der Parsevalschen Gleichung ist somit Insbesondere ist nach Lemma X 2 dq = k k λ k = IE 2 Xφ k dq =L λ k Zk 2. X 2 dq = k Kt, t Qdt 8.5 Der uniforme Quantilprozess Mithilfe von Satz 8.8 kann man auch einen funktionalen Grenzwertsatz für den uniformen Quantilprozess Ĝ 1 n beweisen. Für u [0, 1] sei idu := u. Satz 8.21 Bahadur-Kiefer Die Folge n1/2 Ĝ 1 n id n konvergiert im Raum l [0, 1] in Verteilung gegen eine Brownsche Brücke. Ferner ist 1/2 n Ĝ 1 n id + n 1/2 Ĝn id = o p 1. Für den Beweis dieses Satzes benötigen wir folgendes Resultat: Lemma 8.22 Vervaat Sei T eine Abbildung von l [0, 1] nach l [0, 1] mit T 1 f T f T 2 f, wobei T 1 fu := inf { t [0, 1] : ft u } mit inf := 1, T 2 fu := sup { t [0, 1] : ft u } mit sup := 0. Für beliebige x l [0, 1] ist dann T id +x id x und T id +x id +x ω x, x +.

113 8.6. ANWENDUNGEN AUF RANGSTATISTIKEN UND -PROZESSE 113 Man beachte, dass Ĝ 1 n = T 1 Ĝ n und Ĝn = T 2 Ĝ 1 n. Daher folgt Satz 8.21 aus Satz 8.8 und Lemma 8.22, angewandt auf x = Ĝn id. Beweis von Lemma Für beliebiges festes u [0, 1] und t [ u, 1 u] ist id +xu + t = u + t + xu + t { > u falls t > x, < u falls t < x. Folglich ist T 2 id +xu u+ x und T 1 id +xu u x, also insbesondere T id +x id x. Mit ωo := ω x, x + ist ferner u + t + xu + t = u + t + xu + xu + t xu { > u falls t x und t > xu + ωo, < u falls t x und t < xu ω o. Dies zeigt, dass T 2 id +xu xu+ω o und T 1 id +xu xu ω o, also insbesondere T id +x id +x ω o. Anmerkung 8.23 Mithilfe von Satz 8.8 und Lemma 8.9 ergibt sich sogar, dass n 1/2 1/2 Ĝn id + n Ĝ 1 n id = O p n 1/4 logn 1/2. Anmerkung 8.24 Mithilfe des Invarianzprinzips für Partialsummenprozesse, Satz 8.7, kann man 1/2 Ĝ 1 n auch direkt nachweisen, dass n id in Verteilung gegen eine Brownsche Brücke konvergiert. Sei nämlich W n t := n 1/2 i nt Y i 1 mit unabhängigen, n exponentialverteilten Zufallsvariablen Y 1, Y 2, Y 3,.... Dann ist Ĝ 1 i nt n = Y i L i n+1 Y i siehe Abschnitt 3.5. Das heißt, t [0,1] = n 1/2 W n t + n 1 nt 1 + n 1/2 W n 1 + n 1 Y n+1 1/2 Wn t tw n 1 + R n t n Ĝ 1 n id = L 1 + S n t [0,1] mit S n := n 1/2 W n 1 + n 1 Y n+1 = O p n 1/2 und Demnach konvergiert n t [0,1] ; R n t := n 1/2 nt nt tn 1/2 Y n+1, R n = O p n 1/2. 1/2 Ĝ 1 n Aus Lemma 8.5, angewandt auf x = Ĝ 1 n Satz 8.8 ableiten. id in Verteilung gegen W W 1 id, eine Brownsche Brücke. id und T = T 2, kann man nun Satz 8.21 sowie 8.6 Anwendungen auf Rangstatistiken und -prozesse Mit Hilfe von Donskers Theorem Satz 8.8 und einfachen zusätzlichen Überlegungen kann man verschiedene Verfahren, die auf Rangstatistiken basieren, behandeln. Dazu eine einfache Vorüberlegung: Sei ˆF n die empirische Verteilungsfunktion von unabhängigen Zufallsvariablen X n1, X n2,

114 114 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE..., X nn mit stetiger Verteilungsfunktion F n. Dann sind die X ni fast sicher paarweise verschieden, und der Rang RX ni von X ni lässt sich schreiben als RX ni = n ˆF n X ni. Wenn man keine Stetigkeit von F n voraussetzen möchte und die übliche Konvention bei Bindungen anwendet, ergibt sich RX ni = n ˆFn X ni + ˆF n X ni /2 + 1/2. Aus Gründen der Bequemlichkeit betrachten wir aber nur stetige Verteilungsfunktionen. Spearmans Rangkorrelationskoeffizient. Seien X n1, Y n1, X n2, Y n2,..., X nn, Y nn stochastisch unabhängig und identisch verteilt nach einer Verteilung H n auf R R. Ferner seien die marginalen Verteilungsfunktionen F n und G n von X n1 bzw. Y n1 stetig. Mit ˆF n bezeichnen wir die empirische Verteilungsfunktion und Verteilung der Beobachtungen X ni, mit Ĝ n diejenige der Beobachtungen Y ni. Ferner sei Ĥn die empirische Verteilung aller Beobachtungen X ni, Y ni. Mit den Rängen RX ni = n ˆF n X ni und RY ni = nĝny ni lässt sich Spearmans Rangkorrelationskoeffizient ˆρ n wie folgt darstellen: und RX ni n RY ni n RX ni n = 2 = n 3 ˆF n 1/2 Ĝn 1/2 dĥn 1 4n 2 RY ni n = n n 2. Dabei bezeichnet allgemein h k die Funktion x, y hxky auf R R für Funktionen h, k : R R. Also ist ˆρ n = n = 12 n RXni n+1 RYni n+1 RXni n+1 2 Man kann ˆρ n als Schätzer für die theoretische Größe 2 2 n 2 RYni n+1 2 ˆF n 1/2 Ĝn 1/2 dĥn + O p n 2. ρ n := Corr F n X n1, G n Y n1 = 12 F n 1/2 G n 1/2 dh n auffassen. Nun gilt folgende Entwicklung für ˆρ n : 2 Lemma 8.25 n ˆρn ρ n = n 1/2 hn X ni, Y ni IE h n X n1, Y n1 + o p 1

115 8.6. ANWENDUNGEN AUF RANGSTATISTIKEN UND -PROZESSE 115 mit h n x, y := 12F n x 1/2G n y 1/2 1[x, + 12 G n 1/2 + F n 1/2 1 [y, dhn. Anmerkung 8.26 Sind X n1 und Y n1 stochastisch unabhängig, dann ist h n = 12F n 1/2 G n 1/2, und Varh n X n1, Y n1 = 1. Beweis von Lemma Wir schreiben n ˆF n F n = B n1 F n und nĝn G n = B n2 G n mit stochastischen Prozessen B n1, B n2 auf [0, 1], die in Verteilung gegen eine Brownsche Brücke konvergieren und im allgemeinen abhängig sind. Dann ist 12 1 ˆρ n ρ n = F n 1/2 G n 1/2 dĥn H n + ˆF n F n G n 1/2 dĥn + F n 1/2 Ĝn G n dĥn + ˆF n 1/2 Ĝn 1/2 dĥn + O p n 2 = F n 1/2 G n 1/2 dĥn H n + ˆF n F n G n 1/2 dh n + F n 1/2 Ĝn G n dh n + R n0 + R n1 + R n2 + O p n 2, wobei R n0 = ˆF n 1/2 Ĝn 1/2 dĥn n 1 B n1 [0,1] B n2 [0,1] = O p n 1 und n Rn1 = n Rn2 = B n1 F n G n 1/2 dĥn H n, F n 1/2 B n2 G n dĥn H n. Wir werden später zeigen, dass für beliebige δ 0, 1] gilt: 8.7 mit n Rnj ωb nj, δ+1 + Ĥn H n F δ F := { 1 [a, G n 1/2, a R } { F n 1/2 1 [b, : b R }. Man kann leicht zeigen, dass IE Ĥn H n F 0. Wählt man nun δ = δ n von der gleichen Größenordnung wie IE Ĥn H n F, dann ergibt sich, dass R nj = o p n 1/2 für j = 1, 2. Mit den Techniken in Kapitel 9 kann man sogar zeigen, dass IE Ĥn H n F = On 1/2, und für δ n = n 1/2 ergibt sich aus Lemma 8.9, dass R nj = O p logn 1/2 n 3/4.

116 116 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Ungleichung 8.7 ergibt sich aus folgender Konstruktion: Für eine beschränkte Funktion b auf [0, 1] mit b0 = 0 setzen wir b δ := δ 1 biδ bi 1δ 1[iδ,1]. Dann ist b b δ [0,1] ωb, δ+, und b δ ist eine Linearkombination von δ 1 Indikatorfunktionen der Form 1 [v,1], die mit Faktoren, welche absolut kleiner oder gleich ωb, δ+ sind, multipliziert werden. Ferner ist 1 [v,1] F n x = 1{x F 1 n v} und 1 [v,1] G n y = 1{y G 1 v}. Wir wissen also, dass ˆρ n ρ n bis auf einen Fehler der Ordnung o p n 1/2 gleich 12 F n 1/2 G n 1/2 dĥn H n + 12 ˆF n F n G n 1/2 dh n + 12 F n 1/2 Ĝn G n dh n n ist, und man leicht nachrechnen, dass dies gleich h n dĥn H n mit der angegebenen Funktion h n : R R R ist. Mann-Whitney-Statistiken. Seien X m1, X m2,..., X mm und Y n1, Y n2,..., Y nn stochastisch unabhängige Zufallsvariablen mit stetigen Verteilungsfunktionen F m r := IPX mi r und G n r := IPY nj r. Die Mann-Whitney-U-Statistik ist definiert als U m,n := 1 mn m j=1 1{X i Y j }. Sie ist eng verwandt mit der Wilcoxon-Rangsummenstatistik, lässt sich aber besser interpretieren als letztere. Mitunter betrachtet man noch einen Shift-Parameter θ R und definiert û m,n θ := 1 mn m j=1 1{X i θ Y j }. Unter der Annahme, dass F m = G n θ m,n für einen unbekannten Shift-Parameter θ m,n, sucht man dann ˆθ m,n derart, dass û m,n ˆθ m,n 1/2. Mit den empirischen Verteilungsfunktionen ˆF m der X mi und Ĝn der Y nj kann man schreiben û m,n θ = Ĝ n x θ ˆF m dx = 1 ˆF m y + θ Ĝndy. Offensichtlich ist dies ein Schätzer für u m,n θ := G n x θ F m dx = 1 F m y + θ G n dy = IPX m1 θ Y n1. Für û m,n u m,n gilt folgende Entwicklung:

117 8.6. ANWENDUNGEN AUF RANGSTATISTIKEN UND -PROZESSE 117 Lemma 8.27 û m,n θ u m,n θ = G n x θ ˆF m F m dx F m y + θ Ĝn G n dy + R m,n θ wobei minm, n 1/4 log minm, n 1/2 sup R m,n θ = O p θ R maxm, n für minm, n. Anmerkung 8.28 Falls F m G n, ist u m,n 0 = 1/2, und U m,n 1/2 = û m,n 0 1/2 ist gleich 1 m m F m X mi 1/2 1 n G n Y nj 1/2 + o p maxm, n 1/2. j=1 Hieraus folgt, dass 12mn m + n U m,n 1/2 L N 0, 1. Anmerkung 8.29 Schreibt man m ˆF m F m = B m1 F m und nĝn G n = B n2 G n mit stochastisch unabhängigen uniformen empirischen Prozessen B m1, B n2 L B, dann kann man auch schreiben: mn ûm,n θ u m + n m,n θ = m B n2 G n x θ F m dx m + n n B m1 F m y + θ G n dy + m + n R m,n θ, wobei sup θ R R m,n θ = o p 1. Für große Werte von minm, n verhält sich dies in etwa wie m n B 2 G n x θ F m dx B 1 F m y + θ G n dy m + n m + n mit stochastisch unabhängigen Brownschen Brücken B 1, B 2. Beweis von Lemma Durch Teleskopieren und eine einfache Rechnung ergibt sich die Darstellung û m,n θ u m,n θ = G n x θ ˆF m F m dx + = G n x θ ˆF m F m dx Ĝn G n x θ F m dx + R m,n θ F m y + θ Ĝn G n dy + R m,n θ mit R m,n θ := = Ĝn G n x θ ˆF m F m dx ˆF m F m y + θ Ĝn G n dy.

118 118 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Nun schreiben wir m ˆF m F m = B m1 F m und nĝn G n = B n2 G n, wobei B m1, B n2 L B. Durch Approximation von B m1 und B n2 durch Treppenfunktionen wie im Beweis von Lemma 8.25 kann man zeigen, dass R m,n θ = n 1/2 B n2 G n x θ ˆF m F m dx n 1/2 ωb n2, δ+ 1 + ˆF m F m R bzw. δ R m,n θ = m 1/2 B m1 F m y + θ Ĝn G n dx m 1/2 ωb m1, δ+ 1 + Ĝn G n R δ für beliebige δ 0, 1]. Setzt man δ = minm, n 1/2, dann ergibt dies zusammen mit Lemma 8.9 die behauptete Ungleichung für sup θ R R m,n θ. Wilcoxons signierte Ränge. Wie zu Beginn seinen X n1, X n2,..., X nn stochastisch unabhängige Zufallsvariablen mit stetiger Verteilungsfunktion F n. Die empirische Verteilungsfunktion der X ni sei ˆF n. Für die Nullhypothese, dass F n um einen Punkt θ R symmetrisch ist, betrachten wir Wilcoxons Signed-Rank-Statistik ˆτ n θ := 1 signx ni θ n ˆF [ n θ Xni θ, θ + X ni θ ] = signx θ ˆFn θ + x θ ˆF n θ x θ ˆFn dx + R n1 θ = ˆFn x ˆF n 2θ x ˆFn dx + R n1θ = 1/2 ˆF n 2θ x ˆF n dx + R n1 θ + 2n 1, wobei R n1 θ n 1. Dies ist ein Schätzer für [ ] τ n θ := signx θf n θ ± x θ Fn dx Fn = x F n 2θ x F n dx = 1/2 F n 2θ x F n dx. Auch hier kann man durch Teleskopieren und Abschätzung eines Restterms die Differenz ˆτ n τ n approximieren: Lemma 8.30 ˆτ n θ τ n θ = 2 F n 2θ x ˆF n F n dx + R n θ wobei sup R n θ = O p n 3/4 log n 1/2. θ R

119 8.7. AUFGABEN 119 Anmerkung 8.31 Ist F n symmetrisch um θ n R, das heißt, F n θ n + h = 1 F n θ n h für alle h R, dann ist F n 2θ n x = F n x 1, so dass τ n θ n = 0 und n ˆτn θ n = n 1/2 1 2F n X ni + o p 1 L N 0, 1/3. Anmerkung 8.32 Schreibt man n ˆF n F n = B n F n mit B n L B, dann ist n ˆτn θ τ n θ = 2 B n F n 2θ x F n dx + R n θ mit sup θ R R n θ = o p 1. Dies verhält sich asymptotisch wie 2 B F n 2θ x F n dx. Beweis von Lemma Schreibt man n ˆF n F n = B n F n mit B n L B, dann gilt für beliebige θ R: ˆF n 2θ x ˆF n dx F n 2θ x F n dx = ˆF n F n 2θ x F n dx + F n 2θ x ˆF n F n dx + R n2 θ = 2 F n 2θ x ˆF n F n dx + R n2 θ, wobei R n2 θ = ˆF n F n 2θ x ˆF n F n dx = n 1/2 B n F n 2θ x ˆF n F n dx n 1/2 ω B n, n 1/ n ˆF n F n R = O p n 3/4 log n 1/2 nach Lemma 8.9; siehe auch den Beweis von Lemma Aufgaben Aufgabe 8.1 Beweisen Sie die unter Anmerkung 8.6 aufgeführten Eigenschaften der Brownschen Bewegung und -Brücke. Vorsicht bei t tw 1/t! Aufgabe 8.2 Seien F, F n, ˆF n wie in Abschnitt 8.3. Zeigen Sie, dass aus ωf n, 0+ = on 1/2 folgt, dass auch ω ˆF n, 0+ = o p n 1/2.

120 120 KAPITEL 8. BROWNSCHE BEWEGUNG UND BRÜCKE Aufgabe 8.3 Formulieren und beweisen Sie einen zentralen Grenzwertsatz analog zu Satz 8.10 für folgendes Funktional: T P := xwf x P dx/ wf x P dx, wobei w : [0, 1] [0, stetig differenzierbar ist mit {w > 0} = α, 1 α für eine Konstante 0 < α < 1/2. Aufgabe 8.4 Sei B eine Brownsche Brücke. Zeigen Sie, dass IP Bt a1 t + btη für ein t [0, 1] = exp 2abη 2 für beliebige η, a, b 0. Hinweis: Verwenden Sie die Tatsachen, dass W t := 1 + tbt/1 + t und W t := σ 1 W σ 2 t mit σ > 0 Brownsche Bewegungen auf [0, definieren. Aufgabe 8.5 Sei B eine Brownsche Brücke. Zeigen Sie, dass U := arg max t [0,1] Bt fast sicher eindeutig definiert ist und folgende Eigenschaft hat: Für beliebige r 0, 1 ist IP U r Br = r fast sicher. Hinweis: Zeigen Sie, dass man B mit zwei stochastisch unabhängigen Brownschen Brücken B 1, B 2 und einer davon unabhängigen Zufallsvariable Y N 0, r1 r darstellen kann: Für 0 λ 1 setze Verwenden Sie nun Aufgabe 8.4. Bλr := rb 1 λ + λy, Br + λ1 r := 1 rb 2 λ + 1 λy. Aufgabe 8.6 Sei B eine Brownsche Brücke. Bestimmen Sie mit Hilfe des Spiegelungsprinzips für die Brownsche Bewegung die Wahrscheinlichkeit IP min t [0,1] Bt r und max t [0,1] Bt s für r, s > 0. Hieraus kann man die Verteilung von max t,u [0,1] Bu Bt ableiten.

121 Kapitel 9 Chaining 9.1 Maximalungleichungen Sei Z ein stochastischer Prozess auf einem präkompakten pseudometrischen Raum T, ρ. Wir nehmen stets an, dass entweder T abzählbar ist oder Z stetige Pfade bezüglich ρ hat. Das Chaining ist eine Technik, mit der man Z oder ωz, δ nach oben abschätzen kann. Ein entscheidender Schritt ist dabei, das Maximum endlich vieler Zufallsvariablen Y 1, Y 2,..., Y m abzuschätzen. Eine naive Schranke ist IE max i m Y i i m IE Y i. Das folgende Lemma liefert eine Verfeinerung hiervon: Lemma 9.1 Pisier Sei ψ : R [0, eine gerade, konvexe Funktion mit ψ0 = 0 und ψ 0. Für beliebige m N und Zufallsvariablen Y 1, Y 2,..., Y m ist IE max Y i ψ 1 m IE ψy i, i m wobei ψ 1 v := max { u 0 : ψu v } für v 0. Mithilfe dieses Lemmas kann man folgenden Satz beweisen: Satz 9.2 Chaining, I Sei ψ : R [0, wie in Lemma 9.1. Für beliebige s, t T sei Zs Zt IE ψ 1, falls ρs, t > 0, ρs, t Zs = Zt fast sicher, falls ρs, t = 0. a Für beliebige t o T und δt o := sup t T ρt, t o ist IE Z IE Zt o + 4 IE Zt o + 8 δto/2 0 δto/ ψ 1 Du, T, ρ du ψ 1 Nu, T, ρ du.

122 122 KAPITEL 9. CHAINING b Für beliebige δ > 0 ist IE ωz, δ 16 δ/8 0 ψ 1 Nu, T, ρ 2 du. Beweis von Lemma 9.1. Da ψr eine isotone Funktion von r ist, folgt: IE max Y i = IE ψ 1 max ψy i i m i m ψ 1 IE max ψy i i m ψ 1 m IE ψy i. Dabei ergibt sich die vorletzte Ungleichung aus der Jensenschen Ungleichung und der Konkavität von ψ 1 ; siehe Aufgabe 9.1. Beweis von Satz 9.2, Teil a. Sei T = {t o, t 1, t 2,...}, oder sei {t o, t 1, t 2,...} eine dichte Teilmenge von T, und Z habe stetige Pfade. Nach dem Satz von der monotonen Konvergenz ist in beiden Fällen IE Z = lim k IE Z {to,t 1,...,t k }. Deshalb kann man ohne Einschränkung annehmen, dass T endlich ist. Außerdem kann man annehmen, dass ρs, t > 0 für verschiedene s, t T. Nun sei T 0 := {t o } und δ 0 := δt o. Für k = 1, 2, 3,... wählen wir induktiv eine maximale Teilmenge T k von T, so dass gilt: T k 1 T k und ρs, t > δ k := 2 k δ 0 für verschiedene s, t T k. Die Maximalität von T k für k 1 und die Definition von δt o = δ 0 implizieren, dass #T k Dδ k, T, ρ und ρt, T k δ k für alle t T und k N 0. Insbesondere ist T 0 T 1 T 2 T l = T für ein l N. Für jedes k N 0 und t T wählen wir einen Punkt π k t T k derart, dass ρt, π k t δ k. Dann ist 9.1 und nach Lemma 9.1 ist Z Tk+1 max t T k+1 Zπk t + Zt Zπ k t Z Tk + max t T k+1 Zt Zπ k t, IE max Zt Zπ k t t T k+1 = Zt Zπ k t δ k IE max t T k+1 δ k δ k ψ 1 #T k+1 δ k ψ 1 Dδ k+1, T, ρ = 4δ k+1 δ k+2 ψ 1 Dδ k+1, T, ρ 4 δk+1 δ k+2 ψ 1 Du, T, ρ du.

123 9.1. MAXIMALUNGLEICHUNGEN 123 Letztere Ungleichung folgt aus der Tatsache, dass ψ 1 Du, T, ρ monoton fallend ist in u > 0. Kombiniert man diese Ungleichungen für k = 0, 1, 2,..., l 1, dann folgt, dass IE Z T IE Z T0 + 4 = IE Zt o + 4 δk+1 k=0 δ k+2 δto/2 0 ψ 1 Du, T, ρ du ψ 1 Du, T, ρ du. Zusammen mit der Ungleichung Du, T, ρ Nu/2, T, ρ folgt hieraus auch die zweite behauptete Ungleichung. Beweis von Satz 9.2, Teil b. Dieses Resultat folgt aus Teil a, indem man das dortige Tupel T, ρ, Z, t o durch T, ρ, Z, t o ersetzt, wobei T = T δ := { s, t T T : ρs, t < δ }, ρ[s, t, s, t ] := min ρs, s + ρt, t, ρs, t + ρs, t für s, t, s, t T, Zs, t := Zs Zt, t o := t o, t o für ein beliebiges t o T. Dann ist nämlich ωz, δ = Z T und Z t o 0. Man kann leicht zeigen, dass ρ eine Pseudometrik auf T ist, und dass Nu, T, ρ Nu, T T, ρ Nu/2, T, ρ 2 für alle u > 0. In der Tat gilt letztere Ungleichung für die Manhattan-Distanz bzw. Mannheim-Distanz d M [s, t, s, t ] := ρs, s + ρt, t anstelle von ρ; siehe Abbildung 9.1. Ferner ist ρ[s, t, s, t ] = min d M [s, t, s, t ], d M [s, t, ] + d M [s, t, ] mit der Diagonalen := {t, t : t T } von T. Eine mögliche anschauliche Deutung: Der Abstand d M misst Fußwege in Mannheim. Man kann zu Fuß von s, t nach s, t gelangen und legt dabei den Weg d M [s, t, s, t ] zurück. Oder man läuft von s, t aus auf dem schnellsten Wege zur Diagonalen, zum Beipiel nach s, s oder t, t, fährt ein Stück mit einer virtuellen Luxus- U-Bahn mit beliebigen Haltestellen! entlang bis zum Punkt s, s oder t, t, und läuft von dort aus nach s, t. Also beschreibt ρ den kürzesten Fußweg bei möglicher U-Bahnbenutzung. Schließlich kann man mithilfe der Konvexität von ψ zeigen, dass Z s Z t IE ψ 1 für beliebige s, t ρ s, t T, wobei ψ0/0 := 0 und ψa/0 := für a > 0. Da sup t T ρ t, t o δ, folgt aus Teil a, dass IE Z T 8 δ/4 0 ψ 1 Nu/2, T, ρ 2 du = 16 δ/8 0 ψ 1 Nu, T, ρ 2 du.

124 124 KAPITEL 9. CHAINING Abbildung 9.1: Die Innenstadt von Mannheim. Die Maximalungleichung von Lemma 9.1 kann man auf vielfa ltige Weisen verfeinern, siehe zum Beispiel Aufgabe 9.8. Nun beschreiben wir eine Verfeinerung unter einer zusa tzlichen Annahme an die Funktion ψ. Dazu definieren wir fu r eine Zufallsvariable Y ihre Orlicz-Norm ky kψ := inf r > 0 : IE ψy /r 1 mit inf :=. Dies ist eine Seminorm auf dem Vektorraum Lψ IP aller Zufallsvariablen Y auf Ω, A, IP, so dass IE ψy /r < fu r ein r > 0; siehe Aufgabe 9.2. Fu r den Spezialfall ψx := x p erha lt man den u blichen Raum Lp IP mit der Seminorm ky kp := IE Y p 1/p. Lemma 9.3 Sei ψ : R [0, wie in Lemma 9.1, und es sei lim sup x,y ψxψy <. ψxy Dann existiert eine universelle Konstante Cψ, so dass fu r beliebige m N und Zufallsvariablen Y1, Y2,..., Ym gilt: max Yi Cψψ 1 m max kyi kψ. i m ψ i m Dieses Lemma ergibt eine verbesserte Version von Satz 9.2:

Empirische Prozesse. Lutz Dümbgen Universität Bern

Empirische Prozesse. Lutz Dümbgen Universität Bern Empirische Prozesse Lutz Dümbgen Universität Bern August 2017 2 Vorwort Dieses Skriptum erstellte ich für eine gleichnamige vierstündige Kursusvorlesung im Sommersemester 1997 in Heidelberg. Es ging hervor

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Stochastik I. Vorlesungsmitschrift

Stochastik I. Vorlesungsmitschrift Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................

Mehr

Schwache Konvergenz von Wahrscheinlichkeitsmaßen

Schwache Konvergenz von Wahrscheinlichkeitsmaßen Schwache Konvergenz von Wahrscheinlichkeitsmaßen 6. Juli 2010 Inhaltsverzeichnis 1 Definition 2 3 Lindeberg-Bedingung Interpretation Definition Motivation (Konvergenz von Wahrscheinlichkeitsmaßen) Sind

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

Musterlösung. Aufgabe 1 a) Die Aussage ist falsch. Ein Gegenbeispiel ist die Funktion f : [0, 1] R, die folgendermaßen definiert ist:

Musterlösung. Aufgabe 1 a) Die Aussage ist falsch. Ein Gegenbeispiel ist die Funktion f : [0, 1] R, die folgendermaßen definiert ist: Musterlösung Aufgabe a) Die Aussage ist falsch. Ein Gegenbeispiel ist die Funktion f : [, ] R, die folgendermaßen definiert ist: f(x) := { für x R \ Q für x Q f ist offensichtlich beschränkt. Wir zeigen,

Mehr

1.3 Zufallsvariablen

1.3 Zufallsvariablen 1.3 Zufallsvariablen Beispiel Irrfahrt zwischen drei Zuständen Start in G bei t = 0, Zeithorizont T N Grundraum σ-algebra Ω = {ω = (ω 0, ω 1,..., ω T ) {G, R, B} T +1, ω 0 = G} Wahrscheinlichkeitsmaß P

Mehr

4 Messbare Funktionen

4 Messbare Funktionen 4 Messbare Funktionen 4.1 Definitionen und Eigenschaften Definition 4.1. Seien X eine beliebige nichtleere Menge, M P(X) eine σ-algebra in X und µ ein Maß auf M. Das Paar (X, M) heißt messbarer Raum und

Mehr

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik

Schwache Konvergenz. Ivan Lecei. 18. Juni Institut für Stochastik Institut für Stochastik 18. Juni 2013 Inhalt 1 2 3 4 5 Nach ZGWS konvergiert für n F n (x) = P{ X 1+...+X n np npq x} gegen F(x) = 1 2π x e 1 2 u2 du, wenn die X i unabhängig und bernoulliverteilt sind

Mehr

Seminar Gewöhnliche Differentialgleichungen

Seminar Gewöhnliche Differentialgleichungen Seminar Gewöhnliche Differentialgleichungen Dynamische Systeme I 1 Einleitung 1.1 Nichtlineare Systeme In den vorigen Vorträgen haben wir uns mit linearen Differentialgleichungen beschäftigt. Nun werden

Mehr

Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik

Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik Klausur zur Einführung in die Wahrscheinlichkeitstheorie und Statistik Prof. Dr. C. Löh/M. Blank 27. Juli 2012 Name: Matrikelnummer: Vorname: Übungsleiter: Diese Klausur besteht aus 8 Seiten. Bitte überprüfen

Mehr

Analysis I. Guofang Wang Universität Freiburg

Analysis I. Guofang Wang Universität Freiburg Universität Freiburg 30.11.2016 5. Teilmengen von R und von R n Der R n ist eine mathematische Verallgemeinerung: R n = {x = (x 1,..., x n ) : x i R} = } R. {{.. R }. n mal Für x R ist x der Abstand zum

Mehr

Mathematische Ökonometrie

Mathematische Ökonometrie Mathematische Ökonometrie Ansgar Steland Fakultät für Mathematik Ruhr-Universität Bochum, Germany ansgar.steland@ruhr-uni-bochum.de Skriptum zur LV im SoSe 2005. Diese erste Rohversion erhebt keinen Anspruch

Mehr

12 Ungleichungen. Wir beginnen mit einer einfachen Ungleichung über die Varianz. Satz 35 Es sei X eine zufällige Variable.

12 Ungleichungen. Wir beginnen mit einer einfachen Ungleichung über die Varianz. Satz 35 Es sei X eine zufällige Variable. 12 Ungleichungen Wir beginnen mit einer einfachen Ungleichung über die Varianz. Satz 35 Es sei X eine zufällige Variable. Dann gilt: min c R E(X c)2 = Var X. Beweis: Für alle reellen Zahlen c R gilt: E(X

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Aufgaben zu Kapitel 0

Aufgaben zu Kapitel 0 Aufgaben zu Kapitel 0 0.1. Seien A und B zwei Mengen. Wie kann man paarweise disjunkte Mengen A 1, A 2 und A 3 so wählen, dass A 1 A 2 A 3 = A B gilt? 0.2. Seien E ein Menge und A eine Teilmengen von E.

Mehr

1.3 Wiederholung der Konvergenzkonzepte

1.3 Wiederholung der Konvergenzkonzepte 1.3 Wiederholung der Konvergenzkonzepte Wir erlauben nun, dass der Stichprobenumfang n unendlich groß wird und untersuchen das Verhalten von Stichprobengrößen für diesen Fall. Dies liefert uns nützliche

Mehr

Kapitel 6. Suffiziente Statistiken. 6.1 Vorbetrachtungen

Kapitel 6. Suffiziente Statistiken. 6.1 Vorbetrachtungen Kapitel 6 Suffiziente Statistiken In diesem Kapitel untersuchen wir einen weiteren statistischen Begriff, der eng mit Likelihoodfunktionen zusammenhängt und mit der Frage nach eventuell möglicher Datenreduktion

Mehr

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit 3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate

Mehr

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar Statistische Methoden in der Physik Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen

Mehr

8 1. GEOMETRIE DIFFERENZIERBARER MANNIGFALTIGKEITEN

8 1. GEOMETRIE DIFFERENZIERBARER MANNIGFALTIGKEITEN 8 1. GEOMETRIE DIFFERENZIERBARER MANNIGFALTIGKEITEN (vi) Konvergenz von Folgen ist in topologischen Räumen folgendermaßen definiert: Ist (a n ) M eine Folge, so heißt sie konvergent gegen a M, wenn es

Mehr

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume Kapitel II Kontinuierliche Wahrscheinlichkeitsräume 1. Einführung 1.1 Motivation Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung. DWT 1.1 Motivation 211/476 Beispiel 85 Wir betrachten

Mehr

Konvergenz im quadratischen Mittel und die Parsevelsche Gleichung

Konvergenz im quadratischen Mittel und die Parsevelsche Gleichung Konvergenz im quadratischen Mittel und die Parsevelsche Gleichung Skript zum Vortrag im Proseminar Analysis bei Dr. Gerhard Mülich Christian Maaß 6.Mai 8 Im letzten Vortrag haben wir gesehen, dass das

Mehr

Regulär variierende Funktionen

Regulär variierende Funktionen KAPITEL 4 Regulär variierende Funktionen Unser nächstes Ziel ist es, die Max-Anziehungsbereiche der Extremwertverteilungen zu beschreiben. Dies wird im nächsten Kapitel geschehen. Wir haben bereits gesehen,

Mehr

2 Zufallsvariable, Verteilungen, Erwartungswert

2 Zufallsvariable, Verteilungen, Erwartungswert 2 Zufallsvariable, Verteilungen, Erwartungswert Bisher: Zufallsexperimente beschrieben durch W-Räume (Ω, A, P) Häufig interessiert nur eine zufällige Größe X = X(ω), die vom Ergebnis ω des Zufallsexperiments

Mehr

Analysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME

Analysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME Analysis II (FS 2015): ZUSAMMENHÄNGENDE METRISCHE RÄUME Dietmar A. Salamon ETH-Zürich 23. Februar 2015 1 Topologische Grundbegriffe Sei (X, d) ein metrischer Raum, d.h. X ist eine Menge und d : X X R ist

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

Stochastik. 1. Wahrscheinlichkeitsräume

Stochastik. 1. Wahrscheinlichkeitsräume Stochastik 1. Wahrscheinlichkeitsräume Ein Zufallsexperiment ist ein beliebig oft und gleichartig wiederholbarer Vorgang mit mindestens zwei verschiedenen Ergebnissen, bei dem der Ausgang ungewiß ist.

Mehr

Gesetze der großen Zahlen

Gesetze der großen Zahlen Kapitel 0 Gesetze der großen Zahlen 0. Einführung Im ersten Kapitel wurde auf eine Erfahrungstatsache im Umgang mit zufälligen Erscheinungen aufmerksam gemacht, die man gewöhnlich als empirisches Gesetz

Mehr

3 Markov-Eigenschaft der Brownschen Bewegung

3 Markov-Eigenschaft der Brownschen Bewegung Man verifiziert 2.) für P n = Q n, und somit gilt: jede Teilfolge von (P n ) n N besitzt eine konvergente Teilfolge. Betrachte nun die endlich-dimensionalen Randverteilungen der Maße P n. Dazu sei π t1,...,t

Mehr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen Wir betrachten nun ein Verfahren zur Konstruktion von Schätzvariablen für Parameter von Verteilungen. Sei X = (X 1,..., X n ). Bei X

Mehr

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Gegenbeispiele in der Wahrscheinlichkeitstheorie Gegenbeispiele in der Wahrscheinlichkeitstheorie Mathias Schaefer Universität Ulm 26. November 212 1 / 38 Übersicht 1 Normalverteilung Definition Eigenschaften Gegenbeispiele 2 Momentenproblem Definition

Mehr

Klausur zur Vorlesung Stochastik II

Klausur zur Vorlesung Stochastik II Institut für Stochastik WS 007/008 Universität Karlsruhe. 0. 008 r. B. Klar Klausur zur Vorlesung Stochastik II Muster-Lösung auer: 90 Minuten Name: Vorname: Matrikelnummer: iese Klausur hat bestanden,

Mehr

Einführung und Grundlagen

Einführung und Grundlagen Kapitel 1 Einführung und Grundlagen Generelle Notation: Ω, A, P sei ein W-Raum im Hintergrund nie weiter spezifiziert Die betrachteten Zufallsvariablen seien auf Ω definiert, zb X : Ω, A M, A, wobei M,

Mehr

2 Zufallsvariable und Verteilungsfunktionen

2 Zufallsvariable und Verteilungsfunktionen 8 2 Zufallsvariable und Verteilungsfunktionen Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer

Mehr

Charakteristische Funktionen

Charakteristische Funktionen Kapitel 9 Charakteristische Funktionen Jeder Wahrscheinlichkeitsverteilung auf (, B 1 ) (allgemeiner: (R n, B n )) ist eine komplexwertige Funktion, ihre charakteristische Funktion, zugeordnet, durch die

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W.

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W. 8. Formelsammlung 8.1 Gesetze zum Rechnen mit Ereignissen Im Folgenden seien A und B, sowie A 1,..., A n Ereignisse. Die Notation A B steht für A B und zugleich A B = (disjunkte Vereinigung). A 1... A

Mehr

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) := Definition 2.34. Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) := x f(x)dx der Erwartungswert von X, sofern dieses Integral existiert. Entsprechend wird die Varianz V(X)

Mehr

Wahrscheinlichkeitsrechnung und Statistik

Wahrscheinlichkeitsrechnung und Statistik 5. Vorlesung Verteilungsfunktion (VF) Definition 9 Die Verteilungsfunktion (VF) einer Zufallsgröße X ist F : R R definiert als F (x) := P({ω Ω : X (ω) x}) = P( X x ) für jedes x R. Satz 9 - Eigenschaften

Mehr

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω

x, y 2 f(x)g(x) dµ(x). Es ist leicht nachzuprüfen, dass die x 2 setzen. Dann liefert (5.1) n=1 x ny n bzw. f, g = Ω 5. Hilberträume Definition 5.1. Sei H ein komplexer Vektorraum. Eine Abbildung, : H H C heißt Skalarprodukt (oder inneres Produkt) auf H, wenn für alle x, y, z H, α C 1) x, x 0 und x, x = 0 x = 0; ) x,

Mehr

18 Höhere Ableitungen und Taylorformel

18 Höhere Ableitungen und Taylorformel 8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a

Mehr

Vorlesungen Analysis von B. Bank

Vorlesungen Analysis von B. Bank Vorlesungen Analysis von B. Bank vom 23.4.2002 und 26.4.2002 Zunächst noch zur Stetigkeit von Funktionen f : D(f) C, wobei D(f) C. (Der Text schliesst unmittelbar an die Vorlesung vom 19.4.2002 an.) Auf

Mehr

Kapitel 5 KONVERGENZ

Kapitel 5 KONVERGENZ Kapitel 5 KONVERGENZ Fassung vom 21. April 2002 Claude Portenier ANALYSIS 75 5.1 Metrische Räume 5.1 Metrische Räume DEFINITION 1 Sei X eine Menge. Eine Abbildung d : X X! R + heißt Metrik oder Distanz

Mehr

Stetige Funktionen. Definition. Seien (X, d) und (Y, D) metrische Räume und f : X Y eine Abbildung. i) f heißt stetig in x 0 (x 0 D(f)), wenn

Stetige Funktionen. Definition. Seien (X, d) und (Y, D) metrische Räume und f : X Y eine Abbildung. i) f heißt stetig in x 0 (x 0 D(f)), wenn Stetige Funktionen Eine zentrale Rolle in der Analysis spielen Abbildungen f : X Y, wobei X und Y strukturierte Mengen sind (wie z.b. Vektorräume oder metrische Räume). Dabei sind i.a. nicht beliebige

Mehr

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen Kapitel 6 Verteilungsparameter Wie bei einem Merkmal wollen wir nun die Lage und die Streuung der Verteilung einer diskreten Zufallsvariablen durch geeignete Maßzahlen beschreiben. Beginnen wir mit Maßzahlen

Mehr

Strassen Type Theorems Proseminar Stochastik

Strassen Type Theorems Proseminar Stochastik Strassen Type Theorems Proseminar Stochastik Cecelie Hector Universität Hamburg Fachbereich Mathematik SoSe 2004 Vortrag am 25.06.04 Definition (a). Ein topologischer Raum E heißt polnisch, wenn es eine

Mehr

Kapitel 1: Elemente der Statistik

Kapitel 1: Elemente der Statistik 1 Kapitel 1: Elemente der Statistik 1.1 Beispiel Ein Elektromarkt erhält eine Lieferung von N = 10000 Glühbirnen. Darunter ist eine unbekannte Anzahl h defekt, wobei h 0 1 = {0, 1,..., N}. Um Kenntnisse

Mehr

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Meßbare Funktionen. bilden die Grundlage der Integrationstheorie. Definition 24.1 :

Meßbare Funktionen. bilden die Grundlage der Integrationstheorie. Definition 24.1 : 24 Meßbare Funktionen bilden die Grundlage der Integrationstheorie. Definition 24. : Sei X eine beliebige Menge, Y ein topologischer Raum, λ ein Maß auf X. f : X Y heißt λ-messbar, falls f (Ω) λ-messbar

Mehr

7.2 Moment und Varianz

7.2 Moment und Varianz 7.2 Moment und Varianz Def. 21 Es sei X eine zufällige Variable. Falls der Erwartungswert E( X p ) existiert, heißt der Erwartungswert EX p p tes Moment der zufälligen Variablen X. Es gilt dann: + x p

Mehr

Erwartungswert und Varianz von Zufallsvariablen

Erwartungswert und Varianz von Zufallsvariablen Kapitel 7 Erwartungswert und Varianz von Zufallsvariablen Im Folgenden sei (Ω, A, P ) ein Wahrscheinlichkeitsraum. Der Erwartungswert von X ist ein Lebesgue-Integral (allerdings allgemeiner als in Analysis

Mehr

Endliche Markov-Ketten - eine Übersicht

Endliche Markov-Ketten - eine Übersicht Endliche Markov-Ketten - eine Übersicht Diese Übersicht über endliche Markov-Ketten basiert auf dem Buch Monte Carlo- Algorithmen von Müller-Gronbach et. al. und dient als Sammlung von Definitionen und

Mehr

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten Kapitel 2 Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten 2.1 Stochastische Unabhängigkeit von Ereignissen Gegeben sei ein W-Raum (Ω, C, P. Der Begriff der stochastischen Unabhängigkeit von

Mehr

Varianz und Kovarianz

Varianz und Kovarianz KAPITEL 9 Varianz und Kovarianz 9.1. Varianz Definition 9.1.1. Sei (Ω, F, P) ein Wahrscheinlichkeitsraum und X : Ω eine Zufallsvariable. Wir benutzen die Notation (1) X L 1, falls E[ X ]

Mehr

Finanzmathematische Modelle und Simulation

Finanzmathematische Modelle und Simulation Finanzmathematische Modelle und Simulation WS 9/1 Rebecca Henkelmann In meiner Ausarbeitung Grundbegriffe der Stochastik I, geht es darum die folgenden Begriffe für die nächsten Kapitel einzuführen. Auf

Mehr

Lösung zu den Übungsaufgaben zur Lebesgueschen Integrationstheorie. Tobias Ried

Lösung zu den Übungsaufgaben zur Lebesgueschen Integrationstheorie. Tobias Ried Lösung zu den Übungsaufgaben zur Lebesgueschen Integrationstheorie Tobias Ried. März 2 2 Aufgabe (Messbarkeit der Komposition zweier Abbildungen). Seien (X, A), (Y, B) und (Z, C) Messräume und f : (X,

Mehr

Zusammenfassung Analysis 2

Zusammenfassung Analysis 2 Zusammenfassung Analysis 2 1.2 Metrische Räume Die Grundlage metrischer Räume bildet der Begriff des Abstandes (Metrik). Definition 1.1 Ein metrischer Raum ist ein Paar (X, d), bestehend aus einer Menge

Mehr

Asymptotische Stochastik (SS 2010)

Asymptotische Stochastik (SS 2010) Institut für Stochastik PD. Dr. Dieter Kadelka Daniel Gentner Asymptotische Stochastik (SS 2010) Lösungen zu Übungsblatt 4 Aufgabe 1 (lokaler Grenzwertsatz von de Moivre und Laplace und eine Verallgemeinerung)

Mehr

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 5. Juni 2016 Definition 5.21 Ist a R, a > 0 und a 1, so bezeichnet man die Umkehrfunktion der Exponentialfunktion x a x als

Mehr

$Id: folgen.tex,v /05/31 12:40:06 hk Exp $ an 1 2 n 1 ist gerade, 3a n 1 + 1, a n 1 ist ungerade.

$Id: folgen.tex,v /05/31 12:40:06 hk Exp $ an 1 2 n 1 ist gerade, 3a n 1 + 1, a n 1 ist ungerade. $Id: folgen.tex,v. 202/05/3 2:40:06 hk Exp $ 6 Folgen Am Ende der letzten Sitzung hatten wir Folgen in einer Menge X als Abbildungen a : N X definiert, die dann typischerweise in der Form (a n ) n N, also

Mehr

2.6 Der Satz von Fubini

2.6 Der Satz von Fubini 1 2.6 Der Satz von Fubini Unser Ziel ist der Beweis des folgenden Ergebnisses. 6.1. Satz von Fubini Sei f : R n+m R integrierbar. Dann gibt es eine Nullmenge N R m, so dass gilt: 1. Für alle y R m \ N

Mehr

Konvergenz gegen einen Prozess mit unabhängigen Zuwächsen - Anwendungen

Konvergenz gegen einen Prozess mit unabhängigen Zuwächsen - Anwendungen Konvergenz gegen einen rozess mit unabhängigen Zuwächsen - Anwendungen Saskia F. Glaffig 20.07.17 "Wiederholung" Definition (vgl. Jacod, Shiryaev, I.3.26: oissonprozess). Ein erweiterter oissonprozess

Mehr

7. Die Brownsche Bewegung

7. Die Brownsche Bewegung 7. DIE BROWNSCHE BEWEGUNG 7 5 5 50 00 50 200 250 0 5 20 Abbildung 7.: Pfad einer Brownschen Bewegung 7. Die Brownsche Bewegung Definition 7.. Ein cadlag stochastischer Prozess {W t } mit W 0 = 0, unabhängigen

Mehr

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer 3.4 Asymptotische Evaluierung von Schätzer 3.4.1 Konsistenz Bis jetzt haben wir Kriterien basierend auf endlichen Stichproben betrachtet. Konsistenz ist ein asymptotisches Kriterium (n ) und bezieht sich

Mehr

72 Orthonormalbasen und Konvergenz im quadratischen Mittel

72 Orthonormalbasen und Konvergenz im quadratischen Mittel 72 Orthonormalbasen und Konvergenz im quadratischen Mittel 30 72 Orthonormalbasen und Konvergenz im quadratischen Mittel Wir untersuchen nun die Konvergenz von Fourier-Reihen im quadratischen Mittel in

Mehr

Lösungen der Übungsaufgaben von Kapitel 3

Lösungen der Übungsaufgaben von Kapitel 3 Analysis I Ein Lernbuch für den sanften Wechsel von der Schule zur Uni 1 Lösungen der Übungsaufgaben von Kapitel 3 zu 3.1 3.1.1 Bestimmen Sie den Abschluss, den offenen Kern und den Rand folgender Teilmengen

Mehr

Vollständigkeit. 1 Konstruktion der reellen Zahlen

Vollständigkeit. 1 Konstruktion der reellen Zahlen Vortrag im Rahmen des Proseminars zur Analysis, 17.03.2006 Albert Zeyer Ziel des Vortrags ist es, die Vollständigkeit auf Basis der Konstruktion von R über die CAUCHY-Folgen zu beweisen und äquivalente

Mehr

5 Stetigkeit und Differenzierbarkeit

5 Stetigkeit und Differenzierbarkeit 5 Stetigkeit und Differenzierbarkeit 5.1 Stetigkeit und Grenzwerte von Funktionen f(x 0 ) x 0 Graph einer stetigen Funktion. Analysis I TUHH, Winter 2006/2007 Armin Iske 127 Häufungspunkt und Abschluss.

Mehr

Lösungsvorschlag zur Übungsklausur zur Analysis I

Lösungsvorschlag zur Übungsklausur zur Analysis I Prof. Dr. H. Garcke, Dr. H. Farshbaf-Shaker, D. Depner WS 8/9 NWF I - Mathematik 9..9 Universität Regensburg Lösungsvorschlag zur Übungsklausur zur Analysis I Frage 1 Vervollständigen Sie die folgenden

Mehr

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Beispiel 6 (Einige Aufgaben zur Gleichverteilung) Aufgabe (Anwendung der Chebyshev-Ungleichung) Sei X eine Zufallsvariable mit E(X) = µ und var(x) = σ a) Schätzen Sie die Wahrscheinlichkeit dafür, daß

Mehr

1 Stochastische Konvergenz 2

1 Stochastische Konvergenz 2 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Analysis III. Vorlesung 69. Integrierbare Funktionen

Analysis III. Vorlesung 69. Integrierbare Funktionen Prof. Dr. H. Brenner Osnabrück WS 2014/2015 Analysis III Vorlesung 69 Integrierbare Funktionen Wir führen nun das Lebesgue-Integral für messbare Funktionen auf einem aßraum ein. Dieser Integralbegriff

Mehr

Korollar 116 (Grenzwertsatz von de Moivre)

Korollar 116 (Grenzwertsatz von de Moivre) Ein wichtiger Spezialfall das Zentralen Grenzwertsatzes besteht darin, dass die auftretenden Zufallsgrößen Bernoulli-verteilt sind. Korollar 116 (Grenzwertsatz von de Moivre) X 1,..., X n seien unabhängige

Mehr

20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen

20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen 20 Gleichmäßige Konvergenz für Folgen und Reihen von Funktionen 20.1 Folgen und Reihen von Funktionen 20.3 Die Supremumsnorm 20.4 Gleichmäßige Konvergenz von Folgen und Reihen von Funktionen 20.7 Das Cauchy-Kriterium

Mehr

Definition Eine Metrik d auf der Menge X ist eine Abbildung d : X X IR

Definition Eine Metrik d auf der Menge X ist eine Abbildung d : X X IR 0 Inhaltsverzeichnis 1 Metrik 1 1.1 Definition einer Metrik............................. 1 1.2 Abstand eines Punktes von einer Menge................... 1 1.3 Einbettung eines metrischen Raumes in einen

Mehr

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009 Übung zu Empirische Ökonomie für Fortgeschrittene Steen Elstner, Klaus Wohlrabe, Steen Henzel SS 9 1 Wichtige Verteilungen Die Normalverteilung Eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte

Mehr

Übungen Analysis I WS 03/04

Übungen Analysis I WS 03/04 Blatt Abgabe: Mittwoch, 29.0.03 Aufgabe : Beweisen Sie, daß für jede natürliche Zahl n gilt: n ( ) n (x + y) n = x i y n i, i (b) n ν 2 = ν= i=0 n(n + )(2n + ), 6 (c) 2 3n ist durch 7 teilbar. Aufgabe

Mehr

ist ein n-dimensionaler, reeller Vektorraum (vgl. Lineare Algebra). Wir definieren auf diesem VR ein Skalarprodukt durch i y i i=1

ist ein n-dimensionaler, reeller Vektorraum (vgl. Lineare Algebra). Wir definieren auf diesem VR ein Skalarprodukt durch i y i i=1 24 14 Metrische Räume 14.1 R n als euklidischer Vektorraum Die Menge R n = {(x 1,..., x n ) x i R} versehen mit der Addition und der skalaren Multiplikation x + y = (x 1 + y 1,..., x n + y n ) λx = (λx

Mehr

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit

Cauchy-Folgen und Kompaktheit. 1 Cauchy-Folgen und Beschränktheit Vortrag zum Seminar zur Analysis, 10.05.2010 Michael Engeländer, Jonathan Fell Dieser Vortrag stellt als erstes einige Sätze zu Cauchy-Folgen auf allgemeinen metrischen Räumen vor. Speziell wird auch das

Mehr

6 Reelle und komplexe Zahlenfolgen

6 Reelle und komplexe Zahlenfolgen Mathematik für Physiker I, WS 200/20 Freitag 0.2 $Id: folgen.tex,v. 200/2/06 :2:5 hk Exp $ $Id: reihen.tex,v. 200/2/0 4:4:40 hk Exp hk $ 6 Reelle und komplexe Zahlenfolgen 6. Cauchyfolgen Wir kommen nun

Mehr

OLS-Schätzung: asymptotische Eigenschaften

OLS-Schätzung: asymptotische Eigenschaften OLS-Schätzung: asymptotische Eigenschaften Stichwörter: Konvergenz in Wahrscheinlichkeit Konvergenz in Verteilung Konsistenz asymptotische Verteilungen nicht-normalverteilte Störgrößen zufällige Regressoren

Mehr

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK Institut für Stochastik Dr. Steffen Winter Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK für Studierende der INFORMATIK vom 17. Juli 01 (Dauer: 90 Minuten) Übersicht über

Mehr

Universität Ulm Abgabe: Mittwoch,

Universität Ulm Abgabe: Mittwoch, Universität Ulm Abgabe: Mittwoch, 8.5.23 Prof. Dr. W. Arendt Jochen Glück Sommersemester 23 Punktzahl: 36+4* Lösungen Halbgruppen und Evolutionsgleichungen: Blatt 2. Sei X ein Banachraum und (T (t)) t

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Erwartungswert als Integral

Erwartungswert als Integral Erwartungswert als Integral Anton Klimovsky Gemischte ZVen, allgemeine ZVen, Erwartungswert für allgemeine ZVen, Lebesgue-Integral bzgl. WMaß, Eigenschaften des Integrals, Lebesgue-Maß, Lebesgue-Integral

Mehr

5 Die Picardschen Sätze

5 Die Picardschen Sätze 03 5 Die Picardschen Sätze Für eine zweimal stetig differenzierbare reell- oder komplexwertige Funktion f auf einem Gebiet G C ist der Laplace-Operator definiert durch Behauptung: = 4 Beweis: Daraus folgt:

Mehr

Lösungsvorschläge für das 5. Übungsblatt

Lösungsvorschläge für das 5. Übungsblatt Lösungsvorschläge für das 5. Übungsblatt Aufgabe 6 a) Sei = [0, ], f(x) := [e x ] für x. Hierbei ist [y] := maxk Z k y} für y. Behauptung: f ist messbar und es ist f(x) dx = 2 log 2. falls x [0, log 2),

Mehr

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s X. Zufallsgrößen ================================================================= 10.1 Zufallsgrößen und ihr Erwartungswert --------------------------------------------------------------------------------------------------------------

Mehr

Satz 61 (Chebyshev-Ungleichung)

Satz 61 (Chebyshev-Ungleichung) Die folgende Abschätzung ist nach Pavnuty Lvovich Chebyshev (1821 1894) benannt, der ebenfalls an der Staatl. Universität in St. Petersburg wirkte. Satz 61 (Chebyshev-Ungleichung) Sei X eine Zufallsvariable,

Mehr

10 Transformation von Zufallsvariablen

10 Transformation von Zufallsvariablen 10 Transformation von Zufallsvariablen Sei X : Ω R eine Zufallsvariable mit Verteilungsfunktion F X (x) = P(X < x). Wir betrachten eine Funktion g: R R und sei Zufallsvariable Y : Ω R mit Y = g(x). Y :

Mehr

Stochastische Prozesse

Stochastische Prozesse INSTITUT FÜR STOCHASTIK SS 29 UNIVERSITÄT KARLSRUHE Blatt 6 Priv.-Doz. Dr. D. Kadelka Dipl.-Math. W. Lao Übungen zur Vorlesung Stochastische Prozesse Musterlösungen Aufgabe 27: Sei X eine R + -wertige

Mehr

VERTEILUNGEN VON FUNKTIONEN EINER ZUFALLSVARIABLEN

VERTEILUNGEN VON FUNKTIONEN EINER ZUFALLSVARIABLEN KAPITEL 15 VETEILUNGEN VON FUNKTIONEN EINE ZUFALLSVAIABLEN In diesem Kapitel geht es darum, die Verteilungen für gewisse Funktionen von Zufallsvariablen zu bestimmen. Wir werden uns auf den Fall absolut

Mehr

Wichtige Klassen reeller Funktionen

Wichtige Klassen reeller Funktionen 0 Wichtige Klassen reeller Funktionen Monotone Funktionen sind i.a. unstetig, aber man kann etwas über das Grenzwertverhalten aussagen, wenn man nur einseitige Grenzwerte betrachtet. Definition 0. : Sei

Mehr

Kapitel II. Brownsche Bewegung. Literatur: Karatzas, Shreve (1999, Chap. 2).

Kapitel II. Brownsche Bewegung. Literatur: Karatzas, Shreve (1999, Chap. 2). Kapitel II Brownsche Bewegung Literatur: Karatzas, Shreve (1999, Chap. 2). Gegeben: Wahrscheinlichkeitsraum (Ω, A, P) mit Filtration F = (F t ) t I, wobei I = [0, [. Definition 1. W = (W t ) t I Brownsche

Mehr

4. Verteilungen von Funktionen von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen 4. Verteilungen von Funktionen von Zufallsvariablen Allgemeine Problemstellung: Gegeben sei die gemeinsame Verteilung der ZV en X 1,..., X n (d.h. bekannt seien f X1,...,X n bzw. F X1,...,X n ) Wir betrachten

Mehr

Kapitel 6. Irrfahrten und Bernoullischemata

Kapitel 6. Irrfahrten und Bernoullischemata Kapitel 6 Irrfahrten und Bernoullischemata Ausgangspunkt dieses Kapitels ist das in den Abschnitten 2.5 und 3.3 vorgestellte mathematische Modell des mehrmals Werfens einer Münze. Die dort definierten

Mehr

Stochastik für die Naturwissenschaften

Stochastik für die Naturwissenschaften Stochastik für die Naturwissenschaften Dr. C.J. Luchsinger 7. n (Konvergenz, LLN, CLT) n heisst für uns n gross Literatur Kapitel 7 * Statistik in Cartoons: Kapitel 5, Seite 114 in Kapitel 6 * Stahel:

Mehr

Misterlösung zur Klausur zur Vorlesung Analysis I, WS08/09, Samstag, (Version C)

Misterlösung zur Klausur zur Vorlesung Analysis I, WS08/09, Samstag, (Version C) Misterlösung zur Klausur zur Vorlesung Analysis I, WS08/09, Samstag, 14..009 (Version C Vokabelbuch In diesem Teil soll getestet werden, inwieweit Sie in der Lage sind, wichtige Definitionen aus der Vorlesung

Mehr