2 Inhaltsverzeichnis

Größe: px
Ab Seite anzeigen:

Download "2 Inhaltsverzeichnis"

Transkript

1 0

2 Inhaltsverzeichnis 0 Maß- und Integrationstheorie Messräume und Maße Algebren und σ Algebren Stetigkeitssatz Konkrete Konstruktionen der Maß-Fortsetzung σ Stetigkeit des eindimensionalen Inhalts Eindeutigkeitsatz für Maße Fortsetzungssatz Integrierbare Funktionen Treppenfunktionen Nullmengen Fast überall bestehende Eigenschaften Messbare Funktionen und Abbildungen Integrierbare Funktionen Satz von Beppo Levi, monotone Konvergenz Eigenschaften des Integrals Integrale stetiger Funktionen auf Intervallen Satz von Lebesgue, majorisierte Konvergenz Uneigentliche Integrale Produktmaße Existenz von Produktmaßen Satz von Fubini Der Transformationssatz Der Transformationssatz Grundlagen der Wahrscheinlichkeitstheorie Elementare kombinatorische Probleme Permutationen mit Wiederholungen Permutationen ohne Wiederholungen Anzahl der r elementigen Teilmengen Anzahl ungeordneter Proben ohne Wiederholungen Wahrscheinlichkeitsräume Definition eines Wahrscheinlichkeitsraumes Bedingte Wahrscheinlichkeit Totale Wahrscheinlichkeit Formel von Bayes Zufallsvariable

3 2 Inhaltsverzeichnis Definition einer Zufallsvariablen Erwartungswert einer Zufallsvariablen Erwartungswert der Binomialverteilung Erwartungswert der geometrischen Verteilung Erwartungswert der Poissonverteilung Verteilungsfunktion, Verteilungsdichte Berechnung des Erwartungswertes bei Dichten Erwartungswert der Gamma-Verteilung Median einer Zufallsvariablen Unabhängige Zufallsvariablen Unabhängige Ereignisse Unabhängigkeit von Zufallsvariablen Unkorrelierte Zufallsvariable Varianz, Standard-Abweichung Kovarianz Tschebyscheff Ungleichung Varianz der Binomial-Verteilung Varianz der Normal-Verteilung Varianz der geometrischen Verteilung Varianz der Poisson-Verteilung Varianz der Gamma-Verteilung Faltung Faltung von Maßen mit Dichten Grenzwertsätze, der zentrale Grenzwertsatz Unendliche Produkte von Wahrscheinlichkeitsräumen Lemma von Borel-Cantelli Starkes Gesetz der großen Zahl Konvergenzbegriffe von Folgen von Zufallsvariablen Der zentrale Grenzwertsatz Approximation der Binomialverteilung Approximation der Binomialverteilung mit Korrekturterm Mit der Normalverteilung zusammenhängende Verteilungen Multivariante Normalverteilung Beta-Verteilung Chiquadrat-Verteilung und Fisher-Verteilung Student t-verteilung Grundbegriffe der Statistik Lineare Regression Methode der kleinsten Quadrate Parameterabschätzung der Statistik Statistisches Modell Parametrische Modelle Standard-Modell Schätzer Konsistente und erwartungstreue Schätzer Maximum-Likelihood-Schätzer

4 Inhaltsverzeichnis 3 Log-Likelihood-Schätzer Das Gaußsche Produktmodell Bias eines Schätzers Beste Schätzer Aussagen zur Testtheorie, Nichtparametrische Tests Neyman-Pearcy-Tests Der Wilcoxonsche Vorzeichentest Der Signierte Rang Test von Wilcoxon Runs-Tests Mit der Normalverteilung zusammenhängende Tests Beste Tests und unverfälschte Tests Macht eines Tests Relative Entropie Testen des Mittelwertes Verteilungstest Empirische Verteilungsfunktion Test von Kolmogorov Smirnov

5 4 Inhaltsverzeichnis

6 0. Maß- und Integrationstheorie In diesem Abschnitt werden als Voraussetzungen für den weiteren Verlauf einige Resultate der allgemeinen Integrationsteorie bereitgestellt. Dabei werden schwierigere oder längere Beweise nicht wiedergegeben; diese können an anderer Stelle nachgelesen werden. Es wird eine allgemeine Integrationstheorie dargestellt, die für das Verständnis der Aussagen der Wahrscheinlichkeitstherie und für die Integration von Funktionen in n Veränderlichen, also zur Berechnung von Mehrfachintegralen benötigt wird. Die hier behandelte Klasse der Lebesgue integrierbaren Funktionen umfasst im Fall einer reellen Veränderlichen die Klasse der stetigen Funktionen und auf einem kompakten Intervall [a, b]. In diesem Fall stimmt auch das hier definierte Integral mit dem bisher betrachteten überein. Betrachten wir andererseits den Bereich der natürlichen Zahlen IN, so führt das Integral bezüglich des Zählmaßes unmittelbar zu der Theorie der absolut konvergenten Reihen. 0.1 Messräume und Maße Bevor wir mit der eigentlichen Theorie beginnen, diskutieren wir zunächst ein Beispiel für die Bestimmung eines Flächeninhaltes eines Dreiecks mit Hilfe der als bekannt vorausgesetzten Flächeninhalt von Rechtecken: Beispiel: Flächenbestimmung eines rechtwinkligen Dreiecks Gegeben sei ein rechtwinkliges Dreieck mit den Katheten der Längen a, b. Wir erhalten durch jeweilige Halbierung der Strecken 2 n 1 Rechtecke R n,j mit den Kantenlängen a2 n beziehungsweise b2 n für alle j = 1,...,2 n 1. Damit ergibt sich als Fläche λ 2 F = n=1 2 n 1 ab2 n 2 = n=1 2 n 1 ab2 2n = ab 2. Dieses Beispiel zeigt, dass es sinnvoll ist, zu fordern, dass wenn eine Fläche F sich als abzählbare Vereinigung paarweise disjunkter Flächen F n mit bekannter Fläche λ 2 F n darstellen lässt, wir auch λ 2 F = λ 2 F n erhalten. n=1 Diese Eigenschaft charakterisiert entscheidend die Maße in der allgemeine Theorie. Es ergibt sich allerdings eine Schwierigkeit: Man kann zeigen, dass es keine σ-additive Funktion λ : PIR 2 [0, ] gibt mit λ[a 1,b 1 ] [a 2,b 2 ] = b 1 a 1 b 2 a 2 für alle Rechtecke [a 1,b 1 ] [a 2,b 2 ] IR 2. Daher betrachtet man nicht die Potenzmenge PIR 2 sondern kleinere Mengensysteme A PIR 2. Diese Mengensysteme sind allerdings so groß, dass sie alle vernünftigen Mengen enthalten. Wir kommen also zur folgenden Definition; dabei fixieren wir ab jetzt stets eine nicht leere Menge Ω. Von besonderen Interesse sind natürlich die Fälle Ω = IN,IR,IR q. 5

7 6 0. Maß- und Integrationstheorie Definition: i Ein Mengensystem A PΩ heißt eine σ Algebra, wenn die folgenden Bedingungen erfüllt sind: 1, Ω A, 2 A, B A impliziert A c = KomplA, A B, A B, B \A A. 3 Für jede Folge A n n=1 A gilt A n A. n=1 ii Eine Abbildung µ : A [0, ] auf einer σ Algebra A mit µ = 0 heißt ein Maß, wenn für jede disjunkte Folge A n n=1 A also einer Folge mit A n A m = für alle n m stets gilt: µ A n = µa n. n=1 iii Für ein Mengensystem E PΩ bezeichne AE die von E erzeugte σ Algebra, also die kleinste σ Algebra, die E enthält. Anmerkung: Die Mengensysteme {, Ω} und PΩ sind offenbar σ Algebren. Weiter genügt es in der Definition i, 2 zu verlangen, dass aus A, B A stets A B, A c A folgt: Man c beachte, dass für alle A, B PΩ stets A B = A c B c gilt. Da PΩ eine σ Algebra ist, folgt für jedes Mengensystem E PΩ unmittelbar AE = } {C C ist σ Algebra mit E C. Ist A PΩ eine σ Algebra, so heißt Ω,A ein Messraum, ist zusätzlich µ ein Maß auf A, so heißt Ω, A, µ ein Maßraum. Aus beweistechnischen Gründen ist es oft erforderlich, allgemeinere Mengensysteme zu betrachten als σ Algebren: Ein Mengensystem A PΩ mit den Eigenschaften 1 und 2 aus Teil i der Definition heißt auch eine Algebra und eine Mengenfunktion µ : A [0, ] mit µa B = µa+µb für alle A, B A mit A B = und mit µ = 0 heißt endlich additiv; gilt dann zusätzlich µa = n=1 µa n n=1 für alle disjunkten Folgen A n n=1 A mit A = n=1 A n A, so heißt µ σ additiv. Demnach sind alle Maße auf einer σ Algebra genau die σ additiven Mengenfunktionen. InmetrischenRäumenunddabeispeziellindenFällenIRundIR q isteinespezielleσ Algebra von Interesse, die von dem System O aller offenen Teilmengen von Ω erzeugte σ Algebra BΩ: die Borel-Algebra oder genauer die σ Algebra der Borelschen Mengen. Da eine Teilmenge A Ω genau dann offen ist, wenn das Komplement A c Ω abgeschlossen ist, wird die Borel-Algebra BΩ gleichermaßen von dem System aller abgeschlossenen Teilmengen von Ω erzeugt. Im Fall Ω = IR q sei B q = BIR q und speziell B = B 1 = BIR. Weiter identifizieren wir hier C mit IR 2 und erhalten damit BC = B 2. In vielen Fällen wird die Borel-Algebra BΩ auch von einem Teilsystem der offenen oder abgeschlossenen Mengen erzeugt: Wir diskutieren hier den Fall IR q : Für a = a 1,...,a q, b = b 1,...,b q mit a j < b j sei ]a, b[=]a 1, b 1 [... ]a q, b q [ das von a und b erzeugte offene Intervall IR q. I q sei die Gesamtheit aller offenen Intervalle des IR q.

8 0.1 Messräume und Maße Bemerkung: Für alle q IN gilt B q = AI q. Beweis: Wegen AI q B q müssen wir U AI q nachweisen für jede offene Teilmenge U IR q mit U c. Da Q abzählbar ist, muss auch U 0 = U Q q abzählbar sein. Da U c abgeschlossen ist gilt ru := min{ x u x U c } > 0 für alle u = u 1,...,u q T U. Zu jedem u U fixieren wir ein u 0 U 0 mit 2 u u 0 < ru und setzen r = ru 0. Für alle x U c gilt ru u x u u 0 + u 0 x. Durch Infimumsbildung über alle x U c erhalten wir damit ru u u 0 +ru 0 = u u 0 +r < 1 2 ru+r also 2 u u 0 < ru < 2r. Damit folgt Demnach gilt U = u Iu 0 :=]u 0 1 r, u 0 1 +r[... ]u 0 q r, u 0 q +r[ U. u 0 U 0 Iu 0, und da U 0 abzählbar ist, folgt U AI q Beispiel: Auf A = PIN definieren wir das Zählmaß µa = AnzA für jede Teilmenge A IN, wobei die Anzahl der elemente AnzA wie früher für jede Menge A IN definiert wird. Offenbar gilt µa B = µa+µb für alle disjunkten A, B PIN. Durch Fallunterscheidungen kann man auch leicht die σ Additivität von µ =Anz nachweisen. IN, PIN, µ ist also ein Maßraum. Wir notieren jetz einige elementare Eigenschaften additiver und σ additiver Mengenfunktionen. Die zweite Aussage wird auch als Stetigkeitssatz bezeichnet; diese Stetigkeitsaussagen sind dann in vielen Fällen leichter nachweisbar Satz: A sei eine Algebra auf Ω und µ : A IR + sei eine additive Mengenfunktion. i µ ist monoton auf A in dem Sinne, dass µa µb gilt für alle A, B A mit A B. ii Es gilt µa B µa+µb für alle A, B A. iii Für A, B A mit µa < und B A gilt µa\b = µa µb. Beweis: i Für alle A, B A mit A B gilt B = A B \A, wegen B \A = B A c A folgt µb = µa+µb \A µa. ii Wegen A B = A B \A und i folgt unmittelbar µa B = µa B \A = µa+µb \A µa+µb. iii Es gilt B A\B = und daher µa = µb+µa\b Satz: A sei eine Algebra auf Ω und µ : A IR + sei eine additive Mengenfunktion. Die folgenden Aussagen sind äquivalent: i µ ist σ additiv. ii Es gilt µa µa n für jede Folge A n n=1 A und A A mit A A n. n=1 n=1

9 8 0. Maß- und Integrationstheorie iii µ ist stetig von unten in dem Sinne, dass µa n µa gilt bei n für jede Folge A n n=1 A mit A n A n+1 für alle n IN und A = A n A. Zusatz: Im Fall µω < sind diese Aussage weiterhin äquivalent zu: iv µ ist stetig von oben in dem Sinne, dass µb n 0 gilt bei n für jede Folge B n n=1 A mit B n B n+1 für alle n IN und B n =. Auf den Beweis soll hier verzichtet werden. n=1 n=1 0.2 Konkrete Konstruktionen der Maß-Fortsetzung In diesem Abschnitt behandeln wir die mehr technischen Aspekte der Maß- und Integrationstheorie, die für den weiteren Verlauf der Theorie unverzichtbar sind. Allerdings werden später fast ausschließlich die hier hergeleiteten Resultate benutzt aber nicht die dazu erfoderlichen Konstruktionsmethoden und Beweise; daher verzichten wir hier vollständig auf die Beweise und verweisen wieder auf die Literatur. In diesem Abschnitt beschäftigen wir uns mit der Konstruktion der Fortsetzung einer σ additiven Mengen-Funktion auf einer Algebra A 0 zu einem Maß auf die erzeugte σ Algebra AA 0 und formulieren auch eine Eindeutigkeitsaussage. Aus diesen Sätzen folgt dann speziell die Existenz des Lebesgue-Maßes λ 1 auf der Borel-Algebra B 1 PIR Satz: Es sei F = FIR die Gesamtheit aller Vereinigungen von jeweils endlich vielen Intervallen IR. Dann ist F eine Algebra, und die auf F definierte Mengenfunktion λ, die jedem Intervall seine Länge als Wert zuordnet, ist σ additiv. Im weiteren Verlauf dieses Abschnittes befasst sich mit der einduetigen Fortsetzbarkeit einer σ additiven und σ endlichen Mengenfunktion auf einer Algebra F eindeutig zu einem eindeutig bestimmten Maß auf der von F erzeugten σ Algebra AF. Dabei heißt eine Mengenfunktion µ : F [0, ] σ endlich, wenn eine Folge B n n=1 F existiert mit µb n < fürallen INundmitΩ = B n.betrachtenwirjetztwiederdiesituationvon n=1 FIR und der dort definierten σ additiven Mengenfunktion λ, so lässt sich diese eindeutig zu einem Maß auf die von F erzeugte Borel-Algebra B fortsetzen. Wir bezeichnen diese Fortsetzung wieder mit λ und nennen es das eindimensionale Lebesgue-Maß. Für den allgemeinen Fall weisen wir jetzt die Eindeutigkeit und die Existenz getrennt nach Satz: A sei eine σ Algebra mit einem Erzeugendensystem F im Sinne von A = AF. Es seien µ, ν : A IR + zwei Maße mit µa = νa < für alle A F. Es gelte ferner A B F für alle A, B F, und es existiere eine Folge S n n=1 F mit S n S n+1 für alle n IN und mit S n = Ω. Dann gilt µa = νa für alle A A. n=1 Anmerkung: Dieser Satz besitzt eine Vielzahl von Anwendungen etwa in der Wahrscheinlichkeitstheorie: er gestattet sehr oft den Nachweis bestimmter Darstellungen von Maßen durch das Nachrechnen auf dazu besonders geeigneten Mengen.

10 0.3 Integrierbare Funktionen Satz: A 0 sei eine Algebra auf Ω, und µ : A 0 IR + eine σ additive und σ endliche Mengenfunktion. Dann ist µ eindeutig fortsetzbar zu einem Maß auf die von A 0 erzeugte σ Algebra A = AA 0. Wir notieren jetzt die wichtigsten Spezialfälle der Theorie: das Lebesgue Maß λ q auf der Borel-Algebra B q. Die Aussage im Fall q = 1 folgt unmittelbar aus den vorstehenden Resultaten. der Fall q > 1 wird dann in Zusammenhang mit der Theorie der Produkträume behandelt: er folgt ohne weitere Konstruktion einfach aus der dort entwickelten allgemeinen Theorie Satz: Es existiert ein eindeutig bestimmtes Maß das Lebesgue-Maß λ q auf B q mit λ q [a1,b 1 ]... [a q,b q ] = b 1 a 1... b q a q für alle a 1,...,a q,b 1,...,b q IR mit a j b j für alle j = 1,...,q. 0.3 Integrierbare Funktionen In diesem Abschnitt führen wir die Klasse der integrierbaren Funktionen auf einem Maßraum Ω, A, µ ein. Wir betrachten zunächst das Integral auf der Gesamtheit aller Stufenfunktionen; später wird dieses Integral dann auf eine Klasse nichtnegativer numerischer IR wertiger Funktionen und dann auf komplexwertige Funktionen ausgedehnt. Für stetige Funktionen auf einem kompakten Intervall stimmt dann das so gewonnene Integral mit dem bisherigen Begriff überein. Zur Abkürzung verwenden wir im weiteren Verlauf auch häufig die Schreibweise IK für den Körper der reellen oder komplexen Zahlen. Wir fixieren jetzt stets einen Maßraum Ω,A,µ. Weiter bilden wir für eine Teilmenge A PΩ die Indikatorfunktion oder auch charakteristische Funktion 1l A : Ω IR durch { 1 für t A 1l A t = 0 für t A. Ohne Beweis notieren wir die einfachen Rechenregeln: Bemerkung: Für alle A, B PΩ gilt 1l A B = 1l A 1l B, 1l A B = 1l A +1l B 1l A B. Ein System von Teilmengen {A j j I} A nennen wir paarweise disjunkt, wenn A j A k = gilt für alle j,k I mit j k. Eine Funktion f : Ω IR oder f : Ω C heißt eine Stufenfunktion in disjunkter Darstellung oder eine Treppenfunktion, wenn endlich viele α 1,...,α n IK und disjunkte A 1,...,A n A existieren mit f = n α k 1l Ak. T A sei die Gesamtheit aller Treppenfunktionen f : Ω C und T 0 A die Gesamtheit aller Treppenfunktionen f = n α k 1l Ak mit A k A und µa k < für alle k = 1,...,n. Ist f T 0 A reellwertig, so schreiben wir f T 0 A,IR, ist f zusätzlich nichtnegativ, also f 0, so schreiben wir dann f T 0 A,IR +. Für f T 0 A definieren wir das Integral f dµ durch f dµ = α k µa k.

11 10 0. Maß- und Integrationstheorie Damit diese Definition sinnvoll ist, müssen wir nachweisen, dass der Wert dieses Integrals unabhängig von der speziellen Art der Darstellung von f definiert ist. Dazu zeigen wir die folgende Hilfsaussage, in der auch weitere Eigenschaften des Integrals auf T 0 A hergeleitet werden Lemma: Für f, g T 0 A und α IK gelten die folgenden Aussagen. i Im Fall f = g folgt f dµ = gdµ; der Wert des Integrals ist also unabhängig von der speziellen Darstellung. ii f, g T 0 A,IR mit f g impliziert f dµ gdµ. iii f +αg T 0 A mit f +αgdµ = f dµ+α gdµ. iv f dµ f dµ. Beweis: Für den weiteren Verlauf des Beweises verwenden wir die folgenden Bezeichnungen: Es seien α 1,...,α r,β 1,...,β m IK, A 1,...,A r A, und B 1,...,B m A jeweils paarweise disjunkt mit r m f = α j 1l Aj, g = β k 1l Bk. Wir nehmen A 1... A r = B 1... B m an; ansonsten ergänzen wir die Darstellung der Funktionen durch α 0 = 0, β 0 = 0 und A 0 = B 1... B m \A 1... A r und B 0 = A 1... A r \B 1... B m. Damit erhalten wir dann eine Darstellung mit A 0... A r = B 0... B m. Wegen der Disjunktheit beider Mengensysteme gilt für alle j, k weiter A j = B 1... B m A j = B 1 A 1... B m A j, also µa j = µb 1 A µb m A j und entsprechend µb k = µa 1 B k +...+µa r B k. i Im Fall x B k A j folgt α j = fx = gx = β k. Wir erhalten also stets α j µa j B k = β k µa j B k für alle j = 1,...,r, k = 1,...,m. Damit ergibt sich weiter aus der Vorbemerkung r r m f dµ = α j µa j = α j µa j B k m r = β k µa j B k = m β k µb k = gdµ. ii Wie in i erhalten wir stets α j µa j B k β k µa j B k für alle j = 1,...,r, k = 1,...,m und daher weiter wie eben r f dµ = α j µa j = r m α j µa j B k m r β k µa j B k = gdµ.

12 0.3 Integrierbare Funktionen 11 iii Wegen der Vorbemerkung erhalten wir unmittelbar r m r m m r f +αg = α j 1l Aj +α β k 1l Bk = α j 1l Aj B k +α β k 1l Aj B k r m = α j +α β k 1l Aj B k T 0 A und weiter f +αgdµ = = = r m α j +α β k µa j B k r m α j µa j B k + α r α j µa j + α m r β k µa j B k m β k µb k = f dµ + α iv Wegen der Disjunktheit der A 1,...,A r A gilt f = r α j 1l Aj, also folgt f dµ = r α j µa j r α j µa j = f dµ. gdµ. Um sofort die in dieser Theorie üblichen und sehr nützlichen Bezeichnungen verwenden zu können führen wir folgende Notationen ein: Eine Teilmenge A Ω heißt eine µ Nullmenge oder kurz Nullmenge, wenn ein A A existiert mit A A und mit µa = 0. Offenbar ist wegen die abzählbare Vereinigung von Nullmengen wieder eine Nullmenge. Weiter sagen wir, dass eine Eigenschaft * auf Ω µ fast überall gilt, wenn diese Eigenschaft überall außerhalb einer geeigneten µ Nullmenge A gilt. Sind also etwa f, g : Ω IR Funktionen, so bedeutet f g µ fast überall oder auch ft gt für µ fast alle t Ω, dass eine µ Nullmenge A A existiert mit ft gt für alle t A. Sind weiter f n, f : Ω IR für alle n IN Funktionen, so bedeutet f n f punktweise µ fast überall bei n, dass eine µ Nullmenge A A existiert mit f n t ft bei n für alle t A c Definition: Ω,A und Ω 1,A 1 seien Messräume. Eine Abbildung f : Ω Ω 1 heißt messbar, wenn f 1 A 1 A gilt für alle A 1 A 1. Diese Definition hat formal Ähnlichkeit mit der Charakterisierung stetiger Funktionen mit Hilfe offener Mengen. Um die Messbarkeit besser beschreiben zu können benötigen wir folgende Bezeichnungen: Für eine Funktion f : Ω IR und α IR bilden wir die Mengen [f α] = [f α] = [f = α] = { } t Ω ft α, [f < α] = { } t Ω ft α, [f > α] = { } t Ω ft = α { } t Ω ft < α, { } t Ω ft > α,

13 12 0. Maß- und Integrationstheorie Offenbar gelten die folgenden Eigenschaften: [f < α] = n=1 [ f α 1 n ], [f > α] = [f α]c, [f α] = [f < α] c. Besonders einfach lässt sich die Messbarkeit einer Funktion oder Abbildung überprüfen oder charakterisieren, wenn ein Erzeugendensystem vorliegt: Bemerkung: Ω,A und Ω i,a i i = 1, 2 seien Messräume und E PΩ 1 mit AE = A 1. i f : Ω Ω 1 ist genau dann messbar, wenn f 1 A 1 A gilt für alle A 1 E. ii f : Ω IR,B ist genau dann messbar, wenn [f α] A gilt für alle α IR. iii f : Ω Ω 1 und g : Ω 1 Ω 2 seien messbar, dann ist g f : Ω Ω 2 messbar. Beweis: i Ist f messbar, so gilt offenbar f 1 A 1 A für alle A 1 E A 1. Um die Umkehrung einzusehen setzen wir A 0 = {B PΩ 1 f 1 B A}. Sind jetzt B, B j PΩ 1 für j I so gilt f 1 B j = f 1 B j, f 1 B j = j I j I j I j If 1 B j, f 1 B c = f 1 B c. Daher ist A 0 eine σ Algebra auf Ω 1 mit E A 0, also mit A 1 = AE A 0. ii Für E = {], α] α IR} gilt AE = B 1. Die Aussage folgt also aus i iii Die Aussage gilt wegen g f 1 A 2 = f 1 g 1 A 2 A für alle A 2 A Beispiel: i Es sei f T A,IR : f = r α j 1l Aj mit paarweise disjunkten A 1,...,A r A und α 1,...,α r IR. Dann gilt [f α] = {A j α j α } A für alle α IR. Folglich ist f messbar. ii Ist X,τ ein metrischer Raum, so ist jede stetige Funktion f : X IK messbar bezüglich der Borel-Algebren; da das Urbild jeder offenen Menge wieder offen ist folgt diese Aussage direkt aus i. In der folgenden Aussage zeigen wir, dass die Gesamtheit aller messbaren Funktionen sehr groß ist. So kann im Fall IR,B 1 keine nichtmessbare Funktion f : IR IR formelmäßig im üblichen Sinn angeben werden, rein theoretisch kann die Existenz einer derartigen Funktion nachgewiesen werden. Derartige Aussagen, die für uns hier nicht wichtig sind, befinden sich in Büchern über Maßtheorie Satz: i Es seien die Funktionen f n : Ω IR messbar für alle n IN. Dann sind auch sup{f n n IN}, inf{f n n IN}, limsupf n, liminf f n messbare Funktionen. n n ii Eine Funktion f : Ω IR ist genau dann messbar, wenn eine Folge f n n=1 T A,IR existiert mit f n t ft bei n im weiteren Sinne für alle t Ω. Die Folge kann so gewählt werden, dass f n t ft bei n für alle t Ω gilt. iii Sind die Funktionen f, g : Ω IR messbar, so sind auch f + g, f g, max{f, g}, min{f, g} messbar.

14 0.3 Integrierbare Funktionen 13 iv Ist f : Ω C messbar, so sind auch die Funktionen Ref, Imf, f messbar. v f : Ω C ist genau dann messbar, wenn eine Folge f n T A existiert mit f n t ft bei n für alle t Ω. Die Folge kann so gewählt werden, dass f n t ft bei n für alle t Ω gilt. [ ] Beweis: i Für α IR gilt sup{f n n IN} > α = [f n > α]. Damit folgt die Aussage n=1 für sup{f n } und inf{f n }. Wegen lim supf n = inf n sind daher die weiteren Aussagen ebenfalls klar. { sup{f m n m IN} } n IN ii Zunächst sei f : Ω IR messbar; es reicht, den Zusatz zu zeigen. Für alle n IN und alle 1 k n2 n seien A k = [f < k2 ] [ f k 1 ] und B n 2 n k = [ f < k2 ] [ f k 1 ]. n 2 n Wir setzen dann f n = n2 n k 1 2 n 1l Ak 1l Bk. Offenbar gilt f n t ft bei n im weiteren Sinne für alle t Ω. Die Umkehrung der Aussage folgt aus Aussage i. iii Wegen f +g, f g T A für alle f, g T A folgt der erste Teil der Aussage direkt aus ii. Wegen [max{f, g} α] = [f α] [g α], [min{f, g} α] = [f α] [g α] für alle α IR ist auch der zweite Teil von iii klar. iv Ist f messbar, so folgt, dass Ref, Imf messbar sind. Da die trigonometrischen Funktionen stetig sind, folgt γ = sup{cossreγ +sinsimγ s Q} für alle γ C. Daher gilt auch { } ft = sup cossreft+sinsimft s Q für alle t Ω. Da Q abzählbar ist, folgt die Aussage jetzt aus i. iv Durch Betrachtung von Ref und Imf folgt diese Aussage leicht aus ii. Bevor wir die Klasse der integrierbaren Funktionen einführen notieren wir noch eine einfache Bemerkung, die dann besagt, dass der neu eingeführte Integralbegriff für Funktionen f T 0 A,IR + und damit für alle f T 0 A mit dem früher definierten Integralbegriff übereinstimmt Bemerkung: Es sei f T 0 A,IR +. Dann gilt f dµ = sup{ } gdµ g T 0 A,IR + mit g f µ fast überall.

15 14 0. Maß- und Integrationstheorie Beweis: Wir betrachten g T 0 A,IR + mit g f µ fast überall. Es sei A A mit µa = 0undmitft gtfürallet A c.wegenµb = µa B+µA c B = µa c B für alle B A dürfen wir Ω = A c annehmen. Die Aussage folgt aus Definition: f : Ω IR sei messbar mit ft 0 für alle t Ω. Wir definieren das Integral durch die Festsetzung f dµ = sup{ } gdµ g T 0 A,IR + mit g f µ fast überall [0, ]. Eine messbare Funktion f : Ω [0, ] nennen wir integrierbar, wenn f dµ < gilt und schreiben f L 1 µ + ; ansonsten schreiben wir auch f dµ =. Eine messbare Funktion f : Ω C heißt integrierbar, wenn f 1, f 2, f 3, f 4 L 1 µ,ir + existieren mit f = f 1 f 2 +if 3 if 4. In diesem Fall schreiben wir f L 1 µ und f dµ = f 1 dµ f 2 dµ+i f 3 dµ i f 4 dµ. Es bleibt jetzt zu zeigen, dass diese Definition des Integrals für komplexwertige Funktionen widerspruchsfrei ist, dass also dieser Begriff unabhängig von der speziellen Darstellung definiert ist. Zunächst zeigen wir aber den Konvergenzsatz von der monotonen Konvergenz, der eine zentrale Rolle in der gesamten Theorie und in vielen Anwendungen spielt: Satz: Beppo Levi Es seien f, f n : Ω [0, ] messbare Funktionen mit f n t f n+1 t für alle IN und f n t ft bei n für µ fast alle t Ω. Dann gilt f dµ = lim f n dµ [0, ]. n Beweis: Der Beweis dieser Aussage erfolgt in mehreren Schritten: I: Sind f 1,f 2 : Ω [0, ] messbar, so gilt f 1 dµ+ f 2 dµ f 1 +f 2 dµ. Beweis von I: Es seien g 1,g 2 T 0 A,IR + beliebig mit g 1 f 1 und g 2 f 2 µ fast überall. Es folgt g 1 +g 2 f 1 +f 2 µ fast überall und daher g 1 dµ+ g 2 dµ = g 1 +g 2 dµ f 1 +f 2 dµ. Durch Supremumsbildung über alle g 1, g 2 T 0 A,IR + mit g 1 f 1 und g 2 f 2 µ fast überall folgt Aussage I. II: Aus der Definition des Integrals folgt unmittelbar, dass die Folge f n dµ n=1 monoton wachsend ist; folglich existiert der Grenzwert lim n fn dµ f dµ [0, ]. III: Es sei h T 0 A,IR + mit h f µ fast überall. Dann gilt hdµ lim n fn dµ. Wenn diese Aussage gezeigt ist, folgt aus dieser unmittelbar die Aussage des Satzes aus der Definition des Integrals.

16 0.3 Integrierbare Funktionen 15 Beweis von III: Es sei A A mit µa = 0 und f n t ft bei n und ht ft für alle t A c. Weiter sei h = r α k 1l Ak mit α 1,...,α r > 0 und mit A 1,...,A r A paarweise disjunkt und µa 1,...,µA r <. Wegen µa j = µa j A+µA j A c = µa j A c dürfen wir A j A c für alle j = 1,...,r annehmen. Es sei ε > 0 mit 2ε < min{α 1,...,α r }. Wir fixieren ein j {1,...,r} und setzen B n = A j [f n α j ε] für alle n IN. Wegen f n f n+1 folgt B n B n+1 für alle n IN. Für jedes t A j gilt f n t ft α j > α j ε bei n und daher t B n ; es folgt A j = B n. Der Stetigkeitssatz für Maße n=1 impliziert µb n µa j bei n. Daher existiert ein n j IN mit α j εµb n α j 2εµA j für alle n n j. Aus α j ε1l Bn f n 1l Bn f n 1l Aj auf Ω folgt α j 2εµA j α j εµb n = α j ε1l Bn dµ f n 1l Aj dµ für alle n n j. Für alle n max{n 1,...,n r } folgt damit schließlich wegen I hdµ 2ε r µa j = n=1 r α j 2εµA j r f n 1l Aj dµ f n dµ lim n Beim Grenzübergang ε 0 folgt damit unmittelbar die Behauptung. r f n 1l Aj dµ f n dµ. Wir zeigen jetzt die wichtigsten Eigenschaften des Integrals; die hier formulierten Aussagen entsprechen den bereit früeher für das Integral stetiger Funktionen auf einem kompakten Intervall hergeleiteten Regeln Satz: Es seien f, g L 1 µ. i Gilt f = g µ fast überall, so folgt f dµ = gdµ. ii Es sei α C. Dann gilt f +αg L 1 µ mit f +αgdµ = f dµ+α gdµ. iii Sind f und g reellwertig mit f g µ fast überall, so folgt f dµ gdµ. iv Ist h : Ω C messbar, so ist h L 1 µ äquivalent zu h L 1 µ,ir +. v Es gilt f dµ f dµ. Beweis: I ii für f, g L 1 µ + und 0 < α IR : Beweis von I: Wegen Satz existieren Folgen f n n=1,g n n=1 T A,IR + mit f n f, g n g bei n. Wegen f n +αg n f +αg bei n folgt aus dem Konvergenzsatz von Beppo Levi f n dµ f dµ, g n dµ gdµ, f n +αg n dµ f +αgdµ. Wegen gilt f n +αg n = f n dµ+α g n dµ für alle n IN; es folgt f +αgdµ = f dµ+α gdµ.

17 16 0. Maß- und Integrationstheorie i Wir betrachten zunächst f, g Lµ,IR und wählen dann f 1,f 2,g 1,g 2 L 1 µ,ir + mit f = f 1 f 2, g = g 1 g 2. Aus f = g µ fast überall folgt f 1 +g 2 = f 2 +g 1 µ fast überall und daher gilt wegen Teil I des Beweises f 1 dµ+ g 2 dµ = f 1 +g 2 dµ = f 2 +g 1 dµ = f 2 dµ+ g 1 dµ. Wir erhalten unmittelbar die behauptete Gleichheit der Integrale, also die behauptete Eindeutigkeit. Der Fall f, g L 1 µc kann dann durch Betrachtung der Realteile und der Imaginärteile der Funktionen leicht auf den reellen Fall zurückgeführt werden. ii Diese Aussage kann wegen der Definition des Integrals für komplexwertige Funktionen unmittelbar auf Teil I zurückgeführt werden. iii f g ist äquivalent zu g f 0 µ fast überall; aus der Definition des Integrals für nicht-negative Funktionen folgt unmittelbar f gdµ 0 und damit wegen ii 0 g fdµ = gdµ f dµ. iv Zunächst sei h integrierbar. Dann existieren h 1, h 2, h 3, h 4 L 1 µ,ir + mit h = h 1 h 2 +ih 3 ih 4.Aus h h 1 +h 2 +h 3 +h 4 folgtunmittelbarausi h L 1 µ,ir +.Fürdie Umkehrung setzen wir g 1 = max{reh,0}, g 2 = max{ Reh,0}, g 3 = max{imh,0}, g 4 = max{ Imh,0}undwegen h g 1, g 2, g 3, g 4 folgtunmittelbar h j dµ < fürj = 1,...,4 und damit wegen h = g 1 g 2 +ig 3 ig 4 die Aussage. v Wir setzen wie eben g 1 = max{ref,0}, g 2 = max{ Ref,0}, g 3 = max{imf,0}, g 4 = max{ Imf,0}. Wegen existieren Folgen g n k n=1 T A,IR + mit g n k g k f und g n 1 g n 2 + ig n 3 ig n 4 f bei n. Für alle n IN setzen wir f n = 4 ; wegen Lemma folgt unmittelbar f n dµ f n dµ. Aus g n 1 g n 2 + ig n 3 ig n dem Satz von Beppo Levi folgt g k n dµ g k dµ bei n für k = 1,...,4 und fn dµ f dµ bei n. Damit ist die Aussage gezeigt worden. Bevor wir weitere Eigenschaften integrierbarer Funktionen behandeln, zeigen wir zunächst, dass bei stetigen Funktionen auf einem kompakten Intervall das so mit dem Lebesgue-Maß definierte Integral mit dem früheren Integrationsbegriff übereinstimmt, man vergleiche dazu etwa Abschnitt 3.5. Im weiteren Verlauf verwenden wir die folgende Notation: Ist Ω, A, µ ein Maßraum, A A und f : A C eine Funktion mit f1l A L 1 µ, so definieren wir das Integral über die Teilmenge A durch A f dµ = f 1l A dµ. Im Fall f L 1 µ gilt offenbar stets 1l A f L 1 µ für alle A A wegen ; daher ist die Bildung dieses Teilintegrals in dieser Situation stets sinnvoll Satz: Es seien a, b IR mit a < b. Ist f : [a, b] C stetig, so gilt [a,b] b f dλ = ftdt. a

18 0.3 Integrierbare Funktionen 17 Beweis: Wir dürfen offenbar annehmen, dass f reellwertig ist mit f 0. Man beachte Definition des früher eingeführten Integralbegriffes. Da jede Intervall-Treppenfunktion auch eine Treppenfunktion ist, erhalten wir Uf T 0 A, IR + und daher die folgende Ungleichung b { b ftdt = sup gt dt } g Uf a a sup{ } gdµ g T 0 A,IR + mit g f µ fast überall = f dλ. [a,b] Ersetzen wir jetzt f durch f und wählen dann c IR mit c f 0 so erhalten wir b b cb a ftdt = c f tdt c f dλ = cb a f dλ a a [a,b] [a,b] und aus beiden Ungleichungen die behauptete Gleichheit Bemerkung: IN,PIN,µ sei der Maßraum mit dem Zählmaß µ. Für eine Funktion f : IN C und n IN setzen wir a n = fn. Dann ist f L 1 µ äquivalent zu a n <. In diesem Fall gilt f dµ = a n <. n=1 n=1 Beweis: Wir dürfen offenbar annehmen, dass f reellwertig ist mit f 0. Für jedes m IN setzen wir f m = m a n 1l {n}. Dann gilt n=1 f dµ = m a n µ{n} = n=1 m a n. n=1 Beim Grenzübergang m folgt f m dµ f dµ und m a n a n. n=1 n=1 Damit ist die Aussage gezeigt worden. Wir zeigen jetzt den für Anwendungen der Theorie sehr wichtigen Konvergenzsatz von Lebesgue über die majorisierte Konvergenz: Satz: Lebesgue Es seien f, f n : Ω C oder IR messbare Funktionen mit f n t ft für µ fast alle t Ω bei n. Es existiere ferner ein h L 1 µ,ir + mit f n h µ fast überall für alle n IN. Dann gilt f, f n L 1 µ für alle n IN und f dµ f n dµ f f n dµ 0 bei n

19 18 0. Maß- und Integrationstheorie Beweis: Da die Vereinigung von abzählbar vielen Nullmengen wieder eine Nullmenge ist, existiert eine Nullmenge A A mit f n t ht für alle t A c und alle n IN und mit f n t ft bei n für alle t A c. Die Abschätzung folgt unmittelbar aus Satz Für alle t A c und n IN setzen wir g n t = sup { f m t ft m IN mit m n }. Wegen f n t ft 0 bei n folgt g n t 0 bei n für alle t A c. Weiter gilt 0 2ht g n t für alle n IN und 2ht g n t 2ht bei n für alle t A c. Aus dem Satz von Beppo Levi folgt 2h gn 2 hdµ g n dµ = dµ 2 hdµ bei n, also g n dµ 0 bei n. Wegen f n f dµ g n dµ für alle n IN folgt unmittelbar die Aussage. Wir behandeln jetzt die Situation stetiger Funktionen f : I C mit einem nicht-kompakten Definitionsintervall nicht. Dann kann unter Umständen durch eine Grenzwertbestimmung ein uneigentliches Integral gebildet werden. Wir diskutieren jetzt den Zusammenhang mit dem in diesem Abschnitt eingeführten allgemeinen Integrationsbegriff Definition: I IR sei ein Intervall, das aus mehr als einem Punkt besteht. Wir setzen a = infi, b = supi IR. Eine Funktion f : I C heiße uneigentlich integrierbar auf I, wenn bei beliebigem c I und beliebigen u, v I mit a < u < c < v < b die Funktion f auf den Intervallen [u, c] und [c, v] integrierbar ist und die Grenzwerte existieren. Wir setzen b a+ v lim v b c ftdt = lim v b c ftdt und lim u a v c u ftdt + lim u a ftdt c u ftdt. Man erkennt unmittelbar, dass die Definition der uneigentlichen Integrierbarkeit unabhängig von der speziellen Wahl des in der Definition auftretenden c I ist: Sind c, c I und dann u, v I mit a < u < c < c < v < b, so folgt die behauptete Unabhängigkeit unmittelbar aus c v ftdt+ ftdt = ftdt+ ftdt. u c u c Entsprechend einfach folgt auch, dass jede steige Funktion f : [a, b] C auch auf [a, b] uneigentlich integrierbar ist bei gleichem Wert der Integrale. Weiter gilt: Bemerkung: Es sei I =]a, b[ IR ein Intervall mit a, b IR, und es sei f : I IR eine nichtnegative, stetige Funktion. Dann ist f genau dann auf I uneigentlich integrierbar, wenn f auf I integrierbar ist; es gilt dann f dλ = c b ftdt. v I a+

20 0.4 Produktmaße 19 Beweis: Es seien a n, b n IR mit a n < b n für alle n IN und mit a n a und b n b im uneigentlichen Sinn bei n. Wegen gilt b n a n ftdt = [a n,b n] f dλ für alle n IN. Bei dem Grenzübergang n folgt aus dem Konvergenzsatz von Beppo Levi unmittelbar b n a n ftdt b a ftdt bei n [a n,b n] f dλ ]a,b[ f dλ bei n im weiteren Sinn. Damit ist die Aussage gezeigt worden. 0.4 Produktmaße In diesem Abschnitt gehen wir von den zwei Maßräumen Ω 1,A 1,µ 1 und Ω 2,A 2,µ 2 aus und konstruieren auf der Produktmenge Ω 1 Ω 2 die Produkt σ Algebra A 1 A 2 und auf dieser dann ein Produktmaß µ 1 µ 2. Durch vollständige Induktion kann man dann auch unmittelbar ein Produkt von endlich vielen Maßräumen bilden. Als eine der wichtigsten Anwendungen folgt dann unmittelbar die Konstruktion des n dimensionalen Lebesgue-Maßes λ n auf dem Messraum IR n, B n. Für die allgemeine Konstruktion fixieren wir zwei σ endliche Maßräume Ω 1,A 1,µ 1 und Ω 2,A 2,µ Definition: Wir setzen Ω = Ω 1 Ω 2. Die kleinste σ Algebra A auf Ω, die alle Mengen der Form A 1 A 2 mit A 1 A 1, A 2 A 2 enthält, heißt die von den σ Algebren A 1, A 2 erzeugte Produkt σ Algebra. Wir schreiben A = A 1 A 2. Entsprechend bilden wir im Fall von endlich vielen σ endlichen Maßräumen Ω i,a i,µ i für i = 1,...,n die Produkt σ Algebra n A i, die von dem System i=1 {A 1... A n A1 A 1,...,A n A n } erzeugte σ Algebra auf Ω = Ω 1... Ω n, also der kleinsten σ Algebra auf Ω, die dieses Mengensystem enthält. Betrachten wir jetzt die Borel-Algebra B n auf dem Raum IR n, so gilt offenbar B n = n B 1, i=1 als n faches Produkt des Maßraumes IR, B 1. Man beachte dabei Weiter definieren wir noch die Klasse der endlichen Zylindermengen { } Z 0 = B 1 B 2 B1 A 1, B 2 A 2, µ 1 B 1, µ 2 B 2 <.

21 20 0. Maß- und Integrationstheorie Bemerkung: Für i = 1, 2 seien E i A i Mengensysteme gegeben mit A i = AE i. Weiter existiere zu i = 1, 2 eine Folge A n i n=1 E i mit = Ω i. Wir setzen n=1 A n i } E = {A 1 A 2 A1 E 1, A 2 E 2 und erhalten AE = A 1 A 2. Speziell gilt AZ 0 = A 1 A 2. Beweis: Aus der Konstruktion der Produkt σ Algebra folgt unmittelbar AE A 1 A 2. Wir müssen AE A 1 A 2 einsehen. Offenbar gilt A 1 = A 1 Ω 2,A 2 = Ω 1 A 2 A 1 A 2 für alle A 1 A 1, A 2 A 2. Aus der Konstruktion folgt ebenfalls, dass { } A i = A i A i A i für i = 1, 2 σ Algebren auf Ω = Ω 1 Ω 2 sind. Da für i = 1, 2 eine Folge A n i n=1 E i existiert mit = Ω i, erhalten wir damit n=1 A n i { A i = A A i } } A i E i A {A 1 A 2 A1 E 1, A 2 E 2. Wegen A 1 A 2 = A 1 A 2 für alle A 1 A 1 und A 2 A 2 ist damit die Aussage bewiesen worden. Der Zusatz folgt unmittlelbar, da die Maße σ endlich sind. In der folgenden Aussage zeigen wir die Existenz des Produktmaßes µ = µ 1 µ 2 auf dem Raum Ω = Ω 1 Ω 2 mit µb 1 B 2 = µ 1 B 1 µ 2 B 2 für alle B 1 B 2 Z 0 : Satz: Es seien Ω 1,A 1,µ 1 und Ω 2,A 2,µ 2 zwei σ endliche Maßräume. Auf A = A 1 A 2 existiert ein eindeutig bestimmtes Maß µ = µ 1 µ 2 mit µa 1 A 2 = µ 1 A 1 µ 2 A 2 für alle A 1 A 2 Z 0. Für alle A A gilt weiter µa = 1l A s 1,s 2 dµ 1 s 1 dµ 2 s 2 Ω 1 = Ω 2 Ω 1 Ω 2 1l A s 1,s 2 dµ 2 s 2 dµ 1 s 1. Dabei sind alle vorkommenden inneren Integrale messbare Funktionen auf Ω 1 beziehungsweise auf Ω 2, so dass die Integrale mit Werten in [0, ] stets definiert sind. Auf den Beweis dieser Aussage soll verzichtet werden. Ist jetzt weiter f : Ω IR + eine Treppenfunktion, also f = α 1 1l A1 +...α n 1l An mit A 1...,A n A 1 A 2 = A, so folgt aus der Aussage der vorstehenden Satzes unmittelbar f dµ = f dµ 2 dµ 1 = f dµ 1 dµ 2 [0, ]. Ω 2 Ω 1 Ω 1 Ω 2

22 0.4 Produktmaße 21 Betrachten wir jetzt eine allgemeine messbare Funktion f : Ω IR +, so existiert wegen eine Folge von Treppenfunktionen f n n=1 mit f n t 1, t 2 ft 1, t 2 bei n für alle t 1, t 2 Ω = Ω 1 Ω 2. Aus dem Konvergenzsatz von Beppo Levi folgt dann f n dµ f dµ bei n f n s 1, t 2 dµ 1 s 1 fs 1, t 2 dµ 1 s 1 für alle t 2 Ω 2 und Ω 1 Ω 1 f n t 1, s 2 dµ 2 s 2 ft 1, s 2 dµ 2 s 2 für alle t 1 Ω 1 Ω 2 Ω 2 bei n. Eine erneute Anwendung des Konvergenzsatzes von Beppo Levi liefert f n s 1, s 2 dµ 1 s 1 dµ 2 s 2 fs 1, s 2 dµ 1 s 1 dµ 2 s 2 Ω 2 Ω 1 Ω 2 Ω 1 f n s 1, s 2 dµ 2 s 2 dµ 1 s 2 fs 1, s 2 dµ 2 s 2 dµ 1 s 1 Ω 2 Ω 2 Ω 1 bei n. Da wir eben für Teppenfunktionen die Gleichheit der Integrale bewiesen hatten, folgt unmittelbar die folgende Aussage: Satz: Fubini Es seien Ω 1,A 1,µ 1 und Ω 2,A 2,µ 2 σ endliche Maßräume. Wir setzen Ω = Ω 1 Ω 2, A = A 1 A 2 und µ = µ 1 µ 2. Weiter sei f : Ω IR + messbar. Dann gilt i Die Funktionen Ω 2 t 2 fs 1, t 2 dµ 1 s 1, Ω 1 t 1 ft 1, s 2 dµ 2 s 2 Ω 1 Ω 2 Ω 1 sind messbar. ii f dµ = Ω 2 Ω 1 fs 1, s 2 dµ 1 s 1 dµ 2 s 2 = Ω 1 Ω 2 fs 1, s 2 dµ 2 s 2 dµ 1 s 1. BetrachtenwirjetztfüreinemessbareFunktionf : Ω CdenRealteilunddenImaginärteil und dann jeweils die Positiv- und Negativteile, so erhalten wir die folgende Aussage: Satz: Fubini, Tonelli Es seien Ω 1,A 1,µ 1 und Ω 2,A 2,µ 2 σ endliche Maßräume. Wir setzen Ω = Ω 1 Ω 2, A = A 1 A 2 und µ = µ 1 µ 2. Weiter sei f : Ω C messbar. Die folgenden Aussagen sind äquivalent: i f L 1 µ. ii Es gilt ft 1,. L 1 µ 2 für µ 1 fast alle t 1 Ω 1 und Ω 2 f.,s 2 dµ 2 s 2 L 1 µ 1.

23 22 0. Maß- und Integrationstheorie iii Es gilt f.,t 2 L 1 µ 1 für µ 2 fast alle t 2 Ω 2 und Ω 1 fs 1,. dµ 1 s 1 L 1 µ 2. Ist eine dieser Aussagen erfüllt, so folgt f dµ = fs 1, s 2 dµ 1 s 1 dµ 2 s 2 = Ω 1 Ω 2 Ω 1 Ω 2 fs 1, s 2 dµ 2 s 2 dµ 1 s 1. Wir wenden uns jetzt wieder der Situation der Raumes IR q mit der Borel-Algebra B q zu. Bekanntlich lässt sich IR q als q faches Produkt von IR schreiben. Da weiter B q = AI q gilt, folgt aus den durchgeführten Konstruktionen, dass B q = q B 1 gilt. Setzen wir jetzt weiter λ q = q λ, das Produktmaß auf der σ Algebra B q = q B 1, so folgt speziell aus den n=1 vorstehenden Resultaten die folgende Aussage: Satz: Es existiert ein eindeutig bestimmtes Maß λ q auf dem Messraum IR q, B q mit λ q ]a 1, b 1 [... ]a q, b q [ = b 1 a 1... b q a q für alle offenen Intervalle ]a 1, b 1 [... ]a q, b q [ IR q. Für eine beliebige Menge A B q gilt λ q A =... 1l A s 1,s 2,...,s q dλs q... dλs 2 dλs 1. Eine entsprechenden Aussage gilt natürlich auch für Integrale messbarer Funktionen: Folgerung: f : IR q C sei messbar mit fs1...,s 2,...,s q dλs q... dλs 2 dλs 1 <. Dann gilt f L 1 λ q mit f dλ q =... fs 1,s 2,...,s q dλs q... dλs 2 dλs 1. IR q Dabei kann in den beiden vorstehenden Aussagen die Reihenfolge der Integration beliebig vertauscht werden. Ohne absolute Konvergenz bleibt diese Aussage nicht mehr richtig; man vergleiche dazu das folgende Beispiel: Beispiel: Die Funktion f : [0, 2π] [1, [ IR sei definiert durch fs,t = sins 1 t. Dann gilt 2π sins 1 t ds = 0 und sins 1 t dt = n=1 n=1 für alle t [1, [ und alle s ]0, 2π[, s π. 0 1

24 0.5 Der Transformationssatz Beispiel: Man berechne Die Reihenfolge der Integration darf wegen sins 3 t 2 dt ds = 1+t 2 1+s t 2 1+s 4 sins3 t 2 dt ds. 1 1+t 2 1+s 4 dt ds = vertauscht werden. Da für alle fixierten t 0 die Funktion g: gs = d.h. g s = gs ist, gilt gsds = 0 für alle t 0. Es folgt sins 3 t 2 1+t 2 1+s 4 dt ds = sins 3 t 2 1+t 2 1+s 4 ds dt = Beispiel: Man berechne { } λ 3 A für A = x,y,z IR 3 x, y, z 0, x+y 2 +z 2 4. π 1 1+s 4 ds < sins 3 t 2 1+s 4 1+t 2 ungerade 0dt = 0. Wegen gilt λ 3 A = 1l A dλ 3 = 4 4 x 4 x y 2 dz dy dx = = 4 4 x π/2 0 4 x y2 dy dx 0 4 x 4 xsin 2 t 0 4 xcostdt dx = π/2 4 xcos 2 tdt dx = 4 4 x π 4 dx = 2π Der Transformationssatz In diesem Abschnitt behandeln wir einige Begriffsbildungen für den konkreten Maßraum IR q,b q,λ q. So zeigen wir den Transformationssatz, der im Fall IR q die bekannte Substitutionsregel ersetzt und die Berechnung einiger wichtiger Integrale ermöglicht.

25 24 0. Maß- und Integrationstheorie Satz: Transformationssatz Es seien U, W IR q offene Teilmengen und Φ : U W eine bijektive Abbildung, so dass Φ und Φ 1 stetig differenzierbar sind. Für alle A B q U = { A B q A U } gilt dann λ q ΦA = detdφ. λ q A = A det DΦx dλ q x. Ist jetzt f : W = ΦU C messbar, so ist f genau dann integrierbar auf W, wenn f Φ detdφ : U C auf U integrierbar ist. In diesem Fall gilt dann f dλ q = f Φx detdφx dλ q x. W U Aud den Beweis dieser Aussage soll verzichtet werden Beispiel: Polarkoordinaten Wir definieren Φ :]0, [ ]0, 2π[ IR 2 \[0, [ {0} durch Φr,t = rcost,rsint für alle 0 < r IR und 0 < t < 2π. Es gilt offenbar det DΦr,t = r für alle 0 < r IR, 0 t 2π. Daher folgt für jede messbare Funktion f : IR 2 [0, [ IR 2 fxdλ 2 x = 0 2π 0 rfrcost,rsintdt dr. Eine entsprechende Aussage erhalten wir natürlich auch für integrierbare Funktionen Beispiel: Es gilt e t2 dt = π. Wegen der vorstehenden Resultate erhalten wir e t2 dt 2 = e t2 dt e s2 ds = e t2 s 2 dt ds = IR 2 e x 2 dλ 2 x = 0 2π 0 re r2 dt dr = 2π 0 re r2 dr = π.

26 1. Grundlagen der Wahrscheinlichkeitstheorie Das Ziel der ersten Abschnitte ist es den Begriff Wahrscheinlichkeit einzuführen und ausführlich zu diskutieren. Dabei setzen wir grundlegende Kenntnisse der allgemeinen Integrationstheorie voraus, die hier die für eine schnelle und übersichtliche Darstellung der Wahrscheinlichkeitstheorie unverzichtbar ist. Dabei benutzen wir hier lediglich die wichtigsten Resultate und Begriffsbildungen ohne auf die teilweise komplizierten Konstruktionen einzugehen; das gilt insbesondere für die doch umständlichen Konstruktionen der Maßfortsetzung. Als sehr wichtige Aspekte treten als wichtiger Spezialfall die endlichen Wahrscheinlichkeitsräume auf; um diese behandeln zu können, benötigen wir einige Aussagen über elementare Kombinatorik, die hier kurz dargestellt werden sollen. 1.1 Elementare kombinatorische Probleme Bemerkung: Es seien n N und A eine Menge mit AnzA = n. Für r N sei A r das r-fache kartesische Produkt Dann gilt A r = AnzA r = n r. A r = { a 1,...,a r a 1,...,a r A }. Dabei bezeichnen wir jedes a = a 1,...,a r A r als r-permutation mit Wiederholungen aus der Menge A = {a 1,...,a r }. Diese Aussage kann sehr einfach durch vollständige Induktion nachgewiesen werden, auf die Durchführung dieses Beweises soll daher verzichtet werden Bemerkung: Es seien r,n N und A,B Mengen mit AnzA = r, AnzB = n. Dann gilt Anz {ϕ ϕ : A B} = n r. Beweis: Mit A = {a 1,...,a r } können wir jede Abbildung ϕ : A B umkehrbar eindeutig mit dem r-tupel ϕa1,...,ϕa r B r identifizieren. Die Aussage folgt also aus Bemerkung: Es seien r,n N mit r n und A = {a 1,...,a n } eine Menge. Wir setzen A r = { b 1,...,b r A r b i b k für alle i k }. - die Gesamtheit aller r-permutationen ohne Wiederholungen von Elementen aus A. Dann gilt Anz A r n! = n r := n r!. 25

27 26 1. Grundlagen der Wahrscheinlichkeitstheorie Beweis: Die Aussage ist im Fall r = n = 1 offenbar richtig. Es sei jetzt m IN, und die Aussage sei richtig für alle r, n IN mit r n m. Wir setzen n = m + 1. Im Fall r = 1 ist nichts zu zeigen.es muss die Aussage im Fall r+1 m+1 nachgewiesen werden. Zu jedem beliebigen b 0 A bilden wir A 0 = A\{b 0 }. Wegen AnzA 0 = n 1 = m und der Induktionsvoraussetzung existieren n 1 r = n 1! n 1 r! unterschiedliche r-permutationen von Elementen aus A 0 ohne Wiederholungen, also n 1 r unterschiedliche r+1-permutationen c 0,c 1,...,c r von Elementen aus A mit c 0 = b 0. Da b 0 A beliebig war, existieren n n 1! n 1 r! = n! n r+1! = n r+1 unterschiedliche Elemente b 0,...,b r A r+1, was zu zeigen war Bemerkung: Es seien r,n N mit r n und A,B Mengen mit AnzA = r und AnzB = n. i Es existieren genau n r = n! injektive Abbildungen ϕ : A B. n r! ii Es existieren genau n! bijektive Abbildungen ϕ : A A. Beweis: Es ist nur die Aussage i zu zeigen; mit B = A folgt ii dann unmittelbar aus i. Im Fall A = {a 1,...,a r } kann jede injektive Abbildung ϕ : A B durch ϕ ϕa 1,...,ϕa r B r umkehrbar eindeutig dargestellt werden. Die Aussage folgt daher aus Satz: Es seien n N und eine Menge mit AnzA = n. Zu jedem r N 0 = N {0} mit r n existieren genau n k unterschiedliche Teilmengen B von A mit AnzB = r. Beweis: Die Aussage ist im Fall r = n richtig. Die Aussage sei jetzt richtig für ein n N mit r n. Es sei jetzt A eine Menge mit AnzA = n+1. Wir fixieren a 0 A und setzen A 0 = A\{a 0 }. Dann gilt AnzA 0 = n. Im Fall r = 0 ist B = die einzige Teilmenge mit AnzB = 0, wegen n 0 = 1 ist die Aussage richtig. Im Fall r > 0 existieren genau n 1 r 1 unterschiedliche Teilmengen B A mit a 0 B und AnzB = r und n 1 r unterschiedliche Teilmengen B A mit a 0 / B und AnzB = r. Wegen n 1 r 1 + n 1 r = nr ist die Aussage gezeigt worden. Wir interessieren uns jetzt für die Anzahl unterschiedlicher ungeordneter Proben mit Wiederholungen auf einer Menge A mit AnzA = n N. Zur Herleitung benötigen wir die folgende Identifizierung: Es sei k N und a = a 1,...,a k, b = b 1,...,b n A k. Wir schreiben [a 1,...,a k ] = [b 1,...,b k ] genau dann wenn eine bijektive Abbildung σ = {1,...,k} {1,...,k} existiert mit b j = a σj für alle j = 1,...,k.

28 1.1 Elementare kombinatorische Probleme Satz: A sei eine Menge mit n = AnzA N und es sei k N. Dann existieren genau n+k 1 k ungeordnete Proben mit Wiederholungen vom Umfang k. Beweis: Wir dürfen offenbar A = {1,...,n} annehmen. Ist jetzt b = b 1,...,b k A k, so bestimmen wir durch Umordnung ein a = a 1,...,a k A k mit [a 1,...,a n ] = [b 1,...,b n ] und mit a 1 a 2... a k. Wir setzen jetzt C = { 1,2,...,n+k 1 } und A k n = { [a 1,...,a k ] a1,...,a k A k} und definieren eine Abbildung ϕ : A k n { B PC AnzB = k } durch ϕ [a 1,...,a k ] = { a 1,a 2 +1,a 3 +2,...,a k +k 1 }. Offenbar gilt Anz ϕ[a 1,...,a k ] = k; weiter ist die Abbildung ϕ bijektiv. Aus folgt daher AnzA k n = n+k 1 k. Mit der folgenden Aussage soll der Begriff der Binomialkoeffizienten verallgemeinert werden: Bemerkung: Es seien r IN, n 1,...,n r IN 0 und n = n n r IN. Ω sei eine Menge mit AnzΩ = n. Es existieren genau n n! n 1,...,n r := n 1!...n r! unterschiedliche Tupel A 1,...,A r disjunkter Teilmengen A i Ω mit AnzA i = n i für alle i = 1,...,r. Dabei wird der Wert n n 1,...,n r als Multinomialkoeffizient bezeichnet. Beweis: Im Fall r = 1 ist nichts zu zeigen. r r+1:esseienn 0,n 1,...,n r IN 0 undn = n 0 +n n r.wirsetzenm = n n r und dürfen m IN und m < n annehmen. Eine Menge A 0 Ω mit AnzA 0 = n 0 sei fixiert und es sei Ω 0 = Ω \ A 0. Es gilt AnzΩ 0 = m. Wegen der Induktionsvoraussetzung existieren m n 1,...,n r unterschiedliche Tupel A1,...,A r disjunkter Teilmengen A i Ω 0 mit AnzA i = n i für alle i = 1,...,r. Da es n n0 unterschiedliche Teilmengen A0 Ω gibt mit AnzA 0 = n 0 folgt die Aussage aus n n! n 0,n 1,...,n r = n 0!n 1!...n r! = n! m! n 0!m! n 1!...n r! = n m n0 n 1,...,n r.

29 28 1. Grundlagen der Wahrscheinlichkeitstheorie 1.2 Wahrscheinlichkeitsräume In diesem Abschnitt sollen Wahrscheinlichkeitsräume definiert werden. Dabei gehen wir von der allgemeinen Situation aus und behandeln dabei ausführlich die besonders wichtige Klasse der diskreten oder auch endlichen Wahrscheinlichkeitsräume ohne allerdings für diese die Resultate gesondert zu formulieren. Gegeben sei eine nichtleere Menge Ω, deren Elemente ω werden als Versuchsausgänge oder Elementarereignisse bezeichnet. Die Grundmenge Ω heißt auch Ereignisraum, Stichprobenraum oder Ergebnismenge. Oft ist es sinnvoll nicht Elementarereignisse zu betrachten: man fasst gewisse Elementarereignisse zusammen zu Ereignissen und fordert, dass dieses Mengensystem eine σ Algebra A PΩ ist also ein Mengensystem mit den folgenden Eigenschaften: i,ω A. ii Für A,B A gilt A B, A B, A\B, A c A. iii Sind A n A für alle n IN, so folgt A n, A n A. n=1 Zwei Ereignisse A, B A heißen unvereinbar disjunkt, wenn A B = gilt. Eine auf dieser σ Algebra definierte Funktion P : A [0,1] mit den Eigenschaften PΩ = 1, P = 0, P A n = n=1 n=1 PA n für jede Folge A n n=1 A mit A n A m = für alle n m n=1 heißt ein Wahrscheinlichkeitsmaß auf Ω,A. Dabei wird jedes A A mit PA = 1 als ein sicheres Ereignis und jedes A A mit PA = 0 als ein unmögliches Ereignis bezeichnet. Um die Darstellung übersichtlich gestalten zu können treffen wir folgende Verabredung: Im Fall AnzΩ IN - also einem endlichen Ereignisraum - oder im Fall einer abzählbaren Menge Ω sei stets A = PΩ. In diesem Fall verzichten wir auf die explizite Erwähnung dieser Ereignismengen. Ein Wahrscheinlichkeitsmaß P soll in diesem Fall stets die folgende Darstellung besitzen: Für jedes ω Ω sei p ω = P {ω} [0, 1], und es gelte p ω = 1. Für jedes A PΩ sei dann PA = ω Ap ω. Diese Darstellung ist stets im Fall AnzΩ IN gegeben. Im Fall Ω = IR n betrachten wir als Ereignismengensystem das System aller Borelmengen B n - die kleinste σ-algebra PIR n, die alle offenen oder alle geschlossenen, oder alle Intervalle des IR n enthält, wenn es nicht anders vereinbart wird. Im allgemeinen Fall ist die Restriktion auf eine σ Algebra erforderlich aus dem folgenden Grund: Für den Fall Ω = IR kann man zeigen, dass kein Maß auf PIR existiert, das jedem Intervall die Intervalllänge zuordnet. Das System PIR enthält demnach zu viele Mengen - es ist daher aus mathematischen Gründen erforderlich, ein kleineres System zu ω Ω

30 1.2 Wahrscheinlichkeitsräume 29 wählen. Dieses System ist das der Borelalgebra B. Auf B existiert das Lebesgue-Maß λ: Ein Maß mit λ[a,b] = b a für alle a,b IR, mit a b. Der Vollständigkeit halber notieren wir einige elementare Eigenschaften allgemeinener Wahrscheinlichkeitmaße ohne Beweis. Die sehr einfachen Beweise folgen unmittelbar aus der Definition, sie finden sich außerdem in der Maßtheorie Bemerkung: Ω,A,P sei ein Wahrscheinlichkeitsraum - also Ω, A PΩ eine σ-algebra, und P : A [0,1] ein Wahrscheinlichkeitsmaß. Dann gilt i PA c = 1 PA für alle A A. ii A,B A mit A B impliziert PA PB. iii PB \A = PB PB A für alle A,B A. iv PA 1... A n n PA k für alle A 1,...,A n A. v PA B+PA B = PA+PB für alle A,B A. Wir diskutieren jetzt einige der wichtigsten endlichen Wahrscheinlichkeitsräume, zunächst behandeln wir die Laplace-Wahrscheinlichkeit. Dabei besitzt jedes einzelne Elementarereignis die gleiche Wahrscheinlichkeit: Bemerkung: Es sei n = AnzΩ IN. Für jedes A PΩ setzen wir PA = AnzA AnzΩ. Dann ist P ein Wahrscheinlichkeitsmaß auf Ω. Demnach gilt p ω := P {ω} = 1 für alle ω Ω. Auf den sehr einfachen Beweis dieser n Bemerkung kann verzichtet werden Beispiel: Gegeben seien 4 Würfel. Man bestimme die Wahrscheinlichkeit P, dass die vier verschiedenen Augenzahlen alle verschieden sind. Es sei A = {1,2,...,6} - die Gesamtheit der Augenzahlen eines Würfels; weiter sei Ω = A 4 der Ereignisraum des Werfens von 4 Würfeln. Nach gilt mit A 4 = { b 1,...,b n b 1,b 2,b 3,b 4 A paarweise verschieden } Weiter gilt Anz A 4 = 6! 6! ; für das gesuchte Ergebnis erhalten wir P = 2! 2! 6 = Beispiel: Zahlenlotto 6 aus 49: Das Tippen von 6 verschiedenen Zahlen zwischen 1 und 49 entspricht der Auswahl einer 6 elementigen Teilmenge A {1,...,49}. Wir setzen also Ω = { A {1,...,49} AnzA = 6 }. Wegen gilt AnzΩ = 49 6, man kann demnachauf 49 6 verschiedeneartenungeordneteprobenvomumfang6entnehmen.daher ist die Wahrscheinlichkeit für 6 Richtige. p 6 = =

31 30 1. Grundlagen der Wahrscheinlichkeitstheorie Wir wollen jetzt die Wahrscheinlichkeit p j für j- Richtige bestimmen für ein 1 j < 6. Dazu sei A {1,...,49} die Menge der getippten Zahlen. Ist jetzt B {1,...,49} eine Menge mit AnzB = 6, die genau j der getippten Zahlen enthält, so gilt AnzA B = j und AnzA c B = 6 j. Demnach existieren genau 6j j unterschiedliche Teilmengen B {1,...,49}, die jeweils genau j der getippten Zahlen enthalten. Da ein Laplace Wahrscheinlichkeitsraum vorliegt, erhalten wir als Wahrscheinlichkeit p j für genau j Richtige den Quotienten der Anzahl der günstigen zur Anzahl aller Fälle: p j = 6j 43 6 j. 496 Wir wollen jetzt die eben behandelte Situation von j Richtigen allgemeiner formulieren und führen in diesem Zusammenhang die hypergeometrische Verteilung hm 1,m 2,n 1,n 2 ein; auf den sehr einfachen Beweis der folgenden Bemerkung unter Benutzung von kann verzichtet werden: Bemerkung: Es seien n, n 1, n 2 IN mit n = n 1 +n 2. Ω sei die Vereinigung zweier disjunkter Teilmengen Ω 1 Ω 2 mit AnzΩ 1 = n 1, AnzΩ 2 = n 2. Weiter seien m 1,m 2 IN mit m i n i für i = 1,2. i Es existieren genau n 1 n2 m 1 m 2 Teilmengen A Ω mit AnzA Ωi = m i für i = 1,2. ii Setzen wir m = m 1 + m 2, so ist bei Gleichverteilung die Wahrscheinlichkeit der Auswahl einer m-elementigen Teilmenge A Ω mit AnzA Ω i = m i für i = 1,2 gleich hm 1,m 2,n 1,n 2 = n1 m 1 n2 m 2 nm. Der hypergeometrischen Verteilung entspricht das Urnenmodell ohne Zurücklegen, also einer Urne mit n 1 roten und n 2 schwarzen Kugeln. Nacheinander werden m n = n 1 +n 2 Kugelnblindentnommen.Sinddannm 1, m 2 IN 0 mitm = m 1 +m 2,m 1 n 1,undm 2 n 2, so ist hm 1,m 2,n 1,n 2 die Wahrscheinlichkeit, dass sich in der entnommenen Probe m 1 rote und m 2 schwarze Kugeln befinden Beispiel: Die Wahrscheinlichkeit, dass ein bestimmter Spieler bei einem Kartenspiel Skat mit 32 Spielkarten, davon 4 Buben, genau 3 Buben hat ist p = = 0,0734: Diese Aussage folgt mit n 1 = 4, n 2 = 28, m 1 = 3, m 2 = 7 unmittelbar aus ii. Wir wollen jetzt eine der wichtigsten Verteilungen - die Binomialverteilung - einführen. Dazu betrachten wir zunächst ein Bernoulli-Experiment: Einen Wahrscheinlichkeitsraum Ω 0 = {a,b} mit zwei möglichen Ausgängen. Es sei p = P{a} die Wahrscheinlichkeit des Eintreffensvona,diesewirdauchalsWahrscheinlichkeitdesErfolgesundq = 1 p = P 0 {b} diewahrscheinlichkeitdesmisserfolgesbezeichnet.oftwirdauchdiebezeichnugω 0 = {1, 0} gewählt, und dann das Eintreffen von dem Elementarereignis 1 als Erfolg und das von 0 als Misserfolg bezeichnet.

32 1.2 Wahrscheinlichkeitsräume 31 Dieses Bernoulli-Experiment werde jetzt n-mal unabhängig wiederholt. Mathematisch gesehen liegt hier eine Produktsituation vor: Wir betrachten also Ω = Ω 0... Ω 0 = Ω n 0 mit dem Produktmaß P = P 0... P 0. Ist jetzt c = c 1,...,c n Ω mit Anz {i c i = a} = j, so erhalten wir als Wahrscheinlichkeit des Eintreffens von c wegen der Konstruktion des Produktmaßes P{c} = P 0 {c1 }... P 0 {cn } = p j q n j. Bei fixiertem j {0,1,...,n} existieren wegen satz genau n j unterschiedliche Teilmengen A {1,...,n} mit AnzA = j, also äquivalent dazu n j unterschiedliche c Ω = Ω n 0 mit Anz {i c i = a} = j. Ist demnach A PΩ das Ereignis des j-maligen Erfolges, also A = { c Ω Anz {i c i = a} = j }, so folgt Daher gilt die folgende Aussage: PA = n j p j q n j Satz: Gegeben sei ein Bernoulli Experiment Ω 0 = {a,b} mit p = P{a} und q = 1 p = P{b}. Für n IN und 0 k n ist b n,p k = n k p k q n k - die Binomialverteilung - die Wahrscheinlichkeit des Eintreffens des Ereignisses A = { c Ω n Anz{i c i = a} = k } - des Ereignisses aller k-maligen Erfolge unter n Wiederholungen. Anmerkung: Es gilt n nk p k q n k = n b n,p k = p+q n = 1 als unmittelbare Konsequenz k=0 des Binomischen Lehrsatzes. k=0 Die Binomialverteilung enthält das Urnenmodell mit Zurücklegen, also einer Urne mit n 1 roten und n 2 schwarzen Kugeln. Es sei n = n 1 +n 2. Nacheinander werden m Kugeln blind entnommen und wieder in die Urne zurückgelegt. Sind dann m 1, m 2 IN 0 mit m = m 1 +m 2, m 1 n 1, und m 2 n 2, so ist mit p = n 1 n und q = n 2 n der Wert b n,pm 1 = m 1 m p m 1 q m 2 die Wahrscheinlichkeit, dass m 1 rote und m 2 schwarze Kugeln entnommen wurden Bemerkung: Es seien p n [0,1] für n IN mit p n = 1. Dann ist n=1 P : PA = n Ap n für A PIN ein Wahrscheinlichkeitsmaß auf IN.

33 32 1. Grundlagen der Wahrscheinlichkeitstheorie Der einfache Beweis dieser Aussage bleibt dem Leser überlassen. Anmerkung: Ist Ω eine abzählbare unendliche Menge, so kann man die Existenz einer Funktion Q : PΩ [0,1] nachweisen mit den Eigenschaften QΩ = 1, QA = 0 für alle A PΩ mit AnzA < und mit QA B = QA+QB für alle A,B PΩ mit A B =. Derartige Funktionen lassen keine Summendarstellung wie oben zu, sie sind auch nicht in den hier betrachteten Zusammenhängen von Interesse. Es soll noch kurz die Schreibweise PA = ω Ap ω diskutiert werden für den Fall, dass Ω eine abzählbare Menge ist. Es gilt P = 0 die Summation wird über die leere Indexmenge erstreckt. Im Fall AnzA < erfolgt die Summation in beliebiger Reihenfolge. Im Fall AnzA = setzen wir PA = sup { PB B A mit AnzB IN } Bemerkung: Geometrische Verteilung Gegeben sei das Bernoulli Experiment Ω 0 = {a,b}, dieses werde unabhängig wiederholt bis zum ersten Mal a auftritt. Die Wahrscheinlichkeit, dass bei der k-ten Wiederholung zum ersten Mal a auftritt ist p q k 1. Es gilt p q k 1 = p n=1 j=0 q j = p 1 q = 1. Damit ist P : P{k} = p q k 1 ein Wahrscheinlichkeitsmaß auf IN Bemerkung: Negative Binomialverteilung, Pascal Verteilung: Es seien r,k IN und Ω 0 = {a,b} ein Bernoulli-Experiment mit der Erfolgswahrscheinlichkeit p. fk,r,p sei die Wahrscheinlichkeit, dass bei n = r + k Wiederholungen des Experimentes dem r-ten Erfolg genau k Misserfolge vorangehen. Es gilt fk,r,p = k +r 1 k mit r k = r r 1... r k +1 k! p r q k = k +r 1 r 1 p r q k = r k p r p 1 k als verallgemeinertem Binomialkoeffizient. Diese Aussage folgt unmittelbar aus den vorstehenden Konstruktionen. Ebenso einfach folgt die nächste Ausssage: Bemerkung: Poisson Verteilung Es seien λ IR und Ω = IN 0, wir setzen pk λ = e λλk, dann gilt pk λ = 1. k! k=0 Die Poisson-Verteilung wird auch die Verteilung seltener Ereignisse genannt. Sie ersetzt im Fall einer kleinen Wahrscheinlichkeit p die Binomial-Verteilung; es gilt die folgende Approximationsaussage: Bemerkung: Es seien p [0,1] und k,n IN 0, so dass k und λ = p n klein gegenüber n ist. Dann ist p k 1 p n k n k angenähert gleich λ k k! e λ.

34 1.2 Wahrscheinlichkeitsräume 33 Beweis: Es gilt p k 1 p n k n = p k n k 1 nn 1...n k +1 1 λ n k k n k k! n = λk nn 1...n k +1 1 λ n 1 λ k. k! n k n n nn 1...n k +1 Für große n und kleine k,λ ist und 1 λ k n k n angenähert gleich 1, während 1 n λ n angenähert gleich e λ ist. - Man beachte 1 a n n e a für alle a IR bei n. In der folgenden Aussage zeigen wir, dass die Werte einer hypergeometrischen Verteilung durch die entsprechenden Werte der Binomialvereilung bei Vorliegen großer Zahlen approximiert werden kann. Diese Tatsache ist besonders bei Praxisproblemen von Bedeutung und auch unmittelbar plausibel. Man beachte weiter, dass die Werte der Binomialverteilung in der Regel wesentlich besser zu berechnen sind als die der hypergeometrischen Verteilung. Bei größeren Werten des Umfangs n der Zahl der Wiederholungen eines Bernoulli-Experimentes oder des Umfangs einer Stichprobe ist das auch nicht mehr ausreichend. Man beachte dabei, dass wegen der Größe der Binomialkoeffizienten eine konkrete Berechnung nur sehr eingeschränkt möglich ist: Mit Hilfe des Binomischen Lehrsatzes kann man einfach > zeigen Bemerkung: Es seien p 1,p 2 [0,1] mit p 1 + p 2 = 1. Weiter seien n 1,n 2,n mit n 1 +n 2 = n, und es gelte n j p n j bei n für j = 1,2. Für fixierte m,m 1,m 2 IN 0 mit m = m 1 +m 2 gilt bei n. hm 1,m 2,n 1,n 2 m m1 p m 1 1 p m 2 2 = m m1 p m p 1 m m 1 Beweis: Es gilt für m j n j die Beziehung hm 1,m 2,n 1,n 2 = n1 m 1 n2 m 2 nm = n 1n n 1 m 1 +1 m 1! m m1 p m 1 1 p m 2 2 bei n ; dabei beachte man n j k n l n2n n 2 m 2 +1 m 2! p 1 bei n für alle k,l m. m! n...n m+1 Anmerkung: Die gleiche Aussage gilt auch bei Approximation der Multivarianten hypergeometrisch, Multinomialkoeffizienten Satz: ψ : IR [0, [ sei integrierbar mit ψdλ = ψtdt = 1. IR

35 34 1. Grundlagen der Wahrscheinlichkeitstheorie Dann ist B A PA = ψdλ ein Wahrscheinlichkeitsmaß - das Wahrscheinlichkeitsmaß A auf IR,B mit der Dichte ψ. Anmerkung: Bei dieser vorliegenden Situation sind hauptsächlich Mengen der Form [a, b] beziehungsweise ],a] von Interesse. Es gilt dann etwa P[a,b] = b a Ψtdt. n=1 Beweis: Es seien A B und An n=1 B eine Folge paarweise unvereinbarer Ereignisse paarweise disjunkter Mengen mit A = An. Für jedes B B sei 1l B die Indikatorfunktion: 1l B ω = 1 für alle w B und 1l B ω = 0 für alle ω / B. Für jedes n IN sei h n = 1l A l An. Wegen der Konstruktion gilt h n ω 1l A ω, bei n für alle ω IR. Aus dem Konvergenzsatz von Beppo Levi Monotone Konvergenz folgt PA1+...+PAn = h n ψdλ 1l A ψdλ = PA bei n. Demnach ist P σ-additiv auf IR,B Satz: Für t IR sei ϕt = 1 2π e t2 2 - die Dichte der Standard-Normalverteilung N0, 1. Dann ist B A ϕdλ ein Wahrscheinlichkeitsmaß mit der Vertei- A lungsfunktion Φ 0,1 t = t t 1 e s2 2 ds = 2π ϕsds. Beweis: Es ist IR ϕdλ = 1 zu zeigen. Dazu berechnen wir e t2 2 dt 2 = e t2 2 dt e s2 2 ds = e t2 +s 2 2 dtds = 2π re r2 2 drdx Polarkoordinaten = 2π e r = 2π, was zu zeigen war. 0 Die Dichte der Normalverteilung ϕ : IR [0, [ besitzt keine geschlossene Stammfunktion. Daher liegen die wichtigsten Funktionswerte dieser Stammfunktion Φ 0,1 in Tabellen vor; dabeibeschränktmansichaufwerteimintervall[0, 3]:Fürt > 3istΦ 0,1 tangenähertgleich 1. Wegen ϕt = ϕ t für alle t IR gilt φ0 = 1 2 und φ 0,1 t = 1 φ 0,1 t für alle t IR. Andererseits kann man leicht wegen der sehr guten Konvergenz der Exponentialfunktion

36 1.2 Wahrscheinlichkeitsräume 35 e s = s k durch Auswertung der ersten Summanden die Werte für kleine t > 0 mit einem k=0 k! Rechner auswerten: Es gilt Φ 0,1 t = k k=0 k! t 2k+1 2k +1. Speziell für t 1 müssen nur sehr wenige Summanden ausgewertet werden Satz: Es sei Ω B n PIR mit 0 < λ n Ω <. Für A Ω mit A B n sei ma = λn A λ n Ω. m ist ein W-Maß auf Ω,Bn - die Gleichverteilung. Beweis: Die Aussage folgt aus der Darstellung ma = 1l A dλ n 1 und λ n Ω Im weiteren Verlauf diskutieren wir noch die Gamma-Verteilung: Es sei dazu α > 0 eine Konstante. Zur Motivation betrachten wir die folgende Situation: Für t > 0 mit αt < 1 sei αt die Wahrscheinlichkeit, dass eine gewisse vorgegebene aber unbekannte Zahl im Intevall ]0, t] liegt. Für großes n IN zerlegen wir das Intervall ]0, t] in n Teilintervalle der Länge t n ; dann ist αt die Wahrscheinlichkeit, dass diese vorgegebene Zahl in diesem Teilintervall liegt. n Sind jetzt k IN und derartige der Größe nach geordnete Zahlen mit k << n vorgegeben, so dürfen wir annehmen, dass jedes dieser kleinen Teilintervalle maximal eine der vorgegebenen Zahlen enthält. Setzen wir also p = αt, so ist wegen der Definition der Binomialverteilung b n,p k = n k n p k 1 p n k die Wahrscheinlichkeit, dass genau k dieser Zahlen in dem Intervall ]0, t] liegen. Es gilt wegen b n,p k pk λ bei n mit λ = αt. Die Wahrscheinlichkeit, dass mindestens r Punkte in ]0, t[ liegen, ist demnach r 1 Pr = P]0,t[ = 1 e λ k=0 λ k k! = r 1 1 e αt k=0 αt k k! t = gt = g sds 0 Wegen r 1 g t = αe αt k=0 α k t k k! r 1 e αt α k t k 1 k 1! = αr e αt t r 1 r 1! k=0 = γ α,r t gilt die Gamma-Verteilung: die Verteilung mit der Dichte γ α,r. Zur Definition in der allgemeinen Situation r ]0, [ setzen wir 0 γ α,r t = αr e αt t r 1 Γr mit der Gamma-Funktion Γr = t r 1 e t dt. Mit Hilfe partieller Integration folgt unmittelbar Γr+1 = r Γr für alle r > 0 und damit folgt wegen Γ1 = 1 sofort Γn+1 = n! für alle n IN.

37 36 1. Grundlagen der Wahrscheinlichkeitstheorie Definition: Das Wahrscheinlichkeitsmaß Γ α,r auf ]0, [,B 1 mit der Dichte γ α,r für α,r > 0 heißt die Gamma-Verteilung und im Fall r = 1 die Exponential-Verteilung. Die Exponentialverteilung besitzt demnach die Dichte αe αt für t > 0. Eine weitere bekannte Verteilung ist die Cauchy-Verteilung: Bemerkung: Für t IR und 0 < a IR sei c a t = a πa 2 +t 2 die Dichte der Cauchy-Verteilung auf IR. Es gilt c a tdt = 1; IR Diese Aussage kann sehr einfach nachgerechnet werden. Im weiteren Verlauf sollen bedingte Wahrscheinlichkeiten diskutiert werden: Definition: Es sei Ω,A,P ein Wahrscheinlichkeitsraum. Es seien A,B A mit PB > 0. Wir definieren die bedingte Wahrscheinlichkeit von A unter der Hypothese B durch PA B = PA B. PB Beispiel: Zwei gleiche Schränke mit jeweils 4 Schubladen seien gegeben. Im Schrank I befinden sich in drei der Schubladen jeweils eine Kugel; im Schrank II befindet sich nur in einer der Schubladen eine Kugel. Es werde jetzt willkürlich eine Schublade eines der Schränke geöffnet, in dieser befand sich eine Kugel. Wie groß ist die Wahrscheinlichkeit, dass sich diese Schublade im Schrank I befand? B sei das Ereignis, dass eine Schublade mit einer Kugel geöffnet wurde. A sei das Ereignis, dass eine Schublade des Schrankes I geöffnet wurde. Es gilt, da ein Laplace scher Wahrscheinlichkeitsraum vorausgesetzt wurde PB = 1 2, PA B = 3 8 und damit PA B = Satz: i Es sei B A mit PB > 0. Dann ist A A PA B ein Wahrscheinlichkeitsmaß auf Ω,A. ii Es seien B 1,...,B r A paarweise unvereinbar disjunkt mit Ω = B 1... B r eine disjunkte Zerlegung von Ω. Dann gilt die Formel von der totalen Wahrscheinlichkeit PA = r PA B k PB k für alle A A; dabei setzen wir PA B k = 0 im Fall PB k = 0. iii Im Fall von A A mit PA > 0 und den Voraussetzungen aus ii gilt die Formel von Bayes: PB i A = PB ipa B i r. PA B k PB k

38 1.2 Wahrscheinlichkeitsräume 37 PΩ B Beweis: i Es gilt PΩ B = = 1 und P B = 0. PB SindA 1,A 2 Adisjunkt,sosindauchA 1 B,A 2 BdisjunktmitPA 1 B A 2 B = PA 1 B+PA 2 B. Es folgt unmittelbar PA 1 B+PA 2 B = PA 1 A 2 B und damit Aussage i. ii Es gilt A = A Ω = A B 1... B r = A B 1... A B r für alle A A. Wir erhalten also wegen A B i B B h = für alle i h unmittelbar PA = PA B PA B r = PA B 1 PB PA B r PB r, also die Formel von der totalen Wahrscheinlichkeit. iii Im Fall PA > 0 gilt für jedes j {1,...,r} offenbar PB j A = PB j A PA = PA B jpb j PA = PA B jpb j r PA B h PB h h=1 und damit die Formel von Bayes Folgerung: B 1,...,B r A seien paarweise unvereinbar mit PB 1,...,PB r > 0, weiter sei A A mit PA B 1 =... = PA B r. Dann gilt PA B 1... B r = PA B 1. Beweis: Setzen wir B = B 1... B r, so gilt PA B = PA B PB = PA B PA B r PB PB r = PA B 1PB PA B r PB r PB PB r = PA B Beispiel: Beim Skatspiel besitzt der erste Spieler 2 Buben. Wie groß ist dann die Wahrscheinlichkeit, dass die beiden anderen Spieler jeweils einen Buben haben? A 1 sei das Ergebnis, dass der erste Spieler 2 Buben hat. A 2 sei das Ergebnis, dass der zweite Spieler genau einen Buben hat. A 3 sei das Ergebnis, dass der dritte Spieler genau einen Buben hat. Es gilt PA 1 = 32 10, PA 2 A 1 = 22 10, PA 3 A 1 A 2 = Damit erhalten wir die Wahrscheinlichkeit PA 2 A 3 A 1 = PA 3 A 1 A 2 PA 2 A 1 = 220!11!10!12!10!2! 9!11!9!2!22!12! = = 0,4329.

39 38 1. Grundlagen der Wahrscheinlichkeitstheorie 1.3 Zufallsvariable In diesem Abschnitt sei stets Ω, A, P ein Wahrscheinlichkeitsraum; wir führen im weiteren Verlauf den Begriff den Begriff der Zufallsvariablen ein. Im mathematischen Sinn handelt es sich dabei um eine messbare Abbildung in einen anderen Maßraum. Besonders wichtig sind dabei die reellen Zufallsvariablen als messbare Abbildungen in den Raum IR, B mit der üblichen Borelalgebra B PIR. Unter einer reellen Zufallsvariablen verstehen wir also eine messbare Funktion X : Ω, A IR, B. Wir erinnern, dass die Messbarkeit in diesem Fall definiert wird durch die Forderung X 1 B A für alle B B. Bekanntlich ist X : Ω IR ist genau dann messbar, wenn [X α] A gilt für alle α IR. Für einen Beweis vergleiche man ein entsprechendes Resultat der Maßtheorie. Entsprechend heißt auch eine messbare Funktion X : Ω IR q im Sinn X 1 B A für alle B B q eine vektorwertige Zufallsvariable beziehungsweise ein Zufallsvektor. Es sei weiter angemerkt, dass im Fall einer endlichen Menge Ω wegen der getroffenen Verabredung A = PΩ, jede Abbildung X : Ω IR messbar ist. Im allgemeinen Fall einer Zufallsvariablen X : Ω IR führen wir jetzt den Erwartungswert ein: Jede Zufallsvariable ist eine messbare Funktion; für messbare Funktionen X : Ω, A ist der Begriff der Integrierbarkeit definiert. Wir benutzen hier dafüraus historischen Gründen an Stelle des Integrals den Begriff Erwartungswert: EX = Ω XωdPω im Fall und schreiben wir üblich X L 1 P im Fall Ω L 2 P im Fall X 2 L 1 P. Ω Xω dpω <, Xω dpω < beziehungsweise X Wir diskutieren zunächst den Fall einer Zufallsvariablen X : Ω, A IR, A, die nur endlich viele Werte annimmt: etwa die Werte α 1,...,α n IR. Wir setzen A j = [X = α j ] = {ω Ω Xω = α j }. Dann gilt X = n α j 1l Aj mit der Indikatorfunktion der Menge Aj: 1l Aj ω = 1 für ω Aj und 1l Aj ω = 0 für ω / Aj. X heißt daher auch eine Stufenfunktion. Es gilt daher die folgende Darstellung des Erwartungswertes in diesem Fall EX = α j PA j. Der Erwartungswert ist demnach ein gewichtetes Mittel der Werte der Zufallsvariablen wegen PA j 0 und PA PA n = 1. Zufallsvariablen besitzen eine sehr große Bedeutung in der Wahrscheinlichkeitstheorie und

40 1.3 Zufallsvariable 39 treten sehr oft unmittelbar in Zusammenhang mit elementareren Problemstellungen auf. Besteht beispielsweise das wahrscheinlichkeitstheoretische Experiment in einer n maligen Wiederholung eines Bernoulli-Experimentes, so kann X die Erfolge zählen: X ω 1,...,ω n = Anz {j ωj = a}. Wird dieses Bernoulli-Experiment beliebig oft wiederholt, so ist eine weitere Zufallsvarible Y definiert durch die Zahl der Versuche bis zum ersten Erfolg: Y ω 1,...,ω n,... = min { n ω n = a, ω 1 =... = ω n 1 = b }. In der allgemeinen Situation besitzt der Erwartungswert die gleichen Eigenschaften wie das Integral auf allgemeinen Maßräumen im Sinn von Lebesgue, die hier nur kurz formuliert werden sollen. Ein Beweis findet sich in der Maßtheorie Bemerkung: X : Ω IR sei eine Funktion. X ist genau dann messbar, wenn eine Folge X n n=1 von Stufenfunktionen existiert mit X n ω Xω und X n ω Xω bei n für jedes ω Ω Satz: Es seien X,Y L 1 P und α IR, dann gilt i X +αy L 1 P mit EX +αy = EX+αEY ii Im Fall X Y gilt EX E Y. iii Im Fall X 0 folgt EX 0. Wir bestimmen im weiteren Verlauf den Erwartungswert in wichtigen Spezialfällen Beispiel: Erwartungswert der Binomialverteilung Es sei p ]0, 1[. Das Bernoulli- Experiment Ω 0 = {a,b} werde n-mal wiederholt mit p = P{a} als Erfolgswahrscheinlichkeit; wir erhalten also Ω = Ω n 0 als Ereignisraum mit b n,p k = n k p k q n k gemäß als die Wahrscheinlichkeit des Eintreffens von k Erfolgen. X sei die Zufallsvariable, die die Zahl der Erfolge zählt: Xω 1,...,ω n = k für alle 0 k n. Es gilt demnach EX = = k n k p k q n k = k=0 n! k 1!n k! pk q n k n 1 n 1! p n j!n 1 j! pj q n 1 j = pnp+q n 1 = p n. j=0 Wir notieren an dieser Stelle eine weitere und dabei einfachere Methode zu Bestimmung des Erwartungswertes der Binomialverteilung: Für alle j = 1,...,n sei X j die Zufallsvariable auf Ω definiert durch X j ω1,...,ω n = { 1 im Fall ωj = a 0 im Fall ω j = b. Offenbar gilt EX j = p für alle j = 1,...,n und X = X x n, und damit folgt EX = EX EX n = np.

41 40 1. Grundlagen der Wahrscheinlichkeitstheorie Beispiel: Erwartungswert der geometrischen Verteilung Es gelte die Situation mit Ω 0 = {a,b}, und mit der Erfolgswahrscheinlichkeit p = P{a} und q = 1 p. Xk = k sei die Zufallsvariable, die die Dauer bis zum ersten Erfolges angibt. Es gilt EX = kpq k 1 = p kq k 1 = p k=0 d dq qk = p d q k dq k=0 = p d dq 1 1 q 1 = p = 1 1 q 2 p Beispiel: Erwartungswert der Poissonverteilung In wurde die Poissonverteilung eingeführt. X sei die Zufallsvariable, die die Zahl der Erfolge zählt, es gilt also Xk = k für alle k IN 0. Damit folgt EX = Im weiteren Verlauf sollen die Verteilungsfunktionen und die e λ λ k k! k = λ e λ λ k 1 k 1! = λ. k= Definition: X : Ω IR q sei ein Zufallsvektor. Für t IR q sei F X t = P [X t] die gemeinsame Verteilung, wobei die Ordnung punktweise zu verstehen ist: Xω t ist äquivalent zu X j ω t j für alle j = 1,...,q. Im Fall q = 1 sprechen wir von der Verteilungsfunktion F X = F. Ist diese Funktion F differenzierbar mit der Ableitung F = f, so heißt f die Dichte der Verteilungsfunktion oder der Verteilungsdichte Beispiel: In der Situation von Binomialverteilung gilt F X t = 0 für t < 0, F X t = 1 für t n, und F X t = k p j q n j für k t < k +1 und k IN 0 mit k n. j=0 n j Satz: X : Ω IR sei eine reelle Zufallsvariable. Dann besitzt die Verteilungsfunktion F = F X : IR IR folgende Eigenschaften. i F ist monoton wachsend. ii F ist rechtsseitig stetig. iii Ft 1 bei t, Ft 0 bei t. Beweis: i folgt unmittelbar aus der Definition. ii Es sei τ IR und t n n=1 eine Folge mit t n τ bei n. Wir setzen Dann gilt A n A n+1 und A = A = [X τ] und A n = [X t n ]. n=1 Ft n PA = Fτ bei n, was zu zeigen war. iii folgt entsprechend. A n. Der Stetigkeitssatz für Maße impliziert PA n =

42 1.3 Zufallsvariable 41 Für viele Situationen ist eine andere Betrachtung der Verteilungsfunktion erforderlich. Wir fixieren eine Zufallsvariable X : Ω IR. Da X messbar ist, gilt X 1 A A für alle A B 1. Wir definieren also das Bildmaß oder die Verteilung von X durch P X A = PX 1 A für alle A B 1. Ist jetzt die Verteilungsfunktion F = F X differenzierbar mit der Ableitung f, so gilt für alle τ,t IR mit τ < t Ft Fτ = t τ fsds = PX t PX τ = Pτ < X t = P X ]τ,t]. f heißt die Dichte der Verteilungsfunktion. Da die Intervalle der Form ]τ, t] ein Erzeugendensystem von B 1 bilden, folgt aus dem Eindeutigkeitssatz für Maße unmittelbar P X A = ftdt für alle A B 1 A Lemma: X : Ω,A,P IR sei eine Zufallsvariable h : IR [0, [ messbar. Dann gilt E hx = Eh X = h XdP = htdp X t [0, ] Besitzt die Verteilungsfunktion F von X zusätzlich eine Dichte f so gilt Eh X = htftdt. Beweis: Es sei A B und h = 1l A. Dann gilt E hx = PX 1 A = htdp X t. Damit gilt die behauptete Gleichheit und der Zusatz für Funktionen der Form h = 1l A, also auch für Funktionen h = α 1 1l A α r 1l Ar. Da jedes messbare h 0 durch eine Folge von Treppenfunktionen h n approximierbar ist, folgt die Behauptung aus dem Satz von Beppo Levi Satz: X : Ω,A,P IR sei eine Zufallsvariable und h : IR IR sei messbar. Dann gilt: h X L 1 P ist äquivalent zu h L 1 P X. In diesem Fall haben wir E hx = htdp X t. Zusatz: Besitzt F eine Dichte f, so gilt Speziell gilt EX = E hx = IR htftdt. tftdt, wenn eine der Seiten definiert ist.

43 42 1. Grundlagen der Wahrscheinlichkeitstheorie Beispiel: Es sei Ω abzählbar mit dem Wahrscheinlichkeitsmaß PA 0 = ω A 0 p ω für A 0 Ω X : Ω IR sei eine Zufallsvariable. Für eine Menge A B gilt dann P X A = PX 1 A = p ω. ω:xω A Ist jetzt h : IR IR eine Funktion, mit E h X <, so folgt Eh X = hxωp ω = htp X {t} ω Ω t XΩ Beispiel: Erwartungswert der Gamma-Verteilung Es seien α, r > 0 und X sei eine Zufallsvariable, die gamma-verteilt ist bezüglich der Parameter α, r, es gilt also F X t = PX t = für alle t > 0 und F X t = 0 für alle t 0. Dann gilt EX = 0 tγ α,r tdt = 0 t 0 γ α,r sds t αr Γr e αt t r 1 dt = r α r+1 α Γr +1 e αt t r dt = r α - man beachte Beim Spezialfall r = 1 - also bei der Exponentialverteilung - erhalten wir demnach als Erwartungswert EX = 1 α. Es sei darauf hingewiesen, dass nicht jede Verteilungsfunktion einen endlichen Erwartungswert besitzen muss: dazu betrachte man etwa als Gegenbeispiel die Cauchy-Verteilung, man vergleiche a Bemerkung: Es sei a > 0 IR und c a t = für alle t IR. Dann ist die πa 2 +t 2 Funktion IR ft = t tc a t nicht integrierbar wegen t c a tdt =. IR Eine weitere wichtige Größe für reellwertige Zufallsvariable ist der Median der wie folgt definiert wird: Definition: XΩ,A,P IR sei eine Zufallsvariable. m IR heißt ein Median von X wenn PX m 1 2 und PX m 1 2 gilt. Sehr häufig ist es günstiger an Stelle des Erwartungswertes den Median als Mittelwert anzugeben. Das gilt insbesondere für den Fall, dass einzelne relevante Ausreißer vorliegen, die eine starke Verzerrung des Erwartungswertes bewirken. Ein Median ist nicht notwendigerweise eindeutig bestimmt; er ist eindeutig, wenn die Verteilungsfunktion streng monoton wachsend und stetig ist. Betrachten wir etwa ein Bernoulli-Experiment mit der Erfolgswahrscheinlichkeit p und X als Bernoulli-Zufallsvariablen, so impliziert PX m,px m 1 im Fall p < 1 stets 2 2 m = 0,imFallp > 1 stetsm = 1.ImFallp = 1 erfülltjedesm [0,1]dieseobigeBeziehung

44 1.3 Zufallsvariable Beispiel: X sei eine exponentialverteilte Zufallsvariable zu dem Parameter α > 0, also besitzt X eine Verteilungsdichte f : ft = αe αt für t > 0 und ft = 0 für t 0. Es gilt EX = 1 und wegen Ft = t fsds = e αt für t > 0 folgt aus Fm = 1 unmittelbar α 2 m = ln2. Der Median ist also eindeutig bestimmt. α 0

45 44 1. Grundlagen der Wahrscheinlichkeitstheorie 1.4 Unabhängige Zufallsvariablen In diesem Abschnitt sei Ω, A, P stets ein Wahrscheinlichkeitsmaßraum. Wir diskutieren jetzt den Begriff der Unabhängigkeit von Mengensystemen und damit zusammenhängend den Begriff unabhängiger Zufallsvariablen. Dieser Begriff spielt eine zentrale Rolle in der weiteren Theorie, speziell auch in Fragestellungen, die mit der Statistik zusammenhängen. Zu Motivation gehen wir von der folgenden Situation aus, die besonders bei Anwendungen sehr häufig auftritt: Es werden voneinander unbeeinflusst zwei meistens bei Anwendungen mehr stochastische Versuche durchgeführt. Mathematisch formuliert liegt also die folgende Situation vor: Für zwei Wahrscheinlichkeitsräume Ω j,a j,p j j = 1, 2 bilden wir den Produktraum Ω,A,P durch Ω = Ω 1 Ω 2, A = A 1 A 2, und P = P 1 P 2. Für A 1 A 1 und B 2 A 2 betrachten wir die folgenden Produktmengen A = A 1 Ω 2 und B = Ω 1 B 2 ; gehen wir also von zwei stochastischen Experimenten aus, so ist A die Menge, die nur vom Ausgang des ersten Experimentes abhängt und B die Mengen die nur vom Ausgang des zweiten Experimentes abhängt mit den Wahrscheinlichkeiten PA = P 1 A 1 und PB = P 2 B 2. Es folgt daher PA B = PA PB. Diese Beziehung wählen wir jetzt für eine allgemeinere Definition; diese größere Allgemeinheit ist später bei Anwendungen in der Statistik nützlich, da diese etwa bei Drehungen des Koordinatensystems erhalten bleibt, bei denen aber die Produktsituation nicht mehr vorliegt Definition: A und B A heißen unabhängig, wenn PA B = PAPB gilt. Entsprechend heißen Systeme von Teilmengen {F i i I} paarweise unabhängig, wenn für alle k, j I mit k j und alle A F j, und B F k stets PB A = PBPA gilt. Im Fall von Ereignissen A,B A mit PB > 0 sind A und B genau dann unabhängig, wenn PA B = PA gilt. Diese Aussage folgt unmittelbar aus PA B = PA B. PB Beispiel: Es wird mit zwei Würfeln gewürfelt, jeweils einmal. Wir betrachten die Ereignisse i A = {Augenzahl des ersten Würfels ist gerade} B = {Augenzahl des zweiten Würfels ist gleich 1}. Offenbar gilt PA = 1 2, PB = 1, wegen A B = {2,1,4,1,6,1} erhalten wir daher 6 PA B = 1 = PA PB. - die Ereignisse sind also unabhängig. 12 ii A = {Summe der Augenzahlen beider Würfel ist gerade} B = {Augenzahl des ersten Würfels ist gerade}. Offenbar gilt PA = 1 2, PB = 1 2 und PA B = 1 - die Ereignisse sind also unabhängig, 4 obwohl das Ereignis A das Ereignis B beeinflusst. iii A = {Summe der Augenzahlen beider Würfel ist gerade, 8} B = {Augenzahl des ersten Würfels ist 4 oder 6} Es gilt PA = 15 36, PB = 1 3, PA B = Die Ereignisse sind also nicht unabhängig.

46 1.4 Unabhängige Zufallsvariablen 45 Der eben für zwei Ereignisse definierte Begriff der Unabhängigkeit soll jetzt auf allgemeinere Systeme von Ereignisen übertragen werden. Dazu muss die Definition etwas abgewandelt werden. Man vergleiche dazu auch Beispiel 1.4.4; dieses Beispiel zeigt die Unterschiedlichkeit der beiden Begriffe Definition: Es seien F i A i I Systeme von Teilmengen. Wir nennen diese Systeme unabhängig, wenn für jeweils endlich viele paarweise verschiedene i1,...,ir I und beliebige A i1 F i1,...,a ir F ir stets gilt. PA i1... A ir = PA i1... PA ir Aus der Definition folgt unmittelbar, dass jedes unabhängige System auch paarweise unabhängig ist - man wähle r = 2. Die Umkehrung ist allerdings nicht richtig: Beispiel: Es wird einmal mit zwei Würfeln gewürfelt. Wir setzen A 1 = {Augenzahl des ersten Würfels ist gerade} A 2 = {Augenzahl des zweiten Würfels ist gerade} A 3 = {Augenzahlen beider Würfel stimmen überein und dann F i = {A j } für j = 1,2,3. Offenbar gilt PA 1 = PA 2 = 1 2, PA 3 = 1 6, PA 1 A 3 = PA 2 A 3 = 1 12, PA 1 A 2 = 1 4 und PA 1 A 2 A 3 = PA 1 A 3 = Das Systeme von Ereignissen {F 1,F 2,F 3 } ist demnach paarweise unabhängig, aber nicht unabhängig Satz: Für i I seien F i A Mengensysteme mit A B F i für alle A,B F i. Sind die Mengensysteme F i für i I unabhängig, so sind auch die erzeugten σ-algebren A i = AF i für i I unabhängig. Beweis: Wegen der Definition der Unabhängigkeit von Mengensystemen dürfen wir I = {1,...,n}fürein n / INannehmen.Weiter dürfenwir offenbar,ω F i für allei = 1,...,n voraussetzen. Behauptung I: Es seien A 2 F 2,...,A n F n beliebig fixiert. Dann gilt PA A 2... A n = PAPA 2... PA n für alle A A 1 Beweis von Behauptung I: Die Aussage der Behauptung I gilt offenbar für alle A F 1. Definieren wir jetzt Maße Q 1,Q 2 auf Ω,A 1 durch Q 1 A = PA A 2... A n und Q 2 A = PAPA 2... PA n, so folgt Q 1 A = Q 2 A für alle A F 1. Wegen der Voraussetzungen über F 1 folgt aus dem Eindeutigkeitssatz unmittelbar Q 1 A = Q 2 A für alle A AF 1 = A 1 und damit die Behauptung I. Als unmittelbare Konsequenz der Behauptung I erhalten wir:

47 46 1. Grundlagen der Wahrscheinlichkeitstheorie Behauptung II: F 2,...,F n,a 1 sind unabhängige Mengensysteme. Die Aussage des Satzes folgt durch wiederholte Anwendungen von Behauptung II: Da F 2,...F n,a 1 die Voraussetzungen des Satzes erfüllen, sind F 3,...F n,a 1,A 2 unabhängig und folgt schließlich durch n-fache Anwendung des Argumentes die Behauptung. X : Ω IR sei eine Zufallsvariable. Zu Beginn des Abschnittes 3 wurden folgende Bezeichnungen eingeführt: Wir schreiben X L 1 P genau dann, wenn E X < gilt und X L 2 P genau dann, wenn EX 2 < gilt. Für X L 1 P sei weiter X 1 = E X und X 2 = EX 2 im Fall von X L 2 P. Es gelten die folgenden Aussagen Satz: Es seien X,Y L 1 P und α IR. Dann gilt X+Y L 1 P und αy L 1 P mit X +Y 1 X 1 + Y 1 und αy 1 = α Y 1 Auf den sehr einfachen Beweis dieser Aussage, die lediglich eine Umformulierung bekannter Resultate ist, soll verzichtet werden. Auch die folgende Aussage ist eine sehr einfache Konsequenz der Theorie der Skalarprodukträume. Dazu muss man lediglich beachten, dass mit X, Y L 2 P stets 2 XY X 2 +Y 2 und daher XY L 2 P gilt. Daher ist die Abbildung X, Y EXY ein Skalarprodukt bis auf die Eigenschaft EXX = 0 X = 0. Damit sind dann die Aussagen klar Satz: Es seien X,Y L 2 P und α IR. i Es gilt XY L 1 P mit Ungleichung von Cauchy-Schwarz ii Es gilt X +Y, αy L 2 P mit EXY E XY X 2 Y 2 X +Y 2 X 2 + Y 2 und αy 2 = α Y 2 iii Es gilt X L 1 P mit E X = X 1 min{1+ex 2, X 2 }. Wir wollen jetzt den Begriff der Unabhängigkeit auf den Fall von Zufallsvariablen übertragen. Als Motivation diskutieren wir zunächst die Produktsituation bei zwei Wahrscheinlichkeitsmaßräumen Ω j,a j,p j j = 1, 2 und dem Produktraum Ω,A,P : Ω = Ω 1 Ω 2, A = A 1 A 2, und P = P 1 P 2. Sind jetzt X j : Ω j IR für j = 1, 2 zwei Zufallsvariable, so können wir diese in trivialer Weise auf Ω = Ω 1 Ω 2 definieren: Wir setzen ˆX 1 ω 1, ω 2 = X 1 ω 1 und ˆX 2 ω 1, ω 2 = X 1 ω 2. Man kann einfach nachrechnen, dass bei diesem Vorgang sich der Erwartungswert nicht verändert. Das folgt unmittelbar aus dem Satz von Fubini wegen P j Ω j = 1. Um den Begriff unabhängiger Zufallsvariablen einzuführen bilden wir die von einer Zufallsvariablen X : Ω, A, P IR erzeugten σ-algebra AX: Zunächst betrachten wir das System EX = { [X α] α IR }.

48 1.4 Unabhängige Zufallsvariablen 47 Da X messbar ist, folgt EX A und daher gilt AX := A EX A. Damit ist AX die kleinste σ-algebra, die das System EX enthält; sie heißt die von der Zufallsvariablen X erzeugte σ-algebra Definition: Ein System X j : Ω,A,P IR für j I von Zufallsvariablen heißt unabhängig paarweise unabhängig, wenn das System { AX j j I } der erzeugten σ-algebren unabhängig paarweise unabhängig im Sinne von ist. Wegen [X α] = [X α] [X β] für alle α,β IR mit α β und jede Zufallsvariable X : Ω,A,P IR folgt unmittelbar aus die folgende Charakterisierung der Unabhängigkeit Satz: X j : Ω,A,P IR für j I seien Zufallsvariable. Die folgenden Aussagen sind äquivalent: i Die Zufallsvariablen X j : j I sind unabhängig. ii Die Mengensysteme EX j : j I sind unabhängig Folgerung: X 1,...,X n : Ω,A,P IR seien Zufallsvariable. Dann gilt: i X 1,...,X n sind genau dann unabhängig, wenn für alle α 1,...,α n IR die Ereignisse [X 1 α 1 ],...,[X n α n ] unabhängig sind. ii Sind X 1,...,X n unabhängige Zufallsvariable, so existieren Folgen von Stufenfunktionen X j,k mit X j,k X j, X j,k X j bei k für j = 1,...,n und mit [X j,k = α] AX j für alle α IR, j = 1,...,n, k IN. Anmerkung: In der Situation von ii sagen wir auch, dass X j,k eine AX j - Stufenfunktion ist. Beweis: i folgt unmittelbar aus ii Für diese Aussage vergleiche man und die nachfolgenden Bemerkungen Satz: X,Y : Ω,A,P IR seien unabhängige Zufallsvariable. Dann sind X und Y unkorrelierte Zufallsvariable in dem Sinne, dass EXY = EXEY gilt. Beweis: Der Einfachheit halber nehmen wir X, Y 0 an. Wegen ii existiert eine Folge X k von AX-Stufenfunktionen und eine Folge Y k von AY-Stufenfunktionen mit 0 X k X und 0 Y k Y bei k. Wir fixieren jetzt k,m IN und erhalten X k = α j 1l Aj und Y m = q β r 1l Br r=1 mit geeigneten α j,β r IR und A j AX, B r AY für j = 1,...,n und r = 1,...,q. Wegen q q X k Y m = α j β r 1l Aj 1l Br = α j β r 1l Aj B r r=1 r=1

49 48 1. Grundlagen der Wahrscheinlichkeitstheorie und der Unabhängigkeit der Mengen A j und B r folgt EX k Y m = q α j β r PA j B r = r=1 q α j β r PA j PB r = EX n EY m. r=1 Beim Grenzübergang k folgt X k Y m XY m und daher aus dem Konvergenzsatz von Beppo Levi EX k Y m EXY m und EX k EX bei k. Demnach gilt EXY m = EXEY m. Beim Grenzübergang m folgt dann entsprechend EXY = EXEY Definition: X,Y : Ω,A,P IR seien Zufallsvariable mit X,Y L 2 P. i VX = E X EX 2 heißt die Varianz von X und σx = VX die Streuung oder Standard-Abweichung von X. ii CovX,Y = EXY EXEY heißt die Kovarianz von X und Y. Bei einer Zufallsvariablen X ist die Varianz ein Maß für die Abweichung der Werte dieser Zufallsvariablen von dem Erwartungswert: je kleiner die Varianz ist, desto massierter liegen die Werte der Zufallsvariablen in der Nähe vom Erwartungswert. Aus der Definiton folgt weiter unmittelbar, dass die Zufallsvariablen X und Y genau dann unkorreliert sind, wenn CovX,Y = 0 gilt Satz: Es seien X,Y,X 1,...,X n L 2 P und a,b IR. Dann gilt: i VX = EX 2 EX 2. ii VaX +b = a 2 VX. iii CovX,Y VXVY. iv Sind X 1,...,X n paarweise unkorreliert, so folgt VX X n = VX VX n. Anmerkung: Sind X 1,...,X n L 2 P paarweise unabhängig, so sind sie wegen auch unkorreliert. Demnach gilt hier auch Aussage iv. Beweis: i Es gilt VX = EX EX 2 = EX 2 2XEX+EX 2 ii Aus EaX +b = aex+b folgt = EX 2 2EX 2 +EX 2 = EX 2 EX 2. VaX +b = EaX +b aex b 2 iii Es seien zunächst b,d IR, dann gilt = EaX EX 2 = a 2 EX EX 2 = a 2 VX. CovX +b,y +d = EX +by +d EX +bey +d = CovX,Y.

50 1.4 Unabhängige Zufallsvariablen 49 Wir dürfen also EX = EY = 0 annehmen und erhalten wegen i, der Cauchy Schwarzschen Ungleichung iv Es gilt CovX,Y = EXY EX 2 EY 2 = VXVY. VX X n = EX X n 2 EX EX n 2 = E Xj 2 X j X k j, j k = VX VX n. EX j 2 EX j EX n Die folgende recht elementar herzuleitende Ungleichung ist unverzichtbar für viele Anwendungen Bemerkung: Tschebyscheff Ungleichung Es seien X L 2 P und ε > 0. Dann gilt P X EX ε 1 ε 2VX. Beweis: Wir setzen A = [ X EX ε ]. Dann gilt A A, und wir erhalten wegen ε 1l A X EX die verlangte Abschätzung: j, j k PA = E 1l A = E 1l 2 A E 1 ε 2 X EX 2 1 ε 2E X EX 2 = 1 ε 2VX. Im Anschluss an das folgende Beispiel diskutieren wir in einem Spezialfall die Güte der Abschätzung der Wahrscheilichkeit für ein bestimmtes Abweichen einer Verteilung vom Erwartungswert mit Hilfe dieser Tschebeyscheff-Ungleichung Beispiel: Binomial-Verteilung Es sei wie früher Ω 0 = {a,b} ein Bernoulli- Experiment mit p = P{a} und q = 1 p. Es sei weiter X 0 a = 1, X 0 b = 0, wir erhalten damit EX 0 = p, VX 0 = EX 2 0 EX 0 2 = p p 2 = pq. Die Binomial-Verteilung ist darstellbar als X = X X n mit den unabhängigen Bernoulli-Variablen X 1,...,X n. Aus folgt daher VX = VX VX n = npq. In dem folgenden Beispiel soll die Aussagekraft der Tschebeyscheff-Ungleichung demonstriert werden. Es zeigt sich, dass diese Ungleichung nur in Spezialfällen eine gute Berechnungsmöglichkeit für konkrete Aufgabenstellungen liefert.

51 50 1. Grundlagen der Wahrscheinlichkeitstheorie Beispiel:iEssein = 20.ImFallp = 0.05solldieWahrscheinlichkeitdesEreignisses A abgeschätzt werden, dass sich der Wert der Zufallsvariablen X, also die Zahl der Erfolge, um mehr als 1 vom Erwartungswert unterscheiden. Es gilt EX = n p = 1. Exakt ausgerechnet ergibt sich für die gesuchte Wahrscheinlichkeit PA = 20 k=3 20 k p k 1 p 20 k = 1 2 k=0 20 k p k 1 p 20 k = Mit Hilfe der Tschebeyscheff-Ungleichung erhalten wir die Abschätzung PA = P X EX 2 VX 2 2 = 20 p1 p 2 2 = ii Wir wählen jetzt p = 0.5 und lassen ansonsten das Beispiel unverändert. Dann erhalten wir wie eben PA = Mit der Tschebeyscheff-Ungleichung folgt PA 1.25, damit ist keine Aussage mehr möglich Beispiel: Normal-Verteilung Es seien σ ]0, [ und µ IR. Die Zufallsvariable X heißt Nµ,σ-verteilt, wenn die Verteilungsfunktion Φ µ,σ von X die Dichte ϕ µ,σ besitzt mit ϕ µ,σ t = 1 exp t µ2 2πσ 2σ 2 für alle t IR. Mit Nµ,σ wird dabei das Bildmaß bezeichnet: N0, 1 = P X : P X B = P X 1 B für alle B B 1. Offenbar gilt N0, 1 ], t] = Φ µ,σ t für alle t IR. Wir erhalten weiter ϕ µ,σ tdt = = 1 2πσ exp t µ2 1 dt = 2σ 2 2πσ 1 e u2 2 σdu = 1. 2πσ e s2 2σ 2 ds Es folgt daher EX = = 1 2πσ 1 2πσ te t u2 2σ 2 dt = 1 2πσ se s2 2σ 2 ds+ µ 2πσ s+µe s2 2σ 2 ds e s2 2σ 2 ds = 0+µ und

52 1.4 Unabhängige Zufallsvariablen 51 EX 2 = = 1 2πσ 1 2πσ t 2 e t u2 2σ 2 dt = 1 s 2 e s2 2σ 2 ds+2µ 2πσ s+µ 2 e s2 2σ 2 ds se s2 2σ 2 ds+µ 2 e s2 2σ 2 ds = 1 σ 3 2πσ u 2 u 2 e 2 du+0+µ 2 u = u 2 σ2 e 2 du 2π + u 2 e 2 du +µ 2 = µ 2 +σ 2. Wir erhalten damit unmittelbar unmittelbar VX = EX 2 EX 2 = σ Beispiel: geometrische Verteilung X sei eine geometrisch verteilte Zufallsvariable. Dann gilt EX = k q k 1 p = p d q k p = dq 1 q = 1 2 p Es folgt unmittelbar EX 2 = k 2 q k 1 p = = qp kk 1q k 2 +p kk 1q k 1 p+kq k 1 p kq k 1 d 2 1 = qp dq 1 q + 1 p = 2 qp 1 q p = 2q p p. VX = EX 2 EX 2 = 2 q p p 1 p 2 = 2 q p 2 + p p 2 1 p 2 = q p Beispiel: Poisson-Verteilung X sei eine Poisson-verteilte Zufallsvariable. Dann gilt EX = ke λ λ k = λe λ λ k 1 = λ k! k 1! EX 2 = k 2 e λ λ k = λ 2 VX = λ. k! = k k 1 e λ λ k + k! e λ λ k 2 k 1! +λ = λ2 +λ und daher k e λ λ k k!

53 52 1. Grundlagen der Wahrscheinlichkeitstheorie Beispiel: Gamma-Verteilung Es seien r,α > 0, und X sei eine γ α,r verteilte Zufallsvariable. Dann gilt γ α,r t = αr Γr tr 1 e αt für alle t > 0 und γ α,r t = 0 für t 0 mit Γr = s r 1 e s ds. Wir erhalten 0 EX = EX 2 = VX = 0 0 t α r Γr tr 1 e αt dt = r α r+1 α Γr +1 tr e αt dt = r α und t 2 α r Γr tr 1 e αt dt = rr +1 α 2 r2 α 2 = r α α r+2 Γr +2 tr+1 e αt dt rr +1 α 2 = rr +1 α 2 Für den weiteren Verlauf benötigen wir noch Eigenschaften der gemeinsamen Verteilung eines Zufallsvektors; die in Definition eingeführt wurde Satz: X = X 1,...,X n : Ω IR n sei ein Zufallsvektor. Für t = t 1,...,t n IR n seien Ft = PX t = P[X 1 t 1 ]... [X n t n ] und F j t j = PX j t j für j = 1,...,n. i Die Zufallsvariablen X 1,...,X n sind genau dann unabhängig, wenn Ft = F 1 t 1... F n t n für alle t = t 1,...,t n gilt. ii Es seien X 1,...,X n unabhängige Zufallsvariable mit Dichten f 1,...,f n der Verteilungfunktionen. Wir setzen ft = f 1 t 1... f n t n für alle t = t 1,...,t n IR n für alle t = t 1,...,t n IR n. Für alle B B n gilt dann P X 1 B = ftdλ n t Beweis: i Diese Aussage folgt unmittelbar aus 1.4.5, da die Gesamtheit aller Mengen der Form ], t 1 ]... ], t n ] ein Erzeugendensystem von B n bildet. ii Für Mengen der Form B = [X t] folgt die Aussage aus dem Satz von Fubini wegen i. Wegen des Eindeutigkeitssatzes gilt sie daher für allgemeine B B m. Im weiteren Verlauf dieses Abschnittes soll die Verteilung der Summe unabhängiger Zufallsvariablen untersucht werden. Zunächst diskutieren wir ein einfaches Beispiel Beispiel: Mit einem Würfel werde beliebig oft gewürfelt. Wir notieren die Ergebnisfolge ω = ω j mit ω j {1,2,...,6} für alle j IN. Die Zufallsvariablen X und Y seien definiert durch Xω = k falls ω k = 6 und ω j 6 für alle j < k gilt und Yω = r falls ω k+r = 6 und ω j 6 für alle j mit k +r > j > k gilt. X gibt also die Zahl der Würfe bis B

54 1.4 Unabhängige Zufallsvariablen 53 zur ersten 6 einschließlich und Y die Zahl der Würfe von der ersten 6 bis zur zweiten 6 an. Es seien p = 1 und q = 1 p; für alle n IN mit n > 2 gilt dann 6 und weiter PX +Y n = Speziell erhalten wir n 1 PX +Y = n = pq k 1 pq n k 1 = p 2 q n 2 n 1 PX +Y = j = p 2 q j 2 j 1 j=2 = p 2 d n 1 q j dq j=0 j=2 = p 2 d 1 q n dq 1 q = 1 np+qq n 1 PX +Y 4 = 0,1319, PX +Y 10 = 0,5155 PX +Y 20 = 0,8913, PX +Y 30 = 0,9754 Definieren wir eine weitere Zufallsvariable Z entsprechend, so erhalten wir wegen der vorstehenden Resultate für n 3 PX +Y +Z = n = n 1 p 2 q k 2 k 1pq n k 1 k=2 n 1 = p 3 q n 3 k 1 = p 3 q n 3 n 2n 1. 2 k=2 Damit kann dann wie eben eine komplizierte Formel für PX + Y + Z n aufgestellt werden. Wir diskutieren jetzt die allgemeine Situation. Ω, A, P sei ein beliebiger Wahrscheinlichkeitsraum und X, Y : Ω,A,P IR seien Zufallsvariable. Wir wollen jetzt die Verteilungsfunktion der Zufallsvariablen X + Y bestimmen. Ist jetzt die Abbildung Add : IR 2 IR definiert durch Adds,t = s+t für alle s,t IR 2, so gilt offenbar X +Y = Add X, Y. Für alle t IR gilt daher PX +Y t = P X, Y 1 Add 1 ],t]. Für alle B B 1 und seien wie früher die Verteilungsmaße P X und entsprechend P Y definiert durch P X B = P X 1 B = P {ω Xω B}. Für Intervalle der Form ], t] gilt daher F X t = P X ], t]. Wir betrachten jetzt das Produktmaß P X P Y auf B 2 und definieren die Faltung dieser Maße P X P Y durch P X P Y B = P Y P Y Add 1 B

55 54 1. Grundlagen der Wahrscheinlichkeitstheorie für alle B B 1. Man kann sehr einfach nachrechnen, dass wegen dieser Definition P X P Y ein Wahrscheinlichkeitsmaß auf B 1 ist. Dabei benutzt man lediglich, dass die mengentheoretische Inverse einer Abbildung verträglich mit den Mengenoperationen ist. Um zu einer Herleitung einer Darstellung des Faltungsproduktes von zwei Maßen zu kommen genügt es das Erzeugendensystem aller Intervalle der Form ], a] mit a IR zu betrachten, da jedes Maß auf B 1 durch die Werte auf diesem Erzeugendensystem eindeutig bestimmt ist. Für alle t IR gilt Add 1 ], t] = { s 1, s 2 s 1 +s 2 t } und daher 1l Add 1 s1, s 2 = 1l ], t] ],t ss]s 1 für alls s 2 IR. Weiter gilt wegen der Definition der Produktmaßes für alle t IR P X P Y ], t] = = IR 1l ],t] dp X P Y = 1l Add 1],t]dP X P Y IR 2 1l Add 1 ],t]s 1, s 2 dp X s 1 dp Y s 2 = IR IR 1l ],t ss]s 1 dp X s 1 dp Y s 2 = IR IR IR F X t s 2 dp Y s 2. Besitzen die Verteilungsfunktionen F X und F Y Dichten f X und f Y, so gilt weiter P X P Y ],t] = F X t s 2 f Y s 2 ds 2 = = IR IR t s 2 t f X s 1 ds 1 f Y s 2 ds 2 f X s s 2 dsf Y s 2 ds 2 = IR t f X s s 2 f Y s 2 ds 2 ds = t f 1 f 2 sds IR mit der Faltung der Dichten f X f Y t = f X t sf Y sds. Wegen der Konstruktion gilt Demnach erhalten wir die folgende Aussage. f X f Y sds = 1.

56 1.4 Unabhängige Zufallsvariablen Satz: Ω, A, P sei ein Wahrscheinlichkeitsraum X, Y : Ω IR seien unabhängige Zufallsvariablen mit den Dichten f X, f Y : IR IR. Für t IR sei ft = f X f Y t = f X sf Y t sds - die Faltung von f X und f Y. Dann ist f die Dichte der Zufallsvariablen X +Y. Besonders wichtig ist die folgende Aussage, die besagt, dass die Summe zweier unabhängiger, normalverteilter Zufallsvariablen wieder normalverteilt ist Satz: Ω, A, P sei ein Wahrscheinlichkeitsraum, die Zufallsvariablen X, Y : Ω IR seien unabhängig, und normalverteilt mit den Erwartungswerten µ X, µ Y und den Streuungen σ X, σ Y. Dann ist die Zufallsvariable Z = X+Y normalverteilt mit dem Erwartungswert µ Z = µ X +µ Y und der Varianz σ 2 Z = σ2 X +σ2 Y. Beweis: Die Zufallsvariable X µ X ist N0,σX 2 -verteilt; wir dürfen also µ X = µ Y = 0 annehmen. X und Y besitzen daher Verteilungsfunktionen mit den Dichten 1 ϕ 0,σ 2 X t = exp t2 und ϕ 0,σ 2 2πσX Y t = 1 exp t2 2πσY 2σ 2 X Wir setzen σz 2 = σ2 X + σ2 Y. Wegen besitzt die Zufallsvariable Z = X + Y daher die Verteilungsfunktion mit der Dichte ϕ 0,σ 2 X ϕ 0,σ 2 Y t = 1 2πσ X σ Y exp 1 [ t s 2 ] + s2 ds. 2 σx 2 σy 2 Zur Auswertung dieses Integral fixieren wir ein t IR und erhalten mit der Substitution w = σ Z s σ Y t σ X σ Y σ X σ Z t s σ X 2 + s σ Y 2 = 1 σ 2 Z Damit erhalten wir ds = σ Xσ Y dw, s = σ Xσ Y w + σ2 Y t σ Z σ Z σz [ σ Y w σ X σ Z t 1 ϕ 0,σ 2 X ϕ 0,σ 2 Y = exp 2πσ X σ Y σ X w σ Y σ Z t 2σ 2 Y s t = σ Xσ Y w σ2 Xt und σ Z σz 2 2 ] = w t 2. σz 2 w2 exp t2 σx σ Y dw = ϕ 2 2σZ 2 σ 0,σ 2 Z t Beispiel: X 1 und X 2 seien exponentialverteilt zum Parameter α > 0. Man bestimme die Dichte der Verteilungsfunktion f von X 1 +X 2 und die Verteilungsfunktion. Es gilt ft = 0 für t 0. Für t > 0 erhalten wir aus der Faltungsformel ft = t t αe αt s αe αs ds = α 2 e αt ds = α 2 te αt = γ α,2 t. 0 0

57 56 1. Grundlagen der Wahrscheinlichkeitstheorie 1.5 Grenzwertsätze, der zentrale Grenzwertsatz Das Ziel dieses Abschnittes ist es, den zentralen Grenzwertsatz herzuleiten, der eine fundamentale Bedeutung in der Stochastik besitzt. Wir geben hier einen relativ elementaren aber nicht einfachen Beweis dieses Satzes an, der sich in ähnlicher Form in dem Buch von Georgii befindet. Wir betrachten in diesem Abschnitt das Grenzverhalten einer Folge von unabhängigen Zufallsvariablen. Motiviert wird diese Untersuchung durch die Aufgabenstellung aus einer Vielzahl unabhängig durchgeführten Wiederholungen des gleichen stochastischen Experimentes Aussagen über Erwartung und Verteilungsfunktion der Zufallsvariablen machen zu können, also einer Aufgabenstellung der Statistik. Ein weiterer Vorteil dieser Grenzwerttheorie ist die Möglichkeit viele Verteilungen wie etwa die Binomialverteilung für große n berechnen zu können, was elementar gar nicht oder kaum möglich ist. Zunächst zeigen wir eine mehr technische Aussage über die Existenz unendlicher Produkte von Wahrscheinlichkeitsräumen. Diese Aussage liefert eine Motivation für die weiteren beweistechnischen Konstruktionen, die allerdings für konkrete Berechnungen eine untergeordnete Rolle spielen. Beim Beweis knüpfen dabei an die Produkttheorie endlich vieler Maßräumen an und benutzen diese dabei zur Durchführung einer mehr formalen Konstruktion Satz: Für alle n IN seien Ω n, A n, P n Wahrscheinlichkeitsmaßräume. Wir setzen Ω = Ω 1... Ω n Ω n+1..., A 0 = { A 1... A n... A j A j, mit A j = Ω j für fast alle n IN } A = AA 0, die von A 0 erzeugte σ Algebra. Dann existiert auf A ein eindeutig bestimmtes Wahrscheinlichkeitsmaß P mit n PA 1... A n Ω n+1... = P k A k für alle n IN 0 und alle A 1 A 1,...,A n A n. Zusatz: Sind X n : Ω n IR Zufallsvariable mit X n L 1 P n für alle n IN, ist E n der Erwartungswert bezüglich Ω n, A n, P n, und ist Qn : Ω Ω n die Projektion von Ω auf die n te Komponente, so sind die Zufallsvariablen X n Q n unabhängig mit E X n Q n = En Xn für alle n IN. Beweis: Für den Beweis führen wir die folgenden Bezeichnungen ein: Wir setzen für alle n IN. Auf Ω [n] sei weiter Ω [n] = Ω 1... Ω n, und Ω [n ] = Ω n+1 Ω n+2... A [n] = A 1... A n und P [n] = P 1... P n die endliche Produkt-σ-Algebra mit dem Produktmaß P [n], und P 0 A Ω [n ] = P 1... P n A = P [n] A

58 1.5 Grenzwertsätze, der zentrale Grenzwertsatz 57 für alle A A 1... A n, also für alle A Ω [n ] A 0, weiter setzen wir noch P [m ] A Ω [n ] = Pm+1... P n A für alle A A m+1... A n. Wegen A Ω [n ] B Ω [n ] = A B Ω [n ] und A Ω [n ] B Ω [n ] = A B Ω [n ] für alle n IN und alle A, B A [n] ist A 0 eine Algebra und P 0 eine endlich additive Mengenfunktion auf A 0. Wir wollen jetzt zeigen, dass P [n] die Eigenchaften des Stetigkeitssatzes für additive Mengenfunktionen erfüllt. Wegen des Fortsetzungssatzes der Maßtheorie und des Eindeutigkeitssatzes lässt sich dann P 0 eindeutig zu einem Wahrscheinlichkeitsmaß auf A fortsetzen. Ist diese Aussage falsch, so existieren ein δ > 0 und A 0, A k A [0] mit A k A k+1 für alle k IN mit P 0 A k P 0 A 0 +2δ für alle k IN und mit A k = A 0. Wir setzen B k = A k \A 0 und erhalten P 0 B k 2δ, B k B k+1 für alle n IN, und B k =. Da jedes B k von der Form B k = B Ω [nk ] mit B A [nk] für ein geeignetes nk IN können wir die Indikatorfunktion 1l Bk bezüglich P [n] und P [m ] integrieren für alle n nk, da diese auf den endlichen Produkten Maße sind. Zur Vereinfachung der Schreibweise benutzen wir daher stets die Schreibweise dp [m ] für die Integration der Indikatorfunktion bezüglich eines Maßes dp m+1... P n für ein beliebiges n > m. Zu Konstruktion des Widerspruchs nehmen wir an, dass zu einem m IN im Fall m > 1 ω 1 Ω 1,...,ω m 1 Ω m 1 existieren mit [r ] ω r+1, δ r +1 Ω [r ] 1l Ak ω 1,...,ω r,ω r+1,...dp für alle n IN und für alle 0 r m 1. Wir bestimmen jetzt ein ω m Ω m mit der entsprechenden Eigenschaft: Dazu setzen wir setzen Y k ω m = 1l Bk ω 1,...,ω m 1,ω m,ω m+1...dp [m ] ω m+1,... Ω [m ] für alle ω m Ω m und erhalten wegen des Satzes von Fubini 1l Bk ω 1,...,ω m 1,ω m,...dp [m 1 ] ω m,... Ω [m 1 ] = 1l Bk ω 1,...,ω m 1,ω m,ω m+1...dp [m ] ω m+1,... dp m ω m Ω m Ω [m ] 1 = Y k ω m dp m ω m 1+ δ m Ω m

59 58 1. Grundlagen der Wahrscheinlichkeitstheorie für alle k IN. Wegen B k+1 B k gilt 1 Y k ω m Y k+1 ω m für alle k IN und alle ω m Ω m. Es sei Yω m = lim k Y k ω m für alle ω m Ω m. Aus dem Konvergenzsatz von Lebesgue folgt Y k ω m dp m ω m Ω m Ω m Yω m dp m ω m 1 1+ δ. m Speziellexistiertalsoeinω m Ω m mity k ω m Yω m 1+ 1 δ fürallek IN.Damit m+1 ist die rekursive Konstruktion beendet. Wegen der Konstruktion gilt ω 1,...,ω m,... B k für alle k IN. Das ist ein Widerspruch zur Voraussetzung. Die im Zusatz behauptete Unabhängigkeit folgt unmittelbar aus der Produktsituation; man vergleiche dazu die Diskussion zu Beginn der Abschnittes 1.4. Die Gleichheit der Erwartungswerte EX n Q n = E n X n gilt im Fall X n = 1l An und damit auch allgemein. Wir beginnen die Untersuchung des Grenzverhaltens einer Folge von Zufallsvariablen mit einer nützlichen mengentheoretischen Version einer Grenzwertaussage Lemma: Borel-Cantelli Für eine Folge A n n=1 A bilden wir den mengentheoretischen Limes superior dieser Folge: A := limsupa n = n i Im Fall m=1 n=m A n = PA k < gilt PA = 0. { a Ω } a A n für unendlich viele n IN. ii Sind die Ereignisse {A k k IN} unabhängig mit PA k =, so folgt PA = 1. Beweis: i Wegen der Monotonie gilt A Aus der Voraussetzung folgt daher PA = 0. ii Wegen A c = PA c n=1 m=n = PA P m=n m=n m=n A m für alle n IN und daher A m PA m. m=n PA m 0 bei n, da die Reihe konvergiert. Es gilt A c m und 1 t e t für t IR folgt aus dem Stetigkeitssatz für Maße P n=1 lim m=n r n=1 m=n A c m = lim P r r n=1 r 1 PAm m=n A c m lim exp r n=1 r m=n PA m = 0

60 1.5 Grenzwertsätze, der zentrale Grenzwertsatz 59 wegen der Unabhängigkeit der A c n, es gilt also PA = 1. Als erste Konsequenz dieser Aussage und der Tschebeyscheff-Ungleichung zeigen wir eine Aussage, die im Spezialfall einer Folge von gleichverteilten Zufallsvariablen besagt, dass das arithmetische Mittel dieser Folge gegen den Erwartungswert dieser Verteilung fast sicher konvergiert. Dabei konvergiert eine Folge von X n n=1 von reellen Zufallsvariablen auf einem Wahrscheinlichkeitsraum Ω,A,P fast sicher P-fast-überall gegen eine Zufallsvariable X 0, wenn ein A A existiert mit PA = 0 und X n ω X 0 ω bei n gilt für alle ω A c. Die nachfolgende Aussage wird allerdings etwas allgemeiner formuliert. Im Anschluss an den Beweis dieses Satzes sollen diese Konvergenzarten dann näher beschrieben werden Satz: Starkes Gesetz der großen Zahl X n n=1 L 2 P sei eine Folge unkorrelierter Zufallsvariablen mit M := supvx n <. n IN Dann gilt 1 n Xk EX k 0 k=0 bei n fast sicher P-fast überall. Zusatz: Für alle ε > 0 und alle n IN gilt speziell 1 P n X k EX ε M nε. 2 Beweis:I Wir zeigen zunächst den Zusatz: Für jedes n IN sei Z n = 1 n Xk EX k. Da die Zufallsvariablen X n unkorreliert sind, gilt Z n L 2 P mit EZ n = 0 und VZ n = 1 VX n 2 k M n für alle n IN. Die Aussage ist jetzt eine Konsequenz der Tschebyscheff Ungleichung II Offenbar dürfen wir EX n = 0 für alle n IN annehmen; sonst setzen wir Y k = X k EX k L 2 P; diese Folge Y n n=1 ist ebenfalls unkorreliert. Wir betrachten jetzt Z n = 1 X k und A n ε = [ Z n n 2 ε ] für alle ε > 0 und n IN. Wegen I gilt PA n ε M n 2 ε 2 und daher n=1 PA n ε <. Aus den Lemmas von Borel Cantelli folgt P limsupa n ε = 0 für alle ε > 0 und wegen n

61 60 1. Grundlagen der Wahrscheinlichkeitstheorie der Definition des Limes superior gilt P { ω k IN mit Zn 2ω 1 für unendlich viele n IN} k P Z n 2 1 k für unendlich viele n IN = 0 Das bedeutet Z n 2 0 fast sicher bei n. III Zu jedem m IN bestimmen wir ein n = nm IN mit n 2 m < n+1 2. Für k IN sei Y k = k Z k. Für ε > 0 gilt wegen der Tschebyscheff Ungleichung Daher gilt P Y m Y n 2 εn 2 1 ε 2 n 4VX n X m Mm n2 ε 2 n 4. P Y m Y nm 2 εnm 2 M ε 2 m=1 = M ε 2 n=1 k=0 2 k +n 2 n 2 n 4 = M ε 2 n=1 n=1 n m=n 2 n2n+1 n 4 Wie im ersten Schritt folgt mit dem Lemma von Borel-Cantelli [ 1 ] P nm 2Y m Z nm 2 0 = 1 m m n 2 n 4 < Wegen Z m = 1 m Y m 1 nm 2 Y m und Schritt II gilt P [ Z m 0 ] m = 1. Anmerkung: Ist Y n n=1 eine Folge von Zufallsvariablen Y n : Ω IR und Y eine Zufalsvariable, mit P [ Y n Y ε] 0 bei n für alle ε > 0, so heißt die Folge Y n n=1 stochastisch konvergent oder konvergent dem Maße nach. Ist die Folge Z n n=1 wie in definiert, so besagt die Aussage des Zusatzes dann Z n 0 stochastisch bei n ; diese stochastische Konvergenz ist allerdings schächer als die im vorstehenden Satz bewiesene fast sichere Konvergenz. Man vergleiche dazu die folgende Aussage, die mehr von theoretischem Interesse ist, über den Zusammenhang einiger der unterschiedlichen Konvergenzbegriffe für Folgen von Zufallsvariablen Bemerkung: Für alle n IN 0 sei X n eine reelle oder komplexe Zufallsvariable auf Ω,A,P. i Gilt X n X 0 fast sicher bei n, so folgt X n X 0 stochastisch bei n. ii Gilt X n X 0 fast sicher bei n und existiert eine Zufallsvariable 0 Y L 1 P mit X n < Y für alle n IN, so folgt X n X bei n. iii Gilt X n X bei n, so existiert eine Teilfolge kn n=1 mit X kn X 0 fast sicher bei n. iv Gilt X n X bei n, so folgt X n X 0 stochastisch bei n.

62 1.5 Grenzwertsätze, der zentrale Grenzwertsatz 61 Beweis: Wir dürfen in allen Aussagen X 0 = 0 annehmen. i Für ε > 0 sei A n ε = {ω Ω sup X k ω ε}. Wegen X n ω 0 bei n für k n alle ω A für eine Menge A A mit PA = 1 folgt A n ε A n+1 ε für alle n IN und A n ε A c. Aus dem Stetigkeitssatz für Maße folgt PA n ε 0 bei n. n=1 ii Diese Aussage folgt unmittelbar aus dem Konvergenzsatz von Lebesgue. iii Wir wählen eine Teilfolge kn n=1 mit X kn 1 2 n für alle n IN und setzen dann Z n = X k X kn und Z = X kn. Aus dem Konvergenzsatz von Beppo Levi n=0 folgt Z n dp Zdp, also Z 1 1 und damit P {ω Ω Zω = } = 0. Wir erhalten X kn ω 0 bei n für alle ω Ω mit Zω. iv Für ε > 0 und n IN sei A n ε = { ω Ω X n ω ε }. Offenbar gilt 1l Anε 1 ε X n ; und wir erhalten daher P A n ε 1 ε X n 1 0 bei n. Wir sind jetzt in der Lage eine Variante der Gesetzes der großen Zahl als eine einfache Konsequenz der Aussage zu beweisen. Diese zeigt die Konvergenz in der L 1 Norm, wenn vorausgesetzt wird, dass die Folge der Zufallsvariablen unabhängig und identisch verteilt ist mit X 1 L 1 P. Es existieren allerdings Varianten, die die fast sichere Konvergenz auch unter diesen Voraussetzungen nachweisen Folgerung: X n n=1 L 1 P sei eine Folge von identisch verteilten, unabhängigen Zufallsvariablen. Dann gilt 1 n X k EX k 0bei n. 1 k=0 Beweis: Wir nehmen EX n = 0 an und setzen Z = X 1. Für alle r IN sei Z r = min{z, r}. Wir fixieren ein ε > 0 beliebig. Es gilt Z r Z bei r ; wegen des Konvergenzsatzes von Beppo Levi folgt daher EZ r EZ bei r. Speziell existiert also ein r IN mit 0 EZ EZ r = E Z Z r = E Z Zr = Z Z R 1 < ε. Es sei jetzt h : IR IR definiert durch ht = max { r,min{t, r} } für alle t IR. Wir setzen weiter Y n = h X n = max { r,min{x n, r} } für alle n IN; damit schneiden wir die Zufallsvariable oben bei r und unten bei r ab. Die Folge Y n n=1 besteht offenbar aus unabhängigen, gleichverteilten Zufallsvariablen, und es gilt VY n r 2 für alle n IN. Durch Betrachtung des Positivteils und des Negativteils erkennt man weiter E X n Y n = E Z Z r < ε für alle n IN.

63 62 1. Grundlagen der Wahrscheinlichkeitstheorie Die Voraussetzungen des Gesetzes der großen Zahl sind erfüllt. Daher gilt 1 n Y k EY 1 fast sicher bei n. Es folgt unmittelbar aus dem Konvergenzsatz von Lebesgue n 1 Y k EY 1 = E 1 n Wir erhalten weiter 1 E X k n 1 E n Y k EY 1 0 bei n. Xk Y k 1 E X k Y k +E n 2E Y 1 X 1 1 +E n 1 2ε+E n 1 +E n 1 n +E Y k EY 1 Y 1 X 1 Y k EY 1 +E Y 1 X 1 Y k EY 1 Y k EY 1 2ε bei n. Da ε > 0 beliebig vorgegeben war, folgt unmittelbar die Aussage. Im weiteren Verlauf dieses Abschnittes soll jetzt der zentrale Grenzwertsatz bewiesen werden. Dazu benötigen wir einen weiteren Konvergenzbegriff, der unabhängig von dem ursprünglichen Definitionsbereich der Zufallsvariablen ist und sich ausschließlich an den Verteilungsfunktionen orientiert Definition: Ω, A, P und Ω 1, A 1, P 1 seien Wahrscheinlichkeitsräume, F : IR IR sei die Verteilungsfunktion einer Zufallsvariablen Y : Ω 1 IR, und es X n sei eine n=1 Folge von Zufallsvariablen auf Ω mit den Verteilungsfunktionen F n. Die Folge X n heißt n=1 verteilungskonvergent gegen Y bei n, wenn F n τ Fτ bei n d d gilt für alle τ IR, in denen F stetig ist. Wir schreiben dann X n Y oder auch X n F L bei n. Häufig ist auch die Schreibweise X n Y bei n.. Im weiteren Verlauf behandeln wir die Verteilungskonvergenz gegen die Normalverteilung. Da die Normalverteilung eine stetige Verteilungsfunktion sogar mit einer Dichte besitzt, gilt die folgende Veschärfung: Bemerkung: Ω, A, P und Ω 1, A 1, P 1 seien Wahrscheinlichkeitsräume, die Zufallsvariable Y : Ω 1 IR besitze eine stetige Verteilungsfunktion F : IR IR, und es sei Xn n=1 eine Folge von Zufallsvariablen auf Ω mit den Verteilungsfunktionen F n. Es gelte X n d Y bei n. Dann gilt F n F 0 bei n.

64 1.5 Grenzwertsätze, der zentrale Grenzwertsatz 63 Beweis: Wir fixieren ein ε > 0 und wählen ein r IN mit r ε 1. Da F eine stetige Verteilungsfunktion ist, existieren t 1 <... < t r 1 mit Ft j = j für alle j = 1,...,r 1. Wir r setzen t 0 =, t r =, Ft 0 = 0, und Ft r = 1. Es sei m IN mit F n t j Ft j 1 2r für alle j = 1,...,r 1 und alle n m. Es sei jetzt t IR und 1 j r mit t j 1 t t j. Im Fall F n t Ft folgt 0 F n t Ft F n t j Ft F n t j + 1 2r Ft j 1 r ε. Im Fall F n t Ft folgt entsprechend 0 Ft F n t ε. Damit erhalten wir die verlangte Ungleichung F n F ε für alle n IN mit n m. Der folgende Satz ist die wohl wichtigste Aussage der gesamten Wahrscheinlichkeitstheorie; er besagt, dass sich sehr viele Verteilungen durch die Normalverteilung approximieren lassen. Mit Hilfe dieser Approximation können dann sehr viele kompliziertere Problemstellungen relativ einfach mit großer Genauigkeit bestimmt werden. In der Literatur finden sich sehr viele unterchiedliche Beweise. Der hier durchgeführte recht elementare Beweis benutzt wesentlich Ideen der Darstellung aus dem Buch von Georgi. Erste Anwendungen zeigen wir im Anschluss an den Beweis Satz: Zentraler Grenzwertsatz X n n=1 sei eine Folge unabhängiger, identisch verteilter Zufallsvariablen mit 0 < σ 2 = VX 1 <. Weiter sei Φ : IR IR die Standard- Normalverteilung. Für jedes n IN setzen wir Sn = 1 σ X X n nex 1. n Ist F n die Verteilungsfunktion von S n, so gilt F n Φ 0 bei n. Beweis:WirkönnenoffenbarEX n = 0undVX n = 1annehmenfürallen IN,ansonsten 1 ersetzen wir X n durch X n EX 1 und dann durch X n. Wegen können wir VX1 durch Produktbildung erreichen, dass eine Folge unabhängiger standard-normalverteilter Zufallsvariablen Y n n=1 auf Ω existiert, die zu allen X n unabhängig ist. Wir setzen jetzt T n = 1 n X k. Wegen ist T n standard-normalverteilt. Wir zeigen jetzt, dass die Verteilungsfunktion von S n punktweise auf IR gegen die Verteilungsfunktion von T n, also gegen die Standard- Normalverteilung konvergiert; die Aussage folgt dann wegen der Stetigkeit der Normalverteilung aus Der Beweis zerfällt in mehrere Schritte. I: Es seien τ, τ IR mit τ < τ, und f : IR [0, 1] zweimal stetig differenzierbar mit ft = 0 für alle t τ und mit ft = 1 für alle t τ. Weiter seien X, Y, Z L 2 P unabhängige Zufallsvariablen mit EX = EY = EZ = 0 und mit VX = VY = 1. Für jedes δ > 0 sei Nδ = sup { f s f t s t δ } der Stetigkeitsmodul von f. Für n IN gilt E f 1 n X+Z E f 1 n Y +Z Nδ n + f E X 2 1l n X >δn 2 +E Y 2 1l Y >δn 2.

65 64 1. Grundlagen der Wahrscheinlichkeitstheorie Beweis von I: Wir setzen U n = 1 n X, W n = 1 n Y. Wegen des Satzes von Taylor existiert punktweise auf Ω ein 0 < ϑ U < 1 mit f Z +U n = fz+f ZU n f Z +ϑ U U n Un 2 = fz+f ZU n f ZUn f Z +ϑ U U n f Z U 2 2 n. Es gilt weiter die folgende Abschätzung 1 f Z +ϑ U U n f Z 2 U 2 n 1 2 U2 n Nδ+2 f 1l U 2 n >δ. Eine entsprechende Entwicklung gilt auch für f Z + W n. Damit erhalten wir aus EU n = EW n = 0 und da die Zufallsvariblen f Z, U n, W n unabhängig sind, wegen unmittelbar E f ZU n = E f Z E U n = 0 und entsprechend E f ZW n = 0. Daher gilt E f ZU n W n = E f Z EU n EW n = 0. Mit Hilfe der hergeleiteten Taylor-Darstellung erhalten wir daher E f Z +U n E f Z +Wn = 1 f E Z +ϑ U U n f Z U 2 2 n f Z +ϑ W W n f Z Wn E f Z +ϑ U U n f Z Un f 2 E Z +ϑ W W n f Z Wn NδE Un NδE Wn 2 + f E Un 2 1l U 2 n>δ + f E Wn 2 1l W 2 n>δ = 1 2n Nδ+ 1 2n Nδ+ f n E X 1l X 2 >nδ f + E Y 1l n Y >nδ 2. II: Es seien τ, τ IR mit τ < τ, und f : IR [0, 1] zweimal stetig differenzierbar mit ft = 0 für alle t τ und mit ft = 1 für alle t τ. Dann gilt E fs n ft n 0 bei n. Beweis von II: Zunächs sei n IN fixiert. Dann gilt E fsn ft n = E f = f E n 1 +f 1 X k f n 1 n 1 X k f n 1 n Y k 1 X k + 1 Y n n n 1 X k + 1 n 2 Y n f n n 1 n X k + k=n 1 1 n Y k +... j= f X k + n n 1 [ f E 1 n j n X k + k=2 k=n j Y k f Y k n n [ 1 Y k ] f n j 1 n X k + k=n j Y k ].

66 1.5 Grenzwertsätze, der zentrale Grenzwertsatz 65 Wir schätzen jetzt den j ten Summanden ab mit Hilfe von I. Dazu setzen wir Z = 1 [ n j 1 X k + n k=n j+1 Y k ], X = X n j, und Y = Y n 1. Da die Zufallsvariablen X 1,...,X n und Y 1,...,Y n jeweils gleichverteilt sind, erhalten wir als Abschätzung Nδ n + f E X 2 n 1 1l X 2 1 >δn +E Y 2 1 1l Y 2 1 >δn für jeden einzelnen Summanden. Insgesamt ergibt sich E fsn ft n Nδ+ f E X1 2 1l X 2 1 >δn +E Y 2 1 1l Y 2 1 >δn =: b n. Aus X 1 L 2 folgt X1 2 1l X 2 1 >δn 0 bei n. Wegen des Konvergenzsatzes von Lebesgue gilt dann auch E X1 2 1l X 2 1 >δn 0 und entsprechend E Y 2 1 1l Y 2 1 >δn 0 bei n. Es folgt b n Nδ bei n. Wegen Nδ 0 bei δ 0 erhalten wir E fsn ft n 0 bei δ 0. III: Beweis des Satzes: F n sei die Verteilungsfunktion der Zufallsvariablen S n. Für alle t IR gilt dann Ft = E 1l ],t] S n. Wir fixieren jetzt ein t IR beliebig und wählen dann t 1, t 2 IR mit t 1 < t < t 2. Wir setzen jetzt τ = t und τ = t 2 und wählen f gemäß II mit 1l ],τ] f 1l ],τ ]. Wegen II gilt dann lim sup n F n t = limsup n E 1l ],τ] Sn limsup E f Sn n = limsupe f T n E 1l],τ ] = Φτ = Φt 2. n Wir setzen jetzt τ = t 1 und τ = t und wählen f gemäß II mit 1l ],τ] f 1l ],τ ]. Dann gilt lim inf F nt = liminf E 1l ],τ n n ] Sn liminf E f Sn n = liminf n E f T n E 1l],τ] = Φτ = Φt1. Mit den Grenzübergängen t 1 t und t 2 t folgt dann wegen der Stetigkeit von Φ was zu zeigen war. Φt limsupf n t liminf F nt Φt, n n Der zentrale Grenzwertsatz gestattet eine gute Approximation vieler Verteilungen, die durch unabhängige Wiederholungen des gleichen Experimentes entstanden sind. Als erstes Beispiel diskutieren wir die Approximation der Binomialverteilung. Entsprechend können auch andere Verteilungen behandelt werden; die unten geschilderte Vorgehensweise wird dabei nicht verändert.

67 66 1. Grundlagen der Wahrscheinlichkeitstheorie Approximation der Binomialverteilung: Der Zentrale Grenzwertsatz gestattet eine schon für recht kleine n eine relative gute Approximation der Binomialverteilung: Es liege also jetzt eine Binomialverteilung mit dem Parameter p vom Umfang n IN vor. Mit den Bezeichnungen des zentralen Grenzwertsatzes und den Zufallsvariablen X 1,...,X n, die die Gewinne der einzelnen Bernoulli-Experimente zählen, gilt S n Φ 0 bei n. Wegen gilt VX 1 = p1 p, EX 1 = p, es folgt σ = p1 p. Damit erhalten wir Sn 1 = X X n n p. np1 p Interessieren wir uns jetzt speziell für die Wahrscheinlichkeit, dass die Zahl der Erfolg k zwischen zwei Grenzen k a und k b liegt mit k a < k b, so gilt P [k a X X n k b ] = mit a = k b k=k a nk p k 1 p n k Φb Φa 1 np1 p k a np b = 1 np1 p k b np. Die Werte Φa, Φb können dabei der Tabelle für die Normalverteilung entnommen werden. Eine Konvergenzverbesserung erhält man noch durch die folgende Überlegung. Dazu interessieren wir uns jetzt für die Wahrscheinlichkeit P [X X n k 0 ] für ein 0 < k 0 < n. Die Wahrscheinlichkeit des Komplementärereignisses ergibt sich entsprechend: P [X X n < k 0 ] = P[X X n k 0 1]. Formal liegt hier also eine gewisse Asymmetrie vor. Um diese zu beheben betrachten wir k an Stelle von k 0. Bei der Binomialverteilung ergibt sich damit keine Veränderung, wohl aber bei der Approximation durch die Normalverteilung: Diese Veränderung liefert eine wesentliche Konvergenzverbesserung, sollte also vor allen Dingen bei kleineren n-werten benutzt werden. Für je sehr große n ist sie hingegen bedeutungslos Beispiel: Es seien p = 1 2, n = 20, k a = 7, k b = 11; Wir berechnen P [k a k k b ] : Es gilt P [k a k k b ] = 11 k= Berechnung ohne Korrekturterm: 20 = 0,69062 Wir setzen a = k a p n np1 p = 3 5 = 1,3416 und b = k b p n np1 p = 1 5 = 0,4472 : Aus der Tabelle erhalten wir Berechnung mit Korrekturterm: Φa Φb = 0, ,9101 = 0,5828

68 1.5 Grenzwertsätze, der zentrale Grenzwertsatz 67 Wir setzen ã = k a 1 2 pn np1 p = 3,5 5 = 1,5652 und b = k b+ 1 2 pn np1 p = 1,5 5 = 0,6708. Aus der Tabelle erhalten wir Φ b Φã = 0, ,9412 = 0,6901. Ein Vergleich zeigt, dass unter Berücksichtigung dieser Korrektur schon bei diesem kleinen n eine gute Approximation der Wahrscheinlichkeiten vorliegt. Ohne Korrektur ergibt sich allerdings ein wesentlich größerer Unterschied.

69 68 1. Grundlagen der Wahrscheinlichkeitstheorie 1.6 Mit der Normalverteilung zusammenhängende Verteilungen Der vorstehende Abschnitt hat gezeigt, dass die Normalverteilung in sehr vielen Situationen wahrscheinlichkeitstheoretische Probleme wenigstens angenähert beschreibt. Aus diesem Grund sollen weitere Verteilungen, die mit der Normalverteilung in engem Zusammenhang stehen, behandelt werden. Benötigt werden diese Verteilungen später beispiesweise für die Überpüfung ob eine konkrete Situation durch eine Normalverteilung beschrieben werden kann. Um die Darstellung übersichtlich gestalten zu können führen wir dazu eine vektorwertige Variante der Normalverteilung ein die so genannte multivariante Normalverteilung. In diesem Abschnitt sei wieder Ω, A, P ein Wahrscheinlichkeitsraum. Zunächst notieren wir als eine einfache Konsequenz des Transformationssatzes für das n-dimensionale Lebesgue-Integral die folgende Aussage über die multivariante Normalverteilung, als vektorwertige Variante der Normalverteilung Lemma: = U, W IR n seien offen, ψ : U W sei bijektiv, stetig differenzierbar mit differenzierbarer Umkehrabbildung ϑ = ψ 1 : W U. Es sei X : Ω IR n ein Zufallsvektor mit Xω U für alle ω Ω. Ferner besitze die gemeinsame Verteilung F X von X eine Dichte f X. Dann besitzt die gemeinsame Verteilung F Y des Zufallsvektors Y = ψ X eine Dichte f Y mit f Y y = f X ϑy det Dϑy für alle y W. Beweis: Wir bezeichnen wieder mit P X das Verteilungsmaß von X, definiert durch P X A = P X 1 A für alle A B n mit A W und entsprechend P Y. Dann gilt für alle A B n mit A W die Beziehung P Y A = P Y 1 A ψ 1A = P X = f X xdλ n x = = P X 1 ϑa = P X ϑa f X ϑy det Dϑy dλ n y, ϑa A was zu zeigen war Satz: Es sei X = X 1,...,X n : Ω IR ein Zufallsvektor, so dass X1,...,X n unabhängige standard normalverteilte Zufallsvariablen sind. i Die gemeinsame Verteilung von X besitzt die Dichte ϕ 0,I x = 2π n/2 exp 1 2 xt x für alle x IR n. ii Es seien B IR n n invertierbar und m IR n. Setzen wir C = BB T, so besitzt der Zufallsvektor Y = BX + m die Verteilungsdichte ϕ m,c y = 2π n 2 detc 1 2 exp 1 2 y mt C 1 y m für alle y IR n. Für die Koordinaten-Funktionen Y 1,...,Y n von Y gilt EY j = m j und CovY k, Y j = BB T k,j = c k,j.

70 1.6 Mit der Normalverteilung zusammenhängende Verteilungen 69 Anmerkung: Das Wahrscheinlichkeitsmaß N n m,c auf IR n,b n mit der Dichtefunktion ϕ m,c heißt die n-dimensionale oder multivariante Normalverteilung mit dem Erwartungswertvektor m und der Kovarianzmatrix C falls C IR n n eine positiv definite symmetrische Matrix ist; diese wird auch als Kovarianzmatrix bezeichnet. Beweis: i Da die Zufallsvariablen X 1,...,X n unabhängig sind, besitzt X wegen die gemeinsame Verteilung mit der Produktdichte ϕ 0,I x := ϕ 0,1 x 1... ϕ 0,1 x n = 2π n 1 2 exp 2 xt x für alle x = x 1,...,x n T IR n. ii Wir setzen ψx = Bx+m und ϑy = B 1 y m; dann gilt offenbar X = ϑ Y. Wegen gilt f Y y = ϕ 0,I ϑy det Dϑy = 2π n 2 detc exp 2 y mt C 1 y m für alle y IR n. Man beachte dabei detbb T = detb 2 = detc. Weiter erhalten wir EY i = E b i,j X j +m i = b i,j EX i +m i = m i, und wegen der Unabhängigkeit der Zufallsvariablen X 1,...,X n folgt CovY i, Y j = Cov b i,k X k, b j,l X l = b i,k b j,l CovX k, X l = l=1 k,l=1 b i,k b j,k = c i,j. Als unmittelbare Konsequenz von Aussage ii des vorstehenden Satzes erhalten wir die folgende Aussage für eine orthogonale Matrix U: Folgerung: U IR n n sei eine orthogonale Matrix. X sei N n 0,I verteilt, und es sei Y = UX. Dann ist Y ebenfalls N n 0,I verteilt ist Satz: C IR n n sei symmetrisch und positiv definit. Weiter sei der Zufallsvektor X N n m, C-verteilt für ein m IR n. Für A IR k n mit Rang A = k n und a IR k sei Z = AX +a. Dann ist Z eine N k Am+a,ACA T verteilte Zufallsvariable. Beweis: Wir können offenbar a = 0 und m = 0 annehmen. Da C positiv definit ist, existiert eine positiv definite symmetrische Matrix B mit B 2 = C. Wir setzen Y = B 1 X. Dann besitzt Y die Verteilung N n 0,I. Es sei W der von den Zeilenvektoren von A B erzeugte Untervektorraum. Wir wählen eine Orthonormalbasis u 1,...,u k W IR n, ergänzen diese zu einer Orthonormalbasis u 1,...,u n des IR n, und bilden dann U = u 1...u n T IR n n. Wegen der Konstruktion ist U eine orthogonale Matrix. Wir setzen R = ABU T IR k n, dann gilt RU = ABU T U = AB. Da die Vektoren u k+1,...,u n orthogonal zu allen Zeilenvektoren der Matrix AB sind, gilt r i,j = 0 für alle j > k und alle i = 1,...,k. Wegen der vorstehenden Bemerkung ist der Zufallsvektor Y = UY wieder N n 0,I verteilt. Die Koordinaten Y 1,...,Y n sind folglich N0,1 verteilte unabhängige Zufallsvariable. Daher ist Y = Y 1,...,Y k T N k 0,I-verteilt. Weiter besitzt AX = ABY = RUY = RY = RY die Verteilung N k 0,RR T. Wegen RR T = RUU T R T = ACA T ist die Aussage gezeigt worden.

71 70 1. Grundlagen der Wahrscheinlichkeitstheorie Satz: X sei eine N0, 1 verteilte Zufallsvariable. i Die Zufallsvariable X 2 ist Γ1 verteilt, besitzt also die Verteilung mit der Dichte 2,1 2 1 γ1 t = 2,1 2 Γ 1 2 2t exp t für t > 0. 2 ii Die Zufallsvariable Y = expx ist lognormal-verteilt, besitzt also die Verteilungsfunktion mit der Dichte ft = 1 t 2π t lnt/2. Beweis: F sei die Verteilungsfunktion von X 2 mit der Dichte f = F. Dann gilt Ft = 0 für alle t 0; und für t > 0 erhalten wir Ft = PX 2 t = P t X t = φ 0,1 t φ 0,1 t, also ft = F t = ϕ 0,1 t 1 2 t +ϕ 0,1 t 1 2 t = 1 2π 1 t exp t 2 = γ1 2,1 2t. ii Für t > 0 gilt [Y t] = [X lnt]. Tst F die Verteilungsfunktion von Y, so gilt Ft = Φ 0,1 lnt und daher F 1 t = ϕ 0,1 lnt t = 1 t 2π exp lnt2 1 = 2 t 2π t lnt/2. Im weiteren Verlauf wird jetzt die Beta-Verteilung eingeführt. Für eine mögliche Motivation dieser Verteilung wird auf die Literatur verwiesen, etwa auf das Buch von Georgi, Abschnitt Bemerkung: Für a, b > 0 bilden wir die Beta-Funktion Ba, b = 1 t a 1 1 t b 1 dt. Dann gilt Ba+1,b = a Ba, b. a+b Beweis: Wir erhalten mit Hilfe partieller Integration a Ba, b Ba+1, b = 1 0 at a 1 1 t b 1 dt 1 at a 1 t b 1 dt = a t a 1 t a 1 t b 1 dt = 1 at a 1 1 t b ds und damit die Behauptung. 0 = t a b1 t b 1 dt = bba+1, b Es seien jetzt a, b > 0. Wir bezeichnen das Wahrscheinlichkeitsmaß B a,b auf ]0,1[ mit der Dichte β a,b s = 1 Ba,b sa 1 1 s b 1 für 0 < s < 1 als Beta-Verteilung zu a,b. 0

72 1.6 Mit der Normalverteilung zusammenhängende Verteilungen Satz: Es seien α, r, k > 0. Die unabhängigen Zufallsvariablen X 1 und X 2 seien Γ α,r beziehungsweise Γ α,k -verteilt. Es gelten die folgenden Aussagen: X 1 +X 2 ist Γ α,r+k -verteilt. X 1 X 1 +X 2 ist Beta-verteilt mit der Verteilung-Dichte β r,k. X 1 +X 2 und X 1 X 1 +X 2 sind unabhängig. Beweis: Der Zufallsvektor X = X 1, X 2 besitzt die gemeinsame Dichte f X s,t = γ α,r sγ α,k t = αr+k ΓrΓk sr 1 t k 1 e αs+t für s,t > 0. Wir definieren Ψ :]0, [ 2 ]0, [ ]0,1[ durch Ψs,t = s+t, ist Ψ bijektiv mit der Umkehrabbildung ϑu, v = Ψ 1 u,v = uv, u1 v T. Diese Umkehrabbildung besitzt die Ableitungsmatrix v u Dϑu,v =. 1 v u s T. Offenbar s+t Wegen det Dϑu, v = u folgt aus der Folgerung des Transformationssatzes 1.6.1, dass der Zufallsvektor Y = ΨX 1, X 2 = X X 1 +X 2, 1 die Dichte X 1 +X 2 f Y u,v = f X uv, u1 v u = = α r+k ΓrΓk ur+k 1 e αu v r 1 1 v k 1 Γr +k ΓrΓk Br,kγ α,r+kuβ r,k v für u,v W =]0, [ ]0,1[ besitzt. Integration über W liefert dann 1 = W f Y u,vdudv = = Γr +k ΓrΓk Br,kβ r,kv dv γ α,r+k u du Γr +k ΓrΓk Br,kγ α,r+ku du = Γr +k ΓrΓk Br,k. Wir erhalten also f Y u, v = γ α,r+k u β r,k v für alle u, v W. Damit sind die Aussagen wegen bewiesen worden. Als eine unmittelbare Konsequenz ergibt sich die folgende Aussage Folgerung: X 1,...,X n seien unabhängige standard-normalverteilte Zufallsvariable. Dann besitzt die Zufallsvariable Y = X Xn 2 die Verteilung f Y = Γ1 2, n. Wir sprechen 2 in diesem Fall von der Chiquadrat-Verteilung χ 2 n mit n Freiheitsgraden: χ 2 nt = γ1 2, 1 t = tn 2 1 e n 2 Γ 1 2 t für t > n 2

73 72 1. Grundlagen der Wahrscheinlichkeitstheorie Folgerung: X 1,...,X n,y 1,...,Y m seien unabhängige standard-normalverteilte Zufallsvariable. Dann besitzt die Zufallsvariable Y = m n X X 2 n Y Y2 m die Fisher-Verteilung F n,m auf ]0, [ mit n und m Freiheitsgraden mit der Dichte 2m m f n,m t = nn 2 B n, m 2 2 t n 2 1 m+nt m+n 2 für t > 0. Beweis: Wegen des vorstehenden Korollars besitzt X = X Xn 2 eine χ 2 n-verteilung und Y = Y Ym 2 eine χ 2 m-verteilung. Weiter sind X und Y unabhängig. Daher besitzt Z = X X +Y wegen Satz die Beta-Verteilung mit der Dichte β n 2, m 2 jetzt die bijektive Abbildung ψ :]0,1[ ]0, [, definiert durch ψt = n m Umkehrabbildung ψ 1 x = mx n+mx F n,m = m n für x ]0, [. Wegen X Y = m n und Lemma besitzt F n,m die Verteilungsdichte Z 1 Z = ψz. Wir betrachten t 1 t mit der f n,m x = βn 2 mx mn m 2 n+mx = nn n+mx 2 B n 2m m 2 2, m 2 x n 2 1 m+nx m+n 2 für x > Folgerung: X,Y 1,...,Y n seien unabhängige standard-normal verteilte Zufallsvariable. Dann besitzt die Zufallsvariable τ n x = T = X 1 Y 2 n Yn 2 die Student t-verteilung mit n Freiheitsgraden mit der Dichtefunktion τ n : n+1 1+ x2 2 n B 1 2, n 2 n für x IR. Beweis: T 2 besitzt die Verteilung F 1,n. Daher besitzt T = T 2 eine Verteilung mit der Dichtefunktion f 1,n y 2 2y für y > 0. Da T symmetrisch ist, besitzen T und T die gleiche Verteilung, also die Verteilung mit der Dichte τ n y = f 1,n y 2 y. Wir betrachten jetzt das Gaußsche Produktmodell IR,B n,n n m, v m IR, v > 0 und unabhängige Nm, v-verteilte Zufallsvariable X 1,...,X n und dann die bekannten Schätzer der Statistik M = 1 X X n, V = 1 X i M 2. n n 1 i=1

74 1.6 Mit der Normalverteilung zusammenhängende Verteilungen Satz: Unter den obigen Voraussetzungen sei ϑ = m, v IR ]0, [. Bezüglich P ϑ = N n m,v gilt i M und V sind unabhängig. ii M ist Nm, v n 1 -verteilt und V ist χ 2 n v n 1-verteilt. nm n iii T m := ist τ V n 1 -verteilt. Beweis: Es sei X = X 1,...,X n t : IR n IR n, und e = 1,...,1 t IR n. Wir betrachten eine beliebige orthogonale Matrix U IR n n mit u 1,j = 1 n für alle j = 1,...,n. Wir setzen dann Y = UX. Es sei Y = Y 1,...,Y n t. Dann hat Y unter N n me, ve = Nm, nv n die Verteilung N n mue, ve = Nm n, v N0, v n 1 ; dazu beachte man mue = m n,0,...,0 t. Da Y 1,...,Y n unabhängig sind gilt Wegen Y = X folgt M = 1 1 X j = 1 Y 1. n n n n 1V = X j M 2 = X 2 j nm 2 = Y 2 Y 2 1 = j=2 Y 2 j. Die Aussagen folgen jetzt aus den vorstehenden Resultaten.

75 74 1. Grundlagen der Wahrscheinlichkeitstheorie

76 2. Grundbegriffe der Statistik Eine grundlegende Aufgabenstellung der Statistik ist es mit Hilfe von zufallsbedingten Beobachtungen auf zugrunde liegende Gesetzmäßigkeiten zu schließen. Im Regelfall werden die in Frage kommenden Gesetzmäßigkeiten durch bestimmte Wahrscheinlichkeitsmaße beschrieben. In vielen Fällen betrachtet man dabei Wahrscheinlichkeitsmaße die mit Normalverteilungen Nµ,σ 2 zusammenhängen, wobei µ und σ 2 unbekannt sind und durch geeignete Verfahren zu bestimmen, oder zu schätzen sind. 2.1 Lineare Regression In diesem kurzen Abschnitt diskutieren wir einige Anfangsgründe der Regressionsanalyse. Als Beispiel diskutieren wir folgende Problemstellung. Es gelte eine theoretische Abhängigkeit einer Messreihe y = gx mit einer unbekannten Funktion g. Gemessen seien die Werte x x 1 x 2... x n y y 1 y 2... y n, die jeweils mit zufälligen Fehlern behaftet sind. Wir behandeln zunächst eine lineare Variante dieser Problemstellung und nehmen dazu für eine derartige Messreihe die Gültigkeit von y = gx = α+βx mit unbekannten α,β IR an und wollen diese Größen α und β geeignet schätzen. Zur Bestimmung dieser so genannten Schätzer betrachten wir die Funktion f : IR 2 IR: fα,β = yj α+βx j 2 als quadratische Fehlerfunktion in α und β. Die Größen α und β werden so bestimmt, dass f α, β minimal wird. Da die Funktion f als Summe quadratischer Funktionen konvex ist, muss jede Nullstelle der Ableitung von f eine Minimalstelle sein. Es gilt D 1 fα,β = n 2y j α+βx j = 0 D 2 fα,β = n 2y j α+βx j x j = 0 75

77 76 2. Grundbegriffe der Statistik Wir erhalten aus diesen Gleichungen Mit den Abkürzungen y j nα β n x j = 0 x j y j α n x j β n x 2 j = 0 x = 1 j, y = n x 1 y j, S x,x = n x j x 2 n S y,y = n y j y 2, S x,y = n x j xy j y ergibt sich weiter durch Ausmultiplikation S x,x = n x 2 j 2x j x+x 2 = n x 2 j nx 2 S y,y = n y 2 j 2y j y +y 2 = n yj 2 ny 2 S x,y = n xj y j y j x yx j +xy = n x j y j nxy. Einsetzen dieser Werte in die obige Gleichung ergibt Wir erhalten also 0 = ny nα nβx 0 = x j y j αn x j β x 2 j = S x,y +nxy αnx βs x,x nβx 2 = S x,y +x ny nα nβx βs x,x = S x,y βs x,x. β = S x,y S x,x, α = y βx. Damit haben wir die folgende Bemerkung gezeigt: Bemerkung: Unter der Annahme, dass zwischen den Messgrößen x und y eine theoretische Beziehung y = α + βx gilt, liefert die Schätzung mit der Methode der kleinsten Quadrate die Schätzer β = S x,y S x,x, α = y βx. mit y = 1 n y y n, x = 1 n x x n, S x,x = x x 2 n nx 2, S x,y = x 1 xy 1 y+...+x n xy n y. Die Methode der kleinsten Quadrate kann auch in anderen Situationen angewandt werden. Als Beispiel betrachten wir dazu wieder eine Messreihe für die Werte x und y vom Umfang

78 2.1 Lineare Regression 77 n und nehmen an, dass zwischen x und y eine Beziehung y = α+βe γx gilt. Wir betrachten wieder eine wie eben gebildete Funktion fα,β,γ = α+βe γx j 2 und lösen die Gleichungen D 1 fα,β,γ = 0, D 2 fα,β,γ = 0, D 3 fα,β,γ = 0. Die Lösung α, β, γ ist dann wieder ein Schätzer für α,β,γ. Wir diskutieren eine Variante der Ausgangssituation und gehen davon aus, dass bei einer gegebenen Datenmenge für die Messwerte nur noch die Größe y mit einem zufälligen Fehler behaftet ist, während die Größe der Werte für x jeweils exakt bestimmt ist; wir betrachten y als Wert der Stochastischen Variablen Y x. Ist also eine Messreihe für die Werte x und y vom Umfang n gegeben, so nehmen wir die Werte x 1,...,x n als gegebene feste Werte auf mit den zugeordneten Zufallsvariablen Y 1,...,Y n. Wir nehmen weiter eine theoretische Abhängigkeit der Form y = α+βx an und treffen folgende Annahmen I EY x = α+βx und speziell EY i = α+βx i für i = 1,...,n. II Y 1,...,Y n sind unabhängig. III VY 1 =... = VY n = σ Bemerkung: Die nach der Methode der kleinsten Quadrate bestimmten Schätzer x j xy j β =, α = Y βx sind erwartungstreu im Sinn von E β = β und E α = α. Es gilt weiter V β = σ2, V α = S x,x +nx 2 σ 2, Cov α, β = xσ2. S x,x ns x,x S x,x Beweis: Wegen n x j x = 0 folgt und damit β = S x,y S x,x = S x,x x j xy j Y = S x,x E β = 1 S x,x = α S x,x = β S x,x x j xy j = S x,x x j xey j = 1 S x,x x j x+ β S x,x x j x S x,x Y j x j xα+βx j x j xx j x j xx j x = β.

79 78 2. Grundbegriffe der Statistik Weiter gilt: E α = EY βx = EY E βx = 1 EY j βx = 1 n n α+βx j = α Da die Zufallsvariablen Y 1,...,Y n unabhängig sind folgt und entsprechend V β = V = x j x S x,x Y j = xj x S x,x 2VYj = V 1 S x,x 2 xj x S x,x Y j V α = VY βx 1 = V n Y j x j x xy j S x,x = = σ 2 1 n x j x S x,x x 1 n + x j x 2 x 2 2 S x,x 2 VY j = σ 2 = σ 2 1 n + x2 S x,x x j x 2 σ 2 = σ2 S x,x. 1 n 2 x j xx + x j x 2 x 2 2 n S x,x S x,x 2 = σ2 S x,x +nx 2 ns x,x. Da Y 1,...,Y n unabhängig sind, folgt CovY i, β = Cov Y i, für alle i = 1,...,n und damit weiter x j x S x,x Y j = x j x S x,x CovY i,y j = x i x S x,x σ 2 Cov α, β = CovY βx, β = CovY, β xcov β, β = 1 CovY j, β xv β = σ2 x j x xσ2 = xσ2. n ns x,x S x,x S x,x

80 2.2 Parameterabschätzung der Statistik 2.2 Parameterabschätzung der Statistik 79 Eine Aufgabenstellung der Statistik besteht darin aus gegebenen Daten oder anderen Gegenheiten Rückschlüsse auf theoretische Zusammenhänge zu machen und diese gegebenenfalls zu überprüfen. In dem vorliegenden Abschnitt sollen zunächst Parameter auf Grund von realen Beobachtungen bestimmt oder geschätzt werden Beispiel: Kontrolle der Produktionsqualität. Von N = Schrauben wird eine Stichprobe von n = 100 Stück genommen, von diesen ist eine zufällige Zahl x defekt. Welche Rückschlüsse kann man auf die wahre Zahl w der defekten Schrauben ziehen. 1. Ansatz: Wir setzen als Schätzung an Wx = x N n Dabei ist Wx eine von dem Zufall der gewählten Stichprobe abhängige Größe. Wir behandeln zunächst diesen ersten Ansatz allgemein. Wir gehen dabei von einem Wahrscheinlichkeitsraum Ω, A, P aus und einer Zufallsvariablen X : Ω X wobei X die wirklich beobachtbaren Ereignisse enthält. Dieser Raum X wird als Stichprobenraum bezeichnet, die Gesamtheit aller möglichen Beobachtungen x. Da Ω und X keine weitere Rollen spielen, sondern nur die Verteilung von X, wird dieser theoretische Zusammenhang nicht weiter beachtet. Die Aufgabe besteht darin das Wahrscheinlichkeitsmaß auf X, das dieser Verteilung zugeordnet ist, aus den Beobachtungswerten zu ermitteln Definition: Ein statistisches Modell ist ein Tripel X,F,P ϑ ϑ Θ mit dem Stichprobenraum X, einer σ-algebra F PX, Wahrscheinlichkeitsmaßen P ϑ auf F für alle ϑ Θ und AnzΘ 2. Für ϑ Θ sei E ϑ der Erwartungswert bezüglich des Maßes ϑ, V ϑ entsprechend die Varianz bezüglich ϑ. Wir nennen das statistische Modell X,F,P ϑ ϑ Θ ein parametrisches Modell, wenn Θ IR q für ein q IN gilt. Im Fall q = 1 heißt es ein einparametrisches Modell. Ist X diskret und besitzt jedes P ϑ eine Zähldichte ρ ϑ, so heißt X, P ϑ ϑ Θ ein diskretes Modell. In diesem Fall gilt natürlich F = PX. Im Fall X B q für ein q IN und F = B q X, der auf X eingeschränkte Borelalgebra, heißt X,F,P ϑ ϑ Θ ein stetiges Modell, wenn jedes P ϑ eine Dichtefunktion ρ ϑ besitzt. In den beiden letztgenannten Fällen sprechen wir von dem Vorliegen eines Standardmodells. Im Fall einer abzählbaren Indexmenge Θ gehen wir der Einfachheit halber von Θ IR aus, und es liegt daher der einparametrige Fall vor. In der Praxis werden viele Aussagen der Statistik aus Stichproben gewonnen, die in endlich vielen unabhängigen Versuchen oder Auswertungen gewonnen werden. Mathematisch gesehen liegt damit die Situation einer Bildung eines mathematischen Produktes vor.

81 80 2. Grundbegriffe der Statistik Definition: E,G,Q ϑ ϑ Θ sei ein statistisches Modell und 2 n IN. Wir setzen X = E n,f = G n, P ϑ = Q n ϑ für alle ϑ Θ und betrachten dann das endliche Produktmodell X,F,Pϑ ϑ Θ = E n,g n,q n ϑ ϑ Θ. Offenbar ist das Produktmodell eines parametrischen Modells wieder parametrisch und das eines Standardmodells ist wieder eines. Wir geben jetzt die Definition eines Schätzers an; darunter verstehen wir speziell die Angabe einer Vorschrift aus dem Datenmaterial einen gewissen Parameter zu bestimmen Definition: X,F,Pϑ ϑ Θ sei ein statistisches Modell und Σ,S ein Ereignisraum. i Jede Abbildung S : X,F Σ,S heißt dann eine Statistik. ii Ist τ : Θ Σ eine Abbildung, so heißt jede Statistik T : X,F Σ,S dann ein Schätzer für τ. Anmerkung: Man beachte bei dieser Definition, dass eine Statistik eine Zufallsvariable ist mit allerdings einer anderen Interpretation: Es ist eine konstruierte Größe, die auf Beobachtungen beruht. Es sei an dieser Stelle darauf hingewiesen, dass die obige Definition wegen der großen Allgemeinheit nicht in jeder Situation sinnvoll ist Beispiel: Aus [0,ϑ] für ein ϑ IR werden n Zahlen x 1,...,x n ausgewählt. Dabei ist ϑ unbekannt und soll geschätzt werden: Statistisches Modell: X = [0, [ n, F = B n, Θ =]0, [; für ϑ > 0 sei Q ϑ sei die Gleichverteilung auf [0,ϑ], also P ϑ = Q n ϑ. Für die weitere Betrachtung fassen wir in Gedanken die Werte x 1,...,x n als Werte von unabhängigen Zufallsvariablen X 1,...,X n auf, die auf dem Intervall [0, ϑ] gleichverteilt sind. Dann gilt offenbar EQ ϑ = E ϑ X k = ϑ 2 = ϑ 0 t 1 ϑ dt. 1. Fall: Wir betrachten den Schätzer T n := 2M = 2 n Das Gesetz der großen Zahl impliziert X k doppelter Mittelwert. P ϑ T n ϑ > ε 0 bei n für alle ε > 0. 2.Fall: Als Schätzer betrachten wir jetzt T n = max{x 1,...,X n }: Für alle ε > 0 gilt P ϑ T n ϑ ε = P ϑ [X 1 ϑ ε]... [X n ϑ ε] = P ϑ X 1 ϑ ε... P ϑ X n ϑ ε = ϑ ε n 0 bei n. ϑ Vergleich dieser Schätzer:

82 2.2 Parameterabschätzung der Statistik 81 I Beide Schätzer sind konsistent in dem Sinne, dass T n ϑ und T n ϑ bei n bezüglich P ϑ Die Schätzer besitzen gleiches asymptotisches Verhalten. II Der Schätzer T n ist erwartungstreu in dem Sinne, dass für alle ϑ Θ gilt. E ϑ T n = 2 n E ϑ X k = ϑ III T n ist nicht erwartungstreu sondern asymptotisch erwartungstreu im Sinne von E ϑ T n ϑ bei n. Man beachte: Es gilt P ϑ Tn x x n = für alle x [0,ϑ], also besitzt die Verteilungsfunktion die Dichte gt : gt = n x n 1 ϑ für t [0,ϑ] und gt = 0 sonst. Damit gilt ϑ ϑ IV Betrachtung der Varianz: V ϑ T n = Wegen der Berechnung in III gilt Setzen wir T n = n+1 n E ϑ T n = ϑ 0 tgtdt = n n+1 ϑ. 2 2Vϑ ϑ X X n = 4 n n V ϑx 1 = 4 t ϑ 2dt ϑ = 2 nϑ 2 3n 0 V ϑ T n = E ϑ T 2 E ϑ T 2 = = ϑ n n+2 n2 n+1 2 ϑ 2 = T n so ist T n erwartungstreu mit V ϑ T n = ϑ2 nn+2. 0 t 2 nt n 1 ϑ n dt n n+1 2 n+2 ϑ2. nϑ 2 n+1 Da der Schätzer T n nicht erwartungstreu ist, wird auch der mittlere quadratische Fehler für T n bestimmt: E ϑ Tn ϑ 2 2 2ϑ = V ϑ T n + E ϑ Tn ϑ = 2 n+1n+2 Der beste erwartungstreue Schätzer unter den oben behandelten Schätzern ist in diesem Fall der Schätzer T n.

83 82 2. Grundbegriffe der Statistik Im weiteren Verlauf diskutieren wir jetzt Maximum-Likelihood-Schätzer. Dieser Schätzer wird dabei für diskrete und für stetige Modelle, also für Standardmodelle gebildet. Der diskrete Fall: Wir gehen von einem diskreten statistischen Modell aus: X, Pϑ ϑ Θ sei gegeben und es werde eine Größe x beobachtet. Ist ϑ der richtige Parameter, so können wir die Wahrscheinlichkeit ρ ϑ x = P ϑ {x} berechnen, mit der dieses Ereignis x X eintritt. In diesem Fall ist ρ ϑ die Zähldichte. Der stetige Fall: Es sei jetzt X,F,P ϑ ϑ Θ ein stetiges Modell, und jedes P ϑ besitzt daher eine Dichtefunktion ρ ϑ. Es werden jetzt ebenfalls eine Größe x X beobachtet. Wir betrachten jetzt ebenfalls ρ ϑx. In beiden Fällen ist es nun unwahrscheinlich, dass ϑ der richtige Parameter ist, wenn ρ ϑ x sehr klein ist: Das würde bedeuten, dass das beobachtete Ereignis ein seltenes Ausnahmeereignis wäre. Daher bestimmen wir den Schätzer Tx zu dem beobachteten Ereignis x X, so dass die folgende Bedingung erfüllt ist: Wir kommen zu der folgenden Definition: ρ Tx x = max { ρ ϑ x ϑ Θ } Definition: X,F,P ϑ ϑ Θ sei ein statistisches Standardmodell. Die Funktion ρ : X Θ [0, [ x,ϑ ρx,ϑ = ρ ϑ x heißt die zugeordnete Likelihoodfunktion, und Θ ϑ ρx, ϑ heißt die Likelihoodfunktion zum Beobachtungswert x. Ein Schätzer T : X Θ mit der Eigenschaft ρ x,tx = max { ρx,ϑ ϑ Θ } heißt der Maximum-Likelihood-Schätzer. Anmerkung: Man beachte, dass ein Maximum-Likelihood-Schätzer nicht eindeutig bestimmt sein muss Beispiel: Die Qualität einer Lieferung von N gleichen Produkten soll durch eine Stichprobe vom Umfang n überprüft werden. Diese enthalte x defekte Produkte. Es soll die Zahl ϑ aller defekten Produkte geschätzt werden. Damit ergibt sich folgendes statistische Modell: X,PX,P ϑ ϑ Θ mit X = {0,...,n}, Θ = {0,...,N} und ρ ϑ x = ϑx N ϑ n x Nn - die hypergeometrische Verteilung. Wir bestimmen jetzt den Schätzer Tx, so dass ρ ϑ x maximal ist im Fall ϑ = Tx. Für alle ϑ IN mit ϑ N gilt ϑx N ϑ ρ ϑ x ρ ϑ 1 x = n x ϑn ϑ n x+1 = ϑ 1 N ϑ+1 ϑ xn ϑ+1 x n x

84 2.2 Parameterabschätzung der Statistik 83 Offenbar ist ρ ϑ x ρ ϑ 1 x 1 äquivalent zu ϑn ϑ 2 ϑn+ϑx+ϑ ϑn ϑ 2 +ϑ xn +ϑx x also zu ϑn xn x und damit zu ϑ x N +1 n Wir setzen daher als Schätzer an: Tx = x N+1 - den ganzzahligen Anteil dieser Zahl. n Offenbar ist die Funktion Θ ϑ ρ ϑ x monoton wachsend auf {0,...,Tx} und auf {Tx,...,N} monoton fallend, sie nimmt also in Tx das Maximum an Beispiel: Schätzung der Zahl von Kugeln in einer Urne Eine Urne enthalte eine unbekannte relativ große Anzahl ϑ von Kugeln. Diese Zahl ϑ IN soll geschätzt werden. Dazu werden ω dieser Kugeln entnommen, markiert und wieder mit den anderen Kugeln vermischt. Danach werden wieder n Kugeln entnommen, von denen x markiert sind. Wie groß ist ϑ? Das statistische Modell ist X = {0,...,n}, Θ = {ω,ω +1,...} IN. P ϑ sei definiert durch ρ ϑ x = ωx ϑ ω n x ϑn Analog wie im ersten Beispiel können wir schließen, dass der Maximum-Likelihood-Schätzer für ϑ ist. Tx = n ω x Beispiel: Schätzung der Erfolgswahrscheinlichkeit Es liege die Situation von Bernoulli-Experimenten mit einer zu schätzenden Erfolgswahrscheinlichkeit p = ϑ [0, 1] vor: Bei n Experimenten trete x-mal Erfolg auf. Das statistische Modell wird gegeben durch X = {0,1,...,n}, Θ = [0,1] mit den Wahscheinlichkeitsmaßen P ϑ definiert durch ρ ϑ x = n x ϑ x 1 ϑ n x, und mit ρ ϑ x als Maximum-Likelihood-Funktion. Zur Bestimmung des Maximalwertes dieser Funktion gehen wir auf die so genannte Log- Likelihood-Funktion lnρ ϑ x über, die bekanntlich wegen der Monotonie von t lnt die gleichen Extremstellen aufweist wie die Funktion ϑ ρ ϑ x. Es gilt lnρ ϑ x = ln n x +xlnϑ+n xln1 ϑ.

85 84 2. Grundbegriffe der Statistik Durch Differentiation nach ϑ und Nullstellenbestimmung der Ableitung folgt x ϑ n x 1 ϑ = 0, also ϑ = x n T : Tx = x n ist offenbar der eindeutig bestimmte Maximum-Likelihood-Schätzer für ϑ Beispiel: Wir wollen in dem schon früher behandelten Beispiel den Bereich von Zufallszahlen schätzen: Für unbekanntes ϑ > 0 und n Zufallszahlen x 1,...,x n [0,ϑ] soll ϑ geschätzt werden: Wir haben das Produktmodell [0, [ n,b n,q n ϑ ϑ ]0, [ mit der Gleichverteilung Q ϑ auf [0,ϑ]. Die Likelihoodfunktion ist { ϑ n falls x ρ x ϑ = 1,...,x n ϑ 0 sonst Also ist der Schätzer T n x = max{x 1,...,x n } der Maximum-Likelihood-Schätzer. - Man vergleiche das frühere Beispiel Beispiel: n-fach normalverteiltes - das Gaußsche Produktmodell Der Ausgang eines Experimentes sei Nµ,v-verteilt normal-verteilt mit Mittelwert µ, Varianz σ 2 = v mit unbekannten Parametern µ IR, v 0. Es liegen n Ergebnisse x 1,...,x n vor. Dieser Situation entspricht folgendes n-fach-normalverteilte Gaußsche Produktmodell X,F,Pϑ ϑ Θ = IR n,b n,n n µ,v µ,v IR ]0, [. Die entsprechende Likelihoodfunktion hat die Form ρx, µ, v = n ϕ µ,v x j = 1 n/2 exp 2πv für x 1 = x 1,...,x n IR n und ϑ = µ,v Θ = IR ]0, ]. x j µ 2 Die notwendigen Bedingungen für das Vorliegen eines lokalen Maximums sind Aus der ersten Forderung erhalten wir 1 v D 2 ρx, µ, v = 0, D 3 ρx, µ, v = 0. x j µ = 0, also µ = 1 n x x n. Aus der zweiten Forderung erhalten wir n 2 v n 2 1 +v n 2 1 2v 2 2v x j µ 2 = 0 oder äquivalent dazu

86 2.2 Parameterabschätzung der Statistik 85 v = 1 n x j µ 2. Durch Bildung der Hesse Matrix kann man mit etwas Rechnung zeigen, dass in dem eben bestimmten Werten ein lokales Maximum vorliegt. Man erkennt weiter, dass dieses auch ein globales Maximum ist Beispiel: Produktmodell mit Exponentialverteilung zum Parameter α > 0 Dieser Parameter soll geschätzt werden. Der Maximum-Likelihood-Schätzer für α ergibt sich Tx = n x x n für x = x 1,...,x n. Sx = 1 Tx ist dann ein erwartungstreuer Schätzer für 1. In diesem α Fall ist die Kenngröße gegeben durch τα = 1 α Satz: Der Maximum-Likelihood-Schätzer im n-fachen Produktmodell einer Nµ, v- Verteilung Gaußsches Produktmodell wird gegeben durch TX = µx, vx = 1 n X j, 1 n Xj µx 2. - Stichprobenmittel und Stichprobenvarianz. Es soll jetzt die Qualität von Schätzern näher untersucht werden. Dazu kommen wir auf den bereits eingeführten Begriff der Erwartungstreue zurück Definition: X,F,P ϑ ϑ Θ sei ein statistisches Modell. τ : Θ IR eine Abbildung oder reelle Kenngröße. T : X IR heißt ein erwartungstreuer Schätzer für τ, wenn E ϑ T = τϑ gilt für alle ϑ Θ. Ansonsten heißt B ϑ T = E ϑ T τϑ der Bias oder der systematische Fehler von T. Dabei werden in der obigen Definition die Existenz der Erwartungswerte stillschweigend vorausgesetzt. Im Gaußschen Produktmodell gilt die folgende Aussage Satz: Es sei 2 n IN und IR n,b n,q n ϑ ϑ Θ ein n-faches Produktmodell, so dass für jedes ϑ Θ die Werte mϑ = EQ ϑ und vϑ = VQ ϑ definiert sind. Dann sind Stichprobenmittelwert und korrigierte Stichprobenvarianz M = 1 n X j, V = 1 n 1 X j M 2 erwartungstreue Schätzer für m und v.

87 86 2. Grundbegriffe der Statistik Beweis: Da X j bezüglich Q ϑ verteilt ist für j = 1,...,n folgt aus der Linearität unmittelbar Es sei weiter V = 1 n E ϑ M = 1 n E ϑ X j = mϑ. X j M 2. Man rechnet unmittelbar nach, dass E ϑ V = n 1 vϑ gilt. n Dabei beachte man, dass X 1,...,X n unabhängig sind. Eine weitere wichtige Größe von Schätzern ist neben der Erwartungstreue auch der mittlere quadratische Fehler eines Schätzers T für τ von Bedeutung. Dieser ist unabhängig von der Erwartungstreue, es existieren wie im nachfolgenden Beispiel nicht erwartungstreue Schätzer, also Schätzer mit einem Bias, mit einem geringeren quadratischen Fehler. Dieser mittlere quadratische Fehler wird definiert durch F ϑ T = E ϑ T τϑ 2 = Vϑ T+ B ϑ T Beispiel: Ein guter Schätzer mit Bias im Binomialmodell X = {0,...,n}, Θ = [0,1], P ϑ k = n m ϑ k 1 ϑ n k. Der Maximumschätzer T : Tx = x n ist erwartungstreu. Sein quadratischer Fehler ist F ϑ T = 1 n 2Vb n,ϑ+0 = 1 n ϑ1 ϑ. Wir betrachten jetzt den Schätzer S : Sx = x+1 n+2 und dem quadratischen Fehler Weiter gilt Diese Aussage ist äquivalent zu B ϑ S = nϑ+1 n+2 mit dem Bias ϑ = 1 2ϑ n+2 F ϑ S = V ϑ S+ B ϑ S 2 = nϑ1 ϑ+1 2ϑ 2 n+2 2. F ϑ T F ϑ S = 4n+4ϑ1 ϑ n1 2ϑ2 nn n+1ϑ1 ϑ n1 2ϑ 2 0 also zu 1+ 1 n ϑ ϑ1 ϑ. Wenn diese Ungleichung für alle n IN gelten soll, erhalten wir durch den Grenzübergang n die Beziehung ϑ1 ϑ ϑ und dann durch Umrechnen ϑ , also ϑ Für diese ϑ liefert der Schätzer S einen kleineren mittleren Fehler.

88 2.2 Parameterabschätzung der Statistik Definition: X,F,P ϑ ϑ Θ sei ein statistisches Modell.τ : Θ IR sei eine Kenngröße und T : X IR ein erwartungstreuer Schätzer für τ. T heißt varianzminimierend oder bester Schätzer, wenn für jeden erwartungstreuen Schätzer S : X IR V ϑ T V ϑ S gilt. Im weiteren Verlauf sollen beste Schätzer konstruiert werden. Dazu nennen wir ein statistisches Modell X,F,P ϑ ϑ Θ regulär, wenn folgende Eigenschaften erfüllt sind: i Θ IR ist ein offenes Intervall. ii Die Likelihood Funktion ρ : X Θ IR ist strikt positiv und stetig nach ϑ Θ differenzierbar mit der so genannten Scorefunktion iii Iϑ := V ϑ U ϑ > 0 für alle ϑ Θ. iv D ϑ ρx,ϑdx = D ϑ ρx,ϑdx. U ϑ x = D ϑ logρx,ϑ = D ϑρx,ϑ ρx, ϑ Iϑ : I : Θ IR heißt die Fisher-Information des Modells. Als unmittelbare Konsequenz dieser Definition erhalten wir E ϑ U ϑ = D ϑ ρx,ϑdx = D ϑ ρx, ϑdx = D ϑ 1 = 0. Iϑ = E ϑ U 2 ϑ. Wir diskutiern kurz, warum der Begriff Fisher-Information eingeführt wurde: Die Bedingung Iϑ = 0 für alle ϑ Θ bei einem Intervall Θ 0 Θ ist äquivalent zu U ϑ x = 0 für alle ϑ Θ 0 und fast alle x X. Damit können durch keine Beobachtung die Parameter aus Θ 0 unterschieden werden. Es gilt die folgende Bemerkung Bemerkung: M = X,F,P ϑ ϑ Θ sei regulär mit der Fisher-Information I : Θ IR. Dann besitzt das Produktmodell die Fisher-Information I n = ni. Beweis: M n hat die Likelihoodfunktion ρ n ϑ M n = X n,f n,p n ϑ ϑ Θ U n ϑ = n ρ ϑ X k also gilt U ϑ X k. Wobei X k : X n X die Projektion auf die k-te Komponente ist. Damit folgt aus der Unabhängigkeit der X k : I n ϑ = V ϑ U n ϑ = V ϑ U ϑ X k = uiϑ. Ein erwartungstreuer Schätzer T für τ heißt regulär, wenn Tx d dϑ ρx,ϑdx = d Txρx,ϑdx dϑ erfüllt ist.

89 88 2. Grundbegriffe der Statistik Satz: Informationsungleichung X,F,P ϑ ϑ Θ sei ein reguläres statistisches Modell, τ : Θ IR eine zu schätzende stetige differenzierbare Funktion, und T : X IR ein regulärer erwartungstreuer Schätzer für τ. Dann gilt V ϑ T τ ϑ 2 Iϑ Die Gleichheit für alle ϑ Θ ist äquivalent zu für alle ϑ Θ. T τϑ = τ ϑ U ϑ Iϑ für alle ϑ Θ. Also wenn das Modell die Likelihoodfunktion ρx,ϑ = exp[aϑtx bϑ]hx mit einer Stammfunktion a : Θ IR der Funktion I τ, und h : X ]0, [ messbar mit der Normierungsfunktion bϑ = ln X e aϑtx hx dx. Beweis: Wegen E ϑ U ϑ = 0, Regularität und Erwartungstreue folgt Cov ϑ T,U ϑ = E ϑ TU ϑ = Tx d dϑ ρx,ϑdx für alle ϑ Θ. Mit cϑ = τ ϑ Iϑ = d dϑ X X Txρx,ϑdx = d dϑ E ϑt = τ ϑ erhalten wir weiter 0 V ϑ T cϑu ϑ = V ϑ T+cϑ 2 V ϑ U ϑ 2cϑCov ϑ T,U ϑ = V ϑ T τ ϑ 2 Gleichheit liegt vor, wenn T cϑu ϑ bezüglich P ϑ fast sicher konstant ist. Aus der Erwartungstreue folgt dann weiter T = cϑu ϑ = τϑ. Ist µ das Lebesguemaß oder ein Zählmaß auf X und besitzt P ϑ eine positive Dichte bezüglich µ so folgt aus Stetigkeitgründen 1 µ [T τϑ] cϑ = U ϑ = Definition: Ein einparametrisches Standardmodell M = X,F,P ϑ ϑ Θ heißt ein exponentielles Modell, wenn Θ IR ein Intervall ist, T : X IR eine Statistik, und ρx,ϑ = hx exp aϑtx bϑ mit bϑ = ln exp aϑtx hxdx mit einer differenzierbaren Funktion a : Θ IR für die a 0 gilt, und h : X ]0, [ messbar ist. Iϑ. X

90 2.3 Aussagen zur Testtheorie, Nichtparametrische Tests Aussagen zur Testtheorie, Nichtparametrische Tests Das Ziel dieses Abschnittes ist es einige allgemeine Grundlagen der Testtheorie zu entwickeln und sich dann mit speziellen nichtparametrischen Tests auseinanderzusetzen. Diese können unter sehr allgemeinen Umständen angewandt werden. Allerdings geht dieses nur auf Kosten der Aussagekraft: Bei speziellen Situationen, etwa wenn eine Normalverteilung angenommen werden kann, stehen dann oft bessere Tests zur Verfügung. Bevor wir allgemeine Grundsätze zu Testtheorie aufstellen, soll das Problem an Hand einer Wahlvorhersage kurz diskutiert werden: Bei einer großen Grundgesamtheit soll durch eine Befragung von Wählern ermittelt werden, wie groß die Wahrscheinlichkeit ist, dass eine Partei F die 5% Hürde schafft man beachte, dass diese Forderung umgangssprachlich ist, und daher unbedingt präzisiert werden muss. Ermittelt wurden bei der dann durchgeführten Befragung k = 62 Personen, die sich für diese Partei aussprachen. Fassen wir diese Aufgabestellung als ein Schätzproblem auf, so würden wir als Schätzwert p = 6,2% als Wert des gesuchten Anteils der Partei A erhalten. Diese Aussage gibt allerdings noch keine Information über die Sicherheit einer Prognose an. Wir müssen daher anders vorgehen: Anstatt eine nicht mögliche Bestimmung der Sicherheit des Überspringens der 5% Hürde an Hand des Resultates der Befragung zu bestimmen berechnen wir die Wahrscheinlichkeit des Ereignisses A, dass sich 62 oder mehr Personen der Stichprobe für diese Partei F ausprechen unter der Hypothese des vorausgesetzten Stimmenanteils von p 0 = 5%. Die Werte Pk in Prozentangaben bestimmen wir mit Hilfe der Normalapproximation: k Pk 42,0 33,2 28,0 23,4 19,1 15,0 12,3 8,8 7,3 5,5 4,1 3,0 2,1 1,5 Das Ergebnis der Auswertung lässt sich folgendermaßen formulieren: Wenn der reale Stimmenanteil der Partei F 5% oder weniger wäre, besitzt das Ereignis bei einer Meinungsumfrage bei Wählern ein Ergebnis von 62 oder mehr Entscheidungen für diese Partei zu bekommen, eine Wahrscheilichkeit von 4, 1% oder weniger; es ist daher ein unwahrscheinliches Ereignis. Umgangssprachlich wird in falscher Formulierung dann oft gesagt, dass die Partei F mit einer Sicherheit von 96,9% die 5% Hürde schafft. Vergleichen wir in der obigen Tabelle noch die k Werte, so sehen wir, dass für k 59 eine 10% Marke unterschritten wird. Für k Werte darunter werden Aussagen dagegen immer ungenauer. Wir kommen in allgemeiner Situation zu folgender Definition; dabei diskutieren wir einige Grundlagen für das Vorgehen bei Entscheidungssituationen: Definition: Ein statistisches Entscheidungsverfahren besteht aus I Formulierung des statistischen Modells X, F, Θ, P θ θ Θ. II Formulierung der Null-Hypothese H 0 und der Alternative H 1 durch Zerlegung von Θ = Θ 0 Θ 1 in disjunkte Teilmengen nach dem Prinzip, dass Θ 0 alle akzeptablen θ Θ enthält und dass Θ 1 aus allen problematischen θ Θ besteht. Man sagt, dass die Null- Hypothese gegen die Alternative getestet werden soll.

91 90 2. Grundbegriffe der Statistik III Wahl eines Irrtums-Niveaus α ]0, 1[ etwa α = 0.1 oder α = Man fordert von dem noch zu spezifizierenden Entscheidungsverfahren dass P H 1 H 0 α gilt: die Wahrscheinlichkeit einer Entscheidung für die Alternative H 1 wenn in Wirklichkeit H 0 gilt, also für den Fehler 1. Art. IV Bestimmung einer Entscheidungsregel: Man wähle eine Statistik ϕ : X [0, 1] nach folgenden Prinzipien: Für ein beobachtetes x X sei ϕx der Grad mit dem zur Entscheidung für die Alternative tendiert wird in dem Sinne ϕx = 0 Festhalten an der Null-Hypothese ϕx = 1 Annahme des Vorliegens der Alternative 0 < ϕx < 1 Unklarheit über eine richtige Entscheidung, Durchführung eines zusätzlichen Zufalls-Exsperimentes, das mit Wahrscheinlichkeit ϕx eine Entscheidung für die Alternative liefert. V Durchführung des Statistischen Experimentes. Anmerkung: Es dürfen nie auf Grund des Ausganges eines statistischen Experimentes die Regeln bestimmt werden. Die Statistik ϕ : X [0, 1] heißt ein nichtrandomisierter Test, wenn ϕx nur die Werte 0 oder 1 annimmt und ansonsten ein randomisierter Test. Die Menge { x X ϕx = 1 } heißt der Ablehnungsbereich oder auch der Verwerfungsbereich. sup { E θ ϕ θ Θ } ist die im ungünstigsten Fall vorliegende Wahrscheinlichkeit für einen Fehler 1. Art und wird als Umfang oder Niveau von ϕ bezeichnet. Ein Test ϕ : X [0, 1] mit sup { E θ ϕ θ Θ } α heißt ein Test zum Niveau α oder Irrtums-Niveau α. Wir stellen jetzt die allgemeine Behandlung von Tests zurück und behandeln zunächst einige nichtparametrische Tests. Der Wilcoxonsche Vorzeichentest Voraussetzung: Gegeben sei eine Population mit einer stetigen Verteilungsfunktion. Weiter nehmen wir an, dass diese Verteilungsfunktion in dem betrachteten Teilintervall IR, in dem die betrachteten Werte liegen, streng monoton wachsend ist. Diese Verteilung besitzt dann dort einen eindeutig bestimmten Median m, der unbekannt sei. Es werde unabhängig eine Stichprobe x 1,...,x n als Stichprobe gewonnen. Weiter sei m 0 IR ein gegebener Wert. Es soll getestet werden, ob m = m 0 gilt oder nicht. Wir betrachten also die Nullhypothese H 0 : m = m 0 gegen die Alternative in den jeweiligen Fällen i H 1 : m m 0 oder ii H 1 : m < m 0 oder iii H 1 : m > m 0.

92 2.3 Aussagen zur Testtheorie, Nichtparametrische Tests 91 Da die Verteilungsfunktion stetig und streng monoton wachsend ist, folgt PX i = m 0 = 0 für alle i = 1,...,n. Wir nehmen also X i m 0 für alle i = 1,...,n. Im Fall x i > m 0 wählen wir das Symbol +, im Fall X i < m 0 wählen wir das Symbol. Es sei weiter T + = Anz {i X i > m 0 } T = Anz {i X i < m 0 } und R + X i = R X i = { 1 falls Xi > m 0 0 falls X i < m 0, { 0 falls Xi > m 0 1 falls X i < m Bemerkung: Die Zufallsvariablen R + X 1,...,R + X n und R X 1,...,R X n sind jeweils unabhängig. Weiter gilt T + = R + X R + X n, T = R X R X n Bemerkung: Unter der Nullhypothese H 0 : m = m 0 gilt i PX i > m 0 = PX i < m 0 = 1 2. ii ER + X i = 1 2, VR+ X i = 1 4, ER X i = 1 2, und VR X i = 1 4 i = 1...,n. für alle Beweis: i Da die Verteilungsfunktion der Zufallsvariablen X i stetig ist und m 0 der Median ist folgt unmittelbar Aussage i. ii R + X i ist die charakteristische Funktion der Menge [X i > m 0 ] und R X i die von [X i < m 0 ]; daher ist die Aussage direkt nach zurechnen. Aus dieser Bemerkung folgt unmittelbar die nachstehende Aussage: Satz: Unter der Nullhypothese H 0 : m = m 0 besitzen die Zufallsvariablen T + und T eine Binomialverteilung mit den Parametern n und p = 1. Folglich gilt 2 ET + = ET = n 2 und VT+ = VT = n 4. I Wir diskutieren jetzt die Durchführung eines Tests der Nullhypothese H 0 : m = m 0 gegen die Alternative H 1 aus ii: m < m 0 mit einem Signifikanzwert oder Quantil α mit 0 < α < 1. Dazu bestimmen wir ein g = g L {1,...,n} mit PT + = PT + = g α und PT + = PT + = g +1 > α also mit g+1 g ni 2 n α und i=0 i=1 n 2 n > α. i Die Hypothese H 0 wird dann im Fall T + g L zugunsten der Alternative m < m 0 verworfen.

93 92 2. Grundbegriffe der Statistik II Jetzt werde die Hypothese H 0 ;m = m 0 gegen die Alternative H 1 aus iii: m > m 0 mit einem Signifikanzwert α : 0 < α < 1 getestet. Dazu bestimmen wir g = g R = {1,...,n} mit PT + = g+...+pt + = n α und PT + = g PT + = n > α also mit n n 2 n α und 2 n > α. i i i=g i=g 1 Die Hypothese H 0 wird dann im Fall T + g R zugunsten der Hypothese m > m 0 verworfen. III Die Nullhypothese H 0 : m = m 0 werde gegen die Alternative H 1 aus i: m m 0 getestet, es sei weiter α : 0 < α < 1 der Signifikanzwert. Gemäß I und II bilden wir zu α 2 die Werte g L = g L α 2 und g R = g R α 2 und verwerfen die Nullhypothese H 0 : m = m 0 zugunsten der Alternative m m 0 in den Fällen T + g R und T + g L Beispiel: Gegeben sei eine Population mit einer stetigen Verteilungsfunktion und einem eindeutig bestimmten Median. Gegeben sei die folgende Stichprobe vom Umfang n = 15: 169, 1/168, 9/173, 4/175, 1/163, 5/167, 3/166, 9/170, 3/166, 7/ 165, 4/166, 1/168, 7/164, 9/169, 9/168, 5 Es sei α = 0,10 - der Signifikanzwert. Man erkennt unmittelbar T + = 3. Es werde die Nullhypothese H 0 zugunsten der Hypothese H 1 aus i: m m 0 = 170 getestet. Die kritische Region für T + ist h = {0,1,2,3} {12,13,14,15}; wegen 3 h wird demnach die Hypothese H 0 : m = 170 zugunsten der Hypothese H 1 : m 170 verworfen. Wir behandeln jetzt die folgenden Problemstellung: n Objekte werden vor und nach einer durchgeführten Maßnahme gemessen. Es soll geprüft werden, ob eine Verbesserung oder Verschlechterung durch diese Maßnahme erreicht wurde. Wir betrachten also die folgende Situation: Gegeben seien n unabhängige Paare von Messungen oder Zufallsvariablen. Wir bilden die Differenzen X 1,Y 1,...,X n,y n. D 1 = Y 1 X 1,..., D n = Y n X n. Diese Differenzen D 1,...,D n sind ebenfalls unabhängig. Weiter setzen wir voraus, dass die Gesamtheit der Differenzen eine stetige Verteilungsfunktion mit einem eindeutig bestimmten Median m besitzt. Die Nullhypothese H 0 : m = 0 soll getestet werden zur Alternative. i H 1 : m 0 oder ii H 1 : m > 0 oder iii H 1 : m < Beispiel: Das Signifikanzniveau sei α = 0,10. Gegeben seien die Differenzen D i = Y i X i für i = 1,...,10.

94 2.3 Aussagen zur Testtheorie, Nichtparametrische Tests 93 10,3/ 0,9/11,2/12,0/1,6/11,8/ 1,8/5,4/ 0,5/ 7,4. Es gilt offenbar T + = 6. Wegen PT + 6 H 0 = 0,377 wird die Hypothese H 0 gegenüber der Alternative H 1 : m > 0 angenommen, obwohl der mittlere Anstieg D = 4,17 ist. Dieser Vorzeichentest hängt nicht vom Größenunterschied ab und ist daher ein sehr grober Test. Im Fall, dass alle D i normalverteilt sind, erhalten wir später mit der t-verteilung 9 Freiheitsgrade einen Test, bei dem die Nullhypothese abgelehnt wird. Eine Verfeinerung der obigen Methode ist der folgende Test: Der Signierte Rang Test von Wilcoxon Voraussetzungen: Gegeben sei eine Population mit einer stetigen Verteilungsfunktion. Weiter nehmen wir an, dass diese Verteilungsfunktion in dem betrachteten Teilintervall IR, in dem die betrachteten Werte liegen, streng monoton wachsend ist. Diese Verteilung besitzt dann dort einen eindeutig bestimmten Median m, der unbekannt sei. Weiter sei die Verteilungsverteilung symmetrisch in Bezug auf den Median m. Die Aufgabe besteht wieder darin, einen angenommenen Wert m 0 zu testen. Die Nullhypothesen H 0 : m = m 0 soll getestet werden gegen die i Alternative H 1 : m m 0 oder ii Alternative H 1 : m < m 0 oder iii Alternative H 1 : m > m 0. Gegeben seien unabhängige Testgrößen X 1,...,X n. Wir setzen D i : X i m 0 für i = 1,...,n Bemerkung: Unter den obigen Voraussetzungen gilt: i PD i = a = 0 für i = 1,...,n und alle a = IR. ii P D i = D j = 0 für alle i j, i,j = 1,...,n. Beweis: i Da die Verteilungsfunktion F X stetig und in dem betrachteten Intervall streng monoton wchsend ist, gilt PX i = a = 0 für alle i {1,...,n} und a IR. Damit ist i gezeigt worden. ii Es sei A = {s,t IR 2 s = t oder s = 2m 0 t}. Wegen i gilt dann für alle i j die Beziehung P D i = D j = PX i,x j A = P Xi P Xj A = 1l A s,tdp Xi tdp Xj s = [P Xi {s}+p Xi s+2m 0 ]dp Xj s = 0. Als Konsequenz dieser Aussage können wir annehmen, dass D i i = {1,...,n} paarweise verschieden sind. Wir ordnen die D i der Größe nach, die Rangzahlen seien R1,...,Rn.

95 94 2. Grundbegriffe der Statistik Es gilt etwa Ri = 1, falls D i das kleinste der Element ist. Demnach ist die Abbildung R : {1,...,} {1,...,n} bijektiv. Es sei weiter T + = D i >0 Ri, T = D i <0Ri. Wegen der Bijektivität von R erhalten wir unmittelbar T + +T = nn+1 2 als Summe der ersten n natürlichen Zahlen. Der Test besteht jetzt darin, dass für große oder kleine T +, die Nullhypothese verworfen wird. Diese Eigenschaft muss jetzt noch quantifiziert werden. Man beache ferner, dass die Abbildung R invertierbar ist Satz: Unter der Nullhypothese H 0 m = m 0 erhalten wir: i PD i > 0 = PD i < 0 = 1 für alle i = 1,...,n. 2 ii Die Zufallsvariablen T + und T besitzen die gleiche Verteilungsfunktion. iii Mit der Abkürzung m = nn+1 folgt 2 P T + = k = P T + = m k für alle 0 k m. iv ET + = ET = nn+1. 4 v VT + = nn+12n Beweis: i und ii folgen unmittelbar aus der Definition. iii Wegen T + +T = m gilt [T + = k] = [T = m k] für alle 0 k m. Aussage ii impliziert daher PT + = k = PT = k für alle k = 1,...,n; damit gilt weiter PT + = k = PT = m k = PT + = m k. iv Wegen ii gilt ET + = ET ; aus T + +T = m folgt daher ET + = m 2 = nn+1. 4 v Wir setzen B i = 1l [Di >0] für alle i = 1,...,n; dann gilt offenbar P B i = 1 = P B i = 0 = 1 2 und T + = RiB i = i=1 ib R 1 i. Wegen der Voraussetzung sind die Zufallsvariablen B 1,...,B n unabhängig, aus der obigen Darstellung folgt weiter VT + = VkB Rk = k 2 1 VB Rk = 4 k2 = 1 nn+12n+1, 4 6 was zu zeigen war. Anmerkung: Für große n IN ist die Statistik T + angenähert normalverteilt mit den Parametern µ = nn+1 und σ 2 = nn+12n Wir diskutieren jetzt noch einmal das Beispiel i=1

96 2.3 Aussagen zur Testtheorie, Nichtparametrische Tests Beispiel: Es sei Nr D i R i Wir haben T + = = 42. Weiter sei die Vertrauensgrenze α = 0,10, das kritische Gebiet für T + besteht aus {41,...,55} - die Nullhypothese wird daher abgelehnt. Dabei wurde die Nullhypothese H 0 : m = 0 gegen die Alternative H 1 : m > 0 getestet. Der Runs Test Der so genannte Runs-Test dient dazu Zufälligkeiten bei der Anordnung zweier unterschiedlicher Symbole zu untersuchen. Man kann diese Situation mit der n fachen Durchführung von Bernoulli-Experimenten vergleichen; im Gegensatz zur Binomialverteilung werden aber nicht die Erfolge gezählt, sondern es wird auf die Anordnung geachtet. Gegeben seien also n 1 Symbole a und n 2 Symbole b, die in irgendeiner Reihenfolge angeordnet sind. Ein a Run besteht aus einem maximalen ununterbrochenen Teil dieser Anordnung, der nur aus den Symbolen a besteht; T 1 sei die Anzahl der a Runs und T 2 die Anzahl alle b Runs. Wir setzen T = T 1 +T 2 und erhalten unmittelbar T 1 T 2 1. Weiter beachte man, dass die Zahl aller möglichen Anordnungen der Elemente a und b genau n1 +n 2 n 1 = n1 +n 2 n 2 beträgt. Wir wollen die Nullhypothese testen: H 0 : Alle Anordnungen erscheinen unter der gleichen Wahrscheinlichkeit. gegen eine der folgenden Alternativen: i H 1 : Die Anordnung der Symbole a und b ist nicht zufällig. ii H 1 : Die Anordnung tendiert zur Cluster-Bildung. iii H 1 : Die Anordnung tendiert zu einer starken Vermischung. Die Funktion T, die oben definiert wurde, soll dabei als Teststatistik dienen. Dazu bestimmen wir zunächst die Zähldichte des zugeordneten Wahrscheinlichkeitsmaßes; dabei setzen wir die Gültigkeit der Nullhypothese voraus. Die Gesamtzahl aller möglichen Anordnungen der Symbole a und b beträgt n 1 +n 2 n 1 = n1 +n 2 n 2. Wir bestimmen jetzt P T = m für alle m IN 0 mit m n = n 1 +n 2. Wir unterscheiden die Fälle m = 2k und m = 2k+1 für ein k IN 0. In beiden Fällen muss k min{n 1, n 2 } gelten. Der Fall m = 2k +1: Wir nehmen an, dass mit dem Symbol a begonnen wird. Dannliegen k +1 a Runs vor und k b Runs. Im Fall des Beginns mit b ist es genau umgekehrt. Zur Bestimmung der Anzahl der Möglichkeiten die Menge {1,...,n 1 } in genau k + 1 Teilmengen aufeinanderfolgender Elemente aufzuteilen, identifizieren wir jede dieser Teilmengen mit ihrem ersten Element und erhalten so Zahlen r1 = 1 < r2 <... < rk + 1 n 1. Da r1 = 1 fest gewählt wurde, ergibt sich als die gesuchte Anzahl n 1 1 k Möglichkeiten der

97 96 2. Grundbegriffe der Statistik Zerlegung. Entsprechend ergeben sich n 2 1 k 1 Möglichkeiten der Zerlegung für b. Es folgt P T = 2k +1 = n1 1 k n2 1 k 1 + n2 1 k n1 +n 2 n 1 n1 1 k 1 wegen der oben erwähnten Symmetrie. Der Fall m = 2k: Wie eben erhalten wir P T = 2k = 2 n 1 1 k 1 n2 1 k 1 n1 +n 2 n 1. Ohne den technisch aufwendigeren Beweis durchzuführen notieren wir: Satz: i Unter der Nullhypothese H 0 gilt ET = 2n 1n 2 +1 n 1 +n 2 +1 und VT = 2n 1n 2 2n 1 n 2 n 1 n 2 n 1 +n 2 2 n 1 +n 2 1. ii Unter der Nullhypothese H 0 konvergiert die standartisierte Verteilungsfunktion von T gegen die Standard-Normalverteilung bei n 1 +n 1. Durchführung des Testes: Bei der Durchführung hängt es wesentlich von der Augabenstellung ab, welche der drei Alternativen abgetestet werden sollen. Wird beispielsweise Cluster-Bildung als Alternative abgetestet, so wird die Nullhypothese verworfen, wenn T besonders kleine Werte annimmt. Ist also α ]0, 1[ das Quantil etwa α = 0.1, so wird m IN 0 bestimmt mit m P T = k α und k=0 m+1 k=0 P T = k > α. Im Fall T m wird dann die Nullhypothese abgelehnt und stattdessen die Cluster-Bildung angenommen.

98 2.4 Mit der Normalverteilung zusammenhängende Tests Mit der Normalverteilung zusammenhängende Tests Das Ziel dieses Abschnittes ist es einige spezielle Testverfahren zu behandeln, die mit der Normalverteilung und mit einigen aus dieser konstruierten Verteilungen zusammenhängen; aus der Vielzahl wohl bekannter Tests werden hier nur einige wenige vorgestellt um Prinzipien der Testtheorie zu diskutieren; dabei wird natürlich ein Anspruch auf Vollständigkeit schon wegen des enormen Umfangs der Testtheorie nicht erhoben. Diese werden sehr ausführlich etwa in dem Buch von W.R. Pestman behandelt. In der Regel sind die in diesen Abschnitt diskutierten Tests aussagekräftiger als die vorher behandelten nichtparametrischen Tests aber dafür weniger allgemein anwendbar. Die hier dikutierten Tests beruhen auf Verteilungen, die in Abschnitt 1.6 behandelt wurden. Im Unterschied zu den im letzten Abschnitt behandelten Tests werden in dem jetzigen Abschnitt die Testbedingungen an Hand der Dichten direkt mit der Methode der so genannten Likelihood Quotienten bestimmt und nicht wie im letzten Abschnitt aus abgeleiteten Eigenschaften. Bevor wir mit der eigentlichen Problemstellung beginnen, behandeln wir zunächst noch einige weitere allgemeine Aspekte der Testtheorie, die wir im ersten Abschnitt noch nicht angesprochen haben. Dazu gehören insbesondere einige Aspekte der Gütebestimmung von Tests. Es sei also X, F, Θ, P ϑ ϑ Θ ein statistisches Modell und ϕ : X [0, 1] eine Statistik. Man beachte, dass im Fall ϕx = 0 an der Nullhypothese festgehalten wird und im Fall ϕx = 1 die Alternative gewählt wird. Die Funktion heißt Güte-Funktion des Tests. Wir setzen Θ ϑ G ϕ ϑ := E ϑ ϕ [0, 1] αϕ = sup { G ϕ ϑ ϑ Θ 0 } und bezeichnen αϕ auch als maximale Wahrscheinlichkeit für einen Fehler erster Art oder Alpha Fehler: Das Vorliegen der Alternative wird angenommen, obwohl die Null- Hypothese vorliegt. Weiter bezeichnen wir für ϑ Θ 1 mit G ϕ ϑ die Macht oder auch Schärfe des Tests ϕ bei ϑ die Wahrscheinlichkeit mit der die Alternative erkannt wird, wenn sie vorliegt und setzen weiter β ϕ ϑ = 1 G ϕ ϑ. Demnach gilt βϕ = sup { 1 G ϕ ϑ ϑ Θ 1 } als maximale Wahrscheinlichkeit für einen Fehler zweiter Art oder Beta Fehler: Das Vorliegen der Alternative wird nicht erkannt, und die Null-Hypothese wird fälschlicherweise akzeptiert. Es sei angemerkt, dass aus den gemachten Voraussetzungen zumindest nicht unmittelbat folgt, dass α und β Maße im üblichen Sinn sind. Damit ergeben sich die folgenden Forderungen an einen Test ϕ: G ϕ ϑ α für alle ϑ ϑ 0 die Wahrscheilichkeit für einen Fehler 1. Art ist α. G ϕ ϑ soll maximal sein für alle ϑ ϑ 1 ein Fehler 2. Art soll eine möglichst kleine Wahrscheinlichkeit besitzen. Ein Test ϕ von Θ 0 gegen Θ 1 zum Niveau α ]0, 1[ heißt ein bester Test zum Niveau α, wenn für jeden weiteren Test ψ von Θ 0 gegen Θ 1 zum Niveau α stets G ϕ ϑ G ψ ϑ für

99 98 2. Grundbegriffe der Statistik alle ϑ Θ 1 gilt, wenn also der Fehler zweiter Art am kleinsten ist. Weiter nennen wir einen Test ϕ von Θ 0 gegen Θ 1 zum Niveau α unverfälscht genau dann, wenn G ϕ ϑ 0 G ϕ ϑ 1 für alle ϑ 0, ϑ 1 Θ 0 Θ 1 gilt: man entscheidet sich mit größerer Wahrscheinlichkeit für die Alternative H 1, wenn diese richtig ist, als wenn diese falsch ist. Im Fall Anzϑ 0 =Anzϑ 1 = 1 heißt X, F, P 0, P 1 ein einfaches statistisches Modell. Für die weiteren Überlegungen betrachten wir die folgende Situation eines einfachen statistischen Modells X, F, P 0, P 1, so dass zusätzlich die Wahrscheinlichkeitsmaße P0 und P 1 durch geeignete Zähldichten oder aber alternativ durch geeignete Dichte-Funktionen auf X gegeben sind. In beiden Fällen bezeichnen wir diese mit ρ 0 und ρ 1 und können durch etwaige Verkleinerung von X erreichen, dass ρ 0 +ρ 1 > 0 auf X gilt. Gesucht wird ein bester Test ϕ vonp 0 gegenp 1 zueinemfestenniveauα.dazudefinierenwirdenlikelihood-quotienten Rx = ρ 1x ρ 0 x für x X mit der Verabredung a 0 = für alle a > Satz: Neyman-Pearcy Für jedes 0 < α < 1 gilt unter den obigen Voraussetzungen i Ein bester Test ψ von H 0 : P = P 0 gegen die Alternative H 1 : P = P 1 hat die Gestalt { 1 für Rx > c ψx = 0 für Rx < c für ein geeignetes c = cα 0. Derartige Tests werden als Neyman-Pearcy-Tests bezeichnet. ii Es existiert ein Neyman-Pearcy-Test ϕ mit E 0 ϕ = α. iii Jeder Neyman-Pearcy-Test ϕ mit E 0 ϕ = α ist ein bester Test zum Niveau α. Beweis: Wir nehmen an, dass stetige Dichten vorliegen. Der andere Fall von Zähldichten kann entsprechend behandelt werden. ii c IR sei ein α Fraktil von P 0 R 1 in dem Sinn, dass P 0 R c α und P 0 R > c α gilt. Damit erhalten wir α P 0 R > c P 0 R c PR > c = P 0 R = c. Wir setzen weiter γ = 0 im Fall P 0 R = c = 0 und γ = α P 0R > c P 0 R = c Daher definieren wir die Teststatistik ϕ durch 1 für Rx > c ϕx = 0 für Rx < c. γ für Rx = c im Fall P 0 R = c 0. Mit dieser Festsetzung gilt offenbar E 0 ϕ = P 0 R > c+p 0 R = c γ = α.

100 2.4 Mit der Normalverteilung zusammenhängende Tests 99 iii Es sei jetzt ϕ ein Neyman-Pearcy-Test mit E 0 ϕ = α zum Schwellenwert c und ψ ein beliebiger Test zum Niveau α. Wir setzen jetzt f = ρ 1 ρ 0 c ϕ ψ. Im Fall Rx = ρ 1x ρ 0 x folgt ρ 1 x ρ 0 xc > 0 und ϕx = 1. Wegen ψx 1 gilt daher fx 0. Im Fall Rx = c gilt fx = 0. Im Fall Rx < c gilt ϕx = 0 und ρ 1 x ρ 0 xc < 0, also fx 0. Wegen E 0 ϕ = α und E 0 ψ α erhalten wir damit 0 fxdx = E 1 ϕ ψ ce 0 ϕ ψ X ϕ ist also ein bester Test zum Niveau α. = E 1 ϕ E 1 ψ c E 0 ϕ E 0 ψ E 1 ϕ E 1 ψ. i mit den Bezeichnungen des Beweises von iii sei ψ ein beliebiger Test zum Niveau α. Dann gilt offenbar E 1 ϕ = G ϕ 1 = G ψ 1 = E 1 ψ. Aus 0 fxdx E 1 ϕ E 1 ψ = 0 X und fx 0 für alle x X folgt f = 0 fast überall, wir erhalten demnach ϕ = ψ auf der Menge [R < c] [R > c], was zu zeigen war. Bevor wir die mit der Normalverteilung zusammenhängenden Tests behandlen zeigen wir noch eine Aussage über die Macht des Tests bei einem Produktmodell einfacher alternativen. Dazu benötigen wir die folgende Begriffsbildung: Bemerkung: Gegeben sei ein einfachen statistischen Standardmodell Modell X, F, P0, P 1, die Wahrscheinlichkeitsmaße P0 und P 1 seien also durch geeignete Zähldichten oder aber alternativ durch geeignete Dichte-Funktionen auf X gegeben. Wir definieren die relative Entropie H P 0 ; P 1 durch H P0 ; P 1 = im Fall P0 ρ 1 = 0 > 0 und im Fall P 0 ρ 1 = 0 = 0 sei H P 0 ; P 1 := EP0 ln ρ 0 [0, ];. ρ 1 Diese Entropie ist widerspruchsfrei definiert, und es gilt H P 0 ; P 1 0 und H P0 ; P 1 = 0 ist äquivalent zu ρ 0 = ρ 1 fast überall. Anmerkung: Bezeichnen wir in der Formulierung der obigen Bemerkung mit f die Funktion ft = ln ρ 0 t für t IR, so sei f t = max{ ft, 0} und f + tmax{ft, 0}. Dann gilt ρ 1 t stetsf L 1 P 0,folglichistderErwartungswertE P0 ln ρ 0 [0, ]stetswohldefiniert. ρ 1 Dieser Zusatz folgt unmittelbar mit den Methoden des folgenden Beweises, wenn statt über X über die Menge f[f < 0] integriert wird.

101 Grundbegriffe der Statistik Beweis: Wir zeigen diese Aussage im Fall der Existenz von Dichten. Wir können weiter voraussetzen, dass P 0 ρ 1 = 0 = 0 und ρ 0 > 0 auf X gilt. Die Funktion g :]0, [ IR sei definiert durch gs = 1 s+slns. Wegen g s = lns und g s > 0 besitzt g in s = 1 ein Minimum. Daher gilt speziell 0 = g1 gs für alle s > 0. Es folgt daher 0 E P1 g ρ 0 = 1 ρ 0x ρ 1 ρ 1 x + ρ 0x ρ 1 x ln ρ 0 x ρ 1 xdx ρ 1 x X = 1 X = 1 1+ ρ 0 x ρ 1 x ρ 0x dx+ X X ρ 0 x ρ 1 x ln ρ 0 x ρ1 xdx ρ 1 x ln ρ 0 x ρ0 xdx = H P 0 ; P 1. ρ 1 x Es sei jetzt H P 0 ; P 1 = 0. Wegen der eben hergeleiteten Beziehung gilt 0 = H P0 ; P 1 = E P1 g ρ 0. Damit folgt P 1 g ρ 0 ρ0 = 0 = P 1 = 1 und damit ρ 0 = ρ 1. ρ 1 ρ 1 ρ 1 Für ein unendliches Produktmodell gemäß eines Standarmodells mit einfachen Alternativen soll jetzt die Macht des Neyman-Pearcy Tests in Anhängigkeit vom Umfang der Stichprobe beschrieben werden. Dazu sei E, G, Q 0, Q 1 ein einfaches Standardmodell. Es sei X, F, P0, P 1 = E IN, G IN, Q IN 0, Q IN 1 das unendliche Produkt des Standardmodells. Weiter sei X j : X E die Projektion auf die j te Komponente. Die Dichten ρ 0 und ρ 1 des ursprünglichen Modells seien beide strikt positiv Satz: Unter den obigen Voraussetzungen sei α ]0, 1[. Zu jedem n IN sei ϕ n ein Neyman-Pearcy Test zum Nivea α, der nur von den ersten n Werten der X 1,...,X n abhängt. Dann gilt E P1 ϕ n 1 bei n exponentiell im Sinne von 1 n ln 1 E P1 ϕ n H Q 0 ; Q 1 bei n im Fall H Q0 ; Q 1 < und 1 lim n n ln 1 E P1 ϕ n m für alle m IN im Fall H Q 0 ; Q 1 =. Beweis: Für alle n IN sei ρ 0, n = ρ 0 x 1... ρ 0 x n die n fache Produktdichte von ρ 0, und entsprechend sei ρ 1, n definiert. Weiter sei R n = ρ 1, n ρ 0, n der Likelihoodquotient der Stufe n IN. Zur Abkürzung setzen wir f = ln ρ 0 ρ 1, und fn : f n x 1,...,x n = 1 n lnr nx = 1 n fx j. Es gelte zunächst f L 1 P 1, aus der Variante des Gesetzes der großen Zahl folgt dann wegen der stochastischen Konvergenz gemäß P 0 fn E P0 f c 0 bei n für alle c > 0.

102 2.4 Mit der Normalverteilung zusammenhängende Tests 101 Mit den Bezeichnungen von gilt E 0 f = HP 0, P 1. Es sei ε > 0 und a = E P0 f ε. Als Neyman-Pearcy Test besitzt die Teststatistik ϕ n die Gestalt ϕ n = 1 im Fall R n > c n und ϕ n = 0 im Fall R n < c n für geeignete c n ]0, [. Setzen wir a n = lnc n, so folgt ϕ n = 1 im Fall f n < a n, ϕ n = 0 im Fall f n > a n, und P 0 fn a n EP0 ϕn = α als Test zum Niveau α. Daher gilt a n > a = E P0 f ε für fast alle n IN wegen P 0 fn a P 0 f n E P0 f a 0 bei n. ρ1,n ρ1,n Aus 1l [1 ϕn>0] = 1l[fn a ρ n] e na n 1l 0,n ρ [fn a n] folgt damit weiter 0,n 1 n ln 1 E P1 ϕ n = 1 n ln E P1 1 ϕ n = 1 n ln E P0 1 ϕn ρ 1,n ρ 0,n 1 n ln e nan E P0 1 ϕn für fast alle n IN. = a n + 1 n ln1 α < E P 0 f+ε Es sei jetzt umgekehrt ε > 0 und a = E P0 f+ ε. Dann folgt 2 P 0 fn a = P 0 fn E P0 f ε 2 P0 fn E P0 f ε 2 1 bei n. Wegen e nfn = ρ 1,n ρ 0,n 1l [fn a]e na für alle n IN gilt 1 n ln E P1 1 ϕn = 1 n ln E P0 1 ϕn ρ 1,n ρ 0,n 1 n ln E P0 1 ϕn 1l [fn a]e na 1 n ln e na E P0 1l[fn a] ϕ n = a+ 1 n ln P 0 f n a α a bei n ; es folgt daher 1 n ln E P1 1 ϕn E P0 f ε für fast alle n IN, und mit dem ersten Teil des Beweises erhalten wir 1 n ln E P1 1 ϕn +EP0 f ε für fast alle n IN im Fall f L 1 P 0. Der Fall f / L 1 P 0 kann wie im ersten Teil des Beweises behandelt werden; auf die explizite Durchführung soll verzichtet werden Beispiel: Es soll ein übersichtlicher Spezialfall des vorstehenden Satzes diskutiert werden: Dabei gehen wir von zwei Normalverteilungen mit der gleichen Streuung σ = 1 aus. Daher unterscheiden sich diese zwei Verteilungen nur durch die unterschiedlichen Erwartungswerte. Wir können also annehmen, das µ 0 = 0 und µ 1 = µ > 0 gilt. Damit ergibt sich

103 Grundbegriffe der Statistik für den Likelihoodquotienten der Stufe n IN R n x = ρ 1,nx ρ 0,n x = exp 1 x1 µ x n µ 2 2 exp 2 1 x x 2 n = exp 1 2µx1 +µ µx n µ 2 = k 1 exp µx x n 2 für alle x = x 1,...,x n und ein geeignetes k 1 > 0. Es sei jetzt 0 < α < 1, und es werde ein k 2 > 0 bestimmt mit P 0,n Rn k 2 = α, wenn P0,n das n fache Produktmaß P 0... P 0 ist. Wegen der vorstehenden Ungleichung gilt R n k 2 x x n 1 lnk2 lnk 1. µ Wir müssen daher ein k IR bestimmen mit P 0,n A = α mit A = [ x x n k ]. Zur Berechnug der Wahrscheinlichkeiten gemäß bestimmen wir eine beliebige orthogonale Matrix U mit der ersten Zeile U Z 1 = 1 n 1,...,1. Für jedes x = x1,...,x n T IR n sei y = y 1,...,y n T = Ux und c 0 = 1 n c; dann folgt y 1 = 1 n x 1,...,x n und wegen U T U = I weiter P 0,n A = = A IR 1 2π nexp 1 2 xt x dx =... IR k 0 [y 1 c 0 ] 1 2π nexp 1 2 yt y dy 1 nexp 1 2π 2 yt y dy 1 dy 2... dy n = 1 Φ 0,1 k 0. Dabei sei wie üblich Φ 0,1 die Verteilungsfunktion der Standard Normalverteilung. Entsprechend erhalten wir unter der Berücksichtigung der Koordinatenverschiebung gemäß P 1,n A c = Φ µ,1 k 0 n µ = Φ 0,1 k 0 n µ. Es ist zu erwähnen, dass wir das gleiche Resultat auch erhalten mit einer vereinfachten direkten Modellbildung: Sind die unabhängigen Zufallsvariablen N0, 1 verteilt, so ist die Zufallsvariable Y = 1 X X n wieder N0, 1 verteilt. Sind die Zufallsvariablen n hingegen Nµ, 1 verteilt, so ist Y N nµ, 1 verteilt. Mit wachsendem n IN werden die Verteilungen also wesentlich getrennt. Wir fixieren jetzt einen α Wert als vorgegebene Wahrscheinlichkeit für einen Fehler erster Art und bestimmen dann bei einigen n Werten die zugeordneten β Fehler. α = 0.05 : α = 0.01 : n β n β Bei dieser sehr übersichtlichen Situation liegt auch eine andere Wahl der Grenze c für den Likelihood Quotienten nahe als bei der eben geschilderten üblichen Vorgehensweise. Wir

104 2.4 Mit der Normalverteilung zusammenhängende Tests 103 wählen etwa Rx = 1. Diese Vorgehensweise hat als Konsequenz, dass hier in dieser Situation die beiden Fehler: der ersten und der zweiten Art, gleich groß werden. Dazu bestimmen wir α, z IR mit Φz = 1 α, Φz n = α, so folgt 2z = n. Wir erhalten die folgenden Zahlenwerte: n α = β Wir wenden uns jetzt der ursprünglich vorgesehenen Aufgabenstellung der Behanlung einige mit der Normalverteilung zusammenhängender Tests zu beginnen mit dem folgenden Problem: Testen des Mittelwertes bei bekannter Streuung σ 0 > 0: Es seien also x 1,...,x n eine Stichprobe einer Nµ, σ 0 verteilten Population. Dann gilt offenbar Θ = { µ, σ 0 IR 2 : µ IR }. Weiter sei µ 0 IR ein vorgegebener Wert. Die Aufgabe bestehe darin die Nullhypothese H 0 : µ = µ 0 H 1 : µ µ 0. zu testen gegen die Alternative In Beispiel hatten wir für die vorliegende Situation die Likelhood-Funktion ρx, µ, v = 2πv n x exp j µ 2 2v eingeführt. Dort hatten wir auch nachgewiesen, dass diese Funktion in x = 1 n ihr Maximum annimmt. µ 1 = x ist demnach der Maximum-Likelihood Schätzer von µ. Wir setzen jetzt L µ0 x = ρx,µ 0, σ0 2 und L µ x = ρx,µ, σ0. 2 Mit diesen Größen bilden wir den Likelihood-Quotienten L Rx = Rx 1,...,x n = µ0 x sup { L µ x = L µ 0 x µ IR L µ1 x = exp 1 xj µ 2 x 2σ0 2 j x 2 = exp 1 2σ0 2 x x n xj x 2 +2x j xx µ 0 +x µ 0 2 x j x 2 = exp nx µ σ0 2 2 lnδ Für 0 < δ < 1 setzen wir c = σ 0 ; wegen des vorstehenden Satzes wird der Ablehnungsbereich Gδ gegeben n durch Gδ = { x IR n Rx δ } = { x IR n x µ 0 c }. Wir haben die folgende Aussage nachgewiesen:

105 Grundbegriffe der Statistik Satz: Es liege eine Nµ, σ 2 0 verteilte Population vor mit bekanntem σ 0 > 0 und unbekanntem µ IR. Es sei µ 0 IR. Die Nullhypothese H 0 : µ = µ 0 soll gegen H 1 : µ µ 0 getestet werden. Dann wird der Likelihood-Quotient gegeben durch Rx = Rx 1,...,x n = exp nx µ 0 2. Der Ablehnungsbereich Gδ f ür 0 < δ < 1 wird gegeben durch 2σ 2 0 Gδ = { x IR n x µ 0 c } mit c = σ 0 2 lnδ n Anmerkung: In diesem Zusammenhang soll noch auf die einseitigen Alternativen hingewiesen werden. Unter den obigen Voraussetzungen soll die Nullhypothese H 0 : µ = µ 0 soll gegen H 1 : µ > µ 0 bei der rechtsseitigen Alternative getestet werden. Der Ablehnungsbereich Gδ f ür 0 < δ < 1 wird in diesem Fall gegeben durch Gδ = { x IR n x µ 0 +c } 2 lnδ mit c = σ 0. n Bei der linksseitigen Alternative H 1 : µ < µ 0 wird der Ablehnungsbereich Gδ f ür 0 < δ < 1 gegeben durch Gδ = { x IR n x µ0 c } 2 lnδ mit c = σ 0. n Im weiteren Verlauf geben wir einige Tests an, die mit ählichen Methoden mit Hilfe eines Likelihood Quotienten konstruiert werden; wir vezichten hier auf explizite Konstruktionen, da diese sicht nicht substatiell von den eben durchgeführten unterscheiden. Zunächst behandeln wir einen Test für den Erwartungswert einer Normalverteilung, wenn die Varianz nicht bekannt ist. Es gilt die folgende Aussage: Satz: Es liege eine Nµ, σ 2 0 verteilte Population vor mit unbekanntem σ 0 > 0 und unbekanntem µ IR. Es sei µ 0 IR. Die Nullhypothese H 0 : µ = µ 0 soll gegen H 1 : µ µ 0 getestet werden. Dann wird der Likelihood-Quotient gegeben durch Rx = Rx 1,...,x n = [ 1+ 1 x µ0 2 ] n/2 n 1 s/ 1 mit s = n n 1 Der Ablehnungsbereich wird beschrieben durch Mengen der Form [ ] G = x 1,...,x n IR n x µ 0 s/ c. n. x j x 2. Unter der Nullhypothese µ = µ 0 ist R Student t verteilt mit n 1 Freiheitsgraden.

106 2.4 Mit der Normalverteilung zusammenhängende Tests 105 Entsprechend ergben sich natürlich auch einseitige Tests; in diesen Fällen wird dann der der Ablehnungsbereich gegeben durch [ ] G = x 1,...,x n IR n x µ 0 s/ n c beziehungsweise [ ] G = x 1,...,x n IR n x µ 0 s/ n c. Entsprechend ergibt sich der Chiquadrattest bei normalverteilten Zufallsvariablen zum Abtesten der Varianz: Satz: Es liege eine Nµ, σ 2 0 verteilte Population vor mit unbekanntem σ 0 > 0 und unbekanntem µ IR. Die Nullhypothese H 0 : σ = σ 0 soll gegen H 1 : σ σ 0 getestet werden. Dann wird der Likelihood-Quotient gegeben durch [ Rx = Rx 1,...,x n = e n/2 n n/2 n 1s 2] n/2exp n 1s 2 σ 2 0 2σ 2 0 mit s = 1 n 1 x j x 2. Der Ablehnungsbereich wird beschrieben durch Mengen der Form G = {x 1,...,x n IR n n 1s 2 c 1 } {x 1,...,x n IR n n 1s 2 σ 2 0 σ 2 0 } c 2. Unter der Nullhypothese σ = σ 0 ist R Chiquadrat verteilt mit n 1 Freiheitsgraden. Wie eben können auch die einseitigen Tests formuliert werden; dabei beschränkt man sich dann auf eine der obigen Vereinigung vorkommenden Mengen. Die Werte c 1 und c 2 werden mit Hilfe der Chiquadrat Verteilung ermittelt. Man vergleiche etwa die Darstellung in W.R. Pestman, Abschnitt III.2. Dort finden sich auch viele Beispiele für die genannten Tests und eine Vielzahl von weiteren Testverfahren.

107 Grundbegriffe der Statistik 2.5 Verteilungstest In dem vorliegenden Abschnitt soll der Test von Kolmogorov-Smirnov vorgestellt werden, der überprüft, ob eine Datenreihe einer fest vorgegebenen Verteilungsfunktion entspricht. Der Einfachheit halber gehen wir dabei von einem Wahrscheinlichkeitraum Ω, A, P und einer Folge X n n=1 unabhängiger Zufallsvariablen mit der gleichen Verteilungsfunktion F : IR [0, 1] aus, die in den Anwendungen als unbekannt angenommen wird. Zu diesen Testgrößen X 1,...,X n,... bilden wir für jedes n IN die empirische Verteilungsfunktion: Bemerkung: Es sei X n n=1 eine Folge unabhängiger Zufallsvariablen mit der Verteilungsfunktion F. Für alle n IN sei die empirische Verteilungsfunktion ˆF X 1,...,X n definiert durch ˆF X 1,...,X n t = 1 n Anz{ j {1,...,n} Xj t }. Dann gilt ˆF X 1,...,X n t = 1 n 1l ],t] X j und ˆF X 1,...,X n t Ft fast sicher bei n ˆF X 1,...,X n t Ft fast sicher bei n für alle t IR. Beweis: Wegen [ 1l ],t] X j = 1 ] = [ X j t ] für alle t IR erhalten wir E 1l ],t] X j = P Xj t = Ft für alle t IR und alle j IN. Wegen 1l ],t] X j L 2 P folgt aus dem Gesetz der großen Zahl ˆF X 1,...,X n t = 1 n 1l ],t] X j E 1l ],t] X 1 = Ft fast sicher bei n. Die weitere Aussage folgt entsprechend bei Benutzung der Zufallsvariablen 1l ],t[ X j. Der Test von Kolmogorov Smirnov bewertet den maximalen Abstand von der empirischen Verteilungsfunktion zu der angenommenen Verteilungsfunktion. Diese Differenz der Verteilungsfunktionen in der Supremumsnorm wird ja als Supremum des Betrages der Differenz über alle t IR, also über eine nicht mehr anzählbare Teilmenge gebildet. Wir müssen daher noch die Messbarkeit dieses Supremums nachweisen: Bemerkung: Es sei X n n=1 eine Folge unabhängiger Zufallsvariablen mit der Verteilungsfunktion F. Für alle n IN ist die Funktion eine Zufallsvariable. ˆF X1,...,X n F = sup { ˆF X1,...,X n t Ft t IR }

108 2.5 Verteilungstest 107 Beweis: Da die beiden betrachteten Funktionen Verteilungsfunktionen sind, müssen sie von rechts stetig sein. Man rechnet daher sehr einfach nach dass ˆF X1,...,X n F = sup { ˆF X1,...,X n t Ft t Q } gilt. Daher ist ˆF X1,...,X n F als Supremum über abzählbar viele Zufallsvariablen, wieder messbar und damit ebenfalls eine Zufallsvariable. Die folgende Aussage ist eine wesentliche Voraussetzung für die Motivation des Test- Verfahrens von Kolmogorov Smirnov, der Beweis ist umfangreicher aber doch recht elementar; er benutzt lediglich die Eigenschaften der Verteilungsfunktionen als rechtseitig stetige, monoton wachsende, und beschränkte Funktionen Satz: Satz vonglivenko Cantelli Es sei X n n=1 eine Folge unabhängiger Zufallsvariablen mit der Verteilungsfunktion F. Dann gilt ˆF X1,...,X n F 0 fast sicher bei n. Beweis: Wir zeigen in mehreren Schritten, dass lim sup ˆF X1,...,X n F < 5ε n fast sicher gilt für alle vorgegebenen ε > 0. Schritt I: Es sei ε > 0 beliebig. Dann existieren endlich viele τ 0 < τ 1 <... < τ k mit Fτ 0 < ε, Fτ k > 1 ε und mit Ft Fs < Fτ j Fτ j 1 < ε für alle j = 1,...,k und alle s,t ]τ j 1, τ j [. Beweis von I: Die Aussage ist evident, da F monoton wachsend, rechtsseitig stetig ist mit Ft 0 bei t und Ft 1 bei t. Schritt II: Es sei ε > 0, und es seien τ 0 < τ 1 <... < t k gemäß I gewählt. Dann existiert zu jedem j {1,...,k} ein A j A mit PA j = 0 und mit für alle ω / A j. Beweis von II: Wegen gilt lim sup ˆF X1 ω,...,x n ω F,[τj 1,τ n j 3ε [ ˆF X 1,...,X n τj 1 Fτ j 1 und ˆF X 1,...,X n τj Fτ j fast sicher bei n. Es existiert also eine Menge A j A mit PA j = 0 und mit ˆF X 1 ω,...,x n ω τ j 1 Fτ j 1 und ˆF X 1 ω,...,x n ω τ j Fτ j bei n für alle ω / A j. Für jedes ω / A j existiert also ein m = mω IN mit ˆF X1 ω,...,x n ω τ j 1 Fτ j 1 < ε und ˆF X1 ω,...,x n ω τ j Fτ j < ε für alle n mω.

109 Grundbegriffe der Statistik Daher gilt für alle ω / A j, alle n mω, und alle s [τ j 1, τ j [ die Abschätzung ˆF X1 ω,...,x n ω s Fs ˆF X1 ω,...,x n ω s ˆF X 1 ω,...,x n ω τ j 1 + ˆF X1 ω,...,x n ω τ j 1 Fτ j 1 + Fτj 1 Fs ˆF X1 ω,...,x n ω τ j ˆF X 1 ω,...,x n ω τ j 1 +2ε ˆF X1 ω,...,x n ω τ j Fτ j + Fτ j Fτ j 1 5ε. + Fτ j 1 ˆF X 1 ω,...,x n ω τ j 1 +2ε Es folgt daher ˆF X1 ω,...,x n ω F,[τj 1,τ j [ 5ε für alle ω / A j und alle n mω, was zu zeigen war. Schritt III: Es sei ε > 0, und es seien τ 0 < τ 1 <... < t k gemäß I gewählt. Dann existieren A 0, A k+1 A mit PA 0 = PA k+1 = 0, und mit lim sup n ˆF X 1 ω,...,x n ω s < ε und limsup n für alle s < τ 0, t > τ k und ω / A 0 A k+1. ˆF X 1 ω,...,x n ω t > 1 ε Beweis von Schritt III: Wegen gilt ˆF X 1,...,X n τ0 Fτ 0 fast sicher bei n. Es existiert also ein A 0 A mit PA 0 = 0 und ˆF X 1 ω,...,x n ω τ 0 Fτ 0 bei n für alle ω / A 0. Wegen Ft Fτ 0 < ε und ˆF X 1 ω,...,x n ω t ˆF X 1 ω,...,x n ω τ 0 für alle t > τ 0 folgt der erste Teil der Aussage. Der zweite Teil folgt entsprechend. Schritt IV Wir setzen Aε = A 0... A k+1. Wegen ii und III folgt daher lim sup ˆF X1 ω,...,x n ω F 5ε n für alle ω / A. Die Aussage des Satzes folgt durch Betrachtung von ε = 1 n A1 A und von A = Wir sind jetzt in der Lage den Kolmogorov Smirnov Test zu formulieren. Dazu sei wieder X n n=1 einefolgeunabhängigerzufallsvariablenmiteinerunbekanntenverteilungsfunktion F, und es sei F 0 eine vorgegebene Verteilungsfunktion. Es soll die Nullhypothese H 0 : F = F 0 gegen die Alternative H 1 : F F 0 getestet werden. Dazu wählen wir die Teststatistik D n,f0 = ˆF X1,...,X n F0. Mit dem Satz von Glivenko Cantelli haben wir nachgewiesen, dass unter der Voraussetzung der Nullhypothese F = F 0 D n,f0 0 fast sicher bei n

110 2.5 Verteilungstest 109 gilt. Wir akzeptieren also bei einer gegebenen Stichprobe x 1,...,x n die Nullhypothese, wenn D n,f0 klein ist und verwerfen diese, wenn D n,f0 groß ist. Die folgende Aussage zeigt die Unabhängigkeit der Teststatistik von der zu Grunde liegenden Verteilungfunktion: Satz: Satz vonkolmogorov Smirnov Es sei U : IR [0, 1] die Verteilungsfunktion der Gleichverteilung auf [0, 1] : Ut = 0 für t > 0, Ut = t für 0t < 1 und Ut = 1 für t 1. Es sei weiter F : IR [0, 1] eine stetige Verteilungsfunktion. Fast sicher gilt dann D n,u = D n,f für alle n IN. Beweis: Zu der Verteilungsfunktion f bilden wir eine Pseudo-Inverse g : [0, 1] IR, definiert durch g0 = sup { t IR Ft = 0 } [, [ g1 = inf { t IR Ft = 1 } ], ] gs = min { t IR Ft = s } für alle 0 < s < 1 mit der üblichen Verabredung sup{ } = und inf{ } =. Speziell folgt wegen der Stetigkeit von F die Beziehung s = F gs für alle s ]0, 1[. Es sei jetzt X n n=1 eine Folge von unabhängigen Zufallsvariablen mit der Verteilungsfunktion F. Für alle j IN sei Y j = F X j. Dann ist Y n n=1 eine Folge von unabhängigen Zufallsvariablen. Wir bestimmen jetzt die Verteilungsfunktion von Y j : Für alle 0 < s < 1 gilt P [Y j s] = P [F X j s] = P X j gs] = F gs = s = Us. Entsprechend erhalten wir P [Y j s] = 0 für alle s 0 und P [Y j s] = 1 für alle s 1. Wenn die Verteilungsfunktion F auf einem Intervall [a, b[ konstant ist, folgt P a X j < b = Fb Fa = 0. Daher ist auch die empirische Verteilungsfunktion auf [a, b[ fast sicher konstant. Für alle 0 < s < 1 gilt weiter ˆF Y 1,...,Y n s = 1 n Anz{ j Fj s } = 1 n Anz{ j j gs } = ˆF gs X 1,...,X n fast sicher. Daher erhalten wir D n,u = { } ˆF Y1,...,Y n U = sup ˆF Y1,...,Y n s Us s IR { } = sup ˆF Y1,...,Y n s s 0 < s < 1 { } = sup ˆF X1,...,X n gs F gs s IR { } = sup ˆF X1,...,X n t Ft t IR = D n,f fast sicher auf Ω. Die Bedeutung diese Satzes liegt in der Tatsache, dass eine beliebige stetige Verteilungsfunktion F die gleiche Teststatistik besitzt wie die Gleichverteilung auf dem Einheitsintervall. Für diese lassen sich aber bei vorgegebenem α ]0, 1[ die Ablehnungsbereiche der Nullhypothese durch die Forderung bestimmen, dass zu jedem n IN ein C > 0 existiert mit P D n,u C = α. Diese Werte liegen in tabellierter Form vor.

A. Maß- und Integrationstheorie

A. Maß- und Integrationstheorie A. Maß- und Integrationstheorie Im folgenden sind einige Ergebnisse aus der Maß- und Integrationstheorie zusammengestellt, die wir im Laufe der Vorlesung brauchen werden. Für die Beweise der Sätze sei

Mehr

Ferienkurs in Maß- und Integrationstheorie

Ferienkurs in Maß- und Integrationstheorie Zentrum Mathematik Technische Universität München Dipl. Math. Wolfgang Erb WS 9/ Übungsblatt Ferienkurs in Maß- und Integrationstheorie Aufgabe. (σ-algebren Sei eine Menge und A eine σ-algebra in. Seien

Mehr

2. Integration. {x : f(x) <a+ 1 n }

2. Integration. {x : f(x) <a+ 1 n } 9 2.1. Definition. 2. Integration in Maß ist eine nichtnegative, abzählbar additive Mengenfunktion. in Maßraum ist ein Tripel (X,,µ) bestehend aus einem messbaren Raum X mit der -lgebra und einem auf definierten

Mehr

Aufgaben zu Kapitel 0

Aufgaben zu Kapitel 0 Aufgaben zu Kapitel 0 0.1. Seien A und B zwei Mengen. Wie kann man paarweise disjunkte Mengen A 1, A 2 und A 3 so wählen, dass A 1 A 2 A 3 = A B gilt? 0.2. Seien E ein Menge und A eine Teilmengen von E.

Mehr

Lehrstuhl IV Stochastik & Analysis. Stochastik II. Wahrscheinlichkeitstheorie I. Skriptum nach einer Vorlesung von Hans-Peter Scheffler

Lehrstuhl IV Stochastik & Analysis. Stochastik II. Wahrscheinlichkeitstheorie I. Skriptum nach einer Vorlesung von Hans-Peter Scheffler Fachschaft Mathematik Uni Dortmund Lehrstuhl IV Stochastik & Analysis Stochastik II Wahrscheinlichkeitstheorie I Skriptum nach einer Vorlesung von Hans-Peter Scheffler Letzte Änderung: 26. November 2002

Mehr

Stochastik I. Vorlesungsmitschrift

Stochastik I. Vorlesungsmitschrift Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................

Mehr

Maßtheorie. Skript zur Vorlesung von Prof. Dr. Michael Kohler. Sommersemester 2005 und Wintersemester 2005/2006

Maßtheorie. Skript zur Vorlesung von Prof. Dr. Michael Kohler. Sommersemester 2005 und Wintersemester 2005/2006 Maßtheorie Skript zur Vorlesung von Prof. Dr. Michael Kohler Sommersemester 2005 und Wintersemester 2005/2006 1 1 Grundbegriffe der Maßtheorie Ziel: Konstruktion von Maßzahlen (wie z. B. Länge / Fläche

Mehr

Maße auf Produkträumen

Maße auf Produkträumen Maße auf Produkträumen Es seien (, Ω 1 ) und (X 2, Ω 2 ) zwei Meßräume. Wir wollen uns zuerst überlegen, wie wir ausgehend davon eine geeignete σ-algebra auf X 2 definieren können. Wir betrachten die Menge

Mehr

3 Bedingte Erwartungswerte

3 Bedingte Erwartungswerte 3 Bedingte Erwartungswerte 3.3 Existenz und Eindeutigkeit des bedingten Erwartungswertes E A 0(X) 3.6 Konvexitätsungleichung für bedingte Erwartungswerte 3.9 Konvergenzsätze von Levi, Fatou und Lebesgue

Mehr

Lösung zu den Übungsaufgaben zur Lebesgueschen Integrationstheorie. Tobias Ried

Lösung zu den Übungsaufgaben zur Lebesgueschen Integrationstheorie. Tobias Ried Lösung zu den Übungsaufgaben zur Lebesgueschen Integrationstheorie Tobias Ried. März 2 2 Aufgabe (Messbarkeit der Komposition zweier Abbildungen). Seien (X, A), (Y, B) und (Z, C) Messräume und f : (X,

Mehr

1 Konvergenz im p ten Mittel

1 Konvergenz im p ten Mittel Konvergenz im p ten Mittel 1 1 Konvergenz im p ten Mittel In diesem Paragraphen werden zunächst in Abschnitt 1.1 die L p Räume eingeführt. Diese erweisen sich als vollständige, lineare Räume über R. In

Mehr

2 Fortsetzung von Prämaßen zu Maßen, Eindeutigkeit

2 Fortsetzung von Prämaßen zu Maßen, Eindeutigkeit 2 Fortsetzung von Prämaßen zu Maßen, Eindeutigkeit a) Fortsetzungssatz, Eindeutigkeit Es wird gezeigt, dass jedes Prämaß µ auf einem Ring R zu einem Maß µ auf A(R) fortgesetzt werden kann, d.h. µ kann

Mehr

Metrische äußere Maße, Borel-Maße

Metrische äußere Maße, Borel-Maße Metrische äußere Maße, Borel-Maße Zum einen haben wir mit dem Fortsetzungssatz gesehen, dass man mit einem äußeren Maß (auf P(X) ) stets eine σ-algebra und ein Maß auf dieser bekommt. Liegt nun ein metrischer

Mehr

Liste wichtiger Stammfunktionen

Liste wichtiger Stammfunktionen Liste wichtiger Stammfunktionen Funktion Stammfunktion x n, x ln(x) n R \ { } n + xn+ ln( x ) x ln(x) x a x, a > sin(x) cos(x) sin 2 (x) cos 2 (x) x 2 x 2 a x ln(a) cos(x) sin(x) (x sin(x) cos(x)) 2 (x

Mehr

Das Lebesgue-Integral

Das Lebesgue-Integral Das Lebesgue-Integral Bei der Einführung des Integralbegriffs gehen wir schrittweise vor. Zunächst erklären wir das Integral von charakteristischen Funktionen, danach von positiven einfachen Funktionen

Mehr

Zusammenfassung der Lebesgue-Integrationstheorie

Zusammenfassung der Lebesgue-Integrationstheorie Zusammenfassung der Lebesgue-Integrationstheorie Das Lebesguesche Integral verallgemeinert das Riemannsche Integral. Seine Vorteile liegen für unsere Anwendungen vor allem bei den wichtigen Konvergenzsätzen,

Mehr

2 Allgemeine Integrationstheorie

2 Allgemeine Integrationstheorie 2 Allgemeine Integrationstheorie In diesem Abschnitt ist (,S,µ) ein Maßraum, und wir betrachten R immer mit der σ Algebra B(R). Ziel ist es, messbare Funktionen f : R zu integrieren. Das Maß µ wird uns

Mehr

Reelle Analysis. Vorlesungsskript. Enno Lenzmann, Universität Basel. 11. Oktober 2013

Reelle Analysis. Vorlesungsskript. Enno Lenzmann, Universität Basel. 11. Oktober 2013 Reelle Analysis Vorlesungsskript Enno Lenzmann, Universität Basel 11. Oktober 2013 3 Fortsetzung von Prämassen zu Massen Der Begriff des Prämasses ist nicht ausreichend, um eine geschmeidige Integrationstheorie

Mehr

Lebesgue-Integral und L p -Räume

Lebesgue-Integral und L p -Räume Lebesgue-Integral und L p -Räume Seminar Integraltransformationen, WS 2012/13 1 Treppenfunktionen Grundlage jedes Integralbegriffs ist das geometrisch definierte Integral von Treppenfunktionen. Für A R

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Meßbare Funktionen. bilden die Grundlage der Integrationstheorie. Definition 24.1 :

Meßbare Funktionen. bilden die Grundlage der Integrationstheorie. Definition 24.1 : 24 Meßbare Funktionen bilden die Grundlage der Integrationstheorie. Definition 24. : Sei X eine beliebige Menge, Y ein topologischer Raum, λ ein Maß auf X. f : X Y heißt λ-messbar, falls f (Ω) λ-messbar

Mehr

4 Messbare Funktionen

4 Messbare Funktionen 4 Messbare Funktionen 4.1 Definitionen und Eigenschaften Definition 4.1. Seien X eine beliebige nichtleere Menge, M P(X) eine σ-algebra in X und µ ein Maß auf M. Das Paar (X, M) heißt messbarer Raum und

Mehr

Wahrscheinlichkeitstheorie und Maßtheorie

Wahrscheinlichkeitstheorie und Maßtheorie KAPITEL 7 Wahrscheinlichkeitstheorie und Maßtheorie 7.1. Vorüberlegungen Die folgenden drei Beispiele sind Spezialfälle des Oberbegriffs Maß. Beispiel 7.1.1 (Verteilung der Ladung oder der Masse). Man

Mehr

Lösungsvorschläge für das 5. Übungsblatt

Lösungsvorschläge für das 5. Übungsblatt Lösungsvorschläge für das 5. Übungsblatt Aufgabe 6 a) Sei = [0, ], f(x) := [e x ] für x. Hierbei ist [y] := maxk Z k y} für y. Behauptung: f ist messbar und es ist f(x) dx = 2 log 2. falls x [0, log 2),

Mehr

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 22. September 2015 Evelina Erlacher 1 Mengen Es sei Ω eine Menge (die Universalmenge ) und A, B seien Teilmengen von Ω. Dann schreiben

Mehr

Stochastik. Skript zur Vorlesung von Prof. Dr. Michael Kohler Sommersemester 2007

Stochastik. Skript zur Vorlesung von Prof. Dr. Michael Kohler Sommersemester 2007 Stochastik Skript zur Vorlesung von Prof. Dr. Michael Kohler Sommersemester 2007 1 1. Grundbegriffe der Maßtheorie Ziel: Konstruktion von Maßzahlen (wie z. B. Wahrscheinlichkeit / Länge / Fläche / Volumen

Mehr

1 falls x 2. falls x = 1 und. 0 falls x > 1. eine Lebesgue-integrierbare Majorante. Somit können wir den Satz von Lebesgue anwenden:

1 falls x 2. falls x = 1 und. 0 falls x > 1. eine Lebesgue-integrierbare Majorante. Somit können wir den Satz von Lebesgue anwenden: Lösungsvorschläge zur Klausur 045 Maß- und Integrationstheorie WS 205/6 Lösungsvorschlag zu Aufgabe Sei f n der Integrant 0 falls x > 2 und f n x) falls x 2. 3+sin 2n)+x x 4n Sein punktweiser Grenzwert

Mehr

Skript zur Vorlesung Analysis 3

Skript zur Vorlesung Analysis 3 Skript zur Vorlesung Analysis 3 Wintersemester 2013/2014 Prof. Dr. Benjamin Schlein Inhaltsverzeichnis 1 Masstheorie 2 1.1 σ-algebren.................................. 6 1.2 Masse.....................................

Mehr

3 Produktmaße und Unabhängigkeit

3 Produktmaße und Unabhängigkeit 3 Produktmaße und Unabhängigkeit 3.1 Der allgemeine Fall Im Folgenden sei I eine beliebige Indexmenge. i I sei (Ω i, A i ein messbarer Raum. Weiter sei Ω : i I Ω i ein neuer Ergebnisraum. Wir definieren

Mehr

Studienbegleitende Prüfung Stochastik 2

Studienbegleitende Prüfung Stochastik 2 Universität Karlsruhe (TH) Institut für Stochastik Prof. Dr. N. Bäuerle Name: Vorname: Matr.-Nr.: Studienbegleitende Prüfung Stochastik 2 27. März 2007 Diese Klausur hat bestanden, wer mindestens 20 Punkte

Mehr

Darstellungssatz von Riesz in vollständig regulären Räumen. Carina Pöll Wintersemester 2012

Darstellungssatz von Riesz in vollständig regulären Räumen. Carina Pöll Wintersemester 2012 Darstellungssatz von Riesz in vollständig regulären Räumen Carina Pöll 0726726 Wintersemester 2012 Inhaltsverzeichnis 1 Einleitung 1 2 Definitionen und Resultate aus der Topologie 1 3 Der Darstellungssatz

Mehr

Scheinklausur zur Vorlesung Stochastik II

Scheinklausur zur Vorlesung Stochastik II Institut für Mathematische Stochastik WS 2007/2008 Universität Karlsruhe 25. 02. 2008 Dr. B. Klar Scheinklausur zur Vorlesung Stochastik II Muster-Lösung Dauer: 90 Minuten Name: Vorname: Matrikelnummer:

Mehr

Lemma (Eigenschaften elementarer Mengen) 1. Jede elementare Menge lässt sich als disjunkte Vereinigung halboffener Intervalle schreiben.

Lemma (Eigenschaften elementarer Mengen) 1. Jede elementare Menge lässt sich als disjunkte Vereinigung halboffener Intervalle schreiben. 12.3. DIE LEBESGUE ALGEBRA 19 Bemerkung 12.3.2 (Bezeichnungen) Im Buch von Bauer [2] werden elementare Mengen als Figuren bezeichnet. Wir folgen mit unserer Nomenklatur Rudin [15]. Natürlich kann man auf

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Analysis 3. Weihnachtsblatt Prof. Dr. H. Koch Dr. F. Gmeineder Besprechung: TBC, Januar Aufgabe 1: (Besonders prüfungsrelevant)

Analysis 3. Weihnachtsblatt Prof. Dr. H. Koch Dr. F. Gmeineder Besprechung: TBC, Januar Aufgabe 1: (Besonders prüfungsrelevant) Analysis 3 04.12.2018 Prof. Dr. H. och Dr. F. Gmeineder Besprechung: TBC, Januar 2019 Weihnachtsblatt Aufgabe 1: (Besonders prüfungsrelevant) Aufgabe 2: Sei Ω eine Menge und Σ eine σ-algebra auf Ω. Seien

Mehr

Stochastik Wiederholung von Teil 1

Stochastik Wiederholung von Teil 1 Stochastik Wiederholung von Teil 1 Andrej Depperschmidt Sommersemester 2016 Wahrscheinlichkeitsraum Definition Das Tripple (Ω, A, P) heißt Wahrscheinlichkeitsraum, falls gilt: (i) A ist eine σ-algebra,

Mehr

Wahrscheinlichkeitstheorie und Statistik

Wahrscheinlichkeitstheorie und Statistik Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter

Mehr

Lösungen zu Übungsblatt 9

Lösungen zu Übungsblatt 9 Analysis : Camillo de Lellis HS 007 Lösungen zu Übungsblatt 9 Lösung zu Aufgabe 1. Wir müssen einfach das Integral 16 (x + y d(x, y x +y 4 ausrechnen. Dies kann man einfach mittels Polarkoordinaten, da

Mehr

KONSTRUKTION VON MASSEN

KONSTRUKTION VON MASSEN KONSTRUKTION VON MASSEN MARCUS HEITEL 1. Einleitung Wir wollen im Folgenden das Lebesguemaß konstruieren. Dieses soll die Eigenschaft λ ( [a, b = b a für a, b R besitzen. Nun ist ein Maß aber auf einer

Mehr

2.6 Der Satz von Fubini

2.6 Der Satz von Fubini 1 2.6 Der Satz von Fubini Unser Ziel ist der Beweis des folgenden Ergebnisses. 6.1. Satz von Fubini Sei f : R n+m R integrierbar. Dann gibt es eine Nullmenge N R m, so dass gilt: 1. Für alle y R m \ N

Mehr

Analysis 2. Vorlesungsausarbeitung zum SS von Prof. Dr. Klaus Fritzsche. Inhaltsverzeichnis

Analysis 2. Vorlesungsausarbeitung zum SS von Prof. Dr. Klaus Fritzsche. Inhaltsverzeichnis Bergische Universität Gesamthochschule Wuppertal Fachbereich Mathematik Analysis 2 Kapitel 3 Integrationstheorie Vorlesungsausarbeitung zum SS 2001 von Prof Dr Klaus Fritzsche Inhaltsverzeichnis 1 Maßtheorie

Mehr

Funktionalanalysis und Integrationstheorie

Funktionalanalysis und Integrationstheorie Funktionalanalysis und Integrationstheorie Vorlesungsnotizen Johannes Kepler Universität Linz Technisch-Naturwissenschaftliche Fakultät Institut für Analysis Prof. Dr. Aicke Hinrichs Wintersemester 2015/16

Mehr

1. Masstheorie Mengensysteme 1. MASSTHEORIE 1

1. Masstheorie Mengensysteme 1. MASSTHEORIE 1 1. MASSTHEORIE 1 1. Masstheorie In der Wahrscheinlichkeitstheorie betrachten wir Situationen, die wir nicht exakt vorhersagen können. Zum einen kann dies sein, da der Ausgang zufällig ist. Zum anderen

Mehr

Charakteristische Funktionen

Charakteristische Funktionen Kapitel 9 Charakteristische Funktionen Jeder Wahrscheinlichkeitsverteilung auf (, B 1 ) (allgemeiner: (R n, B n )) ist eine komplexwertige Funktion, ihre charakteristische Funktion, zugeordnet, durch die

Mehr

Kapitel I. Maßtheorie

Kapitel I. Maßtheorie Aufgabenvorschläge für das Proseminar zur Maß- und Integrationstheorie (WS 10/11) Shantanu Dave & Günther Hörmann Kapitel I. Maßtheorie zu 1. Maße und σ-algebren 1 Sei Ω eine Menge. Zeige: (a) Ist A eine

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Zufallsvariable, Verteilung, Verteilungsfunktion

Zufallsvariable, Verteilung, Verteilungsfunktion Kapitel 5 Zufallsvariable, Verteilung, Verteilungsfunktion 5.1 Zufallsvariable Sei (Ω, A, P ) ein beliebiger Wahrscheinlichkeitsraum. Häufig interessiert nicht ω selbst, sondern eine Kennzahl X(ω), d.h.

Mehr

Analysis III. Vorlesung 69. Integrierbare Funktionen

Analysis III. Vorlesung 69. Integrierbare Funktionen Prof. Dr. H. Brenner Osnabrück WS 2014/2015 Analysis III Vorlesung 69 Integrierbare Funktionen Wir führen nun das Lebesgue-Integral für messbare Funktionen auf einem aßraum ein. Dieser Integralbegriff

Mehr

10 Der Satz von Radon-Nikodym

10 Der Satz von Radon-Nikodym uch im Sinne einer Vorabinformation vor der Stochastik-Vorlesung wollen wir abschließend kurz absolut stetige Maße und den Satz von Radon-Nikodym streifen. Definition 10.1. Seien (, M) ein messbarer Raum

Mehr

σ-algebren, Definition des Maßraums

σ-algebren, Definition des Maßraums σ-algebren, Definition des Maßraums Ziel der Maßtheorie ist es, Teilmengen einer Grundmenge X auf sinnvolle Weise einen Inhalt zuzuordnen. Diese Zuordnung soll so beschaffen sein, dass dabei die intuitiven

Mehr

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W.

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W. 8. Formelsammlung 8.1 Gesetze zum Rechnen mit Ereignissen Im Folgenden seien A und B, sowie A 1,..., A n Ereignisse. Die Notation A B steht für A B und zugleich A B = (disjunkte Vereinigung). A 1... A

Mehr

Universität Leipzig, SoSo 2013

Universität Leipzig, SoSo 2013 Vorlesung Wahrscheinlichkeitstheorie I Universität Leipzig, SoSo 2013 Prof. Dr. Max v. Renesse [email protected] Sprechstunde: Di 13.15-14.45, A 337 Übungen: Mo 11.15 -- 12.45 A 314 K. Zimmermann

Mehr

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume Kapitel II Kontinuierliche Wahrscheinlichkeitsräume 1. Einführung 1.1 Motivation Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung. DWT 1.1 Motivation 211/476 Beispiel 85 Wir betrachten

Mehr

1 Das Lebesgue-Maß. 1.1 Etwas Maßtheorie. Sei stets X eine nichtleere Menge mit Potzenzmenge P(X) := {A : A X}.

1 Das Lebesgue-Maß. 1.1 Etwas Maßtheorie. Sei stets X eine nichtleere Menge mit Potzenzmenge P(X) := {A : A X}. 1 Das Lebesgue-Maß 1.1 Etwas Maßtheorie Sei stets X eine nichtleere Menge mit Potzenzmenge P(X) := {A : A X}. Definition 1.1. Ein nichtleeres Mengensystem A P(X) heißt σ-algebra, wenn: (A1) X A (A2) Wenn

Mehr

Kapitel A. Konstruktion und Eigenschaften von Integralen

Kapitel A. Konstruktion und Eigenschaften von Integralen Kapitel A Konstruktion und Eigenschaften von Integralen Inhalt dieses Kapitels A000 Wie misst man Flächen- und Rauminhalt? Absolut integrierbare Funktionen Integration: Theorie und Anwendung A001 Bildquelle:

Mehr

Übungsblatt 5 zur Vorlesung Wahrscheinlichkeitstheorie

Übungsblatt 5 zur Vorlesung Wahrscheinlichkeitstheorie Dr. Christoph Luchsinger Übungsblatt 5 zur Vorlesung Wahrscheinlichkeitstheorie Allgemeine Masse Herausgabe des Übungsblattes: Woche 13, Abgabe der Lösungen: Woche 14 (bis Freitag, 16.15 Uhr), Besprechung:

Mehr

Mathematik III. Vorlesung 71

Mathematik III. Vorlesung 71 Prof. Dr. H. Brenner Osnabrück WS 2010/2011 athematik III Vorlesung 71 Ausschöpfungseigenschaften Die folgenden Rechenregeln für Integrale beruhen auf dem Ausschöpfungssatz für aße. an kann den Subgraphen

Mehr

Reelle Zufallsvariablen

Reelle Zufallsvariablen Kapitel 3 eelle Zufallsvariablen 3. Verteilungsfunktionen esultat aus der Maßtheorie: Zwischen der Menge aller W-Maße auf B, nennen wir sie W B ), und der Menge aller Verteilungsfunktionen auf, nennen

Mehr

Musterlösung Analysis 3 - Maßtherorie

Musterlösung Analysis 3 - Maßtherorie Musterlösung Analysis 3 - Maßtherorie 10. März 2011 Aufgabe 1: Zum Aufwärmen (i) Zeige, dass die Mengensysteme {, X} und P(X) σ-algebren sind. Es sind jeweils nur die Charakteristika nachzuweisen. (1)

Mehr

Definitionen und Aussagen zur Maßtheorie

Definitionen und Aussagen zur Maßtheorie Definitionen und Aussagen zur Maßtheorie Man möchte den Teilmengen eines Raumes ein Gewicht zuordnen. Wir werden sehen, daß dies in sinnvoller Weise häufig nicht für alle Teilmengen möglich ist, sondern

Mehr

Bálint Farkas. Analysis 3. Skript zur Vorlesung in WS2014/ Mai c by B. Farkas. compiled: 21-May-2015/11:13

Bálint Farkas. Analysis 3. Skript zur Vorlesung in WS2014/ Mai c by B. Farkas. compiled: 21-May-2015/11:13 Bálint Farkas Analysis 3 Skript zur Vorlesung in WS2014/2015 21. Mai 2015 c by B. Farkas V O R B E M E R K U N G E N Dieses Skript beinhaltet das Material der Vorlesung Analysis 3 gehalten an der Bergischen

Mehr

Klausur zur Vorlesung Stochastik II

Klausur zur Vorlesung Stochastik II Institut für Mathematische Stochastik WS 003/004 Universität Karlsruhe 05. 04. 004 Prof. Dr. G. Last Klausur zur Vorlesung Stochastik II Dauer: 90 Minuten Name: Vorname: Matrikelnummer: Diese Klausur hat

Mehr

Kapitel 19. Das Lebesgue Maß σ Algebren und Maße

Kapitel 19. Das Lebesgue Maß σ Algebren und Maße Kapitel 19 Das Lebesgue Maß 19.1 σ Algebren und Maße 19.2 Das äußere Lebesgue Maß 19.3 Das Lebesgue Maß 19.4 Charakterisierungen des Lebesgue Maßes 19.5 Messbare Funktionen 19.1 σ Algebren und Maße Wir

Mehr

1.3 Zufallsvariablen

1.3 Zufallsvariablen 1.3 Zufallsvariablen Beispiel Irrfahrt zwischen drei Zuständen Start in G bei t = 0, Zeithorizont T N Grundraum σ-algebra Ω = {ω = (ω 0, ω 1,..., ω T ) {G, R, B} T +1, ω 0 = G} Wahrscheinlichkeitsmaß P

Mehr

Vorlesung Der Satz von Fubini. 6.2 Der Satz von Beppo Levi 6.1. DER SATZ VON FUBINI 33

Vorlesung Der Satz von Fubini. 6.2 Der Satz von Beppo Levi 6.1. DER SATZ VON FUBINI 33 6.1. DER SATZ VON FUBINI 33 Vorlesung 6 6.1 Der Satz von Fubini Das Lebesgue-Integralkann natürlichauchüber mehrdimensionale Gebiete definiert werden. Wir haben uns hier auf den eindimenionalen Fallbeschränkt.

Mehr

Stochastik. 1. Wahrscheinlichkeitsräume

Stochastik. 1. Wahrscheinlichkeitsräume Stochastik 1. Wahrscheinlichkeitsräume Ein Zufallsexperiment ist ein beliebig oft und gleichartig wiederholbarer Vorgang mit mindestens zwei verschiedenen Ergebnissen, bei dem der Ausgang ungewiß ist.

Mehr

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 15. Jänner 2017 Evelina Erlacher Inhaltsverzeichnis 1 Mengen 2 2 Wahrscheinlichkeiten 3 3 Zufallsvariablen 5 3.1 Diskrete Zufallsvariablen............................

Mehr

Grundlagen Mengenlehre, Maßtheorie

Grundlagen Mengenlehre, Maßtheorie Grundlagen Mengenlehre, Maßtheorie 12. März 2011 1 Grundlagen der Mengenlehre - Rechnen mit Mengen Im folgenden bezeichnen wir mit P(X) die Menge aller Teilmengen von X, die sogenannte Potenzmenge von

Mehr

Analysis III - Bachelorversion

Analysis III - Bachelorversion Analysis III - Bachelorversion Die Mitarbeiter von http://mitschriebwiki.nomeata.de/ 28. September 217 Inhaltsverzeichnis Inhaltsverzeichnis 2 I. Vorwort 5 I.1. Über dieses Skriptum..................................

Mehr

Mathematik III. Vorlesung 74. Folgerungen aus dem Satz von Fubini. (( 1 3 x3 1 2 x2 y +2y 3 x) 1 2)dy. ( y +2y y +4y3 )dy

Mathematik III. Vorlesung 74. Folgerungen aus dem Satz von Fubini. (( 1 3 x3 1 2 x2 y +2y 3 x) 1 2)dy. ( y +2y y +4y3 )dy Prof. Dr. H. Brenner Osnabrück WS 2010/2011 Mathematik III Vorlesung 74 Folgerungen aus dem Satz von Fubini Beispiel 74.1. Wir wollen das Integral der Funktion f :R 2 R, (x,y) x 2 xy +2y 3, über dem Rechteck

Mehr

15. Bereichsintegrale

15. Bereichsintegrale H.J. Oberle Analysis III WS 212/13 15. Bereichsintegrale 15.1 Integrale über uadern Ziel ist die Berechnung des Volumens unterhalb des Graphen einer Funktion f : R n D R, genauer zwischen dem Graphen von

Mehr

D-MATH Mass und Integral FS 2018 Prof. Dr. Urs Lang. Lösung - Serie 2. + A k = A c k Ac k 0

D-MATH Mass und Integral FS 2018 Prof. Dr. Urs Lang. Lösung - Serie 2. + A k = A c k Ac k 0 D-MATH Mass und Integral FS 2018 Prof. Dr. Urs Lang Lösung - Serie 2 Abgabetermin: Mittwoch, 07.03.2018 in die Fächli im HG F 28. Homepage der Vorlesung: https://metaphor.ethz.ch/x/2018/fs/401-2284-00l/

Mehr

Maß und Integral I und II. SS 2004 und WS 2004/05

Maß und Integral I und II. SS 2004 und WS 2004/05 Maß und Integral I und II SS 2004 und WS 2004/05 Vorlesung von Priv.-Doz. Dr. J. Dippon unter Verwendung einer Vorlesung von Prof. Dr. H. Walk im SS 2003 Inhaltsverzeichnis Bezeichnungen 3 1 Grundbegriffe

Mehr

9. Übung zur Maß- und Integrationstheorie, Lösungsskizze Aufgaben

9. Übung zur Maß- und Integrationstheorie, Lösungsskizze Aufgaben 9. Übung zur aß- und Integrationstheorie, Lösungsskizze Aufgaben A 50 (Eine Flächenberechnung mit dem Cavalierischen Prinzip). Es seien a, b > 0 und : { (x, y) R 2 : (x/a) 2 + (y/b) 2 1 }. (a) Skizzieren

Mehr

Serie 2 Lösungsvorschläge

Serie 2 Lösungsvorschläge D-Math Mass und Integral FS 214 Prof. Dr. D. A. Salamon Serie 2 Lösungsvorschläge 1. Seien folgende Mengen gegeben: und für a, b R R := [, ] := R {, }, (a, ] := (a, ) { }, [, b) := (, b) { }. Wir nennen

Mehr

Das Lebesgue-Maß im R p

Das Lebesgue-Maß im R p Das Lebesgue-Maß im R p Wir werden nun im R p ein metrisches äußeres Maß definieren, welches schließlich zum Lebesgue-Maß führen wird. Als erstes definieren wir das Volumen von Intervallen des R p. Seien

Mehr

1 Grundlagen der Maßtheorie

1 Grundlagen der Maßtheorie 1 Grundlagen der Maßtheorie In diesem Kapitel führen wir die Mengensysteme ein, die eine systematische Betrachtung von Ereignissen und zufälligen Beobachtungen in der Wahrscheinlichkeitstheorie erlauben.

Mehr

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte Einführung in die Wahrscheinlichkeitstheorie und Statistik Prof. Dr. Jan Johannes Sandra Schluttenhofer Wintersemester 208/9 3. Übungsblatt - Lösungsskizzen Aufgabe 9 Stetige Verteilungen, 4 =.5 +.5 +

Mehr

Mathematik für Physiker, Informatiker und Ingenieure

Mathematik für Physiker, Informatiker und Ingenieure Mathematik für Physiker, Informatiker und Ingenieure Folien zu Kapitel IV SS 2010 G. Dirr INSTITUT FÜR MATHEMATIK UNIVERSITÄT WÜRZBURG [email protected] http://www2.mathematik.uni-wuerzburg.de

Mehr

TECHNISCHE UNIVERSITÄT MÜNCHEN

TECHNISCHE UNIVERSITÄT MÜNCHEN Prof. Dr. D. Castrigiano Dr. M. Prähofer Zentralübung 38. Einschränkung eines Maßes TECHNISCHE UNIVERSITÄT MÜNCHEN Zentrum Mathematik Mathematik für Physiker 4 (Analysis 3) http://www.ma.tum.de/hm/ma9204

Mehr

7 Poisson-Punktprozesse

7 Poisson-Punktprozesse Poisson-Punktprozesse sind natürliche Modelle für zufällige Konfigurationen von Punkten im Raum Wie der Name sagt, spielt die Poisson-Verteilung eine entscheidende Rolle Wir werden also mit der Definition

Mehr

2 Zufallsvariable und Verteilungsfunktionen

2 Zufallsvariable und Verteilungsfunktionen 8 2 Zufallsvariable und Verteilungsfunktionen Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Maß- und Integrationstheorie

Maß- und Integrationstheorie Maß- und Integrationstheorie Klaus Ritter Kaiserslautern, SS 2014 Literatur Insbesondere J. Elstrodt, Maß- und Integrationstheorie, Springer, Berlin, 1. Auflage 1996, 7. Auflage 2011. Vorkenntnisse Grundlagen

Mehr

Maß- und Integrationstheorie

Maß- und Integrationstheorie Prof. H.C. Grunau E. Sassone 1 15.10.2002 1.1 Aufgabe Maß- und Integrationstheorie WS 2002/03 Gegeben seien diese 4 Operationen über Mengen:,, \ und (symmetrische ifferenz) [A B = (A \ B) (B \ A)] 1 Wenn

Mehr

Multiplikationsoperatoren

Multiplikationsoperatoren Multiplikationsoperatoren Dennis Dyck 07.04.2014 1 Einleitung In dem ersten Vortrag des eminars soll es um die Untersuchung von Multiplikationsoperatoren gehen. Es werden grundlegende Eigenschaften hergeleitet

Mehr

Existenz des Lebesgue-Borel-Maßes

Existenz des Lebesgue-Borel-Maßes A Existenz des Lebesgue-Borel-Maßes In diesem (nicht prüfungsrelevanten) Anhang tragen wir u.a. die Existenz des Lebesgue- Borel-Maßes nach. 52 Es empfiehlt sich, diesen Anhang erst nach Kapitel 5 zu lesen

Mehr

Meßbare Funktionen. Die angemessenen Abbildungen zwischen Meßräumen sind die meßbaren Funktionen.

Meßbare Funktionen. Die angemessenen Abbildungen zwischen Meßräumen sind die meßbaren Funktionen. Meßbare Funktionen Die angemessenen Abbildungen zwischen Meßräumen sind die meßbaren Funktionen. Definition. Seien (X, Ω 1 ) und (Y, Ω 2 ) Meßräume. Eine Abbildung f : X Y heißt Ω 1 -Ω 2 -meßbar oder kurz

Mehr