Statistik für Informatiker

Größe: px
Ab Seite anzeigen:

Download "Statistik für Informatiker"

Transkript

1 Statistik für Informatiker Notizen zu einer Vorlesung an der Johannes-Gutenberg-Universität Mainz, Sommer 208 Matthias Birkner Vorläufige Version, 4. Juni 208 Kommentare, Korrekturvorschläge, Hinweise auf (Tipp-)fehler gerne per an senden

2 Inhaltsverzeichnis 0 Auftakt 2 0. Organisatorisches Ein Startbeispiel Erste Schritte mit R Grundlagen aus der Wahrscheinlichkeitstheorie. Ereignisse, Zufallsvariablen und Wahrscheinlichkeiten Zufallsvariablen Einige klassische diskrete Verteilungen Der Fall mit Dichte Kleingedrucktes Eine Anmerkung zur Maßtheorie Alternativer Zugang: Zufallsvariablen als Fundamentalobjekte der Wahrscheinlichkeitstheorie Zur Einschluss-Ausschluss-Formel Bedingte Wahrscheinlichkeiten, Unabhängigkeit, gemeinsame Verteilung Bedingte Wahrscheinlichkeit Gemeinsame Verteilung und Randverteilungen Unabhängigkeit Die Situation im Fall mit Dichten Faltung Erwartungswert, Varianz und Kovarianz Diskreter Fall Der Fall mit Dichte Varianz und Kovarianz Median(e) Gesetz der großen Zahlen und zentraler Grenzwertsatz Gesetz der großen Zahlen Zum zentralen Grenzwertsatz Eine Heuristik zum zentralen Grenzwertsatz Ergänzung: Hoeffding- und McDiarmid-Ungleichung

3 Kapitel 0 Auftakt 0. Organisatorisches Orte, Zeiten, Zulassungskriterien,... Mo. 6 8h, Raum Homepage: (dort werden die Folien/Notizen, benutzter R-Code/Datensätze, etc. stehen) Übungsbetrieb: Organisiert von Timo Schlüter, Informationen unter statistik-fuer-informatiker-sose-8/ (verwenden [auch] R dazu später mehr...) 0.2 Ein Startbeispiel Sei Z = (X, Y ) ein rein zufällig gewählter Punkt im Einheitsquadrat S = {(x, y) 0 x, y } (geschrieben in kartesischen Koordinaten). 2

4 Einheitsquadrat S Z Einheitsquadrat S Für die praktische Implementierung stellen wir uns etwa vor, dass S in (sehr kleine) disjunkte Quadrate ( Pixel ) zerlegt wird, und dass wir unter allen möglichen Pixeln eines wählen, wobei jedes dieselbe Chance hat, gezogen zu werden. Eine Möglichkeit, dies in R zu implementieren, wäre Z <- c(runif(),runif()) Hierbei generiert der Befehl runif() eine (Pseudo-)Zufallszahl im Einheitsintervall [0, ]. Wir nennen Z eine Zufallsvariable, die möglichen Werte S ihren Wertebereich. Sei B S eine gewisse Teilmenge. 3

5 Dann können wir das Ereignis Einheitsquadrat und Teilmenge B {Z B} (ausgesprochen als Z nimmt einen Wert in B an ) betrachten. Je nach Ausgang des zufälligen Experiments (für das Computerexperiment hängt dies vom internen Zustand des Pseudo-Zufallsgenerators und damit implizit vom gewählten random seed ab) wird Z in B liegen oder nicht, d.h. das Ereignis {Z B} tritt ein oder nicht. Die Wahrscheinlichkeit des Ereignisses {Z B} ist plausiblerweise P ({Z B}) = Anzahl Pixel in B Anzahl Pixel in S = Fläche von B Fläche von S = Fläche von B (das P erinnert an Englisch probability oder Französisch <probabilité >, die natürlich beide vom Lateinischen Wort probabilitas abstammen). Sei B die Indikatorfunktion von B, d.h. für z S ist, z B, B (z) = 0, z / B. Wir können eine weitere Zufallsvariable W = B (Z) mit Wertebereich {0, } bilden: W ist gleich, wenn der Wert von Z in B liegt, sonst gleich 0 (man nennt eine solche Zufallsvariable auch eine Indikatorvariable). Mit Ereignissen ausgesprochen also {W = } = {Z B}, {W = 0} = {Z B c } (hierbei ist B c = S B = {z S z / B} die Komplementmenge von B) und somit auch P ({W = }) = P ({Z B}) = Fläche von B. 4

6 Anwendung: eine einfache Monte Carlo-Methode zur Integration Sei p = P ({Z B}) = Fläche von B. Wir können den Zufall verwenden, um p (wenigstens approximativ) zu bestimmen: Stellen wir uns vor, wir wiederholen obiges Zufallsexperiment n-mal, wobei der Zufall jedes mal neu wirkt. Seien Z, Z 2,..., Z n die Ergebnisse dieser n Experimente (im Jargon: die Z i sind unabhängige Kopien von Z), setze W i = B (Z i ). Die Zufallsvariable n M n = gibt an, wieviele der n zufällig gewählten Punkte in B gelandet sind. Der empirische Anteil M n = n n i= i= W i W i ( = n M n ) ist ein (plausibler) Schätzwert für p. (Der Wertebereich von M n ist offenbar {0, n, 2 n,... n n, }.) Man kann dies (nämlich die Simulation von M n und Ausgabe des berechneten Werts) als ein einfaches Beispiel eines sogenannten Monte Carlo-Algorithmus betrachten: Das Verfahren bestimmt zwar nicht genau den Wert von p, wir werden aber quantifizieren können, wie (un-)wahrscheinlich es ist, dass es um mehr als ein vorgegebenes ε daneben liegt. 00 zufällige Punkte, Anteil in B : Visualisierung eines solchen Versuchs für n = 00. M n ist Binomial-verteilt mit Parametern n und p (abgekürzt Bin n,p -verteilt), d.h. P ({ M n = k}) = ( n k )pk ( p) n k für k = 0,,..., n. (Wir werden dies später noch genauer betrachten). 5

7 Damit ergibt sich für die Verteilungsgewichte von M 00 folgendes (Balken-)Diagramm (an die Stelle k/n zeichnen wir einen Balken der Höhe P ({M n = k n })): Wahrscheinlichkeit Wert von M Übrigens: Tatsächlich ist der Wert von p in diesem Beispiel p = π π 98 sin(w) cos(w) 2 2 sin(w) + sin(w) + 7/5 2 dw Denn für B = {(x, y) R 2 (x 2 + y 2 ) /2 f(arg(x, y))} wo f [ π, π] R + und arg(x, y) = sign(x) arcsin(y/ x 2 + y 2 ) + πsign(y) (,0) (x) (dies ist der Winkel, den der Strahl vom Ursprung durch den Punkt (x, y) mit der x-achse einschließt) gilt Fläche von B = π π 2 f(w)2 dw 6

8 zufällige Punkte, Anteil in B : zufällige Punkte, Anteil in B : 0.22 Zur Illustration: Zwei weitere Wiederholungen mit jeweils n = 00 zufälligen Punkten in [0, ] 2 Durch Erhöhung von n können wir die Genauigkeit der Approximation erhöhen. Wir werden dies später quantifizieren können, für den Moment betrachten wir das Histogramm der Verteilungsgewichte von M 500 : Wert von M Wahrscheinlichkeit (Wir sehen: Die Verteilung von M 500 ist deutlich stärker um p konzentriert als die von M 00 ). 7

9 Betrachten wir zum Abschluss (für eine Folge von Z, Z 2,..., Z 0000 ) die Folge der M n als Funktion von n (die gestrichelte Linie ist der Wert p): Beobachteter Anteil in B Anzahl Punkte Wir werden im Lauf der Vorlesung sehen: Für n konvergiert M n (in geeignetem Sinne) gegen p. Dies folgt aus dem sogenannten Gesetz der großen Zahlen. 0.3 Erste Schritte mit R Was ist R? R ist eine für die Statistik und für stochastische Simulation entwickelte Programmiersprache, zudem sind viele statistische Standardverfahren bereits in R implementiert oder als Zusatzpaket verfügbar. R hat eine sehr aktive Benutzer- und Entwicklergemeinde, die nahezu alle Bereiche der Statistik und viele Anwendungsbereiche (z.b. Populationsgenetik, Finanzmathematik) überdeckt. R ist frei verfügbar unter der GNU general public license, für (nahezu) alle Rechnerarchitekturen erhältlich: Literatur zu R Standardreferenz : 8

10 W.N. Venables et al, An Introduction to R, Zur ersten Einführung auch die Hinweise zu R, nullte Schritte auf der Vorlesungs-Homepage. Weiterführend (z.t. wesentlich über den Stoff der Vorlesung hinaus): Günther Sawitzki, Einführung in R, William N. Venables, Brian D. Ripley, Modern applied statistics with S ( Standardwerk, UB Lehrbuchsammlung) Lothar Sachs and Jürgen Hedderich, Angewandte Statistik Methodensammlung mit R (E-Book, UB) Christine Duller, Einführung in die nichtparametrische Statistik mit SAS und R : ein anwendungsorientiertes Lehr- und Arbeitsbuch (E-Book, UB) Helge Toutenburg, Christian Heumann, Deskriptive Statistik : Eine Einführung in Methoden und Anwendungen mit R und SPSS (E-Book, UB) Uwe Ligges, Programmieren mit R (E-Book, UB) R installieren, starten, anhalten Installation: Windows, Mac OS: Binaries von (siehe Link Download, Packages, CRAN dort) Linux: Für die meisten Distributionen gibt es fertige Pakete (entweder bei CRAN oder im Repository der Distribution) Bei Fragen oder Problemen: Übungsgruppen R starten: Windows, Mac OS: Icon (ggf. aus Menu) anklicken, Linux/Unix: > R auf einer Konsole (oder z.b. mit ESS aus Emacs heraus). R beenden: q() (fragt, ob Daten gespeichert werden sollen) laufende Rechnungen unterbrechen: CTRL-C Hinweis: RStudio bietet eine integrierte Entwicklungsumgebung für R [für Privatanwender frei verfügbar]. 9

11 Einige einfache (und wichtige) R-Befehle Mathematische Operatoren und Funktionen: +, -, *, /, ˆ, exp, sin, log, etc. Hilfe aufrufen: help(befehl) oder?befehl Online-Hilfe starten: help.start() Variable einen Wert zuweisen: x <- 5 y <- "Zeichenkette" z <- TRUE w < i Vektor erzeugen, Elementzugriff: v <- c(,2,3.45,-7); v[3] Rezyklierungs-Regel bei Vektoren: v+2 liefert 3,4,5.45,-5 Liste erzeugen, Elementzugriff: l <- list(.2,"text",-5,false); l[[2]] (Pseudo-)Zufallszahl generieren: runif Demos starten (und bestaunen): demo() Einlesen eines Skripts: source Ausgabe in Datei umlenken: sink Grafikausgaben: plot,... Grafik geräte öffnen: x, postscript, pdf, dev.copy2eps, dev.copy2pdf,... Grafikparameter setzen: par Siehe auch die Befehle und Hinweise in Auftakt.R, das wir in der ersten Sitzung diskutieren. 0

12 Kapitel Grundlagen aus der Wahrscheinlichkeitstheorie. Ereignisse, Zufallsvariablen und Wahrscheinlichkeiten Lesehinweis Man kann dieses Kapitel auf mehrere Weisen lesen. Die grundlegenden Objekte Zufallsvariablen, Ereignisse und Wahrscheinlichkeiten und ihre Eigenschaften werden uns durch den gesamten Verlauf der Vorlesung begleiten. Einige Beweise und Diskussionen bzw. Berichte zu Hintergrundmaterial sind (wie hier) am Rand mit gekennzeichnet. Sie wurden der Vollständigkeit halber für interessierte Leser aufgenommen, speziell auch für solche, die nachprüfen möchten, an welchen Stellen der Autor die volle Wahrheit vereinfacht darstellt. Sie können aber übersprungen werden, ohne im weiteren Verlauf der Vorlesung abgehängt zu werden. Worum geht es? In vielen Situationen tritt Zufall oder Ungewissheit auf, in diesem Kapitel geht es uns darum, den üblichen mathematischen Rahmen kennen zu lernen, um solche Phänomene zu beschreiben. Beispiele. Im Auftakt-Beispiel in Kapitel 0 haben wir ein zufälliges Pixel Z aus (einer diskretisierten Version von) [0, ] 2 gewählt. Glücksspiel-Situationen : Wir werfen eine Münze oder einen Würfel, spielen Lotto, schauen ein gut gemischtes Pokerblatt an,... Wir befragen einen zufällig ausgewählten Studenten in der Mensa nach seinem Studiengang und danach, wieviel er heute in der Mensa ausgegeben hat. Wir übergeben n Zahlen in rein zufälliger Reihenfolge an einen Sortieralgorithmus; wir überprüfen zwei Polynome f(x) und g(x) vom Grad d auf Gleichheit, indem wir an k zufällig ausgewählten Stellen auf Gleichheit testen; wir betrachten einen Router, der Datenpakete an einen zufällig ausgewählten Nachbarknoten im Netzwerk schickt;...

13 Mathematische Modellierung des Zufalls ( Zutaten ): Sei Ω (nicht-leere) Menge ( Ergebnisraum oder Stichprobenraum genannt), und sei F 2 Ω ( = {B B Ω}). ω Ω heißt ein Elementarereignis, A F nennen wir ein Ereignis, insbesondere Ω... sicheres Ereignis,... unmögliches Ereignis Vorstellung/Interpretation: der Zufall wählt ein ω Ω, wir sagen A tritt ein, wenn ω A. Operationen (Mengenoperationen und ihre Interpretation für Ereignisse): Für A, B F A c = Ω A... A tritt nicht ein (A c heißt Gegen- oder Komplementärereignis von A) A B... A und B treten ein A B... A oder B treten ein A B... A impliziert B (falls A eintritt, so auch B) A und B heißen disjunkt, wenn A B =. Wir notieren auch A B = A B c = {ω ω A, ω / B} ( A tritt ein, aber B nicht ). Wir fordern, dass F erfüllt i) F, ii) A F A c F, (.) iii) A, A 2, F n=a n F. F 2 Ω, das (.), i) iii) genügt, heißt eine σ-algebra (über Ω), die de Morgansche Regeln ergeben dann auch Ω = c F, n= A n = ( n= Ac n) c F. Eine Abbildung P F [0, ] mit (N) P (Ω) = ( Normierung ) und (A) A, A 2, F paarweise disjunkt P ( A n ) = n= heißt ein Wahrscheinlichkeitsmaß (auf (Ω, F)). n= P (A n ) P (A) heißt / nennen wir die Wahrscheinlichkeit des Ereignisses A. ( σ-additivität ) (.2) Definition.. Ein Tripel (Ω, F, P ), wobei F 2 Ω die Forderungen (.), i) iii) und P die Forderungen (.2), (N) und (A) erfüllt, heißt ein Wahrscheinlichkeitsraum. Beispiel und Definition.2 (Diskreter Wahrscheinlichkeitsraum). Ω endlich oder abzählbar, p Ω [0, ] Abbildung mit p(ω) =. ω Ω P (A) = p(ω), ω A A Ω 2

14 definiert ein Wahrscheinlichkeitsmaß auf (Ω, 2 Ω ). p heißt die (Wahrscheinlichkeits-)Gewichtsfunktion von P, p(ω) heißt das (Wahrscheinlichkeits-)Gewicht von ω. Dies erfüllt offensichtlich Forderung (.2). Beispiele.3.. (uniforme Wahl aus endlicher Menge, Laplace-Experimente ) #Ω < und p(ω) = #Ω in Bsp..2, z.b. (a) (Wurf eines fairen 6er-Würfels) Ω = {, 2, 3, 4, 5, 6}, p(ω) = /6 für ω Ω (b) (dreimaliger Wurf eines fairen 6er-Würfels) Ω = {(ω, ω 2, ω 3 ) ω i {, 2, 3, 4, 5, 6} für i =, 2, 3}, p((ω, ω 2, ω 3 )) = /6 3 = /26 (c) (Auftakt-Beispiel aus Kapitel 0 mit Diskretisierung auf 32 Bit Genauigkeit) Ω = {(x, y) x = k/2 32, y = l/2 32 mit k, l {0,, 2,..., 2 32 }}, p((x, y)) = /(2 32 ) 2 = 2 64 (d) (n verschiedene Eingaben in zufälliger Reihenfolge) Ω = {(x, x 2,..., x n ) x,..., x n {, 2,..., n} paarweise verschieden} ( symmetrische Gruppe der Ordnung n ), p((x, x 2,..., x n )) = /n! 2. (ein verfälschter Münzwurf) Ω = {Kopf, Zahl}, p(kopf) = 0.6 = p(zahl) 3. (eine winziges Modell für Spam, das Sprache und Status einer betrachtet) Ω = {Deutsch, Englisch} {Spam, keinspam}, p((deutsch, Spam)) = 0.2, p((deutsch, keinspam)) = 0., p((englisch, Spam)) = 0.6, p((englisch, keinspam)) = (Anzahl Würfe, bevor beim wiederholten fairen Münzwurf zum ersten Mal Kopf kommt) Ω = N 0, p(n) = (/2) n (/2) = 2 n für n Ω Bemerkung.4. Wahrscheinlichkeitsräume (Ω, F, P ) gemäß Def.. werden heute, nicht zuletzt wegen des einflussreichen Werks von A.N. Kolmogorov, Grundbegriffe der Wahrscheinlichkeitsrechnung, 933, oft als Basisobjekt der mathematischen Modellierung von Zufallsvorgängen verwendet. Insoweit ist die explizite Wahl eines geeigneten Wahrscheinlichkeitsraums (oft) ein Teil der Arbeit, wenn ein umgangssprachlich formuliertes Problem in Mathematik übersetzt werden soll. Man sollte sich bewusst sein, dass es dabei i.a. viele mögliche Wahlen gibt und dass die Formulierung mit Zufallsvariablen oftmals einen für die Intuition und für das Argumentieren sehr angenehmen Zugang ergibt (siehe Abschnitt.. unten, wo wir sie als Funktionen auf Ω formal definieren) Siehe auch Abschnitt.2 für Hintergrund und weitere Diskussion. 3

15 Lemma.5. Für A, B, A, A 2, F gilt P ( ) = 0 (.3) P (A B) + P (A B) = P (A) + P (B) (endliche Additivität), (.4) zudem gilt auch insbesondere P (A) + P (A c ) = A B P (A) P (B) (Monotonie) (.5) P ( A n ) n= n= P (A n ) (σ-subadditivität) (.6) falls A n n A (d.h. A A 2... mit A = n= A n) oder A n n A Beweis. (.3): P ( ) = P (... ) = (d.h. A A 2... mit A = n= A n), so gilt P (A) = lim n P (A n ) (σ-stetigkeit) (.7) n= (.4): Betrachte zunächst den Fall A B = : P ( ), also P ( ) = 0. P (A B) = P (A B... ) = P (A)+P (B)+ P ( ) Allgemeiner Fall: Schreibe =0 + P ( ) =0 +, d.h. (.4) gilt hier. A B = (A B) (B A) (A B) (paarw. disjunkt) also P (A B) + P (A B) = P (A B) + P (B A) + 2P (A B) = (P (A B) + P (A B)) + (P (B A) + P (A B)) = P (A) + P (B). (.5): P (A) P (A) + P (B A) = P (B) (.6): Stelle A n = A n als disjunkte Vereinigung dar mit A n = A n n A j ( A n ), so ist n= n= j= P ( A n ) = P ( A n) = n= n= n= P (A n) n= P (A n ) (die zweite Gleichung verwendet (A), die letzte (Un-)gleichung verwendet (.5)). (.7): Betrachte zunächst den Fall A n A: Setze A i = A i j<i A j = A i A i (A 0 = ), P (A) = P ( (A i A i )) = i= i= P (A i A i ) = lim P (A i A i ). n n i= =P (A n) Falls A n A, so beachte, dass A c n A gilt, dann verwende obiges zusammen mit (.4). 4

16 Bemerkung.6 (Einschluss-Ausschluss-Formel). Formel (.4) aus Lemma.5 kann man auch folgendermaßen schreiben P (A B) = P (A) + P (B) P (A B) Man kann diese Formel anhand eines Venn-Diagramms veranschaulichen: Der schraffierte Bereich A B wird in P (A) + P (B) doppelt gezählt, in P (A B) aber nur einmal. Ω A B Allgemein gilt für A, A 2,..., A n F (man nennt dies auch die Siebformel ): P ( n A i ) = i= n i= d.h. knapp ausgedrückt n P (A i ) P (A i A j ) i,j= i j + n i,j,k= i j,i k,j k P (A i A j A k ) ± + ( ) n P (A A 2 A n ) P ( n A i ) = i= J {,...,n} ( ) (#J) P ( A i ) (.8) Man kann (.8) per Induktion beweisen, oder siehe Abschnitt.2.3 für einen alternativen Ansatz. Beispiel. Betrachten wir in Bsp..3, (d) mit n = 3 die Ereignisse A i = {(x, x 2, x 3 ) Ω x i = i} für i =, 2, 3. Wenn wir eine uniform verteilte Permutation von, 2, 3 betrachten, so ist A i = {i ist ein Fixpunkt}. Dann ist P (A A 2 A 3 ) = P (A ) + P (A 2 ) + P (A 3 ) P (A A 2 ) P (A A 3 ) P (A 2 A 3 ) + P (A A 2 A 3 ) = = 2 3 die Wahrscheinlichkeit, dass es mindestens einen Fixpunkt gibt. i J Bemerkung.7. Wir lassen hier die philosophische Frage offen, welche Interpretation die Wahrscheinlichkeit P (A) eines Ereignisses A haben soll. Es bieten sich etwa an: naive Interpretation der Wahrscheinlichkeit: Die Natur enthält inhärente Unbestimmtheit ( ist selbst nicht sicher, was sie tut ), und P (A) beschreibt den Grad der Sicherheit, mit dem sie sich für das Ereignis A entscheidet. frequentistische Interpretation der Wahrscheinlichkeit: Wenn man das zufällige Experiment unter exakt denselben Bedingungen sehr oft wiederholte, wäre der relative Anteil der Ausgänge, in denen A eingetreten ist, etwa P (A). 5

17 subjektive Interpretation der Wahrscheinlichkeit: P (A) misst, wie sicher ich mir persönlich bin, dass A eintreten wird. (Beispielsweise: Wieviel Wetteinsatz wäre ich bereit zu bezahlen, wenn mir AC ausgezahlt würde, sofern A eintritt?) [KW, S. vi] schreiben dazu: Es kann nicht darum gehen, eine spezielle Intuition gegenüber den anderen durchzusetzen. Dass sich dies innerhalb der Mathematik auch gar nicht als nötig erweist, ist eine der Stärken mathematischer Wissenschaft. Siehe z.b. auch die Diskussion in [Ge], S. 4 am Ende von Abschn Zufallsvariablen Oft stellt man sich zumindest intuitiv Zufallsvorgänge so vor, dass ein zufälliger Wert beobachtet oder gemessen wurde, mit dem Verständnis, dass sich bei Wiederholung des Experiments möglicherweise ein anderer Wert aus einer gewissen Menge möglicher Werte ergäbe. So kann man die Beispiele.3 auch folgendermaßen aussprechen:. (a) Sei W das Ergebnis eines Wurfs eines fairen 6er-Würfels (Wertebereich {, 2, 3, 4, 5, 6}). (b) Werfe Würfel dreimal, seien W, W 2, W 3 Ergebnisse des., 2., 3. Wurfs des Würfels (W = (W, W 2, W 3 ) hat Wertebereich {, 2, 3, 4, 5, 6} 3 ). (c) Z = (X, Y ) ein zufällig gewähltes Pixel aus [0, ] (aus Auftakt-Beispiel aus Kapitel 0 mit Diskretisierung auf 32 Bit Genauigkeit) (d) n verschiedene Eingaben in zufälliger Reihenfolge: Sei X = (X, X 2,..., X n ) eine zufällige Permutation von, 2,..., n (Wertebereich {(x, x 2,..., x n ) x,..., x n {, 2,..., n} paarweise verschieden}) 2. Sei M das Ergebnis eines (möglicherweise verfälschten) Münzwurfs (Wertebereich {Kopf, Zahl}) 3. Wähle uniform eine aus meiner Inbox (die deutsche und englische s enthält, die jeweils Spam sein können oder nicht), sei X die Sprache und Y der Spam-Status der betrachteten ((X, Y ) hat Wertebereich {Deutsch, Englisch} {Spam, keinspam}) 4. Wir werfen eine faire Münze, bis zum ersten Mal Kopf kommt. G zählt, wie oft bis dahin Zahl gefallen ist. Definition.8. (Ω, F, P ) ein Wahrscheinlichkeitsraum, S eine Menge, eine Abbildung X Ω S nennen wir eine Zufallsvariable, oft abgekürzt ZV (auch: Zufallsgröße) mit Wertebereich S. ZVn und Ereignisse: Für A S schreibt man 2 {X A} = {ω Ω X(ω) A} = X (A) Im Fall, dass S überabzählbar ist, muss man hier strenggenommen fordern, dass es sich um eine sogenannte messbare Abbildung handelt. Für die Zwecke dieser Vorlesung ist es ungefährlich, davon auszugehen, dass uns nur solche Abbildung begegnen werden, wir verzichten daher hier stillschweigend auf die Präzisierung. Siehe auch die Diskussion in Abschnitt Wiederum darf man strenggenommen im Fall, dass S überabzählbar ist, hier nur sogenannte messbare Teilmengen A S betrachten. Wir werden im Fall S = R oder S = R n nur solche Mengen betrachten und verzichten daher auch hier stillschweigend auf die Präzisierung. 6

18 für das Ereignis X nimmt einen Wert in A an, für B = {x} mit x S abkürzend auch oft {X = x} = {X {x}}; im Fall S = R oft auch {X x} = {X (, x]}, etc. Beachte hier die übliche Notationskonvention: ZV werden meist mit Großbuchstaben benannt, mögliche Werte ( Realisierungen ) mit Kleinbuchstaben. Beispiel.9 (Indikatorvariable). A F, A Ω {0, },, falls ω A, A (ω) = 0, falls ω / A A heißt die Indikatorvariable des Ereignisses A. Definition.0. Für eine Zufallsvariable X mit Wertebereich S heißt 3 ρ X A P (X A), A S die Verteilung von X. Eine ZV X heißt diskret, wenn ihr Wertebereich S (endlich oder) abzählbar ist oder zumindest eine (endliche oder) abzählbare Teilmenge S enthält mit P (X S) =. Die Zahlen ρ X ({a}) = P (X = a), a S heißen dann die Verteilungsgewichte von X (oft auch nur: die Gewichte). Wir kürzen oft ab (mit einem kleinen Notationsmissbrauch ) ρ X (a) = ρ X ({a}). Offenbar gilt (mit Eigenschaft (A) aus Forderung (.2)): ρ X (a) 0, ρ X (a) = P (X A) für A S, a A insbesondere ρ X (a) = P (X S) = a S und ρ X ist ein Wahrscheinlichkeitsmaß (auch Wahrscheinlichkeitsverteilung) auf S (d.h. ρ X {Teilmengen von S} [0, ] und die (analogen) Eigenschaften aus Forderung (.2) und aus Lemma.5 gelten, mit Lesung Ω = S). Man schreibt für die Verteilung einer ZV X oft auch L (X) (das L erinnert an English law bzw. Französisch <loi >, d.h. Gesetz ), man schreibt auch X ρ, wenn L (X) = ρ gilt (für eine gewisse Wahrscheinlichkeitsverteilung). Schreibweise. Wir kürzen (auch im Folgenden) oft ab P (X B) = P ({X B}), P (X = x) = P ({X = x}), P (X B, X 2 B 2 ) = P ({X B } {X 2 B 2 }), etc. Beobachtung. (Operationen mit Zufallsvariablen). Zufallsvariablen sind nicht zuletzt deshalb nützlich für die Modellierung zufälliger Vorgänge, weil man mit ihnen gewissermaßen operieren und rechnen kann wie mit den Variablen in einer Programmiersprache: 3 Siehe Fußnote 2. 7

19 Seien X und Y mit Wertebereichen S X bzw. S Y ZVn auf demselben Wahrscheinlichkeitsraum, f S X S eine Abbildung, so können wir die S-wertige ZV f(x) = f X bilden und die S X S Y -wertige ZV (X, Y ). Speziell können wir im Fall S X, S Y R die ZVn X 2, X + Y, X Y, XY, etc. bilden. Mit f wie oben ergibt sich (im diskreten Fall) für die Gewichte von f(x) dann ρ f(x) (s) = P (f(x) = s) = P (X {x S X f(x) = s}) = P (X = x) = ρ X (x) x f(x)=s x f(x)=s für s S Beispiel (Verteilung der Augensumme zweier fairer Würfel). Sei (W, W 2 ) das Ergebnis des. und 2. Wurf eines fairen Würfels, f {, 2,..., 6} 2 {2, 3,..., 2}, (w, w 2 ) w + w 2, so ist P (W + W 2 = s) = P (f(w, W 2 ) = s) = P (W = w, W 2 = w2) (w,w 2 ) w +w 2 =s = #{(w, w 2 ) {, 2,..., 6} 2 w + w 2 = s} 36 = 6 7 s, s {2, 3,..., 2} 36 Bemerkung.2 (Kanonisches Modell für eine ZV). Man kann eine Zufallsvariable X mit Wertebereich S und Verteilung ρ stets in kanonischer Weise mit der Wahl Ω = S und P = ρ und geeignetem F 2 S (im diskreten Fall kann man F = 2 S wählen) als X = Id S auf dem W raum (S, F, ρ) formulieren. Man kann daher genausogut die mathematische Modellierung eines Zufallsphänomens mit der Formulierung geeigneter Zufallsvariablen samt Verteilung beginnen, siehe auch Diskussion und Referenzen in Abschnitt Einige klassische diskrete Verteilungen Beispiel.3 (Ziehen mit und ohne Zurücklegen: Urnenmodelle). Eine Urne enthalte n (mit, 2,..., n nummerierte) Kugeln, wir ziehen zufällig k ( n) heraus. Sei X i die Nummer der Kugel im i-ten Zug, i =,..., k und X = (X, X 2,..., X k ). Wir betrachten 4 mögliche Situationen:. Ziehen mit Zurücklegen, mit Beachtung der Reihenfolge: X hat Werte in W = {(x,..., x k ) x,..., x k {, 2,..., n}} = {, 2,..., n} k, P (X = (x,..., x k )) = n k (d.h. X ist uniform auf {,..., n} k verteilt). 8

20 2. Ziehen ohne Zurücklegen, mit Beachtung der Reihenfolge: X hat Werte in W 2 = {(x,..., x k ) x,..., x k {, 2,..., n}, x i x j für i j}, P (X = (x,..., x k )) = (n k)! = n (n ) (n k + ) n! ( = W 2 ) 3. Ziehen ohne Zurücklegen, ohne Beachtung der (Zug-)Reihenfolge: Wir beobachten nicht X (das hier wie in 2. verteilt wäre), sondern mit ϕ((x,..., x k )) = {x,..., x k } (verwandle Vektor in Menge, d.h. vergiss die Reihenfolge) (nur) Y = ϕ(x) mit Werten in W 3 = {A {, 2,..., n} #A = k}. Es ist P (Y = A) = k!(n k)! = ( n ) n! k ( = W 3, es gibt (n ) versch. k-elementige Teilmengen) k denn P (Y = A) = P (ϕ(x) = A) = P (X ϕ (A)) (n k)! (n k)! = P (X = x) = = k! x W 2 ϕ(x)=a x W 2 ϕ(x)=a n! n! (es gibt k! viele verschiedene Elemente x von W 2 mit ϕ(x) = A, nämlich alle verschiedenen Anordnungen der k Elemente von A). 4. Ziehen mit Zurücklegen, ohne Beachtung der (Zug-)Reihenfolge: Sei X = (X,..., X k ) wie in., wir beobachten aber (nur) Y = (Y,..., Y n ), wobei Y j = #{ i k X i = j} für j =,..., n. (Y j gibt an, wie oft Kugel j gezogen wurde). Y hat Werte in W 4 = {(l, l 2,..., l n ) N n 0 l + l l n = k} Man nennt Y auch einen (zufälligen) Besetzungsvektor. Für (l, l 2,..., l n ) W 4 gibt es k ( ) = l, l 2,..., l n k! l! l 2! l n! verschiedene x = (x,..., x k ) W mit Multinomialkoffizient { i k x i = j} = l j für j =,..., n. 9

21 Begründung: Wir müssen l -er, l 2 2-er,..., l n n-er auf k (angeordnete) Plätze verteilen, dazu gibt es k (k ) (k l ) l! Anz. Mögl keiten, die -er zu platzieren = (k l ) (k l ) (k l l 2 ) l 2! Anz. Mögl keiten, die 2-er zu platzieren (k l l n ) (k l l n ) (k l l n l n + ) l n! Anz. Mögl keiten, die n-er zu platzieren k! l! l 2! l n! = ( k ) l, l 2,..., l n Möglichkeiten, somit ist k P (Y = (l,..., l n )) = ( )( l, l 2,..., l n n )k, (l,..., l n ) W 4 d.h. eine Instanz der Multinomialverteilung, siehe Bsp..8 unten. Bemerkung.4. Es gilt W 4 = ( n + k ) ( = ( n + k k n )) Ein Zähltrick : Lege k Kugeln und n Trennstäbe also insgesamt n + k Objekte in eine Reihe: l Kugeln l 2 Kugeln l 3 = 0 l n Kugeln l n Kugeln Insbesondere ist die Verteilung auf W 4 aus Beispiel.3, 4. nicht die uniforme. Die uniforme Verteilung auf dem W 4 aus Beispiel.3, 4. heißt auch die Bose-Einstein- Verteilung, die in Beispiel.3, 4. betrachtete Verteilung heißt die Maxwell-Boltzmann- Verteilung. Beispiel. Eine Hörsaalreihe habe n Plätze, darauf nehmen m ( n/2) Männer und n m Frauen rein zufällig Platz. Die Wahrscheinlichkeit, dass keine zwei Männer nebeneinander sitzen m ) = (n m+ ( n m ) Beispiel.5 (Hypergeometrische Verteilung). Eine Urne enthalte n Kugeln, davon s schwarze und w weiße (s + w = n), ziehe k-mal ohne Zurücklegen, Hyp s,w,k ({l}) = (s)( w ) l k l ( s+w ), k ist die W keit, genau l schwarze Kugeln zu ziehen. 20 l = 0,,..., k

22 Z.B. ist die W keit, dass der Geber beim Skat genau 3 Asse bekommt = (4 3 )(28 7 ) ( 32 0 ) 0,073. Beispiel.6 (p-münzwurf und Binomialverteilung).. S = {0, }, Ber p ({}) = p = Ber p ({0}) mit einem p [0, ] ( Bernoulli-Verteilung 4 ) 2. n-facher p-münzwurf (mit p [0, ]): S = {0, } n, Ber n p ({(x,..., x n )}) = p {i n xi=} ( p) {i n x i=0} Für X = (X,..., X n ) Ber n p sagt man: X,..., X n unabhängig und X i Ber p für i =, 2,..., n 3. Binomialverteilung (zum Parameter n und p, n N, p [0, ]): Bin n,p ({k}) = ( n k )pk ( p) n k, k S = {0,,..., n} (dies ist die W keit, beim n-fachen Münzwurf genau k Erfolge zu beobachten) Dieser Zusammenhang mit ZVn ausgesprochen: X = (X,..., X n ) Ber n p, Y = X + X X n, so ist Y Bin n,p, denn für k {0,,..., n} und für jede Wahl von (x,..., x n ) {0, } n mit x + + x n = k ist P (X = x,..., X n = x n ) = p k ( p) n k, somit mit B k = {(x,..., x n ) {0,, } n x + + x n = k} P (Y = k) = P ((X,..., X n ) B k ) = = (x,...,x n) B k p k ( p) n k = ( n k )pk ( p) n k P ((X,..., X n ) = (x,..., x n )) (x,...,x n) B k da #B k = n(n )(n 2) (n k+) k! = ( n ). k Insoweit ist dies eine Beispiel-Instanz zu Beobachtung.. Beispiel.7 (Geometrische Verteilung). p (0, ), S = N 0, Geom p ({j}) = p( p) j, j N 0 ist die W keit, bei wiederholtem p-münzwurf genau k Misserfolge vor dem ersten Erfolg zu beobachten. Beachte: Manche Autoren betrachten die geometrische Verteilung auf N (statt auf N 0 ), dann ist das Gewicht p( p) k und die Interpretation k Würfe (einschließlich) bis zum ersten Erfolg. Beispiel.8 (Multinomialverteilung). s {2, 3,... }, p,..., p s [0, ], p + +p s =, n N, S = {(k,..., k s ) N s 0 k + + k s = n}, n Mult n;p,...,p s ({(k,..., k s )}) = ( )p k k, k 2,..., k s pk 2 2 pks s Interpetation: n Züge mit Zurücklegen ohne Beachtung der Reihenfolge aus einer Urne mit s Kugeln (s verschiedene Farben ), Farbe i wird mit W keit p i gezogen), obiges ist die W keit, genau k i -mal Farbe i zu ziehen für i =, 2,..., s. 4 nach Jakob Bernoulli,

23 Beispiel.9 (Poissonverteilung 5 ). λ (0, ), λ λk Poi λ ({k}) = e k!, k N 0 Proposition.20 (Poissonapproximation der Binomialverteilung). Seien p n [0, ] mit p n 0 und np n λ (0, ) für n, so gilt für jedes k N 0 Beweis. Es ist ( n k )pk n( p n ) n k = Bin n,pn ({k}) n Poi λ ({k}). n(n ) (n k + ) ( np k! n k n /k! λ λk e k! für n. λ ) k ( np n n )n e λ ( p n ) k Prop..20 motiviert, warum die Poissonverteilung oft in Anwendungssituationen vorkommt, in denen man viele unabhängige Ereignisse betrachtet, von denen jedes nur mit einer sehr kleinen W keit eintritt man denke etwa an Schädensfälle bei Versicherungen, Zerfallsereignisse in einer Probe radioaktiven Materials oder an genetische Mutationen. Beispiel.2. L. von Bortkewitsch 6 berichtete in seinem Buch Das Gesetz der kleinen Zahlen, Teubner, 898 verschiedene Datensätze, die gut zur Poissonverteilung passen. Speziell in 2, 4. ( Die durch Schlag eines Pferdes im preußischen Heere getöteten ) werden für 20 Jahre ( ) und 0 Armeekops der preußischen Kavallerie, also insgesamt 20 0 = 200 Korpsjahre berichtet, in wievielen davon sich x Todesfälle durch Schlag eines Pferds ereigneten (Tabelle b) auf S. 25): Ergebnis x Anz. Korpsjahre Angenommen, die Anzahl durch Schlag eines Pferdes während eines Jahres in einem Korps getöteter Soldaten wäre Poi λ -verteilt mit λ = 0,6, so würden wir das Resultat x je 200 Poi 0,6 (x)-mal erwarten: 5 nach Siméon Denis Poisson, Ladislaus von Bortkewitsch,

24 Ergebnis x Anz. Korpsjahre 200 Poi 0,6 (x) , , , , 4 0, ,08 Von Bortkewitsch, a.a.o., S. 25 schreibt: Die Kongruenz der Theorie mit der Erfahrung lässt [...], wie man sieht, nichts zu wünschen übrig. Übrigens: Wie ist von Bortkewitsch auf λ = 0,6 gekommen? Die beobachtete mittlere Anzahl Todesfälle pro Korpsjahr in den Daten ist und es ist auch λ = = 0,6 x=0 xpoi λ (x) = x λx x=0 x! e λ = λ x= λ x (x )! e λ = λ ( der Erwartungswert von Poi λ ist λ ) und somit ist obiges der naheliegende Momentenschätzer wir werden darauf zurückkommen. Bsp..2: Das making of mit R: # Daten aus # Ladislaus von Bortkewitsch, # Das Gesetz der kleinen Zahlen, Teubner, 898. # Kap. 2.4 Beispiel: Die durch Schlag eines Pferdes # im preussischen Heer getoeteten # # Fuer 20 Jahre ( ) und 0 Armeekops der # preussischen Kavallerie wird berichtet, in wievielen # "Korpsjahren" x Soldaten des Korps in diesem Jahr durch # Schlag eines Pferdes starben (x=0,,2,3,4 oder >=5) beob <- c(09,65,22,3,,0) label <- c("0","","2","3","4",">=5") # angenommen, die Anzahl durch Schlag eines Pferdes # waehrend eines Jahres in einem Korps # getoeter Soldaten waere Poisson(0.6)-verteilt, # dann sollten wir finden: lambda <- 0.6 angepasst <- round(200*c(dpois(0:4,lambda), -ppois(4,lambda)), digits=2) # die Daten und die theoretischen Werte passen gut zusammen: cat( Ergebn.\t Daten \t Theorie \n ); for (i in :6) cat(paste(label[i], \t,beob[i], \t,angepasst[i], \n )) 23

25 # Ergebn. Daten Theorie # # # # # # >= # von Bortkewitsch, a.a.o., S.25 schreibt: # "Die Kongruenz der Theorie mit der # Erfahrung laesst [...], wie man sieht, # nichts zu wuenschen uebrig." # (Uebrigens: 0.6 ist der Momentenschaetzer) sum(beob[:5]*(0:4))/ Der Fall mit Dichte Zufallsvariablen mit Dichten sind ein kontinuierliches Analogon zu Zufallsvariablen mit Gewichten. In vielen Situationen ist eine Modellierung eines zufälligen Werts X als allgemeine reelle Zahl angemessen (man denke z.b. an Längen, Gewichte, Konzentrationen,...), d.h. die Annahme, dass der Wertebereich S diskret ist, ist zu eng. (Auch wenn man argumentieren könnte, dass die Menge der im Rechner mit gegebener Genauigkeit darstellbaren Werte prinzipiell diskret ist, ist es oft unpraktisch, sich immer auf eine konkrete Diskretisierung festlegen zu müssen.) Beispiel.22 (Approximation der Exponentialverteilung durch reskalierte geometrisch verteilte ZVn). Sei W Geom p mit p, X = pw (hat Werte in pz + R). Für jedes feste K N ist P (W K) = P (W = j) = j=k j=k (, wenn p sehr klein), andererseits ist für (festes) x > 0 p( p) j = ( p) K p ( p) l = ( p) K p ( p) = ( p)k P (X x) = P (pw x) = P (W x/p ) = ( p) x/p ( p) x/p e x (und zwar egal, wie klein p ist). Interpretation z.b.: via Wartezeiten auf sehr fein zeitdiskretisiertem Gitter Frage also: Gibt es eine reellwertige ZV X, für die obiges (P (X x) = e x ) als Identität gilt? Ja, wie wir sehen werden. (In den folgenden Bildern skalieren wir die Höhe der Balken so, dass die Fläche des Balkens bei x = pw gerade P (pw = x) = p P (pw = x)/p entspricht.) l=0 24

26 skaliertes Gewicht P (pw = x)/p p = (skalierter) Wert x = p w, w N 0 skaliertes Gewicht P (pw = x)/p p = (skalierter) Wert x = p w, w N 0 skaliertes Gewicht P (pw = x)/p p = (skalierter) Wert x = p w, w N 0 25

27 skaliertes Gewicht P (pw = x)/p p = (skalierter) Wert x = p w, w N 0 (Die blaue Kurve ist e x ) Beispiel.23 (Approximation einer Normalverteilung durch reskalierte binomialverteilte ZVn). Betrachten wir für S n Bin n,/2 (und verschiedene n) die Verteilungsgewichte, so beobachten wir, dass sich die Form stabilisiert. Zentrieren und stauchen wir: X n = S n n/2 n und skalieren die Balken so, dass die Fläche des Balkens bei (s n/2)/ n gerade P (S n = s) = n np (S n = s) entspricht. Es zeigt sich: Die Balken werden gut durch die Funktion x π/2 exp( 2x 2 ) beschrieben. (dies ist eine Vorschau auf den zentralen Grenzwertsatz) n = 20 P (S20 = s) s 26

28 P (S50 = s) n = s P (S00 = s) n = s skaliertes Gewicht P (S20 = s) n n = (skalierter) Wert x = (s n/2)/ (n) 27

29 skaliertes Gewicht P (S50 = s) n n = (skalierter) Wert x = (s n/2)/ (n) skaliertes Gewicht P (S00 = s) n n = (skalierter) Wert x = (s n/2)/ (n) skaliertes Gewicht P (S20 = s) n n = (skalierter) Wert x = (s n/2)/ (n) 28

30 skaliertes Gewicht P (S50 = s) n n = (skalierter) Wert x = (s n/2)/ (n) skaliertes Gewicht P (S00 = s) n n = (skalierter) Wert x = (s n/2)/ (n) Definition.24. Sei X eine Zufallsvariable mit Werten in einem Intervall S = [a, b] R mit a < b (im Fall a >, b = meinen wir S = [a, ), etc.) und sei f S [0, ) eine integrierbare 7 Funktion mit a b f(x) dx =. X besitzt die Dichte (auch: Wahrscheinlichkeitsdichte) f, wenn gilt P (X [c, d]) = c d f(x) dx für jedes Teilintervall [c, d] S. (.9) Wir notieren oft auch f X für die Dichte einer ZV X (um den Bezug zu X zu betonen, speziell wenn wir mehrere ZVn zugleich ins Auge fassen). X hat Dichte f, so ist P (X [c, d]) = d c f(x) dx: 7 In einem mit den Vorkenntnissen der Hörer verträglichen Sinn: Wir werden nur Beispiele betrachten, in denen f wenigstens stückweise stetig ist, so dass man hier durchaus an das Riemann-Integral (oder auch ganz salopp an die Fläche unter der Kurve ) denken kann. Für einen Bericht zum (allgemeineren) Lebesgue-Integral siehe z.b. [Ge, Tatsache.4]. 29

31 f(x) a c d b x Interpretation der Dichte: X ZV mit Dichte f X, für x R und kleines δ > 0 ist P (X [x, x + δ]) = (wörtlich zumindest für Stetigkeitsstellen x von f X ), also x x+δ f X (a) da δf X (x) f X (x) = lim P (X [x, x + δ]) δ δ 0 Man formuliert dies gelegentlich auch mit infinitesimalen Größen als P (X dx) = f X (x) dx (Dieser suggestive Ausdruck erhält einen Sinn im Sinne der Standard-Analysis, wenn man auf beiden Seiten x über ein Intervall [c, d] integriert, dann erhält man (.9).) Bemerkung. Für eine ZV X mit Dichte f X ist es im Gegensatz zum Fall mit Gewichten nicht besonders sinnvoll, nach der Wahrscheinlichkeit von Ereignissen {X = x} für feste Punkte x R zu fragen, es gilt dann nämlich immer P (X = x) = lim δ 0 P (X [x, x + δ]) = lim x+δ δ 0 x f X (a) da = Beispiel.25 (Einige klassische eindimensionale Verteilungen mit Dichte).. (uniforme Verteilung) a, b R, a < b. Unif [a,b] mit Dichte b a [a,b](x) x x f X (a) da = 0. 30

32 Dichte von Unif[,3] x (x µ)2 2. (Normalverteilung[en]) µ R, σ > 0. N µ,σ 2 mit Dichte 2πσ exp ( 2 2σ ) heißt Normalverteilung mit Mittelwert µ und Varianz σ 2 2. N 0, heißt die Standardnormalverteilung. Dichte von N0, x 3. (Exponentialverteilung[en]) θ > 0, Exp θ hat Dichte θe θx [0, ) (x) 3

33 Dichte von Exp x Definition.26 (Verteilungsfunktion). Für eine Zufallsvariable X mit Werten in R (bzw. in einer Teilmenge S R) heißt die Funktion die Verteilungsfunktion von X. F X (x) = P (X x), x R (.0) Wenn X mit Wertebereich S R die Dichte f X besitzt, so gilt offenbar F X (x) = (mit Setzung f X (a) = 0 für a / S, dem Wertebereich von X). Beispiel.25 (Fortsetzung). x f X (a) da (.). (uniforme Verteilung) a, b R, a < b. Unif [a,b] mit Dichte b a [a,b](x), Verteilungsfunktion max { min { x a b a, }, 0} (x µ)2 2. (Normalverteilung[en]) µ R, σ > 0. N µ,σ 2 mit Dichte 2πσ exp ( 2 2σ ) heißt Normalverteilung mit Mittelwert µ und Varianz σ 2 2. N 0, heißt die Standardnormalverteilung, die Verteilungsfunktion Φ(x) = F N0, (x) = x 2π e z2 /2 dz ist tabelliert bzw. in vielen Computerprogrammen implementiert 3. (Exponentialverteilung[en]) θ > 0, Exp θ hat Dichte θe θx [0, ) (x), Verteilungsfunktion F Expθ (x) = ( e θx ) [0, ) (x) 32

34 Verteilungsfunktion von Unif[,3] x Verteilungsfunktion von N0, x Verteilungsfunktion von Exp x Bemerkung.27. von X ab:. Die Dichte / Verteilungsfunktion von X hängt nur von der Verteilung 33

35 wenn Y = d X ( Gleichheit in Verteilung ), also P (X B) = P (Y B) für alle B gilt, so hat Y dieselbe (offenbar). Wir sprechen daher oft auch kurz von der Dichte bzw. Verteilungsfunktion einer Wahrscheinlichkeitsverteilung auf R, ohne die zugehörige ZV explizit zu machen. 2. Wenn X Dichte f X und Verteilungsfunktion F X besitzt, so ist d dx F X(x) = f X (x) (zumindest an Stetigkeitspunkten von f X, leite (.) nach x ab) 3. X ZV mit Werten in S R mit Verteilungsfunktion F X, c < d, so ist P (X (c, d]) = P (X d) P (X c) = F (d) F (c) (und falls P (X = c) = 0, z.b. weil X eine Dichte besitzt, so ist natürlich auch P (X [c, d]) = P (X = c) + P (X (c, d]) = F (d) F (c)). Für B = n i=(c i, d i ] mit c < d < c 2 < d 2 < < c n < d n ist (mit Eigenschaft (A) aus Forderung.2) P (X B) = n i= P (X (c i, d i ]) = n i= (F X (d i ) F X (c i )) (und allgemeine Mengen B R können auf diese Weise approximiert werden). In diesem Sinne weiß F X alles über die Verteilung von X. 4. (Bezug zum diskreten Fall). Sei X ZV mit (höchstens) abzählbarem Wertebereich S = {x, x 2,... } R und Gewichten ρ X (x n ) wie in in Def..0, d.h. P (X B) = dann ergibt sich als Verteilungsfunktion F X (x) = ρ X (x n ), n x n B ρ X (x n ). n x n x (Diese ist stückweise konstant mit (höchstens) abzählbar vielen Sprüngen.) Verteilungsfunktion von Bin20, x 34

36 5. Stets ist F X nicht-fallend und rechtsstetig (wenn X eine Dichte besitzt, so ist F X stetig) mit lim F X(x) =, lim F X(x) = 0. x x 6. Umgekehrt gibt es zu jeder Funktion F R [0, ] mit den Eigenschaften aus Bem..27, 5. eine ZV X mit F X = F. (Wir kommen darauf zurück, siehe Beob..29 unten.) Definition.28. Die (verallgemeinerte) inverse Funktion von F X, F X (t) = inf{x R F (x) t}, t [0, ] (mit Setzung inf = + ) heißt auch die Quantilfunktion von X. (Beachte, dass die so definierte Funktion FX sich für x R, t [0, ] die Beziehung F X (t) x t F X (x). linksstetig ist. Mit dieser Definition ergibt In der Literatur gibt es leicht verschiedene Definitionen der Quantilfunktion, man prüfe ggfs. jeweils die verwendete Konvention.) Ablesen von F F (x) x Erinnerung: Inverse via Spiegelung an der Diagonalen 35

37 F (x) = t x = F (t) Beobachtung.29 (Erzeugung reeller ZVn mit vorgegebener Verteilung). Sei F R [0, ] eine Verteilungsfunktion, F (t) = inf {x R F (x) t}, t [0, ] die inverse Verteilungsfunktion oder Quantilfunktion (aus Def..28), U reelle ZV, U Unif [0,], dann hat X = F (U) die Verteilungsfunktion F X = F. Beweis. Es gilt F (t) x t F (x), somit ist für x R P (X x) = P (F (U) x) = P (U F (x)) = P (0 U F (x)) = F (x) 0 = F (x). Beispiel.30.. Exp θ hat Verteilungsfunktion F Expθ (x) = ( e θx ) [0, ) (x) mit inverser Funktion F Exp θ (t) = θ log( t), also ist θ log( U) Exp θ (und natürlich ebenso θ log(u)) 2. p(k), k N 0 Wahrscheinlichkeitsgewichte, F (x) = k k x p(k) zugehörige Verteilungsfunktion (vgl. Bem..27, 4.), so hat X = min {n N 0 n k=0 p(k) U} die Gewichte (p(k)) k N0. (Dies ist etwa eine Möglichkeit, eine Poisson-verteilte ZV zu simulieren.) 36

38 Bericht: Verteilungen in R. R verwendet folgende Namenskonvention: Wenn name für eine Verteilung steht, so ist dname die Dichte- bzw. Gewichtsfunktion von name pname die Verteilungsfunktion von name ( p steht für probability distribution function ) qname die Quantilfunktion von name rname simuliert gemäß name ( r steht für random ) Beispiele: Uniforme Verteilung Unif [a,b] : [d p q r]unif(...,min=a,max=b) Normalverteilung N µ,σ 2: [d p q r]norm(...,mean=µ,sd=σ) (beachte: R parametrisiert mit σ, nicht mit σ 2 ) Exponentialverteilung Exp λ : [d p q r]exp(...,rate=λ) Poissonverteilung Poi λ : [d p q r]pois(...,lambda=λ) Binomialverteilung Bin n,p : [d p q r]binom(...,size=n,prob=p) (Siehe auch die Online-Hilfe in R.) Transformation von Dichten In Beob.. hatten wir gesehen, wie Gewichte einer diskreten ZV f(x) aus denen von X (mit Wertebereich S X ) berechnet werden, wenn f S X S eine Funktion ist. Die analoge Frage im Fall mit Dichte beantwortet die folgende Beobachtung. Beobachtung.3. X habe Dichte f X, sei a > 0, b R, so hat Y = ax + b die Dichte denn P (Y y) = P (X y b ) a = f Y (y) = a f X((y b)/a) (y b)/a wir substituieren x = (z b)/a ( z = ax + b), dx dz = /a. Beachte: Y [y, y + δ] X [ y b a, y b a + δ a ]. f X (x) dx = Beispiel.32.. X N 0,, µ R, σ > 0, so ist Y = σx + µ N µ,σ 2. Insbesondere gilt N µ,σ 2((, x]) = Φ((x µ)/σ) 2. X Exp, a > 0, so hat Y = ax die Dichte a e x/a (d.h. Y Exp /a ) y f X ( z b a ) a dz 37

39 Proposition.33 (Allgemeine Dichtetransformation im Fall R ). X reelle ZV mit Dichte f X, x d.h. F X (x) = f X (z) dz, I R (möglicherweise unbeschränktes) offenes Intervall mit P (X I) =, J I, ϕ I J stetig differenzierbar, bijektiv. Dann hat Y = ϕ(x) die Dichte f X (ϕ (y)) f Y (y) = ϕ (ϕ (y)), y J, 0, y / J. Beachte: Wenn ϕ nicht bijektiv ist, so besitzt ϕ(x) i.a. keine Dichte. Sei z.b. X N 0,, ϕ(x) = (0, ) (x), so ist ϕ(x) Ber /2, d.h. ϕ(x) ist hier diskret. Beweis. ϕ muss offenbar strikt wachsend oder strikt fallend sein, wir betrachten den wachsenden Fall. Für z < inf J ist P (Y z) = 0, für z > sup J ist P (Y z) =. Sei z J: P (Y z) = P (ϕ(x) z) = P (X ϕ (z)) = ϕ (z) f X (x) dx = z wobei wir x = ϕ (y) (und somit dx dy = ϕ (ϕ (y)) unten. f X (ϕ (y)) ϕ (ϕ (y)) dy, substituiert haben). Siehe auch die Skizze y + δ y ϕ ϕ (y + δ) ϕ (y) + δ (ϕ ) (y) = ϕ (y) + δ ϕ (ϕ (y)) J I x = ϕ (y) Beispiel.34.. U Unif [0,], so hat X = log(u) Dichte e x für x 0 (wie wir in Bsp..30 gesehen haben) 2. U Unif [0,], n N, so hat Y = U n Dichte f Y (y) = n y /n (für 0 y ) 38

40 Dichten im mehrdimensionalen Fall Wir werden im weiteren Verlauf Gelegenheit haben, mehrdimensionale Zufallsvariablen mit Dichte zu betrachten, hier zunächst die grundlegenden Begriffe und Definitionen dazu. Das multivariate Analogon zu Def..24 ist folgende Definition.35. Sei f R d R + eine (geeignet) integrierbare 8 Funktion mit R d f(x) dx = f(x,..., x d ) dx dx d =. Eine Zufallsvariable X mit Werten in R d besitzt die Dichte f, wenn für (geeignete 9 ) Teilmengen A R d gilt P (X A) = A f(x) dx = A (x,..., x d )f(x,..., x d ) dx dx d. Analog zum -dimensionalen Fall besitzt die Dichte f X einer d-dimensionalen ZV X die Interpretation P (X [x, x + δ ] [x 2, x 2 + δ 2 ] [x d + δ d ]) δ δ 2 δ d f X ((x,..., x d )) für (x,..., x d ) R d und 0 < δ, δ 2,..., δ d. Beispiel.36.. Uniforme oder Laplace-Verteilung auf einem beschränkten Gebiet S R d : X mit Dichte f X (x) = vol(s) S(x) erfüllt für A S (geeignet 0 ) P (X A) = A vol(s) S(x) dx = A dx S dx = vol(a) vol(s). (Z.B. der zufällig gewählte Punkt Z aus Kapitel 0 war uniform auf S = [0, ] 2 verteilt.) 2. Die 2-dimensionale Standard-Normalverteilung hat Dichte f(x, y) = 2π exp ( 2 (x2 + y 2 )) 0.5 f(x, y) x 0 8 Für die Zwecke dieser Vorlesung genügt es, an ein d-fach iteriertes Riemann-Integral zu denken. 9 Damit das multivariate Integral wohldefiniert ist, muss A strenggenommen gewisse sogenannte Messbarkeitseigenschaften erfüllen. Dies wird für die von uns betrachteten Beispiele, z.b. A ein verallgemeinerter Quader oder A eine Menge mit stückweise differenzierbarem Rand, immer erfüllt sein. 0 in dem Sinne, dass ein d-dimensionales Volumen vol(a) definierbar ist y 2 39

41 y x 3. Allgemeiner: Die d-dimensionale Standard-Normalverteilung hat Dichte f(x,..., x d ) = (2π) d/2 exp ( 2 (x2 + + x 2 d )).2 Kleingedrucktes Dieses Unterkapitel sei allen interessierten Lesern an Herz gelegt, es kann aber übersprungen werden, ohne im weiteren Verlauf der Vorlesung abgehängt zu werden..2. Eine Anmerkung zur Maßtheorie Dieser Abschnitt dient nur der Vollständigkeit, zum Vergleich mit der (Lehrbuch-) Literatur und zur Information besonders interessierter (und ggfs. schon anderweitig vorgebildeter) Leser. Alle in dieser Vorlesung in Beispielen vorkommenden Mengen und Funktionen werden geeignete Messbarkeitseigenschaften haben, auch wenn wir dies nicht explizit erwähnen. In der Situation, dass man überabzählbar große Wertebereiche S für Zufallsvariablen betrachten möchte (was beispielsweise schon den sehr naheliegenden Fall S = R betrifft), muss man damit es am Ende tatsächlich eine Wahrscheinlichkeit auf den Ereignissen mit den Eigenschaften aus Forderung.2 gibt in Def..8 gewisse Einschränkungen an die Menge der erlaubten Wertebereiche S und Abbildungen X sowie an die Abbildungen f zwischen Wertebereichen in Beob.. machen. Im Jargon der Maßtheorie muss jedes solche S zunächst ein messbarer Raum sein, d.h. es ist eine σ-algebra, d.h. eine Teilmenge S 2 S = {B B S} der Potenzmenge von S ausgezeichnet, die erfüllt: S, A S A c S, A, A 2, S A n S n= Falls S abzählbar ist, so kann man einfach S = 2 S wählen, was offenbar allen obigen Bedingungen genügt. Im überabzählbaren Fall geht dies i.a. nicht, siehe z.b. die Diskussion in [Ge, Abschnitt..2 ] ( Warum so vorsichtig? ). 40

42 Im Fall S = R oder S = R d wählt man für S meist die sogenannte Borel-σ-Algebra, die kleinste σ-algebra, die alle offenen Mengen enthält. Sind weiter (S, S ) und (S, S ) messbare Räume (die wir als Wertebereiche für die Zufallsvariablen ins Auge fassen), so lassen wir nicht alle Abbildungen f S S zu, sondern nur messbare (streng: S -S -messbare) Abbildungen f, d.h. es muss gelten B S f (S ) = {a S f(a) B } S. Für einen gegebenen Wahrscheinlichkeitsraum (Ω, F, P ), in dem offenbar (Ω, F ) einen messbaren Raum bilden, vgl. Def.., und Wertebereich (S, S ) sind nicht alle Funktionen X Ω S zugelassen, sondern nur F -S -messbare. Weiterhin sind für eine S-wertige ZV X als Ereignisse in Def..8 nur {X A} mit A S zugelassen (für A S mit A / S wird die Frage, ob X in A liegt, nicht erlaubt )..2.2 Alternativer Zugang: Zufallsvariablen als Fundamentalobjekte der Wahrscheinlichkeitstheorie Wir haben in diesem Kapitel, dem traditionellen Weg folgend, Wahrscheinlichkeitsräume und Ereignisse an den Anfang der Diskussion gestellt (vgl. Def..) und dann Zufallsvariablen (vgl. Def..8) sozusagen als abgeleitete Objekte erhalten. Man kann logisch äquivalent die Zufallsvariablen an den Anfang stellen und dann daraus Ereignisse via Indikatorvariable (ähnlich zu Bsp..9) ableiten. Diesen Zugang findet man im Detail in [K09] und in [KW], dieser Weg wurde auch in der Version der Vorlesungsnotizen aus SS207 [SfI7] begangen. Dieses Mal bleibt es hauptsächlich aus Zeitgründen das SS 208 ist an der JGU besonders kurz nur beim üblichen Zugang..2.3 Zur Einschluss-Ausschluss-Formel Hier der Vollständigkeit halber ein Beweis der Einschluss-Ausschluss-Formel (.8): Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum und A i F, wobei i {,..., n} = I, so gilt P ( A i ) = ( ) K P ( A k ). i I K I k K Wir gehen dafür in mehreren Schritten vor. Für J I sei B J = A j A c j, j J j I/J dabei sei ein Durchschnitt mit leerer Indexmenge definiert als Ω, d.h. j A j = Ω. Wir zeigen die folgende Aussagen: (a) Für jedes K I gilt (b) Für jedes J I gilt P ( A k ) = P (B J ). k K K J I P (B J ) = ( ) K/J P ( A k ). J K I k K 4

43 (c) Die oben angegebene Einschluss-Ausschluss-Formel folgt, indem wir J = setzen und Aussage (b) mit P ( A c i) = P ( A i ) i I i I verwenden. Zu (a): Wir zeigen zunächst, dass B J B J = für J J und B J = Ω. J I Sei J J, d.h. es gibt ein j (J J) ( J J), dann gilt B J B J A j A c j =. Für x Ω sei J(x) = {j I x A j }, so ist nach Definition x B J(x). Da zu jedem x Ω ein solches J(x) I gehört, ist Ω J J I B J Ω, d.h. es gilt J J I B J = Ω. Sei nun K I gegeben. Nach obigem ist A k = {x Ω J(x) K} = B J, (.2) k K J K J I und die Zerlegung ist disjunkt. (a) folgt somit aus der Additivitätseigenschaft des Wahrscheinlichkeitsmaßes P. Zu (b): Sei J I fest gewählt. Es ist nach (a) ( ) K/J P ( A k ) = K J K I k K K J K I ( ) K/J = ( ) K/J P (B J ) J J J I K J K J = P (B J ) ( ) K/J J J J I K J K J, J = =J 0, J J J K J I = P (B J ). P (B J ) Für die letzte Gleichung beachten wir beispielsweise folgendes: Sei J J, d.h. es gibt ein j J J, dann ist ( ) K/J = K J K J (( ) K/J + ( ) (K {j })/J ) = K J K J {j } (Bemerkung: Teil (b) ist ein Spezialfall der sogenannten Möbius-Inversion.) Zu (c): Es ist P ( i I A i ) = P (( i I A i ) c ) = P ( A c i) = P (B ) i I = K K I ( ) K P ( A k ) = ( ) 0 P (Ω) + k K = ( ) K P ( A k ). K K I k K K K I 0 = 0. K J K J {j } ( ) K P ( A k ) k K 42

44 .3 Bedingte Wahrscheinlichkeiten, Unabhängigkeit, gemeinsame Verteilung.3. Bedingte Wahrscheinlichkeit Beispiel.37. Wir ziehen zwei Kugeln ohne Zurücklegen aus einer Urne mit s > 0 schwarzen und w > 0 weißen Kugeln. Wie in Bsp..3, 2. stellen wir uns die Kugeln nummeriert vor, Nr.,..., w seien weiß, w +,..., w + s schwarz. Sei X i die Nr. der Kugel im i-ten Zug (=, 2). Also: X = (X, X 2 ) ist uniform verteilt auf S = {(i, j) i, j w + s, i j} (vgl. Bsp..3, 2.). Betrachte die Ereignisse A = {erste Kugel ist weiß} = {X w}, B = {zweite Kugel ist weiß} = {X 2 w} ( = {X {(i, j) S j w}}) Ohne weitere Informationen ist P (B) = P (X {(i, j) S j w}) = (und übrigens = P (A)) #{(i, j) S j w} #S = w(w + s ) (w + s)(w + s ) = w w + s. Nehmen wir an, wir haben den ersten Zug beobachtet und gesehen, dass A eingetreten ist. Mit dieser Information sollte die W keit von B w w + s < w w + s sein (denn es wurde schon eine weiße Kugel verbraucht ). Beobachtung und Definition.38. Sei (Ω, F, P ) W raum, A F mit P (A) > 0. Für B F P (B A) = P (B A) P (A) heißt bedingte Wahrscheinlichkeit von B, gegeben A. P ( A) ist ein Wahrscheinlichkeitsmaß auf Ω, d.h. die Eigenschaften aus Forderung (.2), Normierung und σ-additivität sind erfüllt. (Prüfung per Inspektion) Wir lassen P (B A) undefiniert, wenn P (A) = 0. In Beispiel.37 ist P (A) = w w + s, P (A B) = P (X w, X 2 w) = also ergibt sich tatsächlich P (B A) = w w + s. w(w ) (w + s)(w + s ), 43

45 Bemerkung.39 ( Natürlichkeit von Definition.38 ). Nehmen wir an, wir möchten angesichts der Information A ist eingetreten das W maß P revidieren zu einem W maß P mit. P (A) = (d.h. A ist sicher unter P ) und 2. P (B) = ca P (B) für B A mit einem c A > 0 (d.h. Teilereignisse von A erhalten bis auf Normierung ihr altes Gewicht). Dann gilt Beweis. Für C F ist P (C) = P (A C) P (A) ( = P (C A) ) für alle C F. P (C) = P (A C) + P 2. (C A) = c A P (C), P (A c )=0 mit Wahl C = A und. folgt = P (A) = c A P (A), also c A = /P (A). Bemerkung.40. P (B A) P (B) kann nicht notwendigerweise als Kausalität (im Sinne von A beeinflusst, ob B eintritt ) interpretiert werden: So ist in Beispiel.37 ist auch P (A B) = P (B A) P (B) = w w + s P (A), aber es passt nicht zu unserer Vorstellung, dass der 2. Zug den. Zug beeinflusst. Satz.4. Sei (Ω, F, P ) ein Wahrscheinlichkeitsraum, I eine (höchstens abzählbare) Indexmenge, B i F paarweise disjunkt mit P ( i I B i ) = und P (B i ) > 0 für i I.. (Formel von der totalen Wahrscheinlichkeit) Für A F gilt P (A) = P (B i )P (A B i ). i I Man kann dies anhand eines Diagramms veranschaulichen: P (A B i ) ist der Anteil von A B i an der Wahrscheinlichkeitsmasse P (B i ) von B i 2. (Formel von Bayes ) Für A F mit P (A) > 0 und jedes k I gilt Ω A B B 2 B 3 B 4 P (B k A) = P (B k )P (A B k ) i I P (B i )P (A B i ) nach Thomas Bayes, ; die Arbeit (die eine Frage von Laplace beantwortet) wurde posthum 763 publiziert 44

46 Insbesondere gilt für Ereignisse A, B mit P (A) > 0 P (B A) = (verwende Zerlegung B B c = Ω) Beweis.. Mit Definition.38 ist i I P (B i )P (A B i ) = i I (verwende die (σ-)additivität von P ). P (B)P (A B) P (B)P (A B) + P (B c )P (A B c ) P (A B i ) = P ( (A B i )) = P (A) i I 2. Der Nenner ist = P (A) nach., der Zähler ist = P (A B k ) nach Definition. Beispiel.42 (Verrauschter Übertragungskanal). Ein (einzelnes) Bit X (aus {0, }, es gelte P (X = ) = a (0, )) wird über einen fehleranfälligen Kanal gesendet, der jede mit W keit f und jede 0 mit W keit f 0 flippt, sei Y das empfangene Bit. also Dann ist P (Y = 0 X = ) = f, P (Y = X = ) = f, P (Y = X = 0) = f 0, P (Y = 0 X = 0) = f 0, P (Y = ) = P (X = )P (Y = X = ) + P (X = 0)P (Y = X = 0) = a( f ) + ( a)f 0, P (Y = 0) = P (X = 0)P (Y = 0 X = 0) + P (X = )P (Y = 0 X = ) = ( a)( f 0 ) + af und P (X = )P (Y = X = ) P (X = Y = ) = P (X = )P (Y = X = ) + P (X = 0)P (Y = X = 0) a( f ) =, a( f ) + ( a)f 0 P (X = 0)P (Y = 0 X = 0) P (X = 0 Y = 0) = P (X = 0)P (Y = 0 X = 0) + P (X = )P (Y = 0 X = ) ( a)( f 0 ) = ( a)( f 0 ) + af Z.B. für die konkreten Werte a = 0.3, f = 0.05, f 0 = 0. ergibt sich P (Y = ) = P (X = Y = ) 0.803, P (X = 0 Y = 0) Beispiel.43 (Medizinische Reihenuntersuchung). Eine Krankheit komme bei 2% der Bevölkerung vor ( Prävalenz 2% ), ein Test schlage bei 95% der Kranken an ( Sensitivität 95% ), 45

47 aber auch bei 0% der Gesunden ( Spezifität 90% ). Eine zufällig gewählte Person wird mit positivem Resultat getestet. Wie wahrscheinlich ist es, dass sie tatsächlich krank ist? Sei A = {Test fällt positiv aus}, B = {getestete Person ist krank}, also P (B) = 0,02, P (A B) = 0,95, P (A B c ) = 0,, somit P (B A) = P (B)P (A B) P (B)P (A B) + P (B c )P (A B c ) = 0,02 0,95 0,02 0,95 + 0,98 0, 0,62 (wir sehen: geringe positive Korrektheit ), andererseits P (B A c ) = P (B)P (A c B) P (B)P (A c B) + P (B c )P (A c B c ) = 0,02 0,05 0,02 0,05 + 0,98 0,9 0,00 (recht hohe negative Korrektheit ). Demnach: Ein negatives Testergebnis schließt die Krankheit mit hoher W keit aus, ein positives Testergebnis sollte eher als der Fall sollte weiter beobachtet / untersucht werden interpretiert werden als die Testperson ist krank. S.a. Gerd Gigerenzer, Das Einmaleins der Skepsis, Berlin Verlag, 2002, der auch einlädt, den Sachverhalt anschaulich anhand einer Vierfelder-Tafel bezogen auf eine Gesamtpopulation der Größe 000 zu betrachten: krank gesund Σ pos. getestet neg. getestet Σ Beobachtung.44 (Multiplikationsformel). A, A 2,..., A n F Ereignisse (auf einem W raum (Ω, F, P ) erklärt) mit P (A A n ) > 0, so ist P (A A 2 A n ) = P (A )P (A 2 A )P (A 3 A A 2 ) P (A n A A n ). (Beweis per Inspektion, das Produkt rechts teleskopiert) Betrachten wir z.b. in der Situation von Bsp..37 (Ziehen ohne Zurücklegen aus Urne mit s schwarzen und w weißen Kugeln) drei Züge, sei A = {erste Kugel ist weiß}, A 2 = {zweite Kugel ist weiß}, A 3 = {dritte Kugel ist schwarz}, so ist P (A ) = also P (A A 2 A 3 ) = w s + w, P (A 2 A ) = w s + w, P (A 3 A A 2 ) = s s + w 2, w s + w w s + w s s + w 2 = w(w )s (s + w)(s + w )(s + w 2). 46

48 .3.2 Gemeinsame Verteilung und Randverteilungen Definition.45 (Gemeinsame Verteilung und Marginalverteilungen). Seien X, X 2,..., X d ZVn (die auf einem gemeinsamen W raum (Ω, F, P ) definiert sind), X i habe Werte in S i, X = (X, X 2,..., X d ) die Produkt-Zufallsvariable (mit Werten in S S d ), so heißt L (X) die gemeinsame Verteilung der X, X 2,..., X d (L (X) ist ein Wahrscheinlichkeitsmaß auf dem Wertebereich von X, d.h. auf dem Produktraum S S d, vgl. Definition.0). L (X i ) heißt die i-te Randverteilung (oder Marginalverteilung) von X. Beispiel. Fassen wir die Häufigkeitstabelle (normiert auf Gesamtsumme = ) aus Bsp..43 als Verteilungstafel der gemeinsamen Verteilung von X ( Testergebnis mit Werten in S = {positiv, negativ}) und X 2 ( Gesundheitszustand mit Werten in S 2 = {krank, gesund}) auf: X X 2 krank gesund positiv negativ Beispiel.46.. Sei X = (X, Y ) uniform verteilt auf dem (diskreten) Quadrat Q L = {0,,..., L } 2 = {(x, y) N 2 0 max{x, y} < L} (mit L N), d.h. P (X = x, Y = y) = = y für x, y {0,,..., L }. #Q L L 2 Somit ist P (X = x) = L y=0 P (X = x, Y = y) = L ebenso P (Y = y) = L für 0 y < L. x für 0 x < L und Wir sehen in diesem Fall: P (X = x, Y = y) = P (X = x) P (Y = y), d.h. die gemeinsamen Gewichte erhält man als Produkt der Randverteilungs-Gewichte. Man sagt dazu auch: X und Y sind unabhängig (siehe Def..5 unten für die allgemeine Definition). 2. Sei X = (X 2, Y 2 ) uniform verteilt auf dem (diskreten) Dreieck D L = {(x, y) N 2 0 x + y < L}, d.h. 2 y P (X 2 = x, Y 2 = y) = = für (x, y) D L #D L L(L + ) Somit ist P (X 2 = x) = y P (X 2 = x, Y 2 = y) = L x #D L = 2(L x) L(L+) für 0 x < L und analog P (Y 2 = y) = 2(L y) L(L+) für 0 y < L. x Wir sehen in diesem Fall: P (X 2 = x, Y 2 = y) P (X 2 = x) P (Y 2 = y), die Koordinaten X 2 und Y 2 sind nicht unabhängig. 47

49 3. Sei X = (X 3, Y 3 ) uniform verteilt auf der (diskreten, verschobenen) Nebendiagonale N L = {(x, y) N 2 0 x + y = L}, d.h. P (X 3 = x, Y 3 = y) = = y #N L L für (x, y) N L Somit ist P (X 3 = x) = y P (X 3 = x, Y 3 = y) = L für 0 x < L und analog P (Y 3 = y) = L für 0 y < L. x Wir sehen in diesem Fall: P (X 3 = x, Y 3 = y) P (X 3 = x) P (Y 3 = y), die Koordinaten X 3 und Y 3 sind nicht unabhängig. (Es gilt hier sogar Y 3 = L X 3, d.h. es gibt einen deterministischen Zusammenhang.) Zudem sehen wir an. und 3. zusammen: Die Randverteilungen legen die gemeinsame Verteilung nicht fest. So gilt L (X ) = L (X 3 ) und L (Y ) = L (Y 3 ) (man schreibt dies auch als X = d X 3, Y = d Y 3, Gleichheit in Verteilung ), aber L ((X, Y )) L ((X 3, Y 3 )). Bedingte Verteilung und mehrstufige Experimente Oft betrachtet man folgende Situation: Wir haben ZVn X, X 2,..., X n im Sinn und kennen. die Verteilung von X, 2. für 2 k n die bedingte Verteilung von X k, wenn X, X 2,..., X k schon beobachtet wurden. (d.h. für beliebige beobachtete Werte x, x 2,..., x k kennen wir P (X k X = x,..., X k = x k )) Dann kann man die gemeinsame Verteilung (zumindest im diskreten Fall, d.h. die gemeinsamen Gewichte) des Vektors (X, X 2,..., X n ) mittels der Multiplikationsformel (Beob..44, lese dort A i = {X i = x i }) bestimmen ( Pfadregel ): P (X = x, X 2 = X 2,..., X n = x n ) = P (X = x ) P (X 2 = x 2 X = x ) P (X 3 = x 3 X = x, X 2 = x 2 ) P (X n = x n X = x, X 2 = x 2,..., X n = x n ) (.3) Man stellt Rechnungen, die die verschiedenen Fälle in dieser Weise aufzählen, oft mittels eines Baumdiagramms dar, wie in dem folgenden Beispiel. Beispiel.47. Wir haben eine faire Münze M und zwei gezinkte Münzen M 2, M 3 (deren Seiten jeweils mit 0 und beschriftet seien), wobei P (M 2 = ) = 3 4, P (M 3 = ) = 4. Wir werfen erst M, wenn M den Wert zeigt, so werfen wir dann M 2, sonst M 3. Sei X i = Resultat des i-ten Wurfs, i =, 2. 48

50 Somit S = S 2 = {0, }, P (X = 0) = P (X = ) = 2, P (X 2 = X = ) = 3 4 = P (X 2 = 0 X = ), P (X 2 = X = 0) = 4 = P (X 2 = 0 X = 0) P (X = ) = 2 P (X = 0) = 2 X = X = 0 P (X 2 = X = ) = 3 4 P (X 2 = 0 X = ) = 4 P (X 2 = X = 0) = 4 P (X 2 = 0 X = 0) = 3 4 (X, X 2 ) = (, ) (X, X 2 ) = (, 0) (X, X 2 ) = (0, ) Die gemeinsame Verteilung von (X, X 2 ) ist damit X X 2 0 (X, X 2 ) = (0, 0) = = = = Wir sehen hier wieder: Die Randverteilungen legen (i.a.) nicht die gemeinsame Verteilung fest. Es ist P (X = ) = P (X 2 = ) = 2 (und dieselben Randverteilungen ergäben sich, wenn man zwei Mal M wirft, aber die gemeinsame Verteilung wäre eine andere). 2 Beispiel.48. Nehmen wir an, in der Situation von Bsp..42 wird das zufällige Bit X sicherheitshalber zweimal gesendet (wobei jedesmal unabhängig mit den genannten W keiten ein Übertragungsfehler auftritt), seien Y und Y 2 die beiden empfangenen Bits, Z = {Y =Y 2 }, Z 2 = {Y =Y 2 =X} (beachte, dass der Empfänger Z beobachten kann, nicht aber Z 2 ). Dann ist wegen {Z 2 = } {Z = } P (Z 2 = Z ) = P (Z 2 = ) P (Z = ) (dies ist die Wahrscheinlichkeit, mit der ein Empfänger, der den gesendeten Bits vertraut, sofern er zweimal dasselbe empfangen hat, richtig liegt ). Wir fassen die möglichen Ausgänge von (X, Y, Y 2 ) (und die sich daraus ergebenden Werte von Z, Z 2 ) in einem Baumdiagramm zusammen: 49

51 a a X = 0 X = f 0 f 0 f f X = 0, Y = 0 X = 0, Y = X =, Y = 0 X =, Y = f 0 f 0 f 0 f 0 f f f f X = 0, Y = 0, Y 2 = 0, Z =, Z 2 = W keit ( a) ( f 0 ) 2 X = 0, Y = 0, Y 2 =, Z = 0, Z 2 = 0 W keit ( a) ( f 0 )f 0 X = 0, Y =, Y 2 = 0, Z = 0, Z 2 = 0 W keit ( a) f 0 ( f 0 ) X = 0, Y =, Y 2 =, Z =, Z 2 = 0 W keit ( a)f 2 0 X =, Y = 0, Y 2 = 0, Z =, Z 2 = 0 W keit af 2 X =, Y =, Y 2 = 0, Z = 0, Z 2 = 0 W keit af ( f ) X =, Y =, Y 2 = 0, Z = 0, Z 2 = 0 W keit a( f ) f X =, Y =, Y 2 =, Z =, Z 2 = W keit a ( f ) 2 Wir sehen: P (Z = ) = ( a)( f 0 ) 2 + ( a)f af 2 + a( f ) 2, P (Z 2 = ) = ( a)( f 0 ) 2 + a( f ) 2, P (Z 2 = Z = ) = ( a)( f 0 ) 2 + a( f ) 2 ( a)( f 0 ) 2 + ( a)f af 2 + a( f ) 2. Für die konkreten Zahlenwerte aus Beispiel.42 (a = 0.3, f = 0.05, f 0 = 0.) ergibt sich P (Z 2 = Z = ) Unabhängigkeit Definition.49. Ereignisse A und B (auf demselben W raum) heißen (stochastisch) unabhängig, falls gilt P (A B) = P (A)P (B) (Sofern P (A) > 0, so gilt dann auch P (B A) = P (B), d.h. die bedingte und die unbedingte W keit von B stimmen überein, analog mit vertauschten Rollen.) Allgemein: Ereignisse A, A 2,..., A n heißen (stochastisch) unabhängig, falls gilt P ( i J A i ) = P (A i ) für alle J {, 2,..., n} (.4) i J 50

52 (für unendlich viele Ereignisse A, A 2,... : obiges für jedes endliche J N). Beispiel. Wir ziehen eine Karte (nennen wir sie K) aus einem gut gemischtem Skatblatt, sei A = {K ist ein As}, B = {K ist kreuz}. Es ist P (A) = 4 32 = 8, P (B) = 8 32 = 4, P (A B) = 32 = 8 4 = P (A) P (B), d.h. A und B sind unabhängig. Aber auch: Ziehe eine zweite Karte K 2 (ohne K zurückzustecken), sei C = {K 2 ist kreuz}. Es ist P (C) = = , P (A C) = 32 3 = 32 = P (A) P (C), d.h. auch A und C sind unabhängig (was vielleicht zumindest auf den ersten Blick nicht zur Intuition passt). Die Ereignisse B und C sind nicht unabhängig. Bemerkung.50.. Sind Ereignisse A, A 2,..., A n unabhängig, so gilt dies offenbar auch für jede Teilfamilie A i,..., A ik (mit i < < i k n). 2. Es genügt i.a. nicht, in (.4) nur Paare zu prüfen. Beispiel: Wir werfen dreimal eine faire Münze, mit Ergebnissen W, W 2, W 3, sei A = {W = W 2 }, A 2 = {W = W 3 }, A 3 = {W 2 = W 3 }. Es ist P (A i ) = 2, P (A i A j ) = = 4 = P (A i)p (A j ) für i j, i, j {, 2, 3}, aber P (A A 2 A 3 ) = 4 P (A )P (A 2 )P (A 3 ). Man sagt dazu, dass die Ereignisse A i hier paarweise unabhängig sind. Diskussion.. Stochastische Unabhängigkeit ist eine (gemeinsame) Eigenschaft von Ereignissen und deren Wahrscheinlichkeiten; (Un-)abhängigkeit ist nicht automatisch mit (Nicht-)Existenz eines kausalen Zusammenhangs gleichzusetzen. Beispiel: Wir befragen eine zufällig an einem Samstagnachmittag auf dem Mainzer Gutenbergplatz ausgewählte Testperson. Die Ereignisse hat Schuhgröße 4 und hat Führerschein sind nicht unabhängig (gegeben {hat Schuhgröße 4} handelt es sich vermutlich eher um einen Erwachsenen, daher ist die Chance, dass die Person auch einen Führerschein hat größer als der Anteil der Führerscheinbesitzer in der Gesamtbevölkerung, die auch viele Kinder umfasst). Trotzdem wäre die Behauptung, dass große Füße Führerscheine hervorbringen, natürlich unsinnig. 2. Nichtsdestoweniger modelliert man die erneute Wiederholung eines gewissen zufälligen Experiments unter gleichen Bedingungen (oder auch die Befragung verschiedener Versuchspersonen aus einer großen Grundgesamtheit) zumeist mittels (angenommener) stochastischer Unabhängigkeit. Die Annahme unabhängiger Kopien eines gewissen Zufallsexperiments bildet häufig einen zentralen Ansatzpunkt statistischer Analysen. Unabhängige Zufallsvariablen Definition.5. Zufallsvariablen X, X 2,..., X d (die auf einem gemeinsamen W raum definiert sind) heißen (stochastisch) unabhängig, wenn für alle Ereignisse {X i B i } gilt P (X B, X 2 B 2,..., X d B d ) = 5 d i= P (X i B i ) (.5)

53 Beobachtung.52. X, X 2,..., X n ZVn, X i habe Werte in S i, S i abzählbar für i =, 2,..., n. Dann sind X, X 2,..., X n unabhängig g.d.w. gilt x S, x 2 S 2,..., x n S n P (X = x, X 2 = x 2,..., X n = x n ) = (d.h. die gemeinsamen Gewichte haben Produktgestalt). Beweis. : Klar (wähle B i = {x i } in (.5)). : Seien B S,... B n S n, es ist n i= P (X i = x i ) P ({X B } {X n B n }) = P ( {X = x,..., X n = x n }) (x,...,x n) B B n = x B,...,x n B n P (X = x,..., X n = x n ) =P (X =x ) P (X n=x n) = x B P (X = x ) x n B n P (X n = x n ) = P (X B ) P (X n B n ). Beobachtung und Definition.53. Für unabhängige Zufallsvariablen X,..., X n ist also die gemeinsame Verteilung, d.h. die Verteilung von X = (X,..., X n ) durch die Randverteilungen festgelegt (siehe Def..45). Man nennt dann µ = L (X) das Produkt der µ = L (X ),..., µ n = L (X n ) und schreibt µ = µ µ 2 µ n Bemerkung.54. Sind ZVn X,..., X n unabhängig, so auch. jede Teilfamilie X i,..., X ik (mit i < < i k n) (wähle B i = S i in (.5) für i / {i,..., i k }) ; 2. f (X ), f 2 (X 2 ),..., f n (X n ) für Funktionen f i S i S i (beachte {f i (X i ) B i } = {X i fi (B i )} in (.5)) 3. In Def..5 genügt es i.a. nicht, jeweils nur Paare auf Unabhängigkeit zu prüfen: Beispiel (wir sprechen Bsp..50, 2. mit ZVn aus): Seien X, X 2, X 3 unabhängige faire Münzwürfe P (X i = 0) = P (X i = ) = 2, Y = {X =X 2 }, Y 2 = {X =X 3 }, Y 3 = {X2 =X 3 }. Dann sind jeweils Y und Y 2, Y und Y 3, Y 2 und Y 3 unabhängig, aber Y, Y 2, Y 3 zusammen nicht. (Es ist P (Y i = ) = 2, z.b. P (Y =, Y 2 = ) = P ({X = X 2 = X 3 = } {X = X 2 = X 3 = 0}) = (/2) 3 + (/2) 3 = /4 = P (Y = )P (Y 2 = ), P (Y =, Y 2 = 0) = P ({X = X 2 =, X 3 = 0} {X = X 2 = 0, X 3 = }) = (/2) 3 +(/2) 3 = /4 = P (Y = )P (Y 2 = 0), etc.) Man sagt dazu auch: Y, Y 2, Y 3 sind paarweise unabhängig, aber eben nicht unabhängig. 4. Vergleichen wir Def..49 und Def..5, so sehen wir: Ereignisse A, A 2,..., A n sind genau dann unabhängig, wenn dies für ihre Indikatorvariable A, A2,..., AN gilt. 52

54 .3.4 Die Situation im Fall mit Dichten Beobachtung.55 (Marginaldichten). Die Zufallsvariable X = (X, X 2 ) mit Werten in (S ) R 2 habe (gemeinsame) Dichte f X (x, x 2 ), so hat X die Dichte f X (x ) = f X(x, x 2 ) dx 2 (x R) und analog hat X 2 die Dichte f X2 (x 2 ) = f X(x, x 2 ) dx (x 2 R). f X und f X2 heißen die Marginal- oder Randdichten von f X. Es ist nämlich P (X [a, b]) = P (X [a, b], X 2 R) = = a b ( f(x, x 2 ) dx 2 )dx. [a,b] (x ) R (x 2 )f(x, x 2 ) dx dx 2 Allgemein: Für X = (X,..., X d ) mit Werten in R n und Dichte f X ist f Xi (x i ) = die i-te Marginaldichte. Das kontinuierliche Analogon zu Prop..52 lautet: f X (x,..., x n ) dx dx i dx i+ dx n Bericht.56 (Unabhängigkeit im reellwertigen Fall mit Dichte). Seien X, X 2,..., X n reellwertige ZVn, f,..., f n R R + Wahrscheinlichkeitsdichten (d.h. f i(x) dx = ), dann sind äquivalent:. X,..., X n sind u.a. und X i hat Dichte f i für i =,..., n (d.h. P (X i B) = B f i (x) dx und P (X B,..., X n B n ) = n i= P (X i B i ) für B,..., B n R). 2. Die ZV X = (X,..., X n ) mit Werten in R n hat Dichte f(x) = f (x ) f 2 (x 2 ) f n (x n ), x = (x,..., x n ) R n, d.h. die gemeinsame Dichte hat Produktgestalt. Vergleicht man dies mit Beob..55, so folgt: In diesem Fall ist die gemeinsame Dichtefunktion das Produkt der Marginaldichten. Beweisidee. Naiv rechnen wir x f (y ) dy x n f n (y n ) dy n = (,x ] (,x n] f (x ) f n (x n ) dy... dy n Beispiel.57.. Wähle A = [a, b ] [a 2, b 2 ] R 2 in Bsp..36,., d.h. X = (X, X 2 ) ist uniform verteilt auf einem (achsenparallelen) Rechteck (mit Fläche vol(a) = (b a )(b 2 a 2 )). X hat Dichte f X (x, x 2 ) = (b a )(b 2 a 2 ) [a,b ] [a 2,b 2 ](x, x 2 ) = f X (x )f X2 (x 2 ) 53

55 mit Marginaldichten f Xi (x i ) = (b i a i ) [a i,b i ](x i ) (i =, 2), d.h. die Koordinaten X und X 2 sind unabhängig (und jeweils uniform auf [a i, b i ] verteilt). 2. Wähle A = {(x, x 2 ) R 2 x 2 + x2 2 } in Bsp..36, d.h. X = (X, X 2 ) ist uniform verteilt auf dem Einheitskreis (mit Fläche vol(a) = π) mit Dichte Die Marginaldichte ist f X (x ) = f X (x, x 2 ) = π [0,](x 2 + x 2 2). π [0,](x 2 + x 2 2) dx 2 = π [,](x ) = [,] (x ) 2 π x 2 x 2 x 2 dx 2 (und analog bzw. offensichtlich aus Symmetrie ist f X2 = f X ). Insbesondere sind (im Gegensatz zu.) X und X 2 sind (natürlich) nicht unabhängig, denn f X (x, x 2 ) f X (x )f X2 (x 2 ). 3. Betrachten wir X = (X, X 2 ) aus 2. in Polarkoordinaten: Sei R der Radius, W der Winkel von X (in Polarkoordinaten), also R = X 2 + X2 2, W = arcsin ( X2 R ), X 0, π arcsin ( X 2 R ), X < 0, X 2 0, π arcsin ( X 2 R ), X < 0, X 2 < 0, bzw. X = R cos(w ), X 2 = R sin(w ) (siehe auch die Skizze unten). x 2 x 2 X 2 R r 0 W X x w x Links: Punkt (X, X 2 ) und seine Polarkoordinaten (R, W ). Rechts: Schraffiert ist B(r, w) = {Punkte mit Radius r und Winkel w}. Dann sind R und W unabhängig, R hat Dichte f R (r) = 2r [0,] (r), W hat Dichte f W (w) = 2π [ π,π)(w), 54

56 denn (für 0 r, π w < π) P (R r, W w) = P (X B(r, w)) = πr2 w+π 2π π 2 = r 2 w + π 2π = 0 r 2s ds w π 2π dv. 4. X = (X,..., X d ) d-dimensional Standard-normalverteilt, so sind X,..., X d unabhängig und jeweils N 0, (d.h. die X i sind [-dimensional] Standard-normalverteilt), denn (2π) exp ( d/2 2 (x2 + + x 2 d d )) = ( (2π) /2 e x2 i /2 ) Die Beobachtung zur Rotationssymmetrie aus Bsp..57, 3. verallgemeinert sich folgendermaßen: Beobachtung.58. X = (X, X 2 ) T habe eine rotationssymmetrische Dichte f X, d.h. f X (x, x 2 ) hängt nur von r = x 2 + x2 2 ab (also f X(x, x 2 ) = g(r) für eine gewisse Funktion g 0), X = (X, X 2 )T entstehe aus X durch Drehung (um Winkel α um den Ursprung), d.h. ( X cos(α) sin(α) ) = ( X 2 sin(α) cos(α) ) (X ) = ( cos(α)x sin(α)x 2 ). X 2 sin(α)x + cos(α)x 2 Dann hat X dieselbe Dichte (und somit dieselbe Verteilung) wie X. (Dies ist anschaulich sehr plausibel, man kann es z.b. mit Bericht.59 beweisen.) Sei (R, W ) die Polarkoordinatendarstellung von X wie in Bsp..57, 3. (insbes. R = X 2 + X2 2 ), so sind R und W unabhängig, W ist uniform verteilt auf [ π, π) und R hat Dichte 2πrg(r) [0, ) (r): P (R u) = = π u π 0 i= [0,u] ( x 2 + x2 2 )g( x 2 + x2 2 ) dx dx 2 g(r) rdrdw = 0 u 2πrg(r) dr (wir verwenden hier etwas salopp die Polarkoordinatenform des Flächenelements dx dx 2 = r drdw, man kann dies wiederum mit Bericht.59 beweisen.) Speziell für X, X 2 unabhängig, N 0,, somit X = (X, X 2 ) 2-dim. Standard-normalverteilt, ergibt sich (für u > 0): d.h. R 2 Exp /2. P (R 2 u) = P (R u) = 0 u 2πr /2 2π e r2 dr = [e r2 /2 ] r= u = e u/2, r=0 Bericht.59 (Allgemeine Dichtetransformation im R d ). X R d -wertige ZV mit Dichte f X, I R d offen mit P (X I) =, J R d offen, ϕ I J bijektiv, stetig differenzierbar mit Ableitung ϕ (x) = ( ϕ d i (x)) ( Jacobi-Matrix ) x j i,j= 55

57 aus wie ϕ(x ) ϕ(x) + ϕ (x) (x x) (wobei ϕ(x) = (ϕ (x),..., ϕ d (x)) T, d.h. ϕ i ist die i-te Koordinatenfunktion von ϕ), dann hat Y = ϕ(x) die Dichte f X (ϕ (y)) f Y (y) = det ϕ (ϕ (y)), y J, 0, y / J. Beweise finden sich in Analysis-Lehrbüchern, z.b. G. Kersting und M. Brokate, Maß und Integral, S. 07, H. Heuser, Analysis, Teil 2, Satz ( Substitutions-Regel ), O. Forster, Analysis 3, Kap. 9, Satz ( Transformationsformel ). Wir betrachten hier nur folgende Heuristik (im Fall d = 2): Lokal sieht x = ( x x 2 ) ϕ(x) = ( ϕ (x) ϕ 2 (x) ) = ϕ(x) + x ϕ (x) x ϕ 2 (x) x 2 ϕ (x) x 2 ϕ 2 (x) (x x x 2 x 2 ) (plus Terme, die O( x x 2 ) sind), also: die Fläche der Größe h h 2 rund um x wird auf Fläche h h 2 det ϕ (x) rund um y abgebildet. x 2 ϕ y 2 x y = ϕ(x) I J x y 56

58 Wenden wir dies auf Y = ϕ(x) an, so bedeutet das anschaulich: Für y = ϕ(x) J (und sehr kleines h > 0) ist f Y (y)h 2 P(Y nimmt Wert in einem Quadrat der Fläche h 2 mit Aufpunkt y an) P(X nimmt Wert in einem Quader der Fläche h 2 / det ϕ (x) mit Aufpunkt x an) h 2 f X (x) det ϕ (x) = f X (ϕ (y)) det ϕ (ϕ (y)) h2. Nur der Vollständigkeit halber, wir werden dies im Verlauf der Vorlesung nicht benötigen: Bericht.60. Analog betrachtet zu Def..26 betrachtet man im Fall d > für (x, x 2,..., x d ) R d gelegentlich die d-dimensionale Verteilungsfunktion F X (x, x 2,..., x d ) = P (X (, x ] (, x 2 ]... (, x d ]), die allerdings etwas weniger handlich ist als im -dimensionalen Fall. Analog zu Bem..27, 3. weiß die d-dimensionale Verteilungsfunktion von X alles über die Verteilung von X. Die d-dimensionale Verallgemeinerung der Eigenschaften aus Bem..27, 5. besteht in folgenden Bedingungen:. F X rechtsstetig, d.h. x n x (koordinatenweise) F X (x n ) F (x) 2. F X (x n ) wenn x n (+,..., + ) 3. F X (x n ) 0 wenn min i=,...,d x n,i 4. Für x = (x,..., x d ) < y = (y,..., y d ) (koordinatenweise), parametrisiere die Ecken des d-quaders (x, y] mit {, 2} d via {u = (z (i ),..., z (i d) d ) i,..., i d {, 2}} wo z () j = x j, = y j, es muss gelten z (2) j.3.5 Faltung ( ) #{ m d im=} F X (u) ( = µ F ((x, y]) ) 0 u Ecken Definition.6. X und Y unabhängige reellwertige ZVn, X µ, Y ν (definiert auf demselben W raum). Die Verteilung von X + Y heißt die Faltung von µ und ν, geschrieben µ ν: (µ ν)(b) = P (X + Y B), B R Bemerkung. µ ν = ν µ (denn X + Y = Y + X). Beobachtung.62 (Diskreter Fall). Falls µ(z) = ν(z) = (d.h. X und Y haben Werte in Z), so ist (µ ν)({k}) = P (X + Y = k) = P (X = m, Y = k m) = µ({m})ν({k m}). m Z m Z (Im allg. diskreten Fall P (X {x i, i N}, Y {y j, j N]}) = muss man die Doppelsumme betrachten: P (X + Y = z) = i,j xi +y j =z P (X = x i )P (Y = y j ).) 57

59 Beispiel.63.. W, W 2 unabhängige 6-er Würfelwürfe, dann ist S = W + W 2 Unif {,2,...,6} Unif {,2,...,6} mit P (S = k) = für k {2, 3,..., 2} min{k,6} m=max{k 6,} P (W = m)p (W 2 = k m) = 6 7 k ( min{k, 6} max{k 6, } + ) = (Wir hatten dies breits in dem Beispiel direkt nach Beob.. betrachtet.) 2. X, Y u.a., Ber p, so ist X + Y Bin 2,p, d.h. Ber p Ber p = Bin 2,p. 3. (Binomialfamilie) X, X 2,..., X n u.a., Ber p, so ist X + X X n Bin n,p, d.h. Insbesondere gilt Ber n p = Ber p Ber p Ber p = Bin n,p. n-mal Bin n,p Bin n2,p = Bin n +n 2,p für p [0, ], n, n 2 N, die Binomialverteilungen bilden (für festes p) eine Faltungsfamilie. (Schreibe S = X + + X n Bin n,p, S 2 = X n + + X n X n +n 2 Bin n2,p, so ist S + S 2 = X + + X n +n 2 Bin n +n 2,p.) 4. (Poissonfamilie) Für α, β > 0 ist Poi α Poi β = Poi α+β, denn k α αm e m=0 m! β k m e β (k m)! = k e (α+β) ( k k! m=0 m )αm β k m (α+β) (α + β)k = e k! Auch die Poissonverteilungen bilden eine Faltungsfamilie. = Poi α+β ({k}), k N 0. Beobachtung.64 (Faltung von Dichten). X, Y u.a. reellwertige ZVn mit Dichte f X bzw. f Y, so hat X + Y die Dichte Es ist nämlich P (X + Y w) = (f X f Y )(z) = R f X (x)f Y (z x) dx, z R. = = {z w} {x+y w} f X (x)f Y (y) dydx {x+z x w} f X (x)f Y (z x) dzdx wobei wir in der 2. Zeile y = z x substituiert haben. f X (x)f Y (z x) dx dz = 58 w (f X f Y )(z) dz

60 Beispiel.65 (Die Normalverteilungen bilden eine Faltungsfamilie). Es gilt N µ,σ 2 N µ 2,σ 2 2 = N µ +µ 2,σ 2 +σ2 2 für µ, µ 2 R, σ, σ 2 > 0 Beweis. Betrachte o.e. den Fall µ = µ 2 = 0 (denn Z N µ,σ 2, a R, so ist Z + a N µ+a,σ 2). Die Behauptung folgt aus der Invarianz der multi-dimensionalen Standard-Normalverteilung unter orthogonalen Transformationen (vgl. Beob..58): Seien a, b (0, ) mit a 2 + b 2 =, so ist die 2 2-Matrix ( a b b a ) orthogonal (Dies ist eine Drehmatrix, wir könnten a = cos(ϕ), b = sin(ϕ) für ein geeign. ϕ [ π, π) schreiben, und ( a b b a ) ( a b b a ) = ( a2 + b 2 ab + ba ba + ab a 2 + b 2 ) Seien Z, Z 2 u.a., N 0,, dann haben nach Beob..58 ( Z Z 2 ) und ( a b b a ) ( Z Z 2 ) = ( az + bz 2 bz + az 2 ) dieselbe Verteilung, d.h. auch az + bz 2 und bz + az 2 sind u.i.v., N 0,, insbesondere ist az + bz 2 standard-normalverteilt. Setzen wir a = (und X, X 2 sind u.a.), σ, b = σ 2+σ2 2 σ 2, so finden wir: X = σ Z N σ 2 0,σ 2 +σ2, X 2 = σ 2 Z 2 N 0,σ X X 2 + σ 2 + σ2 2 σ 2 + σ2 2 = az + bz 2 N 0,, also gilt X + X 2 N 0,σ 2 +σ 2 2. Bemerkung. Man kann anstelle von Beob..58 in diesem Fall auch das Faltungsintegral explizit ausrechnen: Betrachte wieder o.e. den Fall µ = µ 2. Für z R ist exp ( x2 ) R 2πσ 2 2σ 2 = = = 2πσ 2 2 exp ( (z x)2 ) dx 2σ2 2 2π(σ 2 + σ 2 2 ) exp ( z 2 2(σ 2 + σ2 2 )) R (2π σ2 σ2 2 σ 2+σ2 2 2π(σ 2 + σ 2 2 ) exp ( z 2 2(σ 2 + σ2 2 )) R 2π(σ 2 + σ 2 2 ) exp ( z 2 2(σ 2 + σ2 2 )). (2π σ2 σ2 2 σ 2+σ z2 exp ( /2 ) 2(σ 2 + σ2 2 ) x2 z2 + zx x2 ) dx 2σ 2 2σ2 2 σ2 2 2σ2 2 ) /2 exp ( (x z +(σ 2 /σ ) 2 ) 2 2 σ2 σ2 2 σ 2 +σ2 2 ) dx

61 (Nebenrechnung: Das Argument der Exponentialfunktion innerhalb des Integrals in der 2. Zeile ist z 2 2(σ 2 + σ2 2 ) x2 z2 + zx 2σ 2 2σ2 2 σ2 2 = 2 (σ 2 + σ 2 2 )(x 2 = σ2 +σ2 2 σ 2 σ2 2 x2 2σ2 2 2xz σ 2 2 (σ 2 + σ 2 = 2 (σ 2 + σ2 2 z ) (x + (σ 2 /σ ) 2 )2, 2 ) + ( σ2 2 σ 2 + )(σ σ2 2 + σ2 2 ) z 2 ) 2 das Integral in der 2. Zeile ist N z/(+(σ2 /σ ) 2 ),σ 2 σ2 2 /(σ2 +σ2 2 ) (R) =.) σ = 2 σ 2 2 = (σ2 +σ2 2 )(σ 2 +σ 2 2 ) σ 4 (σ 2+σ 2 2 )2.4 Erwartungswert, Varianz und Kovarianz Der Erwartungswert ist eine wichtige Kenngröße der Verteilung einer reellwertigen Zufallsvariable X, er gibt eine Antwort auf die etwas salopp formulierte Frage Wie groß ist X typischerweise?.4. Diskreter Fall Sei X reelle ZV mit abzählbarem Wertebereich (auf einem gewissen W raum (Ω, F, P ) definiert), d.h. es gibt eine abzählbare Menge S = S X R mit P (X S) = und L P (X) hat Gewichte P (X = x), x S. Definition.66. Der Erwartungswert von X ist definiert als E[X] = x S X xp (X = x), sofern die Reihe absolut konvergiert (d.h. sofern x SX x P (X = x) < gilt, dann kann die Summation in beliebiger Reihenfolge erfolgen). Manchmal schreibt man auch µ X = E[X]. Man sagt dann X besitzt einen Erwartungswert und schreibt dies auch als X L (bzw. X L (P ), wenn die zugrundeliegende Wahrscheinlichkeiten P ( ) nicht aus dem Kontext klar sind). Beispiel.67.. A ein Ereignis, so ist E[ A ] = P ( A = ) + 0 P ( A = 0) = P (A). 2. W Augenzahl bei einem fairen Würfelwurf (W ist uniform auf {, 2, 3, 4, 5, 6}), so ist E[W ] = = (allgemein: X uniform auf {, 2,..., s} mit s N, so ist E[X] = s i = s(s + ) = s + s 2 2.) s i= 60 = 2 6 = 3,5

62 3. X habe Werte in S = {2, 3, 4,... } { 2, 3, 4,... } mit Gewichten P (X = n) = P (X = n) = 2n(n ) für n = 2, 3,... (es ist n=2 2 2n(n ) = n=2 ( n ) n =, d.h. dies sind W gewichte), dann ist x P (X = x) = x S d.h. X besitzt keinen Erwartungswert. n=2 n n(n ) = k= k =, Wenn man S durchnummerierte mit x 2i = i +, x 2i = i, i N, so wäre j= x j P (X = x j ) = lim N N j= x j P (X = x j ) = 0 (denn 2N j= x j P (X = x j ) = 0); wenn man andererseits S durchnummerierte mit x 3i = i, x 3i 2 = 2i, x 3i = 2i +, i N, so wäre j= x j P (X = x j ) = lim N N j= x j P (X = x j ) = 2 log(2) 0 (denn 3N j= x j P (X = x j ) = N i i=2 2i(i ) + 2N i i=2 2i(i ) = 2 N k= k + 2 2N k= k 2 log(n)+ 2 log(2n) = 2 log(2)). (Wir sehen hier ein Beispiel für die Tatsache aus der Analysis, dass der Wert einer bedingt konvergenten Reihe von der Summationsreihenfolge abhängt.) Bemerkung.68.. Eine beschränkte reellwertige ZV X (d.h. es gibt eine Konstante M < mit P ( M X M) = ) besitzt stets einen Erwartungswert. (Dies gilt insbesondere, wenn X nur endlich viele mögliche Werte hat.) 2. Wenn X endlich viele mögliche Werte x,..., x n (mit Gewichten p(x i ) = P (X = x i )) hat, so kann man E[X] als den Massenschwerpunkt interpretieren. p(x ) p(x 2 ) p(x 3 ) p(x 4 ) p(x 5 ) x x 2 x 3 x 4 x 5 E[X] Auf einer Balkenwaage (deren Balken Eigengewicht 0 habe) liege an der Position x i das Gewicht p(x i ), damit der Balken in Ruhelage ist, muss man in an der Stelle n i= x i p(x i ) = E[X] unterstützen, denn dann ist das Gesamtdrehmonent (proportional zu) E[X]) = E[X] E[X] = 0. 6 n i= p(x i )(x i

63 3. Der Erwartungswert von X muss nicht notwendigerweise ein möglicher Wert von X sein (P (X = E[X]) = 0 ist durchaus möglich, siehe Bsp..67), daher kann man die Interpretation von E[X] als typischer Wert von X i.a. nicht wörtlich nehmen. Es gilt aber: Sind X, X 2,... unabhängig mit derselben Verteilung wie X, so konvergiert M n = X + X X n n n E[X] = x xp (X = x) (in geeignetem Sinn), dies ist die Aussage des Gesetzes der großen Zahlen, das wir später sehen werden. Es ist nämlich und #{i n X i = x}/n n P (X = x). M n = x #{i n X i = x} x n Illustration: X, X 2,... uniform auf {, 2, 3, 4, 5, 6}, X n sind jeweils die schwarzen Punkte, M n die blaue Linie Wert Index n Wert Index n 62

64 Wert Index n (Beachte: Wir haben dies bereits in der Anwendung eine Monte-Carlo-Methode zur Integration in Kapitel 0 verwendet.) 4. Man kann E[X] als den erforderlichen Einsatz in einem fairen Spiel interpretieren, bei dem man eine zufällige Auszahlung X erhält. 5. Der Erwartungswert ist eine Eigenschaft der Verteilung: L (X) = L (Y ) impliziert E[X] = E[Y ]. (Klar, da dann P (X = x) = P (Y = x) für alle x gilt.) Beispiel.69.. Sei X Bin n,p, n N, p [0, ] : E[X] = n k=0 n = np kp (X = k) = k= 2. Sei X Geom p, p [0, ] : 3. Sei X Poi α, α > 0: n k= k( n k )pk ( p) n k ( n k )pk ( p) n (k ) = npbin n,p ({0,,..., n }) = np E[X] = np( p) n = p ( p) n = p ( p) n n=0 n n= k= = p ( p) k ( p) j = k= E[X] = j=0 α αn ne n=0 k= n! = α e α n= k= n=k ( p) k = p αn (n )! = α Satz.70 (Rechenregeln für Erwartungswerte). Seien X, Y, X, X 2,..., Y, Y 2,... L (P ).. (Linearität) Für a, b R gilt ax + by L (P ) und E[aX + by ] = ae[x] + be[y ]. 63

65 2. (Monotonie) Wenn X Y (es genügt P (X Y ) = ), so gilt E[X] E[Y ]; insbesondere gilt E[X] 0 für X P (X 0) = und E[X] = 0 P (X = 0) =. 4. (Faktorisierung für unabhängige Produkte) Wenn X und Y unabhängig sind, so ist XY L (P ) und E[XY ] = E[X] E[Y ]. Beweis.. Beachte, dass ax + by ebenfalls diskret ist, der Wertebereich {ax + by x S X, y S Y } ist abzählbar. Es ist z z P (ax + by = z) = ax + by x,y a x + b y d.h. ax + by L (P ). Analog ist 2. P (X = x, Y = y) a x E[aX + by ] = (ax + by)p (X = x, Y = y) x,y = a x,y E[X] = x x P (X = x) + b y P (Y = y) <, y xp (X = x, Y = y) + b yp (X = x, Y = y) = ae[x] + be[y ]. x,y xp (X = x) = x P (X = x, Y = y) x,y =0 falls y>x x,y yp (X = x, Y = y) = yp (Y = y) = E[Y ] y 3. E[X] = xp (X = x) wäre > 0, wenn P (X = x) > 0 für ein x > 0 gälte. x ( 0) 4. Beachte, dass XY wiederum diskret ist. Weiter ist z P (XY = z) = xy P (X = x, Y = y) z x,y 0 =P (X=x)P (Y =y) d.h. XY L (P ). Analog folgt = x 0 E[XY ] = zp (XY = z) = xyp (X = x, Y = y) z x,y 0 x P (X = x) y P (Y = y) = E[ X ] E[ Y ], y 0 = xp (X = x) yp (Y = y) = E[X] E[Y ]. x 0 y 0 Beobachtung.7 (Erwartungswerte für Kompositionen). X (diskrete) reelle ZV, g R R, Y = g(x). Dann besitzt Y einen Erwartungswert g.d.w. g(x) P (X = x) < und in diesem Fall ist x E[Y ] = g(x)p (X = x). x (Schreibe y yp (Y = y) = y x g(x)=y g(x)p (X = x) = x g(x)p (X = x).) 64

66 Beispiel.72.. Seien X,..., X n u.i.v., Ber p, so ist X = X + + X n Bin n,p und E[X] = E[X ] + + E[X n ] = np. (Wir hatten den Erwartungswert einer binomialverteilten ZV bereits in Bsp..69, 2. bestimmt, hier kommen wir allerdings ohne explizite Rechnung aus.) 2. Sei X Hyp s,w,k hypergeometrisch verteilt, vgl. Bsp..5. Denken wir an eine Urne mit s schwarzen und w weißen Kugeln, aus der k mal ohne Zurücklegen gezogen wird, so ist X d = A + + Ak und P (A ) = P (A 2 ) = = P (A k ) =.4.2 Der Fall mit Dichte mit A i = {i-te gezogene Kugel ist schwarz} s s, also E[X] = k s + w s + w. Definition.73. Sei X reellwertige ZV mit Dichte f X, dann besitzt X einen Erwartungswert (auch X L geschrieben), wenn gilt x f X(x) dx < und man setzt dann E[X] = x f X (x) dx. Beispiel.74.. X N 0, hat E[X] = 0, denn aus der Symmetrie der Dichte folgt E[X] = 2π xe x2 /2 dx = 2π 0 xe x2 /2 dx 2π 0 xe x2 /2 dx = 0 (strenggenommen muss man auch prüfen, dass (2π) /2 x e x2 /2 dx = (2/π) /2 0 xe x2 /2 dx = (2/π) /2 [ e x2 /2 ] 0 = (π/2) /2 < ) Somit gilt auch: Y N µ,σ 2 hat E[Y ] = µ, denn σx + µ = d Y nach Bsp..32). 2. X Exp λ hat E[X] = /λ, denn E[X] = = 0 0 x λe λx dx = [x( e λx )] 0 e λx dx = λ λe λx dx = 0 λ 0 ( e λx ) dx 3. Die Cauchy-Verteilung mit Dichte π π x + x dx = x besitzt keinen Erwartungswert: 2 x π + x dx = [ 2 π log ( + x2 )] 0 =. Bericht.75.. Man kann prinzipiell den Fall mit Dichte aus dem diskreten Fall herleiten: X habe Dichte f X, so nimmt X (n) = n nx den Wert k, k N an mit n P (X (n) = k n ) = k/n (k+)/n f X (x) dx, 65

67 also ist (sofern die Reihe absolut konvergiert, was man analog überprüft) k (k+)/n E[X (n) ] = k Z n f X (x) dx k/n = n nx f X(x) dx n xf X (x) dx 2. (Analogon zu Beob..7 im Fall mit Dichte) Sei X = (X,..., X d ) R d -wertig mit Dichte f X R d [0, ], g R d R, Y = g(x). Dann gilt Y L g.d.w. und in diesem Fall R d (Siehe z.b. [Ge, Korollar 4.3]) g(x,..., x d ) f X (x,..., x d ) dx... dx d < E[Y ] = R d g(x,..., x d )f X (x,..., x d ) dx... dx d <. 3. Die Rechenregeln aus Satz.70 gelten auch im Fall mit Dichte..4.3 Varianz und Kovarianz Für eine reellwertige Zufallsvariable X heißt E[X 2 ] das 2. Moment von X (allgemein heißt E[X p ] das p-te Moment). Man sagt, dass X ein 2. Moment besitzt, wenn E[X 2 ] < gilt und schreibt dies auch als X L 2 (bzw. X L 2 (P ), wenn die zugrundeliegende Wahrscheinlichkeiten P ( ) nicht aus dem Kontext klar sind). Definition.76. Für X, Y L 2 heißt. Var[X] = E[(X E[X]) 2 ] = E[X 2 ] (E[X]) 2 die Varianz von X (manchmal schreibt man auch σx 2 = Var[X]), Var[X] die Standardabweichung (oder Streuung) von X (manchmal auch σ X = σ 2 X geschrieben), 2. Cov[X, Y ] = E[(X E[X])(Y E[Y ])] = E[XY ] E[X]E[Y ] die Kovarianz von X und Y. X und Y heißen unkorreliert, wenn Cov[X, Y ] = 0. Die Standardabweichung σ X ist neben dem Erwartungswert E[X] eine weitere wichtige Kenngröße der Verteilung einer Zufallsvariable X, sie gibt eine Antwort auf die etwas salopp formulierte Frage Wie sehr weicht X typischerweise von E[X] ab? Einen Hinweis dazu gibt die Chebyshev-Ungleichung: 66

68 Satz.77. Sei X reelle ZV, f [0, ) [0, ) monoton wachsend.. Für a > 0 mit f(a) > 0 gilt 2. Für X L 2 gilt P ( X a) f(a) E[f( X )] (Markov2 -Ungleichung). (.6) P ( X E[X] a) Var[X] a 2 (Chebyshev 3 -Ungleichung). (.7) Beweis.. Sei Y = f(a) { X a}, so ist Y f( X ) und nach Satz.70, 2. E[Y ] = f(a)p ( X a) E[f( X )] 2. Wende. an auf X = X E[X] und f(a) = a 2. Insbesondere (wähle a = bσ X in (.7)): Die W keit P ( X E[X] b σ X ), dass X von E[X] um mehr als das b-fache von σ X abweicht, ist höchstens /b 2.. Wegen XY X 2 + Y 2 ist die Kovarianz wohldefiniert. Es gilt (of- Beobachtung.78. fensichtlich) Cov[X, Y ] = Cov[Y, X]. 2. Es ist E[(X E[X])(Y E[Y ])] = E[XY XE[Y ] Y E[X] + E[X]E[Y ]] (und analog für Var[X] = Cov[X, X]). 3. Var[X] = 0 P (X = E[X]) = = E[Y X] E[X]E[Y ] E[Y ]E[X] + E[X]E[Y ] = E[XY ] E[X]E[Y ] ( ist klar, für wende Satz.70, 3. an auf die ZV (X E[X]) 2 ) 4. Var[X] ist eine Eigenschaft der Verteilung von X, Cov[X, Y ] ist eine Eigenschaft der gemeinsamen Verteilung von X und Y. Beispiel.79.. X Ber p, Var[X] = E[X 2 ] (E[X]) 2 = p p 2 = p( p). 2. X Poi α, E[X(X )] = k=0 3 Andrei Andrejewich Markov, Pafnuty Lvovich Chebyshev, α αk k(k )e k! = α2 e α k=2 αk 2 (k 2)! = α2, 67

69 also Var[X] = E[X 2 ] (E[X]) 2 = E[X(X )] + E[X] (E[X]) 2 = α 2 + α α 2 = α 3. X Bin n,p, also E[X(X )] = n k=0 k(k )( n k )pk ( p) n k = n(n )p 2 n ( n 2 k=2 k 2 )pk 2 ( p) (n 2) (k 2) = n(n )p 2 Var[X] = E[X(X )] + E[X] (E[X]) 2 = n(n )p 2 + np (np) 2 = np 2 + np = np( p) 4. X Geom p, p [0, ] (d.h. P (X = k) = p( p) k, k N 0, vgl. Bsp..7 und wir hatten gesehen, dass E[X] = ( p)/p, siehe Bsp..69, 2). Es ist E[X(X )] = n=0 (verwende, dass f(t) = n=0 t n = t somit n(n )p( p) n = p( p) 2 n(n )p( p) n 2 ( p)2 = 2 n=2 p 2 (für t < ) erfüllt d2 dt 2 f(t) = 2 ( t) 3 = n=2 n(n )t n 2 ), ( p)2 Var[X] = E[X(X )] + E[X]( E[X]) = 2 p 2p = p p 2 p p p X N µ,σ 2 hat Var[X] = σ 2 (wir hatten in Bsp..74 bereits gesehen, dass E[X] = µ): Var[X] = E[(X µ) 2 ]] = R (x µ) 2 2πσ 2 = R σ 2 z 2 2π e z2 /2 dz = σ2 2π 2π ([z( d dz e z2 /2 )] = σ2 (x µ)2 exp ( ) dx 2σ 2 z 2 e z2 /2 dz =z( d dz e z2 /2 ) e z2 /2 dz) = σ2 2π (0 + 2π) = σ 2 (Wir haben Bericht.75, 2. verwendet, dann im Integral z = (x µ/σ) substituiert und partiell integriert.) 68

70 Satz.80 (Rechenregeln für Varianz und Kovarianz). Seien X, Y, X, X 2,..., X n L 2, a, b, c, d R.. ax + b, cy + d L 2 und insbesondere Cov[aX + b, cy + d] = accov[x, Y ], Var[aX + b] = a 2 Var[X] (die Kovarianz ist eine Bilinearform, die Varianz ein quadratisches Funktional). n 2. Var[ X i ] = i= n i= Var[X i ] + i,j n i j Cov[X i, X j ], insbesondere gilt für paarweise unkorrelierte X,..., X n also Var[ X i ] = 3. Sind X und Y unabhängig, so gilt Cov[X, Y ] = Es gilt n i= n i= Cov[X, Y ] Var[X] Var[Y ] (Cauchy-Schwarz-Ungleichung 4 ) Var[X i ]. Beweis.. Es ist Cov[aX + b, cy + d] = Cov[aX, cy ] (denn E[aX + b] = E[aX] + b und E[cY + d] = E[cY ] + d) = E[aX cy ] E[aX] E[cY ] = ac(e[xy ] E[X] E[Y ]) = accov[x, Y ]. 2. Dies folgt etwa per Induktion über n aus., oder direkt folgendermaßen: Sei o.e. E[X ] = = E[X n ] = 0 (sonst ziehe jeweils die Erwartungswerte ab, verwende.), dann ist n n Var[ X i ] = E[( X i ) 2 n ] = E[X i X j ] i= i= i,j= = n i= E[X 2 i ] + n i j E[X i X j ] = n i= Var[X i ] + n i j Cov[X i, X j ] 3. Klar, denn für X und Y unabhängig ist E[X Y ] = E[X] E[Y ] nach Satz.70, Falls Var[Y ] = 0, so ist die Ungleichung (als 0 0) erfüllt (denn dann ist P (Y E[Y ] = 0) = nach Beob..78, 3. und somit auch Cov[X, Y ] = 0). 4 nach Augustin-Louis Cauchy ( ) und Hermann Amandus Schwarz (843 92) 69

71 Falls Var[Y ] > 0, setze α = Cov[X, Y ], es ist Var[Y ] 0 Var[X + αy ] Var[Y ]. = (Var[X] + 2αCov[X, Y ] + α 2 Var[Y ])Var[Y ] = Var[X] Var[Y ] (Cov[X, Y ]) 2. Bemerkung.8. Es gilt Gleichheit in der Cauchy-Schwarz-Ungleichung g.d.w. es gibt a, b, c R (mit a 0 oder b 0), so dass P (ax + by + c = 0) =. In diesem Fall heißen X und Y perfekt korreliert. (Denn wir sehen aus dem Beweis, dass Gleichheit genau dann eintritt, wenn Var[Y ] = 0 oder Var[X + αy ] = 0.) Beispiel.82.. X Bin n,p, schreibe X = Y + + Y n mit Y i u.i.v. Ber p, so ist (mit Satz.80, 2.) (vgl. auch Bsp..79, 3.). Var[X] = n i= Var[Y i ] = nvar[y ] = np( p) 2. X Hyp s,w,n, stelle dar als X = Y + +Y n mit Y i = Ai, A i = {i-te gezogene Kugel ist schwarz} (bei n-fachem Ziehen ohne Zurücklegen aus einer Urne mit s schwarzen und w weißen Kugeln). (Erinnerung: Für y,..., y n {0, } mit y + + y n = k gilt P (Y = y,..., Y n = y n ) = s(s )(s 2) (s k + ) w(w ) (w n + k + ), (s + w)(s + w )(s + w 2) (s + w n + ) was nicht von der Reihenfolge abhängt die Y i sind austauschbar.) s Es ist E[Y i ] = P (A i ) = P (A ) = s + w = p, Var[Y i] = p( p); für i j ist s s E[Y i Y i ] = E[Y Y 2 ] = P (A A 2 ) = s + w s + w, s s Cov[Y i, Y j ] = E[Y i Y i ] E[Y i ] E[Y j ] = s + w s + w ( s s + w )2 s = s + w ( s s + w s ) = p( p) s + w s + w, also Var[X] = n i= Var[Y i ] + = w s+w n i j s+w Cov[Y i, Y j ] = np( p) n(n )( p( p) s + w ) = np( p)( n s + w ) (Wir sehen: Die Varianz ist kleiner im Fall ohne Zurücklegen als im Fall mit Zurücklegen insbes. ist sie natürlich = 0 im Fall n = s + w.) 70

72 3. Z reelle ZV mit E[ Z 3 ] < und symmetrischer Verteilung, d.h. es gilt P (Z > z) = P (Z < z) für alle z 0 (z.b. Z N 0, ), setze dann gilt Y = Z 2, Cov[Y, Z] = E[Z 2 Z] E[Z 2 ]E[Z] = E[Z 3 ] E[Z 2 ]E[Z] = 0 E[Z 2 ] 0 = 0. Z und Y sind also unkorreliert, aber i.a. nicht unabhängig. Definition.83. Seien X, Y L 2. κ X,Y = Cov[X, Y ] Var[X] Var[Y ] [, ] heißt Korrelationskoeffizient von X und Y (manche Autoren schreiben auch ρ X,Y ). (Die Cauchy-Schwarz-Ungleichung (Satz.80, 4.) zeigt, dass κ X,Y.) Beobachtung.84 (Interpretation des Korrelationskoeffizienten via beste lineare Vorhersage ). Es ist min E[(Y β X β 0 ) 2 ] = ( κ 2 X,Y ) min E[(Y β 0) 2 ] ( = ( κ 2 X,Y )Var[Y ]), β 0,β R β 0 R denn der Ausdruck auf der linken Seite ist Var[Y β X β 0 ] + (E[Y ] β E[X] β 0 ) 2 = Var[Y ] 2β Cov[X, Y ] + β 2 Var[X] + (E[Y ] β E[X] β 0 ) 2 = σ 2 Y 2β σ X σ Y κ X,Y + β 2 σ 2 X + (E[Y ] β E[X] β 0 ) 2 = σ 2 Y ( κ2 X,Y ) + σ2 X(β σ Y σ X κ X,Y ) 2 + (E[Y ] β E[X] β 0 ) 2, was offensichtlich minimal wird für die Wahl β = β = σ Y σ X κ X,Y, β 0 = β 0 = E[Y ] β E[X] und dann den Wert ( κ 2 X,Y )σ2 Y hat. (Für den Zusatz beachte analog: E[(Y β 0 ) 2 ] = E[Y 2 ] 2βE[Y ] + β 2 = Var[Y ] + (β E[Y ]) 2 ist minimal für die Wahl β = E[Y ].) Im Sinne einer möglichst kleinen quadratischen Abweichung ist E[Y ] die beste konstante Vorhersage von Y. Man kann demnach um einen Faktor ( κ2 X,Y ) besser vorhersagen, wenn man stattdessen eine affin-lineare Funktion von X verwenden darf. Demnach (vgl. auch Bem..8) 7

73 κ X,Y = perfekter linearer Zusammenhang zwischen X und Y κ X,Y = perfekter linearer Zusammenhang zwischen X und Y mit positivem Koeffizienten (X größer als E[X] Y größer als E[Y ]) κ X,Y = perfekter linearer Zusammenhang zwischen X und Y mit negativem Koeffizienten (X größer als E[X] Y kleiner als E[Y ]) Nicht-lineare Zusammenhänge erfasst der Korrelationskoeffizient möglicherweise nicht korrekt (oder gar nicht), vgl. Bsp..82, 3. Die folgenden Scatterplots zeigen jeweils 00 simulierte Paare (X, Y ), wobei σ X = σ Y = und κ X,Y den angegebenen Wert hat. (Blau eingezeichnet ist die Vorhersagegerade x β x+ β 0.) κ X,Y = 0 Y Y X X 72

74 κ X,Y = 0.5 Y Y X X κ X,Y = 0.8 Y Y X X 73

75 κ X,Y = 0.95 Y Y X X κ X,Y = Y Y X X 74

76 κ X,Y = 0.5 Y Y X X κ X,Y = 0.8 Y Y X X 75

77 κ X,Y = 0.95 Y Y X X κ X,Y = Y Y X X 76

78 κ X,Y = 0 Y Y X X.4.4 Median(e) Anschaulich ist der Median einer reellen Zufallsvariable X der Wert m, so dass P (X m) = = P (X m) 2 gilt. Da man diese Gleichheit (zumal im diskreten Fall) nicht immer genau einstellen kann, definiert man formal folgendermaßen: Definition.85. X reelle ZV, m heißt (ein) Median von X (auch Zentralwert, manchmal auch m X geschrieben), wenn gilt P (X m) 2 und P (X m) 2. Ein Median existiert stets, auch wenn X keinen Erwartungswert besitzt. Man kann den Median als eine robustere Antwort auf die Aufgabe, für eine ZV nur einen typischen Wert anzugeben, ansehen (im Gegensatz zum Erwartungswert besitzt ja jede Verteilung einen Median). Allerdings gibt es für Mediane keine so angenehmen Rechenregeln, wie sie Satz.70 für den Erwartungswert liefert. Bemerkung. Falls der Median von X (im Sinne von Def..85) uneindeutig ist, d.h. wenn die Verteilungsfunktion F X von X den Wert 2 auf einem nicht-trivialen Intervall annimmt, so betrachtet man gelegentlich pragmatisch 2 ( inf{x R F X(x) = 2 } + sup{x R F X(x) = 2 }), das arithmetische Mittel des kleinst- und des größtmöglichen Medians, als den Median. (So berechnet es beispielsweise R.) 77

79 Beispiel.86.. X Exp θ hat Dichte θe θx [0, ) (x), Verteilungsfunktion ( e θx ) [0, ) (x), demnach ist der (eindeutig bestimmte) Median m = θ log 2. Verteilungsfunktion von Exp m = log(2) x arctan(x), der (eindeutig be- 2. X Cauchy-verteilt mit Dichte π +x, Verteilungsfunktion 2 2 stimmte) Median ist m = 0. π Verteilungsfunktion von Cauchy m = x (Wegen der Symmetrie der Dichte, es gibt keinen Erwartungswert, vgl. Bsp..74, 3.) 3. X unif {,2,...,6} 78

80 Verteilungsfunktion von unif{,...,6} x Jeder Wert m [3, 4] ist ein Median (und die vielleicht kanonischste Wahl wäre m = 3,5). 4. X Bin 3,/3 hat Median Verteilungsfunktion von Bin3,/ m = x Bemerkung.87. Sei X L.. Jeder Median von X ist ein Minimierer von a E[ X a ]. 2. Für jeden Median m ist E[X] m Var[X]. Beweis.. Sei m ein Median. Falls a > m: also X a X m (a m) {X m} (a m) {X>m}, E[ X a ] E[ X m ] (a m)( P (X m) P (X > m) ) 0, /2 /2 79

81 analog im Fall a < m. 2. Es ist E[X] m = E[X m] E[ X m ]. E[ X E[X] ] = (E[ X E[X] ]) 2 E[ X E[X] 2 ], wobei für die erste Ungleichung die Monotonie des Erwartungswerts (Satz.70, 2., beachte: X m X m und (X m) X m und für die letzte Ungleichung die Cauchy-Schwarz- Ungleichung (Satz.80, 4.) verwenden..5 Gesetz der großen Zahlen und zentraler Grenzwertsatz.5. Gesetz der großen Zahlen Satz.88 ((Schwaches) Gesetz der großen Zahlen). Seien X, X 2,... unabhängige und identisch verteilte (u.i.v.) reellwertige ZVn mit E[X ] = µ und Var[X ] <, dann gilt für jedes ε > 0 P ( X + + X n n µ > ε) Var[X ] ε 2 n 0 (.8) n Beweis. Sei Y n = n n i= (X i µ), es ist Var[Y n ] = n n ( 2 Var[X i µ] + i= i,j n i j Cov[X i µ, X j µ]) = n 2 Var[X i] = n Var[X ] mit Satz.80, somit P ( Y n ε) Var[Y n] = Var[X ] ε 2 ε 2 n gemäß Chebyshev-Ungleichung (Satz.77). Erinnerung. Wir hatten bereits in Bem..68, 3. das Gesetz der großen Zahlen illustriert: X, X 2,... unabhängig, uniform auf {, 2, 3, 4, 5, 6}, X n sind die schwarzen Punkte, (X + + X n )/n die blaue Linie 80

82 Wert Index n (und es auch schon im Auftakt -Beispiel in Kap 0 verwendet). Wir entnehmen dem Beweis von Satz.88 folgende kleine Verallge- Bemerkung.89. meinerung: Sind X, X 2, L 2 seien paarweise unkorreliert mit dann gilt für ε > 0 P ( n n i= sup Var[X n ] θ <, n (X i E[X i ]) > ε) θ ε 2 n ( 0). (.9) n (Das Argument geht genauso wie im Beweis von Satz.88, wenn wir Y n = n n i= (X i E[X i ]) setzen.) 2. Seien Y n, n N und Y reellwertigen ZVn, die auf einem gemeinsamen Wahrscheinlichkeitsraum definiert sind. Man sagt die Folge (Y n ) n N konvergiert stochastisch gegen Y, auch geschrieben Y n stoch. n Y, P (auch Y n Y stoch. oder Y n Y ), wenn gilt n n ε > 0 lim P ( Y n Y > ε) = 0. n Man spricht damit Satz.88 oft folgendermaßen aus: X + + X n n stoch. n µ 8

83 Bericht.90 (Nur der Vollständigkeit halber). Die Konvergenzaussage (.8) in Satz.88 sieht (zumindest mit Blick auf die in der Analysis übliche Definition der Konvergenz) vielleicht etwas merkwürdig aus. Tatsächlich gilt für X, X 2,... u.i.v. mit E[X ] = µ auch: Für jedes ε > 0 gibt es ein (vom Zufall abhängiges) N 0 mit X + + X n n µ ε für alle n N 0. In der Literatur heißt dies manchmal das starke Gesetz der großen Zahlen, man sagt auch (X + + X n )/n konvergiert fast sicher gegen µ. Wir werden dies im weiteren Verlauf der Vorlesung nicht verwenden..5.2 Zum zentralen Grenzwertsatz Vorbemerkung. Seien X, X 2,... unabhängig und identisch verteilt (u.i.v.), E[X ] = µ, Var[X ] = σ 2 <. Wir haben gesehen, dass X + + X n nµ mit hoher Wahrscheinlichkeit, denn X + + X n n µ n 0 stochastisch gemäß dem Gesetz der großen Zahlen (Satz.88), aber feiner gefragt: Wie groß ist X + + X n nµ typischerweise? Für A n ist (mit Chebyshev-Ungleichung, Satz.77) zumindest P ( X + + X n nµ > A) nσ2 A 2 (sehr) klein. Tatsächlich ist n die korrekte Größenordnung der typischen Abweichungen von X + + X n von nµ, beachte dazu E[(X + + X n ) nµ] = 0 und Var[(X + + X n ) nµ] = nvar[x ] = nσ 2, also Var[ (X + + X n ) nµ ] = nσ 2 Demnach: Mit dieser Skalierung hängen zumindest Erwartungswert und Varianz nicht mehr von n ab. Wie sieht es aber mit der ganzen Verteilung aus? Wir betrachten dazu Simulationen: 82

84 X i unif [0,], E[X ] = /2, Var[X ] = 2 Histogramme jeweils basierend auf 0 5 Simulationen von S n n = Anzahl (von e+05) S n Anzahl (von e+05) n = S n Zur Vergleichbarkeit gehen wir von den absoluten Anzahlen als Balkenhöhen zur sogenannten Dichte über, d.h. die Balkenhöhe ist nun jeweils Anzahl Balkenbreite. Damit wird die Gesamtfläche der Balken = (wie bei einer Wahrscheinlichkeitsdichte). (Da wir gleich breite Balken verwendet haben, entspricht dies einfach der Wahl einer anderen Skala auf der y-achse) 83

85 n = 2 Dichte S n n = 5 Dichte S n n = 20 Dichte S n 84

86 n = 00 Dichte S n n = 200 Dichte S n n = 500 Dichte S n 85

87 n = 500 Dichte S n (Die schwarze Kurve ist die Dichte der Standard-Normalverteilung, f(x) = (2π) /2 exp( x 2 /2).) Nun dasselbe nochmal mit X i geom /2 (mit E[X ] =, Var[X ] = 2): Histogramme jeweils basierend auf 0 5 Simulationen von S n n = Anzahl (von e+05) S n 86

88 n = 2 Anzahl (von e+05) S n Zur Vergleichbarkeit gehen wir wieder von den absoluten Anzahlen als Balkenhöhen zur sogenannten Dichte über. n = 2 Dichte S n n = 5 Dichte S n 87

89 n = 20 Dichte S n n = 00 Dichte S n n = 200 Dichte S n 88

90 n = 500 Dichte S n n = 500 Dichte S n (Die schwarze Kurve ist die Dichte der Standard-Normalverteilung, f(x) = (2π) /2 exp( x 2 /2).) Wir sehen: Für genügend großes n ist die Verteilung von (X + + X n ) nµ X nσ 2 X d Z mit Z N 0,. (.20) Übrigens: Da die Summe unabhängiger, normalverteilter ZVn wieder normalverteilt ist, gilt für X i N µ,σ 2 (X + + X n ) nµ N 0,, nσ 2 d.h. dann gilt (.20) exakt (dies folgt aus Bsp..65 und Bsp..32,.) 89

91 Satz.9 ( Zentraler Grenzwertsatz ). Seien X, X 2,... u.i.v. reelle ZVn L 2 mit Var[X ] (0, ), dann gilt für a < b lim P (a X + + X n ne[x ] b) = P (a Z b) mit Z N 0,. (.2) n nvar[x ] Die wichtige Botschaft von Satz.9 lautet: Eine Summe von vielen unabhängigen und identisch verteilten zufälligen Summanden ist (approximativ) normalverteilt. Bemerkung.92. Die Eigenschaft (.2) wird auch ausgesprochen als Konvergenz in Verteilung : X, X n reellwertige ZVn, so sagt man wenn gilt d X n X in Verteilung (auch X n X oder X L n X geschrieben), n n n für jedes x R, an dem F X stetig ist. Satz.9 besagt also: lim P (X n x) = P (X x) ( = F X (x)) n X + + X n ne[x ] nvar[x ] d n Z Bericht.93. Es gibt viele Verallgemeinerungen von Satz.9, die die Annahme, dass die X i u.i.v. sind, (stark) abschwächen..5.3 Eine Heuristik zum zentralen Grenzwertsatz Beweise des zentralen Grenzwertsatzes finden sich in der Lehrbuch-Literatur, z.b. sehr schön in [KW, Kap. III.2], in [Ge, Kap. 5.3] oder in [MP90, Satz 2.3.7]; wir betrachten hier nur ein heuristisches Argument: Warum taucht im zentralen Grenzwertsatz die Normalverteilung auf? Beobachtung. In der Situation des zentralen Grenzwertsatzes sei (Z, Z 2 ) = ( X + X X n nµ X nσ 2 X, X n+ + X n X 2n nµ X ), nσ 2 X offenbar sind Z und Z 2 unabhängig und identisch verteilt. Betrachten wir die gemeinsame Verteilung von Z und Z 2 (Simulationen mit n = 200, X i unif [0,] ): 90

92 000 simulierte Werte von (Z, Z 2 ) 2000 simulierte Werte von (Z, Z 2 ) 3000 simulierte Werte von (Z, Z 2 ) 4000 simulierte Werte von (Z, Z 2 ) 9

93 5000 simulierte Werte von (Z, Z 2 ) 5000 simulierte Werte von (Z, Z 2 ) Die Simulationen legen nahe: (Z, Z 2 ) ist (approximativ) rotationssymmetrisch verteilt. Beobachtung.94 (Eine Charakterisierung der Normalverteilung). Seien Z, Z 2 unabhängige, reellwertige ZVn mit derselben Dichte f, so dass (Z, Z 2 ) rotationssymmetrisch verteilt ist. Dann muss f eine (zentrierte) Normaldichte sein, d.h. für ein σ 2 (0, ). f(x) = x2 exp ( 2πσ 2 2σ ) 2 Beweis. Die (gemeinsame) Dichte f (Z,Z 2 ) ist rotationssymmetrisch, also gilt f (Z,Z 2 )(z, z 2 ) = g( z 2 + z2 2 ) für eine gewisse Funktion g (vgl. Beob..58), andererseits gilt wegen Unabhängigkeit (vgl. Bericht.56) f (Z,Z 2 )(z, z 2 ) = f(z )f(z 2 ) Mit der Wahl z = r 0, z 2 = 0 folgt f(r)f(0) = g( r 2 ) = g(r) (insbesondere muss f symmetrisch sein: f( r) = f(r)). Somit erfüllt f folgende Funktionalgleichung (setze oben r = z 2 + z2 2 ): f(z )f(z 2 ) = f(0)f( z 2 + z2 2 ), z, z 2 R. (Eine mögliche Lösung ist f(z) = e z2, denn e z2 e z2 = e (z2 +z2 2 ) = e ( z 2 +z2 2 )2.) 92

Statistik für Informatiker, SS Verteilungen mit Dichte

Statistik für Informatiker, SS Verteilungen mit Dichte 1/39 Statistik für Informatiker, SS 2017 1.1.6 Verteilungen mit Dichte Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo17/ 17.5.2017 Zufallsvariablen mit Dichten sind ein kontinuierliches

Mehr

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie Ereignisse, Zufallsvariablen und Wahrscheinlichkeiten 1/43 Statistik für Informatiker, SS 2018 1 Grundlagen aus der Wahrscheinlichkeitstheorie 1.1 Ereignisse, Zufallsvariablen und Wahrscheinlichkeiten

Mehr

Statistik für Informatiker, SS 2019 Organisatorisches, ein Startbeispiel und eine sehr knappe R-Einführung

Statistik für Informatiker, SS 2019 Organisatorisches, ein Startbeispiel und eine sehr knappe R-Einführung 1/28 Statistik für Informatiker, SS 2019 Organisatorisches, ein Startbeispiel und eine sehr knappe R-Einführung Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo19/ 15.4.2019 2/28 Herzlich

Mehr

Statistik für Informatiker, SS 2017 Organisatorisches, ein Startbeispiel und eine sehr knappe R-Einführung

Statistik für Informatiker, SS 2017 Organisatorisches, ein Startbeispiel und eine sehr knappe R-Einführung 1/18 Statistik für Informatiker, SS 2017 Organisatorisches, ein und eine sehr knappe R-Einführung Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo17/ 19.4.2017 2/18 Herzlich willkommen zur

Mehr

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie Mathematische Modellierung des Zufalls 1/46 Statistik für Informatiker, SS 2018 1 Grundlagen aus der Wahrscheinlichkeitstheorie 1.1 Ereignisse, Zufallsvariablen und Wahrscheinlichkeiten Matthias Birkner

Mehr

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie Mathematische Modellierung des Zufalls 1/46 Statistik für Informatiker, SS 2019 1 Grundlagen aus der Wahrscheinlichkeitstheorie 1.1 Ereignisse, Zufallsvariablen und Wahrscheinlichkeiten Matthias Birkner

Mehr

Statistik für Informatiker

Statistik für Informatiker Statistik für Informatiker Notizen zu einer Vorlesung an der Johannes-Gutenberg-Universität Mainz, Sommer 207 Matthias Birkner Vorläufige Version, 2. Juni 207 Kommentare, Korrekturvorschläge, Hinweise

Mehr

Stochastik I. Vorlesungsmitschrift

Stochastik I. Vorlesungsmitschrift Stochastik I Vorlesungsmitschrift Ulrich Horst Institut für Mathematik Humboldt-Universität zu Berlin Inhaltsverzeichnis 1 Grundbegriffe 1 1.1 Wahrscheinlichkeitsräume..................................

Mehr

Wahrscheinlichkeitstheorie und Statistik

Wahrscheinlichkeitstheorie und Statistik Wahrscheinlichkeitstheorie und Statistik Definitionen und Sätze Prof. Dr. Christoph Karg Studiengang Informatik Hochschule Aalen Sommersemester 2018 2.5.2018 Diskrete Wahrscheinlichkeitsräume Diskreter

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie 1/19 Statistik für Informatiker, SS 2018 1 Grundlagen aus der Wahrscheinlichkeitstheorie 1.3 Bedingte Wahrscheinlichkeiten, Unabhängigkeit, gemeinsame Verteilung 1.3.4 Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo18/

Mehr

Stochastik Wiederholung von Teil 1

Stochastik Wiederholung von Teil 1 Stochastik Wiederholung von Teil 1 Andrej Depperschmidt Sommersemester 2016 Wahrscheinlichkeitsraum Definition Das Tripple (Ω, A, P) heißt Wahrscheinlichkeitsraum, falls gilt: (i) A ist eine σ-algebra,

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen... Inhaltsverzeichnis I Grundbegriffe 1 1 Wahrscheinlichkeitsräume......................... 1 2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit........... 7 3 Reellwertige Zufallsvariablen........................

Mehr

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 22. September 2015 Evelina Erlacher 1 Mengen Es sei Ω eine Menge (die Universalmenge ) und A, B seien Teilmengen von Ω. Dann schreiben

Mehr

Stochastik. 1. Wahrscheinlichkeitsräume

Stochastik. 1. Wahrscheinlichkeitsräume Stochastik 1. Wahrscheinlichkeitsräume Ein Zufallsexperiment ist ein beliebig oft und gleichartig wiederholbarer Vorgang mit mindestens zwei verschiedenen Ergebnissen, bei dem der Ausgang ungewiß ist.

Mehr

3. Kombinatorik und Wahrscheinlichkeit

3. Kombinatorik und Wahrscheinlichkeit 3. Kombinatorik und Wahrscheinlichkeit Es geht hier um die Bestimmung der Kardinalität endlicher Mengen. Erinnerung: Seien A, B, A 1,..., A n endliche Mengen. Dann gilt A = B ϕ: A B bijektiv Summenregel:

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/52 Biostatistik, Sommer 2017 Prof. Dr. Achim Klenke http://www.aklenke.de 7. Vorlesung: 02.06.2017 2/52 Inhalt 1 Wahrscheinlichkeit Bayes sche Formel 2 Diskrete Stetige 3/52 Wahrscheinlichkeit Bayes

Mehr

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung 2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung Die einfachste Verteilung ist die Gleichverteilung, bei der P(X = x i ) = 1/N gilt, wenn N die Anzahl möglicher Realisierungen von

Mehr

Inhaltsverzeichnis. Dozent: Andreas Nestke Lehrfach: Mathe 3 Thema: Wahrscheinlichkeitstheorie Datum: Autor: René Pecher

Inhaltsverzeichnis. Dozent: Andreas Nestke Lehrfach: Mathe 3 Thema: Wahrscheinlichkeitstheorie Datum: Autor: René Pecher Dozent: Andreas Nestke Lehrfach: Mathe 3 Thema: Wahrscheinlichkeitstheorie Datum: 24.01.2011 Autor: René Pecher Inhaltsverzeichnis 1 Permutation 1 1.1 ohne Wiederholungen........................... 1 1.2

Mehr

2 Zufallsvariable, Verteilungen, Erwartungswert

2 Zufallsvariable, Verteilungen, Erwartungswert 2 Zufallsvariable, Verteilungen, Erwartungswert Bisher: Zufallsexperimente beschrieben durch W-Räume (Ω, A, P) Häufig interessiert nur eine zufällige Größe X = X(ω), die vom Ergebnis ω des Zufallsexperiments

Mehr

Biostatistik, Sommer 2017

Biostatistik, Sommer 2017 1/51 Biostatistik, Sommer 2017 Wahrscheinlichkeitstheorie: Verteilungen, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 8. Vorlesung: 09.06.2017 2/51 Inhalt 1 Verteilungen Normalverteilung Normalapproximation

Mehr

Biostatistik, Winter 2011/12

Biostatistik, Winter 2011/12 Biostatistik, Winter 2011/12 Wahrscheinlichkeitstheorie:, Kenngrößen Prof. Dr. Achim Klenke http://www.aklenke.de 7. Vorlesung: 09.12.2011 1/58 Inhalt 1 2 Kenngrößen von Lagemaße 2/58 mit Dichte Normalverteilung

Mehr

Grundlagen der Wahrscheinlichkeitstheorie

Grundlagen der Wahrscheinlichkeitstheorie Priv.-Doz. Dr. H. Steinacker Wintersemester 2013/2014 Grundlagen der Wahrscheinlichkeitstheorie betrachte Wiederholungen eines Experimentes, gleicher Vorbereitung (z.b. Würfeln, Dart werfen, Doppelspaltexperiment,...)

Mehr

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren 3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem

Mehr

Wahrscheinlichkeitsrechnung. Sommersemester Kurzskript

Wahrscheinlichkeitsrechnung. Sommersemester Kurzskript Wahrscheinlichkeitsrechnung Sommersemester 2008 Kurzskript Version 1.0 S. Döhler 1. Juli 2008 In diesem Kurzskript sind Begriffe und Ergebnisse aus der Lehrveranstaltung zusammengestellt. Außerdem enthält

Mehr

Eine Auswahl wichtiger Definitionen und Aussagen zur Vorlesung»Stochastik für Informatiker und Regelschullehrer«

Eine Auswahl wichtiger Definitionen und Aussagen zur Vorlesung»Stochastik für Informatiker und Regelschullehrer« Eine Auswahl wichtiger Definitionen und Aussagen zur Vorlesung»Stochastik für Informatiker und Regelschullehrer«Werner Linde WS 2008/09 Inhaltsverzeichnis 1 Wahrscheinlichkeiten 2 1.1 Wahrscheinlichkeitsräume...........................

Mehr

Wirtschaftsmathematik

Wirtschaftsmathematik Einführung in einige Teilbereiche der Wintersemester 206 Prof. Dr. Stefan Etschberger HSA Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: P(A

Mehr

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W.

8. Formelsammlung. Pr[ ] = 0. 0 Pr[A] 1. Pr[Ā] = 1 Pr[A] A B = Pr[A] Pr[B] DWT 8.1 Gesetze zum Rechnen mit Ereignissen 203/467 Ernst W. 8. Formelsammlung 8.1 Gesetze zum Rechnen mit Ereignissen Im Folgenden seien A und B, sowie A 1,..., A n Ereignisse. Die Notation A B steht für A B und zugleich A B = (disjunkte Vereinigung). A 1... A

Mehr

Wichtige Definitionen und Aussagen

Wichtige Definitionen und Aussagen Wichtige Definitionen und Aussagen Zufallsexperiment, Ergebnis, Ereignis: Unter einem Zufallsexperiment verstehen wir einen Vorgang, dessen Ausgänge sich nicht vorhersagen lassen Die möglichen Ausgänge

Mehr

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1 4 Absolutstetige Verteilungen und Zufallsvariablen 215/1 23. Bemerkung Integralbegriffe für Funktionen f : R d R (i) Lebesgue-Integral (Vorlesung Analysis IV). Spezialfall: (ii) Uneigentliches Riemann-Integral

Mehr

5 Zufallsvariablen, Grundbegriffe

5 Zufallsvariablen, Grundbegriffe II. Zufallsvariablen 5 Zufallsvariablen, Grundbegriffe Def. 12 Es seien (Ω 1, E 1,P 1 ) und (Ω 2, E 2,P 2 ) Wahrscheinlichkeitsräume. Eine Abbildung X : Ω 1 Ω 2 heißt E 1 E 2 meßbar, falls für alle Ereignisse

Mehr

Vorlesung 2b. Diskrete Zufallsvariable. und ihre Verteilungen

Vorlesung 2b. Diskrete Zufallsvariable. und ihre Verteilungen Vorlesung 2b Diskrete Zufallsvariable und ihre Verteilungen 1 1. Die Grundbegriffe 2 Bisher hatten wir uns (vor allem) mit Zufallsvariablen beschäftigt, deren Wertebereich S endlich war. Die (schon in

Mehr

Wahrscheinlichkeitstheorie und Maßtheorie

Wahrscheinlichkeitstheorie und Maßtheorie KAPITEL 7 Wahrscheinlichkeitstheorie und Maßtheorie 7.1. Vorüberlegungen Die folgenden drei Beispiele sind Spezialfälle des Oberbegriffs Maß. Beispiel 7.1.1 (Verteilung der Ladung oder der Masse). Man

Mehr

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume Kapitel II Kontinuierliche Wahrscheinlichkeitsräume 1. Einführung 1.1 Motivation Interpretation der Poisson-Verteilung als Grenzwert der Binomialverteilung. DWT 1.1 Motivation 211/476 Beispiel 85 Wir betrachten

Mehr

Biostatistik, Winter 2011/12

Biostatistik, Winter 2011/12 Biostatistik, Winter 2011/12 Wahrscheinlichkeitstheorie:, Unabhängigkeit Prof. Dr. Achim Klenke http://www.aklenke.de 6. Vorlesung: 02.12.2011 1/30 Inhalt 1 Wahrscheinlichkeit 2 2/30 Wahrscheinlichkeit

Mehr

Definition: Ein endlicher Ergebnisraum ist eine nichtleere Menge, deren. wird als Ereignis, jede einelementige Teilmenge als Elementarereignis

Definition: Ein endlicher Ergebnisraum ist eine nichtleere Menge, deren. wird als Ereignis, jede einelementige Teilmenge als Elementarereignis Stochastische Prozesse: Grundlegende Begriffe bei zufälligen Prozessen In diesem Abschnitt beschäftigen wir uns mit den grundlegenden Begriffen und Definitionen von Zufallsexperimenten, also Prozessen,

Mehr

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung Version: 15. Jänner 2017 Evelina Erlacher Inhaltsverzeichnis 1 Mengen 2 2 Wahrscheinlichkeiten 3 3 Zufallsvariablen 5 3.1 Diskrete Zufallsvariablen............................

Mehr

TU DORTMUND Sommersemester 2018

TU DORTMUND Sommersemester 2018 Fakultät Statistik. April 08 Blatt Aufgabe.: Wir betrachten das Zufallsexperiment gleichzeitiges Werfen zweier nicht unterscheidbarer Würfel. Sei A das Ereignis, dass die Augensumme beider Würfel ungerade

Mehr

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte

3. Übungsblatt - Lösungsskizzen. so, dass f tatsächlich eine Wahrscheinlichkeitsdichte Einführung in die Wahrscheinlichkeitstheorie und Statistik Prof. Dr. Jan Johannes Sandra Schluttenhofer Wintersemester 208/9 3. Übungsblatt - Lösungsskizzen Aufgabe 9 Stetige Verteilungen, 4 =.5 +.5 +

Mehr

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

Zufallsvariable, Verteilung, Verteilungsfunktion

Zufallsvariable, Verteilung, Verteilungsfunktion Kapitel 5 Zufallsvariable, Verteilung, Verteilungsfunktion 5.1 Zufallsvariable Sei (Ω, A, P ) ein beliebiger Wahrscheinlichkeitsraum. Häufig interessiert nicht ω selbst, sondern eine Kennzahl X(ω), d.h.

Mehr

Vorlesung 3a. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen

Vorlesung 3a. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen Vorlesung 3a Der Erwartungswert von diskreten reellwertigen Zufallsvariablen X sei eine diskrete reellwertige Zufallsvariable, d.h. eine ZV e mit Wertebereich R (oder einer Teilmenge davon), sodass eine

Mehr

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt Universität Basel Wirtschaftswissenschaftliches Zentrum Zufallsvariablen Dr. Thomas Zehrt Inhalt: 1. Einführung 2. Zufallsvariablen 3. Diskrete Zufallsvariablen 4. Stetige Zufallsvariablen 5. Erwartungswert

Mehr

2 Zufallsvariablen und deren Verteilungen

2 Zufallsvariablen und deren Verteilungen 2 Zufallsvariablen und deren Verteilungen 2.1 Zufallsvariablen Zufallsvariablen sind Funktionen von Ω in die reellen Zahlen R. Beispiel 2.1.1 (Zweimaliger Münzwurf). Ω = ZZ, KK, KZ, ZK}. Sei X(ω) die Anzahl

Mehr

Diskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier

Diskrete Strukturen und Logik WiSe 2007/08 in Trier. Henning Fernau Universität Trier Diskrete Strukturen und Logik WiSe 2007/08 in Trier Henning Fernau Universität Trier fernau@uni-trier.de 1 Diskrete Strukturen und Logik Gesamtübersicht Organisatorisches Einführung Logik & Mengenlehre

Mehr

Einführung in die angewandte Stochastik

Einführung in die angewandte Stochastik Einführung in die angewandte Stochastik Fabian Meyer 5. April 2018 Inhaltsverzeichnis 1 Wahrscheinlichkeitsrechnung 3 1.1 Definitionen................................... 3 1.2 Wahrscheinlichkeitsmaß, Wahrscheinlichkeitsverteilung,

Mehr

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3 Prüfungsvorbereitungskurs Höhere Mathematik 3 Stochastik Marco Boßle Jörg Hörner Mathematik Online Frühjahr 2011 PV-Kurs HM 3 Stochastik 1-1 Zusammenfassung Wahrscheinlichkeitsraum (WR): Menge der Elementarereignisse

Mehr

Diskrete Strukturen II

Diskrete Strukturen II SS 2004 Diskrete Strukturen II Ernst W. Mayr Fakultät für Informatik TU München http://www14.in.tum.de/lehre/2004ss/ds/index.html.de 18. Juni 2004 Exponentialverteilung als Grenzwert der geometrischen

Mehr

13 Grenzwertsätze Das Gesetz der großen Zahlen

13 Grenzwertsätze Das Gesetz der großen Zahlen 13 Grenzwertsätze 13.1 Das Gesetz der großen Zahlen Der Erwartungswert einer zufälligen Variablen X ist in der Praxis meist nicht bekannt. Um ihn zu bestimmen, sammelt man Beobachtungen X 1,X 2,...,X n

Mehr

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3 Prüfungsvorbereitungskurs Höhere Mathematik 3 Stochastik Marco Boßle Jörg Hörner Marcel Thoms Mathematik Online Herbst 211 PV-Kurs HM 3 Stochastik 1-1 Zusammenfassung Wahrscheinlichkeitsraum (WR): Menge

Mehr

Vorlesung 3a. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen

Vorlesung 3a. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen Vorlesung 3a Der Erwartungswert von diskreten reellwertigen Zufallsvariablen 0. Diskrete reellwertige Zufallsvariable X sei eine Zufallsvariable, deren Zielbereich R (die Menge der reellen Zahlen) oder

Mehr

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie

Statistik für Informatiker, SS Grundlagen aus der Wahrscheinlichkeitstheorie Bedingte W keit, Unabhängigkeit, gemeinsame Verteilung 1/44 Statistik für Informatiker, SS 2018 1 Grundlagen aus der Wahrscheinlichkeitstheorie 1.3 Bedingte Wahrscheinlichkeiten, Unabhängigkeit, gemeinsame

Mehr

2 Zufallsvariable und Verteilungsfunktionen

2 Zufallsvariable und Verteilungsfunktionen 8 2 Zufallsvariable und Verteilungsfunktionen Häufig ist es so, dass den Ausgängen eines Zufallexperiments, d.h. den Elementen der Ereignisalgebra, eine Zahl zugeordnet wird. Das wollen wir etwas mathematischer

Mehr

Stochastik-Praktikum

Stochastik-Praktikum Stochastik-Praktikum Zufallszahlen und Monte Carlo Peter Frentrup Humboldt-Universität zu Berlin 17. Oktober 2017 (Humboldt-Universität zu Berlin) Zufallszahlen und Monte Carlo 17. Oktober 2017 1 / 23

Mehr

7.5 Erwartungswert, Varianz

7.5 Erwartungswert, Varianz 7.5 Erwartungswert, Varianz Def. 7.5.: a) X sei eine diskrete ZV, die bei unendl. vielen Werten x k folgende Zusatzbedingung erfüllt: x k p k

Mehr

5 Binomial- und Poissonverteilung

5 Binomial- und Poissonverteilung 45 5 Binomial- und Poissonverteilung In diesem Kapitel untersuchen wir zwei wichtige diskrete Verteilungen d.h. Verteilungen von diskreten Zufallsvariablen): die Binomial- und die Poissonverteilung. 5.1

Mehr

Inhaltsverzeichnis (Ausschnitt)

Inhaltsverzeichnis (Ausschnitt) 8 Messbarkeit und Bildwahrscheinlichkeit Inhaltsverzeichnis (Ausschnitt) 8 Messbarkeit und Bildwahrscheinlichkeit Messbare Abbildungen Bildwahrscheinlichkeit Deskriptive Statistik und Wahrscheinlichkeitsrechnung

Mehr

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wahrscheinlichkeit und Statistik: Zusammenfassung HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1

Mehr

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik Sommersemester 2016 Prof. Dr. Stefan Etschberger Hochschule Augsburg Zufallsvariablen Beschreibung von Ereignissen

Mehr

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten Kapitel 2 Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten 2.1 Stochastische Unabhängigkeit von Ereignissen Gegeben sei ein W-Raum (Ω, C, P. Der Begriff der stochastischen Unabhängigkeit von

Mehr

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen David Geier und Sven Middelberg RWTH Aachen, Sommersemester 27 Inhaltsverzeichnis Information 2 Aufgabe 4 Aufgabe 2 6 4 Aufgabe

Mehr

Vorlesung 3. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen

Vorlesung 3. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen Vorlesung 3 Der Erwartungswert von diskreten reellwertigen Zufallsvariablen 0. Diskrete reellwertige Zufallsvariable X sei eine Zufallsvariable, deren Zielbereich R (die Menge der reellen Zahlen) oder

Mehr

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung lausthal Begriffe Informatik II rundbegriffe der Wahrscheinlichkeitsrechnung. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Definition: Unter einem Zufallsexperiment versteht man einen,

Mehr

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential Zufallsvariablen Diskret Binomial Hypergeometrisch Poisson Stetig Normal Lognormal Exponential Verteilung der Stichprobenkennzahlen Zufallsvariable Erinnerung: Merkmal, Merkmalsausprägung Deskriptive Statistik:

Mehr

Erwartungswert als Integral

Erwartungswert als Integral Erwartungswert als Integral Anton Klimovsky Gemischte ZVen, allgemeine ZVen, Erwartungswert für allgemeine ZVen, Lebesgue-Integral bzgl. WMaß, Eigenschaften des Integrals, Lebesgue-Maß, Lebesgue-Integral

Mehr

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit 3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit Lernziele dieses Kapitels: Mehrdimensionale Zufallsvariablen (Zufallsvektoren) (Verteilung, Kenngrößen) Abhängigkeitsstrukturen Multivariate

Mehr

Vorlesung 3a. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen

Vorlesung 3a. Der Erwartungswert. von diskreten reellwertigen Zufallsvariablen Vorlesung 3a Der Erwartungswert von diskreten reellwertigen Zufallsvariablen X sei eine Zufallsvariable, deren Zielbereich R (die Menge der reellen Zahlen) (oder eine Teilmenge davon) ist. Es existiere

Mehr

Statistik für Informatiker, SS Erwartungswert, Varianz und Kovarianz

Statistik für Informatiker, SS Erwartungswert, Varianz und Kovarianz 1/65 Statistik für Informatiker, SS 2017 1.3 Erwartungswert, Varianz und Kovarianz Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo17/ 7.6.2017 / 14.6.2017 2/65 Der Erwartungswert ist eine

Mehr

Statistik I für Betriebswirte Vorlesung 4

Statistik I für Betriebswirte Vorlesung 4 Statistik I für Betriebswirte Vorlesung 4 Prof. Dr. Hans-Jörg Starkloff TU Bergakademie Freiberg Institut für Stochastik 25. April 2016 Prof. Dr. Hans-Jörg Starkloff Statistik I für Betriebswirte Vorlesung

Mehr

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung lausthal Informatik II rundbegriffe der Wahrscheinlichkeitsrechnung. Zachmann lausthal University, ermany zach@in.tu-clausthal.de Begriffe Definition: Unter einem Zufallsexperiment versteht man einen,

Mehr

Psychologische Methodenlehre und Statistik I

Psychologische Methodenlehre und Statistik I Psychologische Methodenlehre und Statistik I Pantelis Christodoulides & Karin Waldherr SS 2013 Pantelis Christodoulides & Karin Waldherr Psychologische Methodenlehre und Statistik I 1/61 Zufallsexperiment

Mehr

Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge zu Übungsblatt 4

Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge zu Übungsblatt 4 TUM, Zentrum Mathematik Lehrstuhl für Mathematische Physik WS 3/4 Prof. Dr. Silke Rolles Thomas Höfelsauer Felizitas Weidner Tutoraufgaben: Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge

Mehr

Vorlesung 5a. Zufallsvariable mit Dichten

Vorlesung 5a. Zufallsvariable mit Dichten Vorlesung 5a 1 Vorlesung 5a Zufallsvariable mit Dichten Vorlesung 5a Zufallsvariable mit Dichten Teil 1 Uniforme Verteilung, Exponentialverteilung. Kontinuierlich uniform verteilte Zufallsvariable: 2 Kontinuierlich

Mehr

Statistik für Informatiker, SS Erwartungswert, Varianz und Kovarianz

Statistik für Informatiker, SS Erwartungswert, Varianz und Kovarianz Erwartungswert, Varianz und Kovarianz 1/65 Statistik für Informatiker, SS 2018 1.4 Erwartungswert, Varianz und Kovarianz Matthias Birkner http://www.staff.uni-mainz.de/birkner/statinfo18/ 14.5.2018 / 28.5.2018

Mehr

1 1 e x2 =2 d x 1. e (x2 +y 2 )=2 d x d y : Wir gehen nun zu Polarkoordinaten uber und setzen x := r cos und y := r sin.

1 1 e x2 =2 d x 1. e (x2 +y 2 )=2 d x d y : Wir gehen nun zu Polarkoordinaten uber und setzen x := r cos und y := r sin. Lemma 92 Beweis: Wir berechnen zunachst I 2 : I 2 = Z 1 I := e x2 =2 d x p = 2: 1 Z 1 1 Z 1 Z 1 = 1 1 Z 1 e x2 =2 d x 1 e (x2 +y 2 )=2 d x d y : e y2 =2 d y Wir gehen nun zu Polarkoordinaten uber und setzen

Mehr

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s X. Zufallsgrößen ================================================================= 10.1 Zufallsgrößen und ihr Erwartungswert --------------------------------------------------------------------------------------------------------------

Mehr

P (X = 2) = 1/36, P (X = 3) = 2/36,...

P (X = 2) = 1/36, P (X = 3) = 2/36,... 2.3 Zufallsvariablen 2.3 Zufallsvariablen Meist sind die Ereignisse eines Zufallseperiments bereits reelle Zahlen. Ist dies nicht der Fall, kann man Ereignissen eine reelle Zahl zuordnen. Zum Beispiel

Mehr

Vorkurs Mathematik. Christoph Hindermann. Wahrscheinlichkeitstheorie

Vorkurs Mathematik. Christoph Hindermann. Wahrscheinlichkeitstheorie Kapitel 4 Christoph Hindermann Vorkurs Mathematik 1 4.0 Motivation Wenn 100 Münzen geworfen werden, wie ist dann die Wahrscheinlichkeit, dass genau 50 davon Kopf zeigen? Angenommen, es befinden sich 300

Mehr

Vorlesung 5b. Zufallsvariable mit Dichten

Vorlesung 5b. Zufallsvariable mit Dichten Vorlesung 5b 1 Vorlesung 5b Zufallsvariable mit Dichten Vorlesung 5b Zufallsvariable mit Dichten Wiederholung aus Vorlesung 2b+: Kontinuierlich uniform verteilte Zufallsvariable: Sei S eine Teilmenge des

Mehr

Charakteristische Funktionen

Charakteristische Funktionen Kapitel 9 Charakteristische Funktionen Jeder Wahrscheinlichkeitsverteilung auf (, B 1 ) (allgemeiner: (R n, B n )) ist eine komplexwertige Funktion, ihre charakteristische Funktion, zugeordnet, durch die

Mehr

Vorlesung 7b. Unabhängigkeit bei Dichten. und die mehrdimensionale Standardnormalverteilung

Vorlesung 7b. Unabhängigkeit bei Dichten. und die mehrdimensionale Standardnormalverteilung Vorlesung 7b Unabhängigkeit bei Dichten und die mehrdimensionale Standardnormalverteilung 0. Wiederholung: Die Normalverteilung Dichtefunktion ϕ der Standardnormalverteilung ϕ(x) 0.0 0.1 0.2 0.3 0.4 4

Mehr

Wahrscheinlichkeitsräume und Zufallsvariablen

Wahrscheinlichkeitsräume und Zufallsvariablen Kapitel Wahrscheinlichkeitsräume und Zufallsvariablen. W-Raum Unter einem Zufallsexperiment verstehen wir einen vom Zufall beeinflussten Vorgang, der ein entsprechend zufälliges Ergebnis hervorbringt.

Mehr

1 Stochastische Konvergenz 2

1 Stochastische Konvergenz 2 Wirtschaftswissenschaftliches Zentrum 0 Universität Basel Mathematik Dr. Thomas Zehrt Grenzwertsätze Benötigtes Vorwissen: Der Stoff der Vorlesung,,Statistik wird als bekannt vorausgesetzt, insbesondere

Mehr

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Kapitel VII - Funktion und Transformation von Zufallsvariablen Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VII - Funktion und Transformation von Zufallsvariablen Markus Höchstötter Lehrstuhl

Mehr

Vorlesung 5a. Die Varianz

Vorlesung 5a. Die Varianz Vorlesung 5a Die Varianz 1 1. Varianz und Standardabweichung: Elementare Eigenschaften (Buch S. 24) 2 X sei reellwertige Zufallsvariable mit endlichem Erwartungswert µ. Die Varianz von X ist definiert

Mehr

Statistics, Data Analysis, and Simulation SS 2017

Statistics, Data Analysis, and Simulation SS 2017 Statistics, Data Analysis, and Simulation SS 2017 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Mainz, 4. Mai 2017 Dr. Michael O. Distler

Mehr

Basiswissen Daten und Zufall Seite 1 von 8 1 Zufallsexperiment Ein Zufallsexperiment ist ein Versuchsaufbau mit zufälligem Ausgang, d. h. das Ergebnis kann nicht vorhergesagt werden. 2 Ergebnis (auch Ausgang)

Mehr

Ü b u n g s b l a t t 7

Ü b u n g s b l a t t 7 Einführung in die Stochastik Sommersemester 07 Dr. Walter Oevel 21. 5. 2007 Ü b u n g s b l a t t 7 Mit und gekennzeichnete Aufgaben können zum Sammeln von Bonuspunkten verwendet werden. Lösungen von -Aufgaben

Mehr

Biostatistik, Winter 2011/12

Biostatistik, Winter 2011/12 Biostatistik, Winter 2011/12 stheorie: Grundbegriffe Prof. Dr. Achim Klenke http://www.aklenke.de 5. Vorlesung: 25.11.2011 1/33 Inhalt 1 Zufallsvariablen 2 Ereignisse 3 2/33 Zufallsvariablen Eine Zufallsvariable

Mehr

Vorlesung 6b. Zufallsvariable mit Dichten. Teil 1 Uniforme Verteilung & Co.

Vorlesung 6b. Zufallsvariable mit Dichten. Teil 1 Uniforme Verteilung & Co. Vorlesung 6b Zufallsvariable mit Dichten Teil 1 Uniforme Verteilung & Co. 1 1. Uniforme Verteilung auf dem Einheitsintervall 2 Eine Zufallsvariable X mit Zielbereich S = [0, 1] heißt uniform verteilt auf

Mehr

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) := Definition 2.34. Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) := x f(x)dx der Erwartungswert von X, sofern dieses Integral existiert. Entsprechend wird die Varianz V(X)

Mehr

KAPITEL 3 DISKRETE ZUFALLSVARIABLEN UND VERTEILUNGEN

KAPITEL 3 DISKRETE ZUFALLSVARIABLEN UND VERTEILUNGEN htw saar 1 KAPITEL 3 DISKRETE ZUFALLSVARIABLEN UND VERTEILUNGEN htw saar 2 Gliederung 18.01. Was sind Zufallsvariablen? Charakteristika einer Zufallsvariablen: Verteilung, Erwartungswert und Varianz Ausgewählte

Mehr

KAPITEL 5. Erwartungswert

KAPITEL 5. Erwartungswert KAPITEL 5 Erwartungswert Wir betrachten einen diskreten Wahrscheinlichkeitsraum (Ω, P) und eine Zufallsvariable X : Ω R auf diesem Wahrscheinlichkeitsraum. Die Grundmenge Ω hat also nur endlich oder abzählbar

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 08.01.2009 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 32 Einführung Wahrscheinlichkeit Verteilungen

Mehr

Unabhängige Zufallsvariablen

Unabhängige Zufallsvariablen Kapitel 9 Unabhängige Zufallsvariablen Die Unabhängigkeit von Zufallsvariablen wird auf die Unabhängigkeit von Ereignissen zurückgeführt. Im Folgenden sei Ω, A, P ) ein Wahrscheinlichkeitsraum. Definition

Mehr