Mini-Skript Wahrscheinlichkeitstheorie und Statistik

Transkript

1 Mini-Skript Wahrscheinlichkeitstheorie und Statistik Peter Bühlmann Georg Grafendorfer, Lukas Meier Inhaltsverzeichnis 1 Der Begriff der Wahrscheinlichkeit Rechenregeln für Wahrscheinlichkeiten Interpretation von Wahrscheinlichkeiten Unabhängigkeit von Ereignissen Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten Satz der totalen Wahrscheinlichkeit und Satz von Bayes Zufallsvariablen und Wahrscheinlichkeitsverteilungen Definition einer Zufallsvariablen Wahrscheinlichkeitsverteilung auf R Arten von Zufallsvariablen Erwartungswert und Varianz Die wichtigsten diskreten Verteilungen Stetige Verteilungen Wahrscheinlichkeitsdichte Die wichtigsten stetigen Verteilungen Transformationen Simulation von Zufallsvariablen Mehrere Zufallsvariablen und Funktionen davon Die i.i.d. Annahme Funktionen von Zufallsvariablen Das Gesetz der Grossen Zahlen und der Zentrale Grenzwertsatz Gemeinsame und bedingte Verteilungen Diskreter Fall Stetiger Fall Gemeinsame Dichte Randdichte und bedingte Dichte

2 6.3 Erwartungswert bei mehreren Zufallsvariablen Kovarianz und Korrelation Zweidimensionale Normalverteilung Dichte einer Summe von zwei Zufallsvariablen Mehr als 2 Zufallsvariablen Deskriptive Statistik Kennzahlen Histogramm und Boxplot Normal- und QQ-Plot Schliessende Statistik: Konzepte und erste Anwendungen für diskrete Zufallsvariablen Daten als Realisierungen von Zufallsvariablen Erste Konzepte Punktschätzungen Momentenmethode Maximum-Likelihood Schätzer Eigenschaften von Schätzern Das Testproblem Zusammenfassung eines statistischen Tests Macht eines Tests P-Wert Vertrauensintervalle Mehrere Beobachtungen Statistik bei normalverteilten Daten Schätzungen Tests Z-Test (σ bekannt) t-test (σ unbekannt) Vergleich zweier Stichproben Gepaarte und ungepaarte Stichproben Gepaarte Vergleiche Zwei-Stichproben Tests

3 1 1 Der Begriff der Wahrscheinlichkeit Stochastik befasst sich mit Zufallsexperimenten: deren Ergebnisse sind unter gleichen Versuchsbedingungen verschieden. Beispiele: Kartenziehen, Würfeln, Roulette Simulation komplexe Phänomene (zumindest approximativ): Börse, Data-Mining, Genetik, Wetter Ergebnisse von Zufallsexperimenten werden in Ereignisse zusammengefasst. Wir definieren Ereignisraum (Grundraum) Ω: Menge aller möglichen Ergebnisse des Zufallsexperiments Elementarereignisse ω: Elemente von Ω, also die möglichen Ergebnisse des Zufallsexperiments Ereignis: Teilmenge von Ω Operationen der Mengenlehre haben natürliche Interpretation in der Sprache der Ereignisse. So haben wir beispielsweise A B bedeutet A und B. A B bedeutet A oder B ( oder zu verstehen als und/oder ). A c bedeutet nicht A. A \ B = A B c bedeutet A ohne B. A und B heissen disjunkt (d.h. A und B schliessen sich gegenseitig aus), falls A B =, wobei wir mit die leere Menge bezeichnen. Es gelten die De Morgan sche Regeln (A B) c = A c B c (A B) c = A c B c. Das Vorgehen der Stochastik zur Lösung eines Problems kann in drei Schritte unterteilt werden: 1. Man bestimmt die Wahrscheinlichkeiten gewisser Ereignisse A i. Dabei sind Expertenwissen, Daten und Plausibilitäten wichtig. 2. Man berechnet aus den Wahrscheinlichkeiten P (A i ) die Wahrscheinlichkeiten von gewissen anderen Ereignissen B j gemäss den Gesetzen der Wahrscheinlichkeitstheorie (oft vereinfachend unter Unabhängigkeitsannahme). 3. Man interpretiert die Wahrscheinlichkeiten P (B j ) im Hinblick auf die Problemstellung.

4 2 Das Bestimmen von Wahrscheinlichkeiten (siehe Schritt 1) wird oft konkreter formalisiert. Beispiel: Kombinatorische Abzählung bei endlichem Ω. Die Wahrscheinlichkeit von einem Ereignis A ist gegeben durch P (A) = A ( ) Anzahl günstige Fälle =. Ω Anzahl mögliche Fälle Dies ist das Laplace-Modell. Dem Laplace-Modell liegt die uniforme Verteilung von Elementarereignissen ω zugrunde: P ( {ω} ) = 1 Ω (ω Ω). Andere Wahrscheinlichkeitsverteilungen werden mit Hilfe des Konzepts von Zufallsvariablen (siehe Kapitel 3) eingeführt. Es sei aber bereits hier festgehalten: die Stochastik geht weit über das Laplace-Modell hinaus. Für viele Anwendungen ist das Laplace-Modell ungeeignet. 1.1 Rechenregeln für Wahrscheinlichkeiten Die drei grundlegenden Regeln (Axiome) sind 1. P (A) 0: Wahrscheinlichkeiten sind immer nicht-negativ. 2. P (Ω) = 1: sicheres Ereignis Ω hat Wahrscheinlichkeit eins. 3. P (A B) = P (A) + P (B) für alle Ereignisse A, B, die sich gegenseitig ausschliessen (d.h. A B = ). Weitere Regeln werden daraus abgeleitet, z.b. P (A c ) = 1 P (A) für jedes Ereignis A, P (A B) = P (A) + P (B) P (A B) für je zwei Ereignisse A und B, P (A 1... A n ) P (A 1 ) P (A n ) für je n Ereignisse A 1,..., A n, P (B) P (A) für je zwei Ereignisse A und B mit B A. P (A \ B) = P (A) P (B) für je zwei Ereignisse A und B mit B A. 1.2 Interpretation von Wahrscheinlichkeiten Die beiden wichtigsten Interpretationen sind die Idealisierung der relativen Häufigkeiten bei vielen unabhängigen Wiederholungen (frequentistisch) und das (subjektive) Mass für den Glauben, dass ein Ereignis eintreten wird (Bayes sch). Frequentistisch: betrachte die relative Häufigkeit eines Ereignis A in n unabhängigen Wiederholungen desselben Experiments, f n [A] = (Anzahl Auftreten des Ereignis A in n Experimenten)/n. Dieses Mass f n [ ] basiert auf Daten oder Beobachtungen. Falls n gross ist, so gilt f n [A] n P (A), wobei P (A) ein Mass in einem Modell ist (keine Experimente oder Daten). Die Statistik befasst sich grösstenteils damit, wie man von Daten auf ein Modell (induktiv) schliessen kann, siehe später.

5 3 1.3 Unabhängigkeit von Ereignissen Wenn zwischen zwei Ereignissen A und B kein kausaler Zusammenhang besteht (d.h. es gibt keine gemeinsamen Ursachen oder Ausschliessungen), dann werden sie unabhängig genannt. Genauer: Zwei Ereignisse A und B heissen (stochastisch) unabhängig 1 wenn P (A B) = P (A) P (B). (1) Die n Ereignisse A 1,... A n heissen unabhängig, wenn für jedes k n und alle 1 i 1 <... < i k n gilt P (A i1... A ik ) = P (A i1 ) P (A ik ). Achtung: Unabhängige Ereignisse sind nicht disjunkt und disjunkte Ereignisse sind nicht unabhängig (ausser wenn ein Ereignis Wahrscheinlichkeit 0 hat). Unabhängigkeit hängt ab von den Wahrscheinlichkeiten, während Disjunktheit nur ein mengentheoretischer Begriff ist. 2 Bedingte Wahrscheinlichkeiten Oft besteht ein Zufallsexperiment aus verschiedenen Stufen, und man erfährt das Resultat auch entsprechend diesen Stufen. Im einfachsten Fall erfährt man in der ersten Stufe, ob ein bestimmtes Ereignis B eingetreten ist oder nicht, und in der zweiten Stufe erfährt man, welches Ergebnis ω eingetreten ist. 2.1 Bedingte Wahrscheinlichkeiten Im Allgemeinen wird die Information aus der ersten Stufe die Unsicherheit über die zweite Stufe verändern. Diese modifizierte Unsicherheit wird gemessen durch die bedingte Wahrscheinlichkeit von A gegeben B bzw. B c, definiert durch P (A B) := P (A B) P (B) bzw. P (A B c ) := P (A Bc ) P (B c. ) Dass diese Definition sinnvoll ist, kann man anhand der Entsprechung von Wahrscheinlichkeiten und relativen Häufigkeiten sehen. Insbesondere gilt für 2 Ereignisse A, B mit P (A) 0 und P (B) 0: A, B unabhängig P (A B) = P (A) P (B A) = P (B). (2) 2.2 Satz der totalen Wahrscheinlichkeit und Satz von Bayes Die obige Definition kann man aber auch als P (A B) = P (A B) P (B) lesen, d.h. P (A B) ist bestimmt durch P (A B) und P (B). In vielen Anwendungen wird dieser Weg beschritten. Man legt die Wahrscheinlichkeiten für die erste Stufe P (B) und die bedingten Wahrscheinlichkeiten P (A B) und P (A B c ) für die zweite Stufe gegeben die erste fest (aufgrund von Daten, Plausibilität und subjektiven Einschätzungen). Dann lassen sich die übrigen Wahrscheinlichkeiten berechnen. Es gilt zum Beispiel der folgende Satz. 1 Eine andere (vielleicht sogar intuitivere) Charakterisierung der Unabhängigkeit zweier Ereignisse ist in Formel (2) gegeben.

6 4 Satz der totalen Wahrscheinlichkeit (I) P (A) = P (A B) + P (A B c ) = P (A B) P (B) + P (A B c ) P (B c ). Dieses Vorgehen wird besonders anschaulich, wenn man das Experiment als Baum darstellt. Wenn man dagegen von den Wahrscheinlichkeiten der Durchschnitte ausgeht, wählt man besser eine Matrixdarstellung. Wenn die einzelnen Stufen komplizierter sind, geht alles analog. Betrachte den Fall mit k Ereignissen auf der ersten Stufe B 1,... B k, wobei B i B j = falls i j und B 1... B k = Ω. Satz der totalen Wahrscheinlichkeit (II) P (A) = k P (A B i ) P (B i ). In manchen Situationen erhält man die Information über die verschiedenen Stufen aber nicht in der ursprünglichen Reihenfolge, d.h. man kennt zuerst das Ergebnis der zweiten Stufe, weiss also z.b. dass A eingetreten ist. In einem solchen Fall will man die bedingten Wahrscheinlichkeiten der ersten Stufe gegeben die zweite Stufe P (B i A) berechnen. Das Ergebnis liefert der folgende Satz: Satz von Bayes P (B i A) = P (A B i ) P (B i ) P (A B 1 ) P (B 1 ) + + P (A B k ) P (B k ). Oft ist das numerische Resultat einer solchen Berechnung stark verschieden von dem, was man naiverweise erwartet. Der Satz von Bayes ist vor allem in der subjektiven Wahrscheinlichkeitstheorie sehr wichtig: Wenn man für die verschiedenen Möglichkeiten B 1,... B k subjektive Wahrscheinlichkeiten festlegt und danach erfährt, dass A eingetreten ist, dann muss man die subjektiven Wahrscheinlichkeiten gemäss diesem Satz modifizieren. 3 Zufallsvariablen und Wahrscheinlichkeitsverteilungen Ergebnisse eines physikalischen Versuchs (Zufallsexperiment) sind oft Zahlen (Messungen). Diese werden als Beobachtung von so genannten Zufallsvariablen interpretiert, d.h. beobachtet wird nicht das ω welches bei einem Zufallsexperiment herauskommt, sondern die Werte aller beobachteten Zufallsvariablen. 3.1 Definition einer Zufallsvariablen Eine Zufallsvariable X ist ein Zufallsexperiment mit möglichen Werten in R, bzw. in einer Teilmenge von R, z.b. N 0 = {0, 1,...}. Deren Wert ist im Voraus nicht bekannt, sondern hängt vom Ergebnis eines Zufallsexperiments ab. Mathematisch ist eine Zufallsvariable einfach nur eine Funktion von Ω nach R: X : Ω R ω X(ω). Das heisst dem Ergebnis ω des Zufallsexperiments wird die Zahl X(ω) zugewiesen.

7 5 Konvention: Wir verwenden Grossbuchstaben X für die Zufallsvariable (Funktion) und Kleinbuchstaben x für die realisierten Werte. {X = x} ist also das Ereignis, dass die Zufallsvariable X den Wert x annimmt, siehe auch unten. Beispiel: Wert einer zufällig gezogenen Jasskarte. Ω = {Jasskarten}; ein ω Ω ist z.b. ein Schilten-As; Zufallsvariable X : As irgendeiner Farbe 11 König irgendeiner Farbe 4... Brettchen irgendeiner Farbe Wahrscheinlichkeitsverteilung auf R Eine Zufallsvariable X legt eine Wahrscheinlichkeit Q auf R fest, die sogenannte Verteilung von X: Q(B) = P ( {ω; X(ω) B} ) = P (X B) (B R). (Wir könnten auch direkt den Grundraum Ω = R wählen und dann eine Wahrscheinlichkeit Q( ) für geeignete Ereignisse B R definieren). Beispiel: Wert einer zufällig gezogenen Jasskarte (Fortsetzung). In obigem Beispiel ist bespielsweise Q(11) = P (As irgendeiner Farbe) = 4/36. Die kumulative Verteilungsfunktion ist definiert als F (b) = P (X b) = Q ( (, b] ). Sie enthält dieselbe Information wie die Verteilung Q( ), ist aber einfacher darzustellen. Die kumulative Verteilungsfunktion F hat folgende Eigenschaften: F ist monoton steigend lim x F (x) = 0 und lim x F (x) = 1 F ist rechts-stetig. Die Umkehrung der Verteilungsfunktion stellen die sogenannten Quantile dar. Für α (0, 1) ist das α-quantil von X definiert als das kleinste x R für welches F (x) α gilt, also q α := q(α) := min{x R F (x) α} (α (0, 1)). Das 1 2 -Quantil von X heisst auch Median von X. Falls F stetig und streng monoton steigend ist, gilt F (q α ) = α bzw. äquivalent dazu q α = F 1 (α).

8 6 3.3 Arten von Zufallsvariablen Eine Zufallsvariable X heisst diskret, falls die Menge W der möglichen Werte von X endlich oder abzählbar ist. Mögliche Wertebereiche sind zum Beispiel W = {0, 1, 2,..., 100} oder W = N 0 = {0, 1, 2,...}. Die Verteilung einer diskreten Zufallsvariablen ist festgelegt durch die Angabe der sogenannten Wahrscheinlichkeitsfunktion: p(x) := P (X = x) (x W ). Offensichtlich ist die kumulative Verteilungsfunktion eine Treppenfunktion mit Sprüngen an den Stellen x W mit Sprunghöhen p(x), also nicht stetig. Ferner gilt P (X B) = x B p(x). Man summiert also einfach nur die Einzelwahrscheinlichkeiten auf. Eine Zufallsvariable X heisst stetig, falls die Menge der möglichen Werte W ein Intervall enthält. Zum Beispiel W = [0, 1] oder W = R. 3.4 Erwartungswert und Varianz Eine Verteilung einer Zufallsvariablen X kann durch mindestens zwei Kennzahlen zusammengefasst werden, eine für die Lage (der Erwartungswert E [X] = µ X ) und eine für die Streuung (die Standardabweichung σ X, bzw. die Varianz Var (X)). Der Erwartungswert einer diskreten Zufallsvariable X ist definiert durch µ X := E [X] := x W xp(x), für den Erwartungswert einer transformierten diskreten Zufallsvariablen Y = f(x) ergibt sich daraus E [Y ] = E [f(x)] = x W f(x)p(x). In der frequentistischen Interpretation ist der Erwartungswert eine Idealisierung des arithmetischen Mittels der Werte einer Zufallsvariablen bei vielen Wiederholungen. Also: E [X] ist eine Kennzahl im Modell der Wahrscheinlichkeitstheorie. Die Varianz einer diskreten Zufallsvariable X ist definiert durch Var (X) := E [ (X E [X]) 2] = x W(x µ X ) 2 p(x). Die Standardabweichung ist die Wurzel aus der Varianz, d.h. σ X := Var (X). Wie der Erwartungswert hat die Standardabweichung die gleichen Einheiten wie die Zufallsvariable X (im Gegensatz zur Varianz, die die quadrierten Einheiten hat) und ist ein Mass dafür, wie weit entfernt eine Realisierung der Zufallsvariablen X im Mittel von ihrem Erwartungswert entfernt ist. Je grösser also die Standardabweichung ist, desto grösser ist die Streuung um den Erwartungswert.

9 7 Die folgenden Rechenregeln werden immer wieder gebraucht: E [a + bx] = a + be [X], a, b R Var (X) = E [ X 2] E [X] 2 Var (a + bx) = b 2 Var (X). 3.5 Die wichtigsten diskreten Verteilungen Die Binomialverteilung (mit den Parametern n und p), mit Bin (n, p) bezeichnet, ist die Verteilung der Anzahl Erfolge bei n unabhängigen Wiederholungen eines Experiments mit Erfolgswahrscheinlichkeit p. Hier ist W = {0, 1,..., n}, p(x) = ( ) n p x (1 p) n x x E [X] = np Var (X) = np(1 p). Die Poissonverteilung (mit Parameter λ), mit Pois (λ) bezeichnet, ist eine Approximation der Binomialverteilung für grosses n und kleines p, mit np = λ. Hier ist W = {0, 1,...}, λ λx p(x) = e x! E [X] = λ Var (X) = λ. Die Anzahl Ausfälle einer Komponente oder eines Systems in einem Intervall der Länge t ist oft in erster Näherung Poisson-verteilt mit Parameter λt. Die geometrische Verteilung (mit Parameter p), mit Geom (p) bezeichnet, ist die Verteilung der Anzahl Wiederholungen, bis ein Ereignis mit Wahrscheinlichhkeit p eintritt. Hier ist W = {1, 2,...}, p(x) = p(1 p) x 1 E [X] = 1 p Var (X) = 1 p p 2. 4 Stetige Verteilungen Bei einer stetigen Zufallsvariablen X ist P (X = x) = 0 für jedes feste x. Wir betrachten nur Fälle, wo P (x < X x + h) für kleine h ungefähr proportional zu h ist. Die Proportionalitätskonstante heisst die Dichte f von X. 4.1 Wahrscheinlichkeitsdichte Die Dichte einer stetigen Verteilung P ist definiert als P (x < X x + h) F (x + h) F (x) f(x) = lim = lim. h 0 h h 0 h

10 8 Dabei sind wir stillschweigend davon ausgegangen, dass die Ableitung der kumulativen Verteilungsfunktion existiert. Zwischen der Dichte f und der kumulativen Verteilungsfunktion F bestehen die folgenden Beziehungen: f(x) = F (x) F (x) = x f(u) du. Hat man also eine Dichte, so erhält man durch integrieren die kumulative Verteilungsfunktion. Umgekehrt erhält man durch Ableiten der kumulativen Verteilungsfunktion die Dichte. Damit die Funktion f( ) eine Dichte ist, muss gelten f(x) 0, sowie f(x) dx = 1. Erwartungswert und Varianz berechnen sich gemäss E [X] = µ X = xf(x) dx Var (X) = σ 2 X = Es gelten die gleichen Rechenregeln wie im diskreten Fall (Kapitel 3.4). (x µ X ) 2 f(x) dx. 4.2 Die wichtigsten stetigen Verteilungen Die uniforme Verteilung (mit den Parametern a, b), mit Uni (a, b) bezeichnet, tritt z.b. auf bei Rundungsfehlern und als Formalisierung der völligen Ignoranz. Hier ist W = [a, b], f(x) = F (x) = { 1 b a a x b 0 sonst 0 x < a x a b a a x b 1 x > b. Für Erwartungswert und Varianz gilt E [X] = a + b 2 (b a)2 Var (X) =. 12 Die Exponentialverteilung (mit Parameter λ), mit Exp (λ) bezeichnet, ist das einfachste Modell für Wartezeiten auf Ausfälle und eine stetige Version der geometrischen Verteilung. Hier ist W = [0, ), für x 0. Das führt zu f(x) = λe λx F (x) = 1 e λx E [X] = 1/λ Var (X) = 1/λ 2.

11 9 Wenn die Zeiten zwischen den Ausfällen eines Systems Exponential(λ)-verteilt sind, dann ist die Anzahl Ausfälle in einem Intervall der Länge t Pois (λt)-verteilt. Die Normal- oder Gauss-Verteilung (mit den Parametern µ, σ), mit N ( µ, σ 2) bezeichnet, ist die häufigste Verteilung für Messwerte. Hier ist W = R sowie { f(x) = 1 exp 1 ( ) } 2 x µ 2πσ 2 σ mit E [X] = µ Var (X) = σ 2. Die N (0, 1)-Verteilung, auch mit Standardnormalverteilung bezeichnet, ist ein wichtiger Sonderfall, weshalb es für deren Verteilungsfunktion sogar ein eigenes Symbol gibt, sie wird mit Φ bezeichnet, d.h. Φ(x) := F N (0,1) (x), x R. Deren Umkehrfunktion (d.h. die Quantile) kürzen wir hier ab mit z α := Φ 1 (α), α [0, 1]. Die Verteilungsfunktion F einer N (µ, σ 2 ) verteilten Zufallsvariable ist nicht geschlossen darstellbar. Sie wird aus der Verteilungsfunktion Φ der Standardnormalverteilung (welche tabelliert ist) berechnet mittels der Formel ( ) x µ F (x) = Φ σ für x R. 4.3 Transformationen Bei stetigen Verteilungen spielen Transformationen Y = g(x) eine wichtige Rolle. Falls g linear ist, d.h. g(x) = a + bx mit b > 0, dann gilt ( ) y a F Y (y) = F X b f Y (y) = 1 ( ) y a b f X. b Natürlich haben wir dann wie früher E [Y ] = a + be [X] σ Y = b σ X = bσ X. Durch Skalenänderungen kann man also alle Exponentialverteilungen ineinander überführen. Ebenso können durch lineare Transformationen alle Normalverteilungen ineinander überführt werden. Ist g eine (beliebige) differenzierbare, streng monotone Funktion, so hat Y = g(x) Dichte f Y (y) = 1 g (g 1 (y)) f ( X g 1 (y) ).

12 10 Für beliebiges g gilt zudem E [Y ] = E [g(x)] = g(x)f(x) dx. Wenn X N ( µ, σ 2) normalverteilt ist, dann heisst Y = e X lognormal-verteilt. Es gilt z.b. E [Y ] = exp(µ + σ 2 /2). Falls g konvex ist, so gilt die Jensen sche Ungleichung E [g(x)] g (E [X]). 4.4 Simulation von Zufallsvariablen Wenn U uniform auf [0, 1] verteilt ist und F eine beliebige kumulative Verteilungsfunktion ist, dann ist die Verteilungsfunktion von X = F 1 (U) gleich F. Dies ist ein wichtiges Faktum um Verteilungen, respektive Realisierungen von Zufallsvariablen, zu simulieren: 1. Erzeuge Realisation u von uniform verteilter Zufallsvariable U Uni (0, 1). Dies wird mittels einem Standard-Paket gemacht. 2. Berechne x = F 1 (u). Gemäss obigem Faktum ist dann x eine Realisation einer Zufallsvariablen X mit kumulativer Verteilungsfunktion F. Diese Methode ist nicht immer rechentechnisch effizient. 5 Mehrere Zufallsvariablen und Funktionen davon Das Ziel ist hier, genaueres über den Unterschied von P (A) und der relativen Häufigkeit f n [A] von A, respektive von E [X] und dem arithmetischen Mittel, bei n Wiederholungen zu sagen. 5.1 Die i.i.d. Annahme Dabei müssen wir präzisieren, was eine Wiederholung ist. Die n-fache Wiederholung eines Zufallsexperimentes ist selber wieder ein Zufallsexperiment. Wenn A ein Ereignis im ursprünglichen Experiment ist, bezeichnen wir mit A i das Ereignis A tritt bei der i-ten Wiederholung ein. Dann ist es sinnvoll, folgendes anzunehmen: A 1,... A n sind unabhängig: Unabhängigkeit der Ereignisse P (A 1 ) =... = P (A n ) = P (A): gleiche Wahrscheinlichkeiten. Ebenso, wenn X die ursprüngliche Zufallsvariable ist, dann soll X i die Zufallsvariable der i-ten Wiederholung bezeichnen. Die i.i.d. Annahme verlangt folgendes: X 1,..., X n sind unabhängig alle X i haben dieselbe Verteilung. Die Abkürzung i.i.d. kommt vom Englischen: independent and identically distributed. Unabhängigkeit von Zufallsvariablen heisst, dass zum Beispiel P (X i A und X j B) = P (X i A) P (X j B)

13 11 für alle i j und für alle A R, B R, und analog für Trippel etc. Die i.i.d. Annahme ist ein Postulat, welches in der Praxis in vielen Fällen vernünftig scheint. Die Annahme bringt erhebliche Vereinfachungen, um mit mehreren Zufallsvariablen zu rechnen. 5.2 Funktionen von Zufallsvariablen Ausgehend von X 1,..., X n kann man neue Zufallsvariablen Y = g(x 1,..., X n ) bilden. Hier betrachten wir die wichtigen Spezialfälle Summe und arithmetisches Mittel S n = X X n X n = S n /n. Wir nehmen stets an, dass X 1,... X n i.i.d. sind. Wenn X i = 1 falls ein bestimmtes Ereignis bei der i-ten Wiederholung eintritt und X i = 0 sonst, dann ist X n nichts anderes als die relative Häufigkeit dieses Ereignisses. Die Verteilung von S n ist im Allgemeinen schwierig exakt zu bestimmen, mit den folgenden Ausnahmen: 1. Wenn X i {0, 1} wie oben, dann ist S n Bin (n, p) mit p = P (X i = 1). 2. Wenn X i Pois (λ), dann ist S n Pois (nλ). 3. Wenn X i N ( µ, σ 2), dann ist S n N ( nµ, nσ 2). Einfacher sind die Berechnungen von Erwartungswert, Varianz und Standardabweichung. E [S n ] = ne [X i ] Var (S n ) = n Var (X i ) σ Sn = n σ Xi E [ ] X n = E [Xi ] Var ( ) 1 X n = n Var (X i) σ Xn = 1 σ Xi. n Für die Varianz und die Standardabweichung ist die Unabhängigkeitsannahme zentral. Die Standardabweichung der Summe wächst also, aber langsamer als die Anzahl Beobachtungen. D.h. auf einer relativen Skala haben wir eine kleinere Streuung für wachsendes n. Die Standardabweichung des arithmetischen Mittels nimmt ab mit dem Faktor 1/ n. Um die Genauigkeit des arithmetischen Mittels zu verdoppeln (d.h. die Standardabweichung zu halbieren), braucht man viermal so viele Beobachtungen. 5.3 Das Gesetz der Grossen Zahlen und der Zentrale Grenzwertsatz Von den obigen Formeln über Erwartungswert und Varianz wissen wir, dass: E [ X n ] = E [Xi ]: das heisst X n hat denselben Erwartungswert wie die einzelnen Variablen X i. Var ( X n ) 0 (n ): das heisst, Xn besitzt keine Variabilität mehr im Limes. Diese beiden Punkte implizieren den folgenden Satz. Gesetz der Grossen Zahlen (GGZ) Seien X 1,..., X n i.i.d. mit Erwartungswert µ. Dann gilt X n n µ.

14 12 Ein Spezialfall davon ist f n [A] n P (A). Der Begriff der Konvergenz muss für Zufallsvariablen geeignet definiert werden. Zur Berechnung der genäherten Verteilung von S n und X n (dies ist ein bedeutend präziseres Resultat als das GGZ) stützt man sich auf den folgenden berühmten Satz. Zentraler Grenzwertsatz (ZGS) Seien X 1,..., X n i.i.d. mit Erwartungswert µ und Varianz σ 2, dann ist S n N ( nµ, nσ 2) ) X n N (µ, σ2 n für grosse n. Wie gut diese Approximationen für ein gegebenes n sind, hängt von der Verteilung der X i ab. Mit der sogenannten Chebychev-Ungleichung P ( X n µ > c ) σ2 nc 2 ist man stets auf der sicheren Seite. Dafür ist diese aber meistens ziemlich grob (d.h. die rechte Seite ist zu gross). Immer wenn eine Zufallsvariable als eine Summe von vielen kleinen Effekten aufgefasst werden kann, ist sie wegen des Zentralen Grenzwertsatzes in erster Näherung normalverteilt. Das wichtigste Beispiel dafür sind Messfehler. Wenn sich die Effekte eher multiplizieren als addieren, kommt man zur Lognormal-Verteilung. 6 Gemeinsame und bedingte Verteilungen 6.1 Diskreter Fall Die gemeinsame Verteilung zweier diskreter Zufallsvariablen X und Y ist eindeutig charakterisiert durch ihre gemeinsame Wahrscheinlichkeitsfunktion von X und Y, d.h. die Werte P (X = x, Y = y) (x W X, y W Y ), weshalb diese dann auch die gemeinsame Verteilung von X und Y genannt wird. In diesem gemeinsamen Zusammenhang nennt man dann die einzelnen Verteilungen P (X = x) (x W X ) von X und P (Y = y) (y W Y ) von Y die Randverteilungen (der gemeinsamen Zufallsvariable (X, Y )). Sie lassen sich aus der gemeinsamen Verteilung berechnen durch P (X = x) = y W y P (X = x, Y = y) (x W x ), und analog für Y. Aus den Randverteilungen auf die gemeinsame Verteilung zu schliessen geht aber nur im Falle der Unabhängigkeit von X und Y, denn es gilt: Zwei diskrete Zufallsvariablen X und Y sind unabhängig genau dann wenn P (X = x, Y = y) = P (X = x) P (Y = y) (x W X, y W Y ).

15 13 In diesem Fall ist die gemeinsame Verteilung durch die Randverteilungen vollständig bestimmt und man erhält sie einfach durch Multiplikation. Schlussendlich definiert man noch die bedingte Verteilung von X gegeben Y = y durch die Werte P (X = x Y = y) (y W Y ). Der Satz von der totalen Wahrscheinlichkeit lässt sich dann schreiben als P (X = x) = y W Y P (X = x Y = y) P (Y = y) (x W X ), und kommt immer dann zum Einsatz, wenn man die Verteilung von X berechnen will, aber nur dessen bedingte Verteilung gegeben Y und die Verteilung von Y kennt. Bei mehr als zwei Stufen bzw. Zufallsvariablen geht alles analog. Die Bäume werden einfach länger und die Matrizen werden zu Feldern in höheren Dimensionen. Das Ganze wird aber sehr rasch unübersichtlich, und es gibt sehr viele Wahrscheinlichkeiten, die man zu Beginn festlegen muss. Eine wesentliche Vereinfachung erhält man, wenn man annimmt, dass jede Stufe zwar von der unmittelbar vorangehenden, aber nicht von den weiter zurückliegenden Stufen abhängt. Das führt auf die sogenannten Markovketten, deren Verhalten durch eine Startverteilung und eine Übergangsmatrix gegeben ist. 6.2 Stetiger Fall Bei zwei oder mehreren stetigen Zufallsvariablen kann die gemeinsame und bedingte Verteilung nicht mehr mit Bäumen oder Matrizen dargestellt werden Gemeinsame Dichte Die gemeinsame Dichte f X,Y (, ) von zwei stetigen Zufallsvariablen X und Y ist in Ingenieurnotation gegeben durch P (x X x + dx, y Y y + dy) = f X,Y (x, y) dx dy. Die Darstellung als Ableitung einer geeigneten kumulativen Verteilungsfunktion ist nicht sehr instruktiv. Daraus kann man allgemein Wahrscheinlichkeiten durch Integration berechnen: P ((X, Y ) A) = f X,Y (x, y) dx dy (A R 2 ). A Wie im eindimensionalen Fall integriert man also einfach die Dichte über das gewünschte Gebiet A Randdichte und bedingte Dichte Wie im diskreten Fall bezeichnen wir mit der Randverteilung die Verteilung der einzelnen Komponenten. Wir tun also so, als ob wir nur eine Komponente X bzw. Y sehen würden. Aus der gemeinsamen Dichte erhält man die Randdichte von X bzw. Y f X (x) = f X,Y (x, y) dy f Y (y) = f X,Y (x, y) dx.

16 14 Für die bedingte Verteilung von Y gegeben X = x wird die bedingte Dichte benützt, definiert durch f Y X=x (y) := f Y (y X = x) := f X,Y (x, y). f X (x) Aus den obigen Definitionen ist klar, dass alle wahrscheinlichkeitstheoretischen Aspekte von zwei Zufallsvariablen X und Y durch deren gemeinsame Dichte f X,Y (x, y) vollständig bestimmt sind. Ferner sind X und Y unabhängig genau dann wenn f X,Y (x, y) = f X (x)f Y (y) (x, y R 2 ). (3) In diesem Fall genügt das Konzept von 1-dimensionalen Dichten: die gemeinsame Dichte kann dann sehr einfach mittels Multiplikation berechnet werden. 6.3 Erwartungswert bei mehreren Zufallsvariablen Den Erwartungswert einer transformierten Zufallsvariable Z = g(x, Y ) mit g : R 2 R können wir berechnen als E [g(x, Y )] = g(x, y)f X,Y (x, y) dx dy. Im diskreten Fall lautet die entsprechende Formel: E [g(x, Y )] = g(x i, y j )P (X = x i, Y = y j ). i j Der Erwartungswert der Zufallsvariablen Y gegeben X = x ist E [Y X = x] = 6.4 Kovarianz und Korrelation yf Y X=x (y) dy. Da die gemeinsame Verteilung von abhängigen Zufallsvariablen i.a. kompliziert ist, begnügt man sich oft mit einer vereinfachenden Kennzahl zur Beschreibung der Abhängigkeit. Die Kovarianz von X und Y sowie die Korrelation von X und Y sind wie folgt definiert: Cov (X, Y ) := E [(X µ X )(Y µ Y )], Corr (X, Y ) := ρ XY := Unmittelbar aus der Definition folgt sofort sowie die wichtige Formel Var (X) = Cov (X, X), Cov (X, Y ) = E [XY ] E [X] E [Y ] Cov (X, Y ) σ X σ Y. zur praktischen Berechnung der Kovarianz. 2 Ferner ist die Kovarianz bilinear, d.h. es gilt m n m n Cov a i X i, b j Y j = a i b j Cov (X i, Y j ), j=1 j=1 2 Das ist ein Verallgemeinerung der entsprechenden Formel für die Varianz, denn daraus folgt sofort Var (X) = Cov (X, X) = E [ X 2] E [X] 2.

17 15 und symmetrisch, d.h. Cov (X, Y ) = Cov (Y, X). Für die Varianz der Summe erhalten wir also ( m ) m m Var X i = Var (X i ) + 2 Cov (X i, X j ). Weitere Rechenregeln sind i,j=1 i<j Cov (a + bx, c + dy ) = bd Cov (X, Y ) Corr (a + bx, c + dy ) = sign(b) sign(d) Corr (X, Y ) Var (X + Y ) = Var (X) + Var (Y ) + 2 Cov (X, Y ). Falls die X i unabhängig (oder noch allgemeiner unkorreliert) sind, ist die Varianz der Summe gleich der Summe der Varianzen Var (X X m ) = Var (X 1 ) + + Var (X m ) (X 1,..., X n unabhängig). Die Korrelation misst Stärke und Richtung der linearen Abhängigkeit zwischen X und Y. Es gilt Corr (X, Y ) = +1 genau dann wenn Y = a + bx für ein a R und ein b > 0 Corr (X, Y ) = 1 genau dann wenn Y = a + bx für ein a R und ein b < 0. Im Gegensatz zur Kovarianz ist die Korrelation eine dimensionslose Grösse. Ferner gilt X und Y unabhängig = Corr (X, Y ) = 0. (4) Die Umkehrung gilt i.a. nicht. Ein Spezialfall, wo auch die Umkehrung gilt, wird in Kapitel 6.5 diskutiert. 6.5 Zweidimensionale Normalverteilung Die wichtigste zweidimensionale Verteilung ist die Normalverteilung mit Erwartungswerten (µ X, µ Y ) und Kovarianzmatrix Σ wobei Σ 11 = Var (X), Σ 22 = Var (Y ) und Σ 12 = Σ 21 = Cov (X, Y ). Sie hat die Dichte f X,Y (x, y) = { 1 2π det(σ) exp 1 ( 2 (x µ X, y µ Y ) Σ 1 x µx y µ Y )}. Wir sehen von dieser Formel: Wenn Cov (X, Y ) = 0 wird Σ eine Diagonalmatrix und man kann nachrechnen, dass dann die Bedingung (3) gilt. Das heisst: im Falle der zweidimensionalen Normalverteilung gilt auch die Umkehrung von (4). Zudem: die Rand- sowie die bedingten Verteilungen sind wieder (1-dimensionale) normalverteilte Zufallsvariablen. 6.6 Dichte einer Summe von zwei Zufallsvariablen Seien X, Y Zufallsvariablen mit gemeinsamer Dichte f X,Y (, ). Dann hat die neue Zufallsvariable S = X + Y Dichte f S (s) = f X,Y (x, s x) dx. Falls X und Y unabhängig sind, zerfällt die gemeinsame Dichte in das Produkt der Randdichten und wir haben f S (s) = f X (x)f Y (s x) dy.

18 16 Man spricht auch von der Faltung der beiden Funktionen f X und f Y. Wenn wir nur am Erwartungswert (oder an der Varianz) von S interessiert sind, brauchen wir natürlich den Umweg über die Dichte nicht zu machen und können direkt wie in Kapitel 6.3 bzw. 6.4 vorgehen. 6.7 Mehr als 2 Zufallsvariablen Alle diese Begriffe und Definitionen lassen sich natürlich auf mehr als zwei Zufallsvariablen verallgemeinern. Die Formeln sehen im Wesentlichen gleich aus, vor allem wenn man die Sprache der Linearen Algebra verwendet. Ausblick: Wenn man eine dynamische Grösse während eines Zeitintervalls misst, erhält man einen stochastischen Prozess {X(t); t [a, b]}. Die linearen Abhängigkeiten zwischen den Werten zu verschiedenen Zeitpunkten werden dann durch die sogenannte Autokovarianzfunktion beschrieben. 7 Deskriptive Statistik In der Statistik will man aus beobachteten Daten Schlüsse ziehen. Meist nimmt man an, dass die Daten Realisierungen von Zufallsvariablen sind (siehe Kap. 8.1), deren Verteilung man aufgrund der Daten bestimmen möchte. In einem ersten Schritt geht es aber zunächst einmal darum, die vorhandenen Daten übersichtlich darzustellen und zusammenzufassen. Dies ist das Thema der beschreibenden oder deskriptiven Statistik. 7.1 Kennzahlen Wie früher benützen wir Kleinbuchstaben für die realisierten Werte der Zufallsvariablen. Für die numerische Zusammenfassung von Daten gibt es diverse Kennzahlen. Das arithmetische Mittel x = 1 n (x x n ) ist eine Kennzahl für die Lage der Daten (Schwerpunkt!). Die empirische Standardabweichung s ist die Wurzel aus der empirischen Varianz s 2 = 1 n 1 n (x i x) 2 und Kennzahl für die Streuung der Daten. Eine Begründung für den Nenner n 1 statt n folgt später. Um weitere Kennzahlen zu definieren, führen wir die geordneten Werte ein. x (1) x (2)... x (n) Das empirische α-quantil (0 < α < 1) ist x (k), wobei k die kleinste ganze Zahl ist, sd. k > αn. Wenn αn eine ganze Zahl ist, nimmt man 1 2 (x (αn) + x (αn+1) ). Es gibt auch leicht andere Definitionen des empirischen Quantils. Der empirische Median ist das 50%-Quantil und ist eine Kennzahl für die Lage.

19 17 Die Quartilsdifferenz ist das empirische 75%-Quantil minus das empirisches 25%-Quantil und ist eine Kennzahl für die Streuung. Einen ganz anderen Aspekt erfasst man, wenn man die Werte gegen den Beobachtungszeitpunkt aufträgt. Damit kann man Trends und andere Arten von systematischen Veränderungen in der Zeit erkennen. 7.2 Histogramm und Boxplot Wenn man n Werte x 1,..., x n einer Variablen hat, dann gibt es als grafische Darstellungen das Histogramm, den Boxplot und die empirische kumulative Verteilungsfunktion. Beim Histogramm bilden wir Klassen (c k 1, c k ] und berechnen die Häufigkeiten h k, d.h. die Anzahl Werte in diesem Intervall. Dann trägt man über den Klassen Balken auf, deren Höhe proportional ist zu h k c k c k 1. D.h. die Fläche ist dann proportional zu der Anzahl Beobachtungen. Wenn man überall die gleiche Klassenbreite c k c k 1 wählt, so kann man auch direkt die Anzahlen auftragen. Beim Boxplot hat man ein Rechteck, das vom 25%- und vom 75%-Quantil begrenzt ist, und Linien, die von diesem Rechteck bis zum kleinsten- bzw. grössten normalen Wert gehen (per Definition ist ein normaler Wert höchstens 1.5 mal die Quartilsdifferenz von einem der beiden Quartile entfernt). Zusätzlich gibt man noch Ausreisser durch Sterne und den Median durch einen Strich an. Der Boxplot ist vor allem dann geeignet, wenn man die Verteilungen einer Variablen in verschiedenen Gruppen (die im allgemeinen verschiedenen Versuchsbedingungen entsprechen) vergleichen will. Die empirische kumulative Verteilungsfunktion ist eine Treppenfunktion, die an den Stellen x (i) von (i 1)/n auf i/n springt. Für eine glattere Version verbindet man die Punkte (x (i), (i 0.5)/n) durch Geraden. 7.3 Normal- und QQ-Plot Der Normal- und QQ-Plot ( Quantil-Quantil-Plot ) sind oft viel geeignetere grafische Mittel als die empirische kumulative Verteilungsfunktion. Die empirischen Quantile für α k = (k 0.5)/n sind gerade die geordneten Beobachtungen x (k) (x (1) x (2)... x (n) ). Der QQ-Plot trägt die Punkte F 1 (α k ) (die theoretischen Quantile einer kumulativen Verteilung F ) gegen x (k) (die empirischen Quantile) auf. Wir interpretieren die Daten x 1,..., x n als Realisierungen von X 1,..., X n i.i.d F, siehe Kap. 8.1 Falls nun die wahre Verteilung F mit der gewählten Verteilung F im QQ-Plot übereinstimmt, so liefert der QQ-Plot approximativ eine Gerade durch Null mit Steigung 45 Grad. Man kann also Abweichungen der Daten von einer gewählten Modell-Verteilung so grafisch überprüfen. Der Normal-Plot ist ein QQ-Plot, bei dem die Modellverteilung F die Standardnormalverteilung N (0, 1) ist. Wenn die wahre Verteilung F eine Normalverteilung N ( µ, σ 2) ist, so liefert der Normal-Plot approximativ eine Gerade, welche jedoch im allgemeinen nicht durch den Nullpunkt geht und nicht Steigung 45 Grad hat. Das heisst: der Normal-Plot liefert eine gute Überprüfung für eine beliebige Normalverteilung, auch wenn die Modell-Verteilung als Standard- Normal gewählt wird. D.h. wir können überprüfen, ob eine Normalverteilung geeignet ist, ohne uns um die Parameter kümmern zu müssen. Im Normal- und QQ-Plot kann man insbesondere sehen, ob eine Transformation der Daten angebracht ist, oder ob es Ausreisser gibt, die man besonders behandeln sollte.

20 18 Abbildung 1: Histogramm, Boxplot und Normal-Plot für 2 Datensätze der Stichprobengrösse Im Grunde genommen ist der QQ-Plot bereits mehr als bloss deskriptive Statistik. Es ist ein grafisches Werkzeug, um eventuelle Abweichungen von einem Modell festzustellen: vergleiche mit dem Formalismus des statistischen Tests in Kap. 8.4.

21 19 8 Schliessende Statistik: Konzepte und erste Anwendungen für diskrete Zufallsvariablen 8.1 Daten als Realisierungen von Zufallsvariablen In der schliessenden Statistik wollen wir anhand von konkreten Daten (Beobachtungen) Aussagen über ein Wahrscheinlichkeitsmodell machen. Dass man dies tun kann, scheint auf den ersten Blick erstaunlich zu sein: man benützt die induktive Logik, um probabilistische Aussagen (d.h. Aussagen, welche mit typischerweise hoher Wahrscheinlichkeit gelten) zu machen. Grundlegend für die schliessende Statistik ist die Annahme, dass Daten Realisierungen von Zufallsvariablen sind. Das heisst: eine Beobachtung (oder Messung ) x ist entstanden, indem ein ω Ω zufällig gezogen wurde, so dass die Zufallsvariable X den Wert X(ω) = x angenommen hat. Bei mehreren Daten geht alles analog: n Beobachtungen x 1,..., x n werden aufgefasst als Realisierungen von Zufallsvariablen X 1,..., X n, welche die Werte X i = x i (i = 1,..., n) angenommen haben. 8.2 Erste Konzepte Wir betrachten folgende Situation. Gegeben ist eine Beobachtung x (eine Realisierung) einer Bin (n, p)- oder einer Pois (λ)-verteilten Zufallsvariablen X: z.b. Anzahl Ausfälle bei n Wiederholungen oder während einer Beobachtungsdauer t, wobei dann λ = µt und µ die erwartete Anzahl Ausfälle pro Zeiteinheit ist. Wir möchten daraus Rückschlüsse auf den unbekannten Parameter p bzw. λ ziehen. Genauer geht es um folgende drei Fragestellungen: Welches ist der plausibelste Wert des unbekannten Parameters ( Punktschätzung)? Ist ein bestimmter vorgegebener Parameterwert p 0, bzw. λ 0 (z.b. ein Sollwert) mit der Beobachtung verträglich ( Test)? Was ist der Bereich von plausiblen Parameterwerten ( Vertrauensintervall)? Die Punktschätzer sind hier wie folgt: intuitiv sinnvoll sind p = X/n bzw. λ = X bzw. µ = X/t. Die Schätzer sind also wiederum Zufallsvariablen. Die realisierte Schätzung ist dann p = x/n, λ = x bzw. µ = x/t, d.h. man ersetzt X durch dessen Realisierung x. Die realisierte Schätzung ist natürlich in der Regel nicht gleich dem unbekannten ( wahren ) Wert p, λ bzw. µ, aber hoffentlich nahe daran. Bemerkung: Wenn wir einem Parameter einen Hut aufsetzen, bezeichnen wir damit den Schätzer für den entsprechenden Modellparameter. Die Notation p, λ und µ unterscheidet leider nicht zwischen dem Schätzer als Zufallsvariable und seinem realisierten Wert, welcher eine numerische Zahl ist. 8.3 Punktschätzungen Wir betrachten folgendes Problem: Gegeben sei wieder eine Zufallsvariable X, von der wir zwar die Art der Verteilung kennen, aber nicht den dazugehörigen Parameter(vektor) 3 θ. Basierend auf n unabhängigen Beobachtungen x 1,..., x n von X, die wir wie immer als eine Realisierung 3 Die Art der Verteilung kann z.b. die Normalverteilung sein, der (unbekannte oder teilweise unbekannte) Parametervektor ist dann θ = (θ 1, θ 2 ) = (µ, σ 2 ), kann aber auch durch explizite Angabe der Dichtefunktion (bzw. Wahrscheinlichkeitsfunktion im diskreten Fall) gegeben sein, z.b. f X (x) = (θ 1)x θ 1 [1, ) (x) mit dem Parameter θ.

22 20 der i.i.d. Zufallsvariablen X 1,..., X n (mit der selben Verteilung wie X) interpretieren, soll nun der unbekannte Parameter θ geschätzt werden. Sei θ ein reeller Parameter einer Wahrscheinlichkeitsverteilung auf R. Ein Schätzer für θ (zur Stichprobengrösse n) ist eine Funktion θ : R n R, d.h. θ = θ(x 1,..., x n ) oder als Zufallsvariable interpretiert θ = θ(x1,..., X n ). Man beachte, dass bei der Verwendung von griechischen Buchstaben keine Unterscheidung mehr zwischen Realisierung (Kleinbuchstaben) und Zufallsvariable (Grossbuchstaben) gemacht wird Momentenmethode Das k-te Moment von X ist definiert durch µ k := E [ X k]. Das erste Moment entspricht also dem Erwartungswert. Die Momentenmethode nimmt an, dass wir den unbekannten Parametervektor (θ 1,..., θ r ) durch die ersten p Momente von X ausdrücken können, d.h. allgemein θ j = g j (µ 1,..., µ p ) (j = 1,... r), (5) die j-te Komponente von θ ist also gegeben durch die Funktion g j : R p R. Beispiel: Bei der Normalverteilung ist der Parametervektor θ = (θ 1, θ 2 ) = (µ, σ 2 ), und es gilt θ 1 = µ = E [X] = µ 1 sowie θ 2 = σ 2 = E [ X 2] E [X] 2 = µ 2 µ 2 1. Es ist also r = p = 2 mit g 1 (x, y) = x und g 2 (x, y) = y x 2. Ausgehend von Gleichung (5) werden nun die wahren µ k ersetzt durch deren Schätzungen µ k := 1 n n xk i, wenn man diese noch als Zufallsvariable schreibt, dann erhält man einen Momentenschätzer für die einzelnen Komponenten von θ durch θ j = g j ( µ 1,..., µ p ) (j = 1,..., r) wobei µ k = 1 n n Xi k (k = 1,..., p). Rezeptartige Vorgangsweise: Gegeben ist eine Zufallsvariable X, deren Verteilung von einem unbekannten (zu schätzenden) Parameter θ abhängt. Man berechnet zunächst das erste Moment von X, wenn dieses von θ abhängt, dann löst man die Gleichung nach θ auf, d.h. man schreibt θ als Funktion des ersten Momentes, dann wird das erste Moment durch dessen Schätzer ersetzt und man erhält einen Momentenschätzer für θ. Falls das erste Moment nicht von θ abhängt, berechnet man das zweite Moment usw. Es ist aber auch möglich, dass sämtliche Momente von θ abhängen, man erhält dann ein Gleichungssystem oder aber auch mehrere (unterschiedliche) Momentenschätzer für θ (siehe unten). Beispiel: Sei X Pois (λ) mit unbekanntem Parameter λ. Das erste Moment von X ist µ 1 = E [X] = λ, oder anders geschrieben, λ = µ 1. Nun wird µ 1 durch dessen Schätzung µ 1 = 1 n n x i ersetzt. Als Zufallsvariable geschrieben erhält man einen Momentenschätzer für λ durch λ = µ 1 = X n = 1 n n X i. Einen weiteren Momentenschätzer für λ erhalten wir durch Berechung des zweiten Momentes von X: µ 2 = E [ X 2] = Var (X) + E [X] 2 = λ + µ 2 1, woraus nun λ = µ 2 µ 2 1 folgt, und wir erhalten den Momentenschätzer λ = µ 2 µ 2 1 = 1 n n Xi 2 (X n ) 2.

23 21 Man zieht aber λ = X n vor, denn dies ist auch der sogenannte Maximum-Likelihood Schätzer, welcher im Allgemeinen genauer ist. Der Momentenschätzer ist einfach, aber nicht immer die optimale (im Sinne einer zu definierenden besten Genauigkeit für den unbekannten Parameter) Methode. Überdies ist der Momentenschätzer nicht eindeutig, wie wir am obigen Beispiel gesehen haben Maximum-Likelihood Schätzer Sei zunächst X diskret. Um die Abhängigkeit vom unbekannten Parameter θ zu betonen, bezeichnen wir die Wahrscheinlichkeitsfunktion p X (x) von X mit p X (x θ). Die Wahrscheinlichkeit, dass tatsächlich das Ereignis {X 1 = x 1,..., X n = x n } eintritt, ist wegen der Unabhängigkeit gegeben durch L(θ) := p X1,...,X n (x 1,..., x n θ) = n p X (x i θ) = p X (x 1 θ) p X (x n θ). Dies ist die sogenannte Likelihoodfunktion 4 zur gegebenen Stichprobe x 1,..., x n. Die Maximum-Likelihood Methode basiert nun darauf, diese Wahrscheinlichkeit zu maximieren, also jenen Parameter θ zu finden, für den die Wahrscheinlichkeit, dass die gegebene Stichprobe x 1,..., x n eintritt, am grössten (maximal) ist. Daher der Name Maximum-Likelihood Methode. Da der Logarithmus monoton wachsend ist, kann man äquivalent zu obiger Maximierungsaufgabe auch den Logarithmus maximieren, was meist einfacher ist. Die log-likelihoodfunktion ist definiert durch l(θ) := log L(θ) = n log p(x i θ) = log (p X (x 1 θ)) + + log (p X (x n θ)). Die Maximierungsaufgabe löst man wie aus der Analysis bekannt durch Ableiten (nach dem Parameter θ) und Nullsetzen. Um die Abhängigkeit von der Stichprobe x 1,..., x n zu betonen, schreibt man auch l(θ; x 1,..., x n ) := log (p X (x 1 θ)) + + log (p X (x n θ)). Man muss dann die Gleichung θ l(θ; x 1,..., x n ) = 0 nach θ auflösen und erhält das Ergebnis bzw. als Zufallsvariable ausgedrückt θ = θ(x 1,..., x n ) θ = θ(x 1,..., X n ) als allgemeinen Maximum-Likelihood Schätzer von θ (zum Stichprobenumfang n). Im stetigen Fall geht im Wesentlichen alles analog und man braucht nur den Buchstaben p durch f und Wahrscheinlichkeit durch Wahrscheinlichkeitsdichte zu ersetzen. D.h. statt Wahrscheinlichkeiten hat man dann Dichten, und es wird jener Parameter θ gesucht, für den die gemeinsame Dichte der X 1,..., X n an der Stelle x 1,..., x n am grössten ist. 4 Aus dem Englischen: Likelihood = Wahrscheinlichkeit.

24 22 Beispiel (Fortsetzung): X Pois (λ). Die Wahrscheinlichkeitsfunktion ist Die log-likelihoodfunktion ist somit l(λ) = λ λx p X (x λ) = e x! n (x i log(λ) log(x i!) λ) = (x N). n (x i log(λ) λ) C, C = n log(x i!). Beachte, dass die Konstante C keinen Einfluss auf die Maximierung von l(λ) hat. Leitet man l(λ) ab und setzt l (λ) = 0, so erhält man den Maximum-Likelihood Schätzer λ = X n = 1 n n X i. Dies ist der selbe Schätzer wie bei der Momentenmethode. Die Maximum-Likelihood Methode liefert aber nicht zwangsläufig das gleiche Resultat wie die Momentenmethode Eigenschaften von Schätzern Wir haben gesehen, dass ein Schätzer für den Parameter θ als eine aus den Zufallsvariablen X 1,..., X n zusammengesetzte Zufallsvariable interpretiert werden kann, also θ = θ(x 1,..., X n ), wobei der zu schätzende Parameter θ meist eine Kenngrösse der Verteilung der X i ist. Man kann sich nun fragen, wie eigentlich der Erwartungswert dieser Zufallsvariable (also des Schätzers) aussieht. Intuitiv wünschenswert wäre es, wenn dieser am besten gleich dem zu schätzenden Parameter entspricht, woraus sich folgende Definition ergibt: Ein Schätzer θ für den Parameter θ heisst erwartungstreu, wenn ] ] E [ θ = E [ θ(x1,..., X n ) = θ. Im Allgemeinen kann der Erwartungswert aber auch von der Stichprobengrösse n abhängen, woraus sich noch weitere Eigenschaften ergeben. Zum Beispiel heisst ein Schätzer asymptotisch erwartungstreu, wenn sein Erwartungswert für wachsende Stichprobengrösse n gegen den zu schätzenden Parameter konvergiert. 8.4 Das Testproblem Beim Testproblem beschränken wir uns hier der Einfachheit halber auf die Binomialverteilung. Wir nehmen an, dass wir eine Beobachtung x {0,..., n} haben, die wir als Realisierung einer Bin (n, p)-verteilten Zufallsvariable X interpretieren, wobei n fix und bekannt ist, und p der unbekannte Parameter ist. Diesen unbekannten Parameter wollen wir mit einem (von der Problemstellung abhängigen) Wert p 0 vergleichen (testen). Genauer gesagt wollen wir überprüfen, ob sich entweder p p 0, p < p 0 oder p > p 0 statistisch (aufgrund der gegebenen Beobachtung x) bestätigen lassen. Man kann sich z.b. vorstellen, dass p 0 die Erfolgswahrscheinlichkeit von einem etablierten Reparaturverfahren ist. Sie haben nun eine neues Verfahren entwickelt und wollen zeigen, dass dieses besser ist, d.h. dass gilt p > p 0. Sie müssen also Skeptiker und Kritiker überzeugen, die nicht daran glauben. Dazu nehmen wir zuerst an, es sei p = p 0 (d.h. wir nehmen die Position der Skeptiker ein) und überprüfen, ob die Beobachtung x damit verträglich ist.

25 23 Die Annahme p = p 0 wird Nullhypothese genannt und man schreibt H 0 : p = p 0. Die entsprechende Vermutung (was sie zeigen wollen) wird Alternativhypothese genannt und mit H A bezeichnet. Allgemein möglich sind H A : p p 0 p > p 0 p < p 0 (zweiseitig) (einseitig nach oben) (einseitig nach unten). Wir beschränken uns nun auf den Fall H A : p > p 0, d.h. wir sind nur an Abweichungen nach oben interessiert. Qualitativ betrachtet scheint es plausibel, dass wir die Nullhypothese H 0 : p = p 0 ablehnen, falls x zu gross ist, d.h. falls x c für ein bestimmtes c. Die explizite Wahl von c ist nun wie folgt. Wir nehmen erstmals an, dass die Nullhypothese stimmt. Dann ist die Wahrscheinlichkeit, die Nullhypothese fälschlicherweise abzulehnen (d.h. ein sogenannter Fehler 1. Art) P p0 (X c) = n k=c ( ) n p k k 0(1 p 0 ) n k. Wir sollten also c nicht zu klein wählen. Umgekehrt möchten wir aber auch c nicht zu gross wählen, weil wir sonst zu häufig einen Fehler 2. Art begehen: kein Verwerfen der Nullhypothese H 0, obwohl sie falsch ist. Man schliesst einen Kompromiss, indem man das kleinste c = c(α) nimmt, so dass P p0 (X c) α. Dabei ist α eine im Voraus festgelegte (kleine) Zahl, das sogenannte Signifikanzniveau. Obige Ungleichung besagt, dass die Wahrscheinlichkeit eines Fehlers 1. Art mit dem Signifikanzniveau α kontrolliert ist. Die Wahrscheinlichkeit für einen Fehler 2. Art ist nicht explizit kontrolliert, weil man nur einen Fehler direkt kontrollieren kann. Da man mit dem Test Skeptiker überzeugen will, ist es wichtiger, den Fehler 1. Art zu kontrollieren. Nach obigen Überlegungen kommt man zum Rezept, dass H 0 verworfen wird, falls x c α. Man hat dann die Alternativhypothese nachgewiesen. Falls wir die Nullhypothese nicht verwerfen können, ist das (leider) kein Nachweis für die Nullhypothese: Absence of evidence is not evidence of absence. Im Fall, wo man nach Abweichungen nach unten interessiert ist, d.h. H A : p < p 0, geht alles analog. Bei zweiseitiger Alternative H A : p p 0, verwerfen wir die Nullhypothese H 0 : p = p 0, wenn x c 1 oder x c 2. Hier wählt man c 1 möglichst gross und c 2 möglichst klein unter den Einschränkungen, dass c 1 k=0 ( ) n p k k 0(1 p 0 ) n k α/2 und n k=c 2 ( ) n p k k 0(1 p 0 ) n k α/ Zusammenfassung eines statistischen Tests Die Durchführung eines statistischen Tests kann zumindest teilweise rezeptartig erfolgen. 1. Lege die Nullhypothese H 0 : θ = θ 0 fest. θ bezeichnet hier allgemein einen Parameter in einem Modell.