Einführung in die Statistik

Transkript

1 Meteorologisches Institut der Universität Bonn Skript zur Vorlesung Einführung in die Statistik Wintersemester 2004/2005 Andreas Hense Thomas Burkhardt Petra Friederichs Version: 31. Oktober

2 Inhaltsverzeichnis 1 Einführung 1 2 Elemente der Wahrscheinlichkeitsrechnung Ereignisse und Stichprobenraum Begriff der Wahrscheinlichkeit Bedingte Wahrscheinlichkeiten Unabhängige Ereignisse Zufallsvariable, Verteilung von Zufallsvariablen Diskrete Zufallsvariable Verteilung einer diskreten ZVA Univariate reelle kontinuierliche ZVA s Multivariate reelle ZVA s Verallgemeinerte ZVA s, Funktionen von ZVA s Realisierungen von ZVA s Momente einer Verteilungsfunktion Reduzierte Zufallsvariable Modus, Median und Quantile Erwartungswert einer Funktion einer ZVA Momente multivariater ZVA s Theoretische Wahrscheinlichkeitsdichteverteilungen Diskrete Verteilungen Binominalverteilung Poissonverteilung Kontinuierliche Verteilungen Gaussverteilung Zentraler Grenzwertsatz der Statistik Die χ 2 -Verteilung Die Student-t-Verteilung Die Fisher-F -Verteilung

3 5.3 Weitere Verteilungen Log-Normalverteilung Gamma-Verteilung Weibullverteilung Beta-Verteilung Multivariate Normalverteilung Stichproben von ZVA Definition Schätzer Schätzung der pdf, Häufigkeitsverteilung Schätzer der Verteilungsfunktion, Empirische Verteilungsfunktion Schätzung des Erwartungswertes Schätzung der Varianz Maximum Likelihood Methode Übung Verteilungen von Schätzern Verteilung eines Erwartungswertschätzers Verteilung eines Varianzschätzers - χ 2 Verteilung Beziehung zwischen Erwartungswert- und Varianzschätzer - Student - t Verteilung Beziehung zwischen 2 Varianzschätzern - Fisher-F Verteilung Konfidenzintervalle Konfidenzintervall für den Mittelwert bei bekannter Varianz einer normalverteilten GG Konfidenzintervall für den Mittelwert einer normalverteilten GG bei geschätzter Varianz Konfidenzintervall für den Schätzer der Varianz einer NV GG Prüfung statistischer Hypothesen, Tests Allgemeine Bemerkungen

4 7.2 Mittelwerttest bei einer NV GG mit bekannter Varianz Vergleich der Mittelwerte zweier NV mit identischer Varianz Vergleich der Varianz zweier NV Anpassungstests Der χ 2 -Test Kolmogoroff - Smirnov Test Statistische Untersuchung extremer Ereignisse Die Generalisierte Extremwertverteilung Die Überschreitung eines Schwellenwerts und die Generalisierte Pareto-Verteilung Die Generalisierte Pareto-Verteilung Das Poisson-GPD-Modell Kleine Einführung in die Bayesische Statistik Nicht-frequentistische Wahrscheinlichkeitsrechnung Bayes-Theorem für Wahrscheinlichkeiten - der diskrete Fall Bayesische Statistik für Wahrscheinlichkeitsdichten Die Priori-Dichte Nichtinformative Priori-Dichten Priori-Dichte mit Maximum Entropie Methode Einschränkung der Priori-Dichten Die Randverteilung zur Bestimmung der Priori-Dichte Die Maximum-Likelihood Typ II - Methode Die Momente-Methode Konjugierten Priori-Dichten und die Posteriori Anwendungen Bayesische Statistik Punktschätzung eines Parameters Multivariate Parameterschätzung Test statistischer Hypothesen Bayesiche Entscheidungstheorie

5 1 Einführung 1 Einführung Warum wird in der Meteorologie Statistik betrieben? Meteorologie war und ist immer eine datenorientierte Wissenschaft gewesen: dies ist in der Klimatologie offensichtlich, wird in der Synoptik jeden Tag betrieben, jedes Grenzschichtexperiment lebt von den gemessenen Daten und auch jedes numerische Modell stellt nichts anderes dar, als einen großen Komplex, mit dem erstmal viele Daten erzeugt werden, die dann im nachhinein ausgewertet werden müssen. Viele Daten ob räumlich oder zeitlich verteilt stehen an und müssen verarbeitet und komprimiert werden, um zu einer Aussage zu kommen. Dies ist die Aufgabe der statistischen Analyse (Beschreibende Statistik). In der Vorlesung werden die Grundlagen der mathematischen, beschreibenden Statistik zunächst für eine skalare Größe (univariate Statistik) vorgestellt und ihre Anwendung auf Daten diskutiert. Ein Teil der Vorlesung soll der praktischen Anwendung der statistischen Analyse mit Hilfe von PC s und Programmen gewidmet sein. Zu Beginn der Vorlesung werden die grundlegenden Begriffe wie Wahrscheinlichkeit, Zufallsvariable, Wahrscheinlichkeitsdichtefunktionen u.ä. eingeführt. Dann folgen die Grundlagen der Stichprobenentnahme, das Schätzproblem, die Beurteilung der Qualität der statistischen Analyse (Konfidenz) und die Absicherung von Annahmen oder Hypothesen durch die (beliebten) statistischen Tests. Man sollte sich aber im klaren sein, daß diese Begriffe weit über die beschreibende Statistik hinaus Bedeutung haben. Die eigentliche Statistik setzt ein für meine Begriffe bei stochastischen dynamischen Systemen, der statistischen Behandlung nichtaufgelöster Bewegungsformen in numerischen Modellen, der Bestimmung dynamisch konsistenter Analysen meteorologischer Felder aus unregelmäßig in Raum und Zeit verteilten stochastischen Beobachtungen und vieles mehr. Aber alle diese Punkte kann man nicht verstehen, wenn die Grundlagen der Statistik nicht vorliegen. Es wäre deshalb auch überheblich, die beschreibende Statistik als Kinkerlitzchen oder reine Fingerübung zu verstehen. Ohne die Grundlagen kann man die höher angesiedelten Probleme nicht adäquat verstehen und behandeln. Als ganz typisches Beispiel wird hier die Problematik der statistischen Tests auftauchen. Die Grundlagen der beschreibenden Statistik machen hier die vielleicht mitunter etwas verqueren Gedankengebäude sichtbar, die man bei den Hypothesentests aufstellen muß die dann aber bei den höher angesiedelten Problemen völlig identisch auftreten und damit begrifflich keine Schwierigkeiten mehr schaffen. 1

6 1 Einführung In einem anderen Teil der Vorlesung werden wir uns dann mit der Statistik von mehrdimensionalen Größen (Vektoren) beschäftigen, der sogenannten multivariaten Statistik. Für moderne Anwendungen in der Klimatologie sind diese Methoden unabdingbar. Der speziellen Statistik für Zeitreihen ist dann eine weitere Vorlesung gewidmet. Eine Warnung zum Schluß : Obwohl die Vorlesung mathematische Statistik heißt, bedeutet dies nicht, daß die Datenanalyse völlig frei von subjektiven Einflüssen der Experimentatoren ist. Im Gegenteil: eine wichtige Erkenntnis der Vorlesung sollte sein, daß alle statistischen Analysen durch das Vorwissen und die Ansprüchen der Experimentatoren bestimmt werden. Dies wird besonders deutlich bei der statistischen Analyse hochdimensionaler Daten (bspw. meteorologische Felder, die an Gitterpunkten dargestellt werden sollen), ist aber auch bei eindimensionalen Daten der Fall, etwa bei der Frage, ob ein zeitlicher Trend in einer Stichprobe wichtig für die Analyse ist oder unwichtig und dann aus den Daten rausgefiltert werden mußḋiese Vorkenntnis der Experimentatoren wird meisten vornehm mit dem lateinischen Ausdruck a-priori umschrieben. A-priori Annahmen sind völlig legal, sollten allerdings von den Experimentatoren als solche auch klar erkannt sein. Andreas Hense Bonn, März 1996 Für das Wintersemester 1998/99 wurde die vergriffene Auflage von 1996 einer kleinen Überarbeitung unterzogen. Diese zielte zunächst auf die Entfernung von Druckfehlern, erbrachte jedoch auch den einen oder anderen erweiterten Erklärungsversuch. Das Kapitel über die multivariaten Normalverteilungen ist jetzt in dem 1996 noch nicht existenten Skript über multivariate Statistik zu finden. Ich danke Andreas Hense für die Überlassung des LaTeX-Skripts und für seine strapazierte Geduld bei der Beantwortung meiner Fragen. Weiterhin danke ich Jochen Elberskirch für seine Hilfe beim Korrekturlesen und Heiko Paeth für seine Hilfe bei meinem ersten, erschöpfendem Kampf gegen das LaTeX. Thomas Burkhardt Bonn, November

7 1 Einführung Auch in den Wintersemestern 2002/03 und 2004/05 wurde das Skript weiter überarbeitet. Vor allem wurde das Kapitel 5 über die Verteilungsfunktionen erweitert. Die Statistik extremer Ereignisse wird in dem neuen Kapitel 8 gesondert behandelt. Ein erster Versuch, eine Einführung in die Bayesische Statistik zu geben, findet sich in Kapitel 9 - Achtung! - dieses Kapitel bedarf eventuell noch einiger Überarbeitung und ist vielleicht nicht an allen Stellen genügend verständlich (Anregungen sind jederzeit willkommen). Während die Kapitel 2 bis 7 essentielle Grundlagen der Statistik vermitteln, auf die alle weiteren Vorlesungen aufbauen, sollen Kapitel 8 und 9 erste Einblicke in besonders aktuelle Methoden der statistischen Analyse geben. Viel Spaß! Petra Friederichs Bonn, Januar

8 2 Elemente der Wahrscheinlichkeitsrechnung 2 Elemente der Wahrscheinlichkeitsrechnung 2.1 Ereignisse und Stichprobenraum Statistik ist die Beschäftigung mit Daten, die gemessen wurden oder allgemeiner durch ein Experiment gewonnen wurden (z.b. auch durch eine Computersimulation). Jede Durchführung eines identischen Experiments nennen wir eine Realisierung oder auch Stichprobenentnahme (s.unten). Die Ergebnisse, die während des Experiments gesammelt werden, können aus diskreten oder auch aus kontinuierlichen Wertebereichen stammen. Die Ergebnisse einer endlichen Anzahl an Experi- Abbildung 1 Beispiel für den Stichprobenraum zweier kontinuierlicher Variablen: Feuchtemessung an einem Punkt durch Trocken- und menten werden einen bestimmten, endlichen Bereich im Raum aller denkbaren Ergebnisse einnehmen. Die Vereinigungsmenge aller Feuchttemperatur Bereiche für alle Größen, die während aller möglichen Realisierungen des Experiments gesammelt werden, bilden den Stichprobenraum S des Experiments. Der Stichprobenraum S kann endlich oder auch unendlich ausgedehnt sein (vergleiche Abb. (1) bis (3)). Die Ergebnisse einer einzelnen Realisierung des Experiments liegen immer in einem Unterraum A von S. Dann wollen wir sagen: Abbildung 2 Beispiel für den Stichprobenraum zweier kontinuierlicher Variablen (endlich Fällt das Ergebnis des Experiments in den und unendlich ausgedehnt): Beobachtung Bedeckungsgrad und Niederschlag Unterraum A, so liegt das Ereignis A vor. Fällt das Ergebnis des Experiments nicht in den Unterraum A, so liegt das komplementäre Ereignis A vor. 4

9 2 Elemente der Wahrscheinlichkeitsrechnung Das Ereignis E umfasst den gesamten Stichprobenraum S, der jede denkbare Realisierung des Experiments enthält. Das komplementäre Ereignis E ist dann die leere Menge. Abbildung 3 Beispiel für den Stichprobenraum zweier diskreter, endlicher Stichprobenvariablen: Monatswitterungsvorhersage nach Temperatur und Niederschlagsklassen 2.2 Begriff der Wahrscheinlichkeit Es seien N Realisierungen des Experiments mit diskretem Stichprobenraum durchgeführt. Das Ereignis A wird n(a) mal beobachtet (gemessen). Dann definiert man als Wahrscheinlichkeit für das Auftreten von A n(a) P(A) = lim N N Für die Wahrscheinlichkeiten gelten folgende Axiome (Kolmogorov, 1933): 1. Die Wahrscheinlichkeit P(A) ist positiv semidefinit (2.1) P(A) 0 (2.2) 2. Das Ereignis E (Stichprobenraum) hat die Wahrscheinlichkeit 1 P(E) = 1 (2.3) 3. Sind A und B zwei sich ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß A oder B eintreten, geschrieben das Ereignis (A + B) P(A + B) = P(A) + P(B) (2.4) 5

10 2 Elemente der Wahrscheinlichkeitsrechnung Aus (1), (2) und (3) folgt, daß P(A) 1 (Übung!). Wenn A das Komplement von A ist, so gilt, dass die Wahrscheinlichkeit P(A) = 1 P(A) ist und es folgt mit P(E) = 1, dass für die leere Menge gilt P( ) = 0. Schließen sich die Ereignisse A und B nicht aus, so gibt es eine Wahrscheinlichkeit für das gemeinsame Ereignis (AB): P(AB). Die Wahrscheinlichkeit für (A + B) ist dann P(A + B) = P(A) + P(B) P(AB) (2.5) Beweis: Das Ereignis (A + B) läßt sich aufspalten in drei sich ausschließende Ereignisse (Mengenlehre läßt grüßen, Abb. (4)): (A + B) : AB + AB + AB (2.6) Abbildung 4 Die Aufteilung des Ereignisses (A + B) in drei sich ausschließende Ereignisse, wenn A und B sich nicht ausschließen mit der Aufteilung des Ereignisses A A : AB + AB (2.7) und entsprechend für B ergibt sich für die Wahrscheinlichkeit P(A + B) P(A + B) = P(AB + AB + AB) P(A + B) = P(AB) + P(AB) + P(AB) P(A + B) = P(A) P(AB) + P(B) P(AB) + P(AB) (2.8) 6

11 2.3 Bedingte Wahrscheinlichkeiten 2 Elemente der Wahrscheinlichkeitsrechnung Das Ereignis A sei beobachtet. Die Wahrscheinlichkeit, daß zusätzlich auch noch das Ereignis B auftritt, heißt bedingte Wahrscheinlichkeit P(B A) = P(AB) P(A). (2.9) Die Wahrscheinlichkeit P(B A) ist nur auf dem Ereignis A definiert. Es lässt sich ausserdem jede gemeinsame Wahrscheinlichkeit P(B A) aufteilen in die bedingte Wahrscheinlichkeit P(B A) und die Randwahrscheinlichkeit P(A) oder vice versa P(AB) = P(B A)P(A) = P(A B)P(B). (2.10) 2.4 Unabhängige Ereignisse Zwei Ereignisse A und B sind unabhängig, das heisst die Festlegung des Ereignisses A hat keinen Einfluss auf das Auftreten des Ereignisses A. Es gilt also P(A B) = P(A) (2.11) und umgekehrt P(B A) = P(B) (2.12) Damit folgt, dass die Wahrscheinlichkeit für das gemeinsame Ereignis AB gilt P(AB) = P(A)P(B). (2.13) 7

12 3 Zufallsvariable, Verteilung von Zufallsvariablen 3 Zufallsvariable, Verteilung von Zufallsvariablen 3.1 Diskrete Zufallsvariable Sei S ein diskreter Stichprobenraum. Jedes Ereignis A tritt mit der Wahrscheinlichkeit P(A) auf. Dann heißt die Menge a = {(A, P(A)), A S} (3.1) (diskrete) Zufallsvariable (ZVA). Es ist wichtig, daß wir bei ZVA immer daran denken, daß es sich um eine Menge und nicht um eine Zahl oder Funktion o.ä. handelt. Kann jedem Ereignis A eine reelle Zahl x zugeordnet werden, wollen wir auch die Menge X = {(x, P(x)), x S} (3.2) als diskrete ZVA bezeichnen. ACHTUNG: Bisher wurden für die Bezeichnung der Ereignisse Großbuchstaben verwendet und für die ZVA Kleinbuchstaben. Ist einem Ereignis aber eine reelle Zahl zugeordnet, wird das Ereignis mit Klein- und die ZVA mit Großbuchstaben bezeichnet. Ausführlich geschrieben ist die Notation für die ZVA X: X = {(x 1, P(x 1 )), (x 2, P(x 2 )),..., (x m, P(x m )), x } {{ } i S} für i = 1,..., m, (3.3) m mal wobei m sowohl endlich als auch zählbar unendlich sein kann. Wegen der Normierungsbedingung (Axiom (2)) gilt Die folgenden Beispiele sollen den Begriff ZVA verdeutlichen. P (x) = 1 (3.4) x S 1. Deterministische Vorgänge: Sei für ein bestimmtes Ereignis A S die Wahrscheinlichkeit P(A) = 1 und entsprechend P(A) = 0, so ist der Ausgang eines Experiments eindeutig determiniert: es kommt immer zum Ereignis A und sonst nichts. 2. Gleichverteilte ZVA (der allseits beliebte Münz- oder Würfelwurf): S bestehe aus M Elementen, für alle Ereignisse A m sei P(A m ) = 1, m=1,...,m. Dann heißt die ZVA M {(A m, 1 M ), A m S} (3.5) 8

13 3 Zufallsvariable, Verteilung von Zufallsvariablen eine gleichverteilte ZVA. Im Fall der Münze gilt: ZVA Geld = {(Adler, 0.5), (Zahl, 0.5), A m Adler Zahl} Wie man sieht, muß nicht jedem Ereignis (hier Adler, Zahl) eine reelle Zahl zugeordnet sein. 3. Binomialverteilte ZVA (siehe nächstes Kapitel): Der Stichprobenraum besteht immer aus Zahlen zwischen 0 und n. Das Ereignis dieser ZVA wird im Gegensatz zu den obigen festgelegt durch die Häufigkeit des Eintretens eines bestimmten Ereignisses bei der n-maligen, unabhängigen Durchführung eines Experiments (mit anderer ZVA), das nur 2 Ereignisse zuläßt. 3.2 Verteilung einer diskreten ZVA Sei X eine diskrete ZVA und in dem Stichprobenraum kann eine Ordnungsrelation größer (>) definiert werden. Dann heißt die Funktion F (x) = P (y) (3.6) y x die Verteilungsfunktion der ZVA X. Die Existenz einer Ordnungsrelation in S ist nicht trivial: man denke z.b an die Zufallsvariablen Farbe, Wolkentyp oder Großwetterlage. Kann man dem Ereignis X eine reelle Zahl x zuordnen, so ist die Ordnungsrelation i.a. aber gegeben. Wie sieht die Verteilungsfunktion einer gleichverteilten ZVA aus? Sei x max = max(x, x S) und x min entsprechend. Wie sieht F (x max ) und F (x min ) aus? 3.3 Univariate reelle kontinuierliche ZVA s Sei der Stichprobenraum S nicht mehr diskret, sondern das eindimensionale, geschlossene und kontinuierliche Intervall [a, b] (Kann auch offen sein oder halboffen oder a, b = ± ; spielt keine Rolle). Dann kann keine Wahrscheinlichkeit P(x), die der Normierungsbedingung (3.4) entspricht, für die Definition der Zufallsvariablen verwendet werden. Man zieht sich deshalb bei reellen ZVA auf die Verteilungsfunktion F(x) zurück und definiert als univariate (wg. des eindimensionalen Stichprobenraums), reelle ZVA X die Menge: X = {(x, F (x)), x [a, b]} (3.7) 9

14 3 Zufallsvariable, Verteilung von Zufallsvariablen wobei F eine monoton steigende (nicht notwendigerweise streng monoton steigende) Funktion ist, die das Intervall [a, b] auf das Intervall [0, 1] abbildet und analog zu der Wahrscheinlichkeit folgendes Axiome bezitzt: 0 F (a) F (b) 1 lim x b F (x) = 1 lim x a F (x) = 0 Ist der Stichprobenraum auf ein endliches Intervall [a, b] begrenzt, so gilt natürlich auch F (b) = 1 und F (a) = 0. Ist F (x) stetig differenzierbar f(x) = F (x), so kann man alternativ auch die Menge X = {(x, f(x)), x [a, b]} (3.8) als eine reelle ZVA definieren. F (x) heißt Verteilungsfunktion der ZVA X und f(x) die Wahrscheinlichkeitsdichtefunktion (engl. probability density function = pdf). Wahrscheinlichkeiten für das Beobachten einzelner Zahlen während der Realisierung eines Experiments anzugeben ist nicht sinnvoll, da eine Zahl nicht beobachtbar ist, sondern nur Werte innerhalb eines Intervalls (s. Ereignisdefinition in Kap.2.1). Dieses Intervall hat z.b. die Breite des Messfehlers. Daher rührt auch das Versagen der Wahrscheinlichkeitsdefinition beim Übergang von diskreten ZVA zu reellen ZVA und man kann bei kontinuierlichen, reellen ZVA s nur von Wahrscheinlichkeiten über Intervallen reden: d.h. über die Wahrscheinlichkeit, während der Realisierung eines Experimentes eine Zahl im Intervall [c, d] zu finden. Sie folgt aus der Verteilungsfunktion für a c < d b bzw. der Dichtefunktion die Wahrscheinlichkeit P([c, d]) = F (d) F (c) = Insbesondere ist F (b) = b a d c f(t)dt. (3.9) f(t)dt = 1, (3.10) was aus der Definition für F folgt. Die pdf f(x) kann man dann als die Wahrscheinlichkeit interpretieren, mit der eine Realisierung einen Wert liefert, der in dem infinitesimalen Intervall [x, x + dx] liegt. Wie sehen die Verteilungsfunktion und die Dichtefunktion einer gleichverteilten reellen ZVA über einem endlichen Intervall [a, b] aus? 10

15 3.4 Multivariate reelle ZVA s 3 Zufallsvariable, Verteilung von Zufallsvariablen Sei Ω IR n ein vernünftiges Gebiet (oder gutartiges Gebiet: d.h. man kann alle Integrationen ausführen). Ein Element dieses Gebietes sei durch den n-dimensionalen Vektor x gekennzeichnet. Sei f eine Funktion von Ω in IR, die positiv semidefinit ist und für die gilt Dann heißt die Menge f( x) 0 f( x)d x = 1 (3.11) Ω X = {( x, f( x)), x Ω} (3.12) eine n-dimensionale (multivariate) ZVA. Die Verteilungsfunktion lautet dann F ( x) = x1... xn f( t)dt 1... dt n (3.13) Wie lautet die Wahrscheinlichkeitsdichtefunktion für eine gleichverteilte ZVA über der Einheitskugel? Verallgemeinerte ZVA s, Funktionen von ZVA s Sei die Menge X = {(x, P(x)), x S} (3.14) eine diskrete ZVA und g(x) = y eine Abbildung von dem Stichprobenraum S in einen neuen Stichprobenraum S g. Dann ist auch die Menge Y = {(y, P g (y)), y S g } (3.15) eine diskrete ZVA, die identisch ist zur diskreten ZVA g(x) = {(g(x), P(x)), x S} (3.16) wenn man setzt P g (y) = x S P (x) (3.17) 1 2π π/2 0 π/2 cr 2 cos ϕdϕdλ = c2πr 2 = 1 11

16 3 Zufallsvariable, Verteilung von Zufallsvariablen Dabei entsteht S durch die Abbildung g 1 (y) von S g in den Raum S. g(x) ist aber nun keineswegs auf eindeutig umkehrbare Funktionen begrenzt. Zur Berechnung der Wahrscheinlichkeit P g (y) muß man ggf. g(x) in eindeutig umkehrbare Funktionsabschnitte unterteilen. Die Verallgemeinerung auf reelle univariate oder multivariate ZVA folgt unmittelbar. Sei X = {( x, f( x)), x Ω} (3.18) eine multivariate ZVA und g eine Abbildung von Ω in IR q mit g( x) = y und g und g 1 stetig differenzierbar. Dann ist die ZVA Y = {( y, f g ( y)), y Ω g } (3.19) identisch zur ZVA g( X) mit g( X) = {( g( x), f( x)), x Ω} (3.20) wenn man für die pdf f g ( y) setzt: f g ( y) = f( g 1 ( y)) det g 1 ( y) (3.21) 2 wobei det g 1 ( y) (3.22) die Funktionaldeterminante (Jacobische Determinante) der inversen Abbildung g 1 ist. Diesen Zusammenhang kann man sich klar machen mit der Vorstellung, daß Wahrscheinlichkeit und Wahrscheinlichkeitsdichte vergleichbar mit Masse und Massendichte sind und nicht vernichtet oder erzeugt werden können. Dies gilt auch unter der Abbildung g. Die Wahrscheinlichkeitsmasse Prob ( x) im (q-dimensionalen) Volumenelement d q x um den Aufpunkt x ist gegeben durch: Prob( x) = f( x)d q x (3.23) Unter der Abbildung g( x) = y bzw. g 1 ( y) = x muß diese Masse erhalten bleiben. Es muß also gelten f( x)d q x = f g ( y)d q y (3.24) 2 Dies folgt aus der Normierungsbedingung f( x)d x = f( g 1 ( y))d( g 1 ( y)) = Ω g Ω Ω g f( g 1 ( y))( y g 1 )d y 12

17 3 Zufallsvariable, Verteilung von Zufallsvariablen Da f g ( y) unbekannt ist, folgt mit Hilfe der Rechenregeln für die Änderung des Volumenelementes bei Koordinatentransformationen d q x = det g 1 ( y) d q y (3.25) die oben angegebene Beziehung als Bestimmungsgleichung für f g ( y) aus f( x). 3.6 Realisierungen von ZVA s In vielen Anwendungsfällen ist es erwünscht, ZVA zu haben, die wohldefinierten Verteilungsfunktionen unterliegen. Dies ist zu unterscheiden vom Schätzproblem (s.u.). Dabei sind aus ZVA, die durch verschiedene Realisierungen eines Experiments entstanden sind, i.a. die Verteilungsfunktion oder was damit zusammenhängt zu schätzen. Typisches Beispiel für das erste Problem dagegen sind die sogenannten Monte Carlo Experimente: es werden Realisierungen einer oder auch mehrerer ZVA generiert, mit denen man dann seine statistischen Analysen überprüft. Man behandelt die künstlich erzeugten Daten so, als ob sie einem realen Experiment entnommen worden wären, weiß aber im Gegensatz zum realen Experiment, welcher Verteilung sie unterliegen. Wie erzeugt man nun ZVA mit wohldefinierten Verteilungsfunktionen? Strenggenommen lassen sie sich nur auf dem Computer realisieren, wenngleich frühe Experimentatoren (=Spieler) schon interessante Erkenntnisse über diskrete ZVA s wie Münz- oder Würfelwurf durch viele tatsächliche Würfe erzielt haben. Heute arbeitet man mit Zufallszahlengeneratoren (ZZG), also Rechnerprogrammen, die ZVA erzeugen. Jede FORTRAN Library hat i.a. einen solchen Generator standardmäßig implementiert. Numerical Recipes, Kapitel 7 gibt einen guten Überblick, wie Zufallszahlengeneratoren arbeiten, wie man welche schreibt und auch, in welche Fallen man tappen kann. Die allgemeine Form eines ZZG ist folgende Iteration (stückweise lineare Abbildung eines Intervalls auf sich selbst): I n+1 = mod(ai n + c, m) (3.26) wobei a, c, m positive Integer Zahlen sind und mod die modulo Funktion bezeichnet. Realisierungen einer gleichverteilte ZVA im Intervall [0, 1[ erhält man durch die Normierung x n = I n /m (3.27) 13

18 3 Zufallsvariable, Verteilung von Zufallsvariablen Gute Werte für die Konstanten a, c, m findet man in Numerical Recipes auf Seite 198. Den Grund, warum Iterationen der obigen Art Zufallszahlen erzeugen, findet man am Beispiel des Bernoulli shift (a = 2, c = 0, m = 1), der zufällig verteilte Bitmuster erzeugen kann, in Schuster, Deterministic Chaos, Seite 15ff (Abb. (5)). Realisierungen von reellen, univariaten ZVA s mit einer beliebigen Verteilungsfunktion, werden aus gleichverteilten ZVA s gewonnen. Hierzu benutzen wir die Ergebnisse des Kapitels über verallgemeinerte ZVA s. Sei g eine Abbildung des Intervalls [0, 1] in IR und X eine gleichverteilte ZVA im Einheitsintervall. Dann war die Wahrscheinlichkeitsdichte der ZVA Y = g(x) gegeben durch Abbildung 5 Darstellung der Abbildung des p(y) = p(x) d dy g 1 (y) (3.28) Bernoulli shift p(x) ist aber konstant wg. der Gleichverteilung, so daß die Wahrscheinlichkeitsverteilung der ZVA Y durch die Ableitung der inversen Funktion zu g gegeben ist. Beispiel: Die Abbildung g = ln(x) erzeugt aus Realisierungen einer gleichverteilten ZVA Realisierungen einer exponentiell verteilten ZVA, da g 1 = exp( y) bzw. d dy g 1 (y) = exp( y) Analog verfährt man im Fall der multivariaten ZVA s. 14

19 3 Zufallsvariable, Verteilung von Zufallsvariablen 3.7 Momente einer Verteilungsfunktion Sei X = {(x, P(x)), x S} eine diskrete univariate ZVA. Dann nennt man m k = x S x k P(x) k = 0, 1,...i (links Index, rechts Exponent) (3.29) das k.te Moment der ZVA. Die Definition macht natürlich nur Sinn, wenn in S eine Addition definiert ist (bedeutet, daß die Ereignisse schon auf Zahlen projeziert sein müssen). Sei X = {(x, f(x)), x [a, b]} eine kontinuierliche, univariate und reelle ZVA, dann bezeichnet man mit m k = b das k.te zentrierte Moment von X und mit µ k = das k.te zentrierte Moment. b a a x k f(x)dx (3.30) (x m 1 ) k f(x)dx (3.31) Das erste Moment m 1 bezeichnet man auch als Erwartungswert E(X) der ZVA X. In der Theoretischen Mechanik ist das auch der Schwerpunkt der Massenverteilung P(x) (in der Punktmechanik) bzw. der Massendichte f(x) in der Kontinuumsmechanik. Merke: der Erwartungswert (wie auch alle anderen Momente) einer univariaten ZVA ist selbstverständlich keine ZVA, sondern eine wohldefinierte reelle Zahl, da unter dem Integral nur reelle Zahlen bzw. Funktionen stehen, die Teile der Menge X sind. Die Berechnung des Erwartungswertes ist linear, d.h. es gilt (α, β feste aber beliebige reelle Zahlen) E(X ) = g(x) = = α b a b (αx + β)f(x)dx a xf(x)dx + β mit X = {(αx + β), f(x)), x [a, b]}. Gerne schreibt man auch: b a f(x)dx = αe(x) + β (3.32) E(X ) = E(αX + β) = αe(x) + β (3.33) was aber natürlich nicht ganz exakt ist, weil man bei der mittleren Schreibweise im Argument des Operators E() Mengen (X) mit reellen Zahlen (α) verknüpft. Der Einfachheit halber werden aber auch wir nach diesem ausführlichen Hinweis diese Schreibweise verwenden. 15

20 3 Zufallsvariable, Verteilung von Zufallsvariablen Es sei eine Wahrscheinlichkeitsdichtefunktion mit folgender Eigenschaft gegeben (c eine reelle Zahl, der Stichprobenraum sei die gesamte reelle Zahlenachse) f(x c) = f(c x) (3.34) d.h. f ist um c symmetrisch. Dann gilt sofern der Erwartungswert existiert E(X) = c (3.35) Beweis für c = 0 E(X) = = = = xf(x)dx xf(x)dx + ( x)f( x)dx + xf(x)dx xf(x)dx xf(x)dx xf(x)dx = 0 (3.36) Ist c 0, setze y = x c und benutze die Linearität der Berechnung von E(X). Dann erhält man sofort E(X) = c. Das zweite, zentrierte Moment µ 2 einer ZVA wird Varianz oder Dispersion Var(X) der ZVA genannt und ist ein Maß für die mittlere quadratische Abweichung der ZVA von ihrem Erwartungswert. Die Varianz ist groß wenn die Variabilität der ZVA groß ist und umgekehrt. Es gilt für alle c Var(X) = E((X E(X)) 2 ) (siehe obigen Hinweis zur Schreibweise!) Var(X) = E(X 2 ) (E(X)) 2 Steiner scher Satz Var(X c) = Var(X) Var(cX) = c 2 Var(X) (3.37) Die Zahl σ(x) = Var(X) bezeichnet man als Streuung der ZVA X. Das dritte, zentrierte Moment µ 3 mit µ 3 = E((X E(X)) 3 ) (3.38) 16

21 3 Zufallsvariable, Verteilung von Zufallsvariablen kombiniert man mit σ(x) zu γ = µ 3 σ 3 (3.39) und nennt es Schiefe (Skewness) der Verteilung f oder der ZVA. Hat die pdf lange Ausläufer nach links (rechts), ist die Schiefe der Verteilung negativ (positiv). Die Schiefe einer symmetrischen Verteilung ist Null. Das vierte, zentrierte Moment µ 4 = E((X E(X)) 4 ) (3.40) kombiniert man mit σ 4 zu δ = µ 4 σ 4 (3.41) und nennt δ den Exzeß oder die Kurtosis (Wölbung) der Verteilung. Hat eine Verteilung eine Kurtosis δ > 3 (δ < 3), so weist sie gegenüber ihrer Normalversion erhöhte (erniedrigte) Werte der pdf im Bereich des pdf-maximums und erniedrigte (erhöhte) Werte an den Verteilungsenden auf. Die beiden letzten Momente (und natürlich auch alle noch höheren) haben i.a. selten grundlegende Bedeutung, weil in sehr vielen Anwendungen eine Normalverteilung der ZVA vorausgesetzt wird. Diese ist durch erstes und zweites Moment schon vollständig bestimmt Reduzierte Zufallsvariable Sei µ 1 der Erwartungswert und σ die Streuung einer ZVA X. Definiert man z = x µ 1, (3.42) σ und existiert eine Abbildung g(x) = z vom S x in den S z so heißt die ZVA Z = {(z, f(z)), z S z } (3.43) die reduzierte oder auch standardisierte ZVA von X mit E(Z) = 0 und Var(Z) = 1. 17

22 3 Zufallsvariable, Verteilung von Zufallsvariablen 3.8 Modus, Median und Quantile Sei X = {(x, f(x)), x [a, b]} eine reelle, univariate ZVA. Dann nennt man x m den Modus von X, wenn gilt f(x m ) = max f (x m ) = 0 f (x m ) < 0 (3.44) Liegen relativ höchste Werte der pdf an nicht differenzierbaren Stellen des Stichprobenraums, so liegt auch dort ein Modus vor. Existiert nur ein Modus, heißt die ZVA unimodal verteilt. Existieren mehrere Modi, nennt man die ZVA multimodal (inbesondere bei 2 Modi: bimodal) verteilt. Sei die Verteilungsfunktion F (x) der ZVA X streng monoton steigend. Dann existiert eine eindeutige Lösung x p der Gleichung F (x p ) = p (3.45) Die Zahl x p heißt p Quantil der ZVA oder der Verteilung. Ist F (x) nur monoton steigend, existiert möglicherweise nur ein Lösungsintervall für die Gleichung. Dann definiert man als p Quantil x p = inf({(x p, F (x p ) = p), x p [a, b]}) (3.46) Der Median ist definiert als das Quantil (p = 0.5) einer ZVA. Der Median teilt den Stichprobenraum einer univariaten, reellen ZVA in zwei Bereiche gleicher Wahrscheinlichkeit. Wenn eine unimodale ZVA symmetrisch um das Dichtemaximum verteilt ist, die Verteilungsfunktion zweimal stetig differenzierbar ist und der Erwartungswert existiert, dann fallen Modus, Median und Erwartungswert zusammen. Als oberes (unteres) Dezil bezeichnet man die Quantile zum Wert p = 0.9 (p = 0.1). Modus, Median und Quantile sind selbstverständlich auch keine ZVA, sondern wohldefinierte reelle Zahlen. Aufgabe: Berechne Erwartungswert, Varianz, Modus und Median einer gleichverteilten ZVA im Intervall [0, 1] bzw. einer exponentiellverteilten ZVA. 18

23 4 Erwartungswert einer Funktion einer ZVA 4 Erwartungswert einer Funktion einer ZVA Wir hatten bereits gesehen, dass sich der Erwartungswert eine diskreten ZVA bestimmt als E[X] = S xp (x). (4.1) Wie sieht nun der Erwartungswert E[g(X)] einer Funktion von X aus? Folgende Eigenschaftten gelten für die Funktionen von ZVA. E[c] = c (4.2) E[cg 1 (x)] = ce[g 1 (x)] (4.3) [ J ] J E g i (x) = E[g i (x)] (4.4) Die dritte Eigenschaft ist wichtig, denn sie sagt uns, dass der Erwartungswert einer Summe von ZVA gleich der Summe der Erwartungswerte von ZVA ist. Die Nützlichkeit dieser Eigenschaft kann am Erwartungswert der Funktion g(x) = (x µ) 2 (4.5) nämlich die Varianz, gezeigt werden. V ar[x] = E[(X µ) 2 ] = x = x (x µ) 2 P (x) (4.6) (x 2 2xµ + µ 2 )P (x) (4.7) = x x 2 P (x) 2µ x xp (x) + µ 2 x P (x) (4.8) = E[x 2 ] 2µE[x] + µ 2 (4.9) = E[x 2 ] µ 2 (4.10) 4.1 Momente multivariater ZVA s Analog zum univariaten Fall definiert man den Erwartungswert einer multivariaten ZVA X zu E( X) = xf( x)d x E( X) =... xf(x 1,..., x n )dx 1... dx n mit E(X i ) =... x i f(x 1,..., x n )dx 1... dx n ) (4.11) 19

24 4 Erwartungswert einer Funktion einer ZVA Der Erwartungswert eines Vektors ist selbst ein Vektor, dagegen gilt f( x) IR. Bei den weiteren Momenten kann der einfache Analogieschluß zu den Vorschriften bei univariaten ZVA nur mit Vorsicht angewandt werden. Es ist zu beachten, daß bei der Multiplikation der Vektoren x nicht das normale Skalarprodukt gebildet werden darf (also Zeilen- mal Spaltenvektor), sondern das sogenannte äußere Produkt gebildet werden muß. Dieses berechnet sich durch x x T, wobei wir Vektoren normalerweise als Spaltenvektoren verstehen und die Transponierte des Vektors als Zeilenvektor. Das Ergebnis des äußeren Produkts zweier Vektoren ist eine Matrix. Das zweite Moment einer multivariaten ZVA stellt sich daher als die sogenannte Kovarianzmatrix der ZVA X dar. Die Varianz läßt sich nur komponentenweise angeben. Sie belegt in der Kovarianzmatrix die Hauptdiagonale. Die Varianz einer Komponente X i von X ist gegeben durch Var(X i ) = E((X i E(X i )) 2 ) (4.12) Die sogenannten Kovarianzen (in manchen Büchern auch 1,1te Momente genannt) berechnen sich zu c i,j = cov(x i, X j ) = E((X i E(X i ))(X j E(X j ))) i j (4.13) Sie belegen die durch ihre Indizierung festgelegten Plätze in der Kovarianzmatrix Σ, die die Dimension n n hat. Man schreibt Σ = E(( X E( X))( X E( X)) T ) (4.14) Die Kovarianzmatrix ist symmetrisch. Ihre Spur ist positiv definit. Spur(Σ) = i Var(X i ) > 0 (4.15) Damit sind die Eigenwerte der Kovarianzmatrix reell und positiv und die Eigenvektoren bilden ein Orthonormalsystem. Sei eine lineare Transformation der multivariaten ZVA X wie folgt definiert Y = T X + a (4.16) mit der Transformationsmatrix T. (Beachte auch hier den Hinweis zur gemischten Schreibweise von Mengen und Vektoren aus Kap. 3.7!) Dann transformiert sich die Kovarianzmatrix wie Σ Y = T Σ X T T (4.17) 20

25 4 Erwartungswert einer Funktion einer ZVA (Beweis: Σ Y = E(( Y E( Y ))( Y E( Y )) T ) = E((T X + a T E( X) a)(t X + a T E( X) a) T ) = E((T X T E( X))(T X T E( X)) T ) (wegen (AB) T = B T A T ) = T E(( X E( X))( X E( X)) T )T T = T Σ X T T ) (4.18) Der Korrelationskoeffizient zwischen Komponente i und j einer multivariaten ZVA, wird ausgedrückt durch ρ i,j = E((X i E(X i ))(X j E(X j ))) Var(Xi )Var(X j ) = cov(x i, X j ) σ(x i ) σ(x j ) i j (4.19) Alle Korrelationskoeffizienten werden dann zur Korrelationsmatrix zusammengefaßt. 21

26 5 Theoretische Wahrscheinlichkeitsdichteverteilungen 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Wir wollen uns in diesem Kapitel mit einigen theoretischen Verteilungen beschäftigen. Solch eine Verteilung ist die mathematische Formulierung, die die probabilistischen Eigenschaften der vorliegenden ZVA beschreiben soll. In der Regel, ist dies eine Idealisierung der wirklichen, meist unbekannten Verteilung und wird deshalb theoretisch genannt. Sie repräsentiert die vorhandenen Daten somit nur approximativ, auch wenn die Näherung tatsächlich sehr gut sein kann. Eine besondere Eigenschaft ist, dass theoretische Verteilungen durch einige wenige Parameter vollständig festgelegt sind und somit auch parametrische Verteilungen genannt werden. So ist die Gauß-Normalverteilung eindeutig bestimmt, wenn wir die Verteilungsparameter Erwartungswert µ und die Varianz σ kennen. Es gibt mehrere Gründe, solche theoretischen Verteilungen zu benutzen. 1. Zum einen geben sie eine kompakte Beschreibung der probabilistischen Eigenschaften der Daten. Die Eigenschaften der Daten können dann durch eine kleine Anzahl von Parametern beschrieben werden. 2. Ein anderer Aspekt ist die Glättung und Interpolation von Daten. Wenn die Wahrscheinlichkeitsdichtefunktion aus einer Reihe von Messungen zum Beispiel durch eine Häufigkeitsverteilung abgeschätzt, so ist eine solche Schätzung sehr grob, mit Löchern und herausragenden Peaks. Eine solche Schätzung hat einen Stichprobenfehler und dieser wird geglättet, indem an die Daten eine Verteilung angefittet wird. 3. Eine theoretische Verteilung kann auch zur Extrapolation dienen, um Wahrscheinlichkeitsdichten für Ereignisse zu schätzen, die außerhalb des beobachteten Bereichs liegen. 5.1 Diskrete Verteilungen Es gibt zwei Arten von Zufallsvariablen, diskrete und kontinuierliche. Diskrete Variablen sind solche, deren Werte entweder endlich oder zählbar unendlich sind. Eine kontinuierlich ZVA kann dagegen alle reellen Werte in einem bestimmten Intervall annehmen. Es gibt viele diskrete Wahrscheinlichkeitsdichteverteilungen aber nur zwei werden in der Meteorologie öfter benutzt: die Binominalverteilung und die Poissonverteilung. 22

27 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Binominalverteilung Die Binominalverteilung ist wahrscheinlich die einfachste theoretische Verteilung. Sie entsteht, wenn das Ergebnis einer Reihe von Versuchen in zwei Klassen eingeteilt wird und dieser Versuch dann n-mal durchgefürt wird. Generell wird einem Ergebnis die 1 und dem anderen Ergebnis die 0 zugeordnet. Die Anzahl der Versuche n kann eine beliebige positive Integerzahl sein und die Zufallsvariable X B ist dann die Häufigkeit, mit der das Ergebnis 1 bei n Versuchen beobachtet wurde. Ein Experiment entspricht einer Realisierung einer ZVA X, die das Ergebnis 1 oder 0 hat, wobei das Ereignis 1 mit der Wahrscheinlichtkeit p auftritt. Entsprechend ist die Wahrscheinlichkeit für das Ereignis 0 (p 1). Die ZVA für das so formulierte Experiment ist X = {(0, (1 p)), (1, p), S = {0, 1}} (5.1) Ein so definiertes Experiment wird nun n mal durchgeführt. Zwei Bedingungen müssen dabei erfüllt sein: 1. dass die Wahrscheinlichkeiten mit denen wir das Ergebnis 1 bzw. 0 erhalten während des gesamten Experiments konstant bleiben und 2. dass die Ergebnisse der aufeinanderfolgenden Versuche unabhängig voneinander sind. Das Ereignis des Binomial-Experiments ist die Anzahl k des Auftretens von 1 aus den n obigen Versuchen. Der Stichprobenraum umfaßt also die Zahlen 0 bis n. Die Wahrscheinlichkeit für das Eintreten eines bestimmten Ereignisses das k zugeordnet wird, wie {1, 1, 1, 0}, berechnet sich folgendermaßen P (k : {1,..., 1, 0,..., 0 }) = p p... p } {{ } } {{ } } {{ } k mal (n k) mal k mal (1 p) (1 p)... (1 p) } {{ } (n k) mal = p k (1 p) n k (5.2) k kann aber über verschiedene Experimentabläufe erreicht werden. Bspw. erzeugen bei n=4 die Beobachtungen (1,1,1,0), (1,1,0,1), (1,0,1,1) und (0,1,1,1) alle das Ereignis 3. Diese Zahl läßt sich errechnen durch n! k!(n k)! (5.3) Das wird als Binomialkoeffizient bezeichnet und ( n k) geschrieben. So erhält man für die 23

28 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Wahrscheinlichkeit einer binomialverteilten ZVA folgenden Ausdruck: ( ) n B(k, n, p) = p k (1 p) n k (5.4) k Die binomialverteilte ZVA endlich kann man dann leicht schreiben als: X B = {(k, B(k, n, p)), k = 0,..., n} (5.5) Die festen Zahlen (n, p) nennt man die Parameter der Binominalverteilung (vergl. Abb. 6). Wir können die ZVA X B auch über eine Funktion darstellen als g(x) = {(g(x 1,..., x n ), P (x 1,..., x n )), x i S = {0, 1}, i = 1,..., n} (5.6) Für den Spezialfall, dass der Stichprobenraum S = {0, 1} für x i ist, lautet diese Abbildung und ist genau unsere Binominal-ZV. k = g(x 1,..., x n ) = n x i (5.7) 0.4 (n,p) = 10, (n,p) = 10, (n,p) = 10, (n,p) = 10, (n,p) = 10, (n,p) = 10, Abbildung 6 Binomialverteilungen mit verschiedenen Parametern (n, p). Der Erwartungswert der ZVA X B läßt sich nach der Formel für den Erwartungswert ausrechnen: E(X B ) = n kb(n, p, k) = k=0 n k k=0 ( ) n p k (1 p) n k (5.8) k 24

29 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Dies geschieht in Kreyszig, S.111 (1998) [4] mit speziell konstruierten Funktionen. Für unseren oben schon festgelegten Spezialfall ist aber nur Standard-Arithmetik nötig. Dabei fragen wir nicht nach dem Erwartungswert der ZVA X B sondern nach dem von g(x). Wir können also schreiben E(g(X)) = n x i,l P (x l ) = = l=0,1 n x i,l P (x l ) l=0,1 n (p 1 + (1 p) 0) = np (5.9) Tatsächlich ist das Ergebnis von (5.8) ebenfalls np. Leicht läßt sich aber auch ausrechnen, daß für den Stichprobenraum S = {1, 3} E(g(X)) = n(1 2p) ist. Dann gilt aber (5.7) nicht mehr! Die Berechnung der Varianz der ZVA X B läuft auf die Berechung des Erwartungswerts von [g(x) E(g(X))] 2 heraus, also V ar(x B ) = E[(X B E[X B ]) 2 ] = E[(g(X) E(g(X))) 2 ] = E[( i x i E[ i x i ]) 2 ] = E[( i x i i E[x i ]) 2 ] = E[( i x i i µ i ) 2 ] = E[( i (x i µ i )) 2 ] = i E[(x i µ i ) 2 ] = i [E[x 2 i ] µ2 i ] = i [ S x 2 i P (x) p2 ] = i [1 2 p (1 p) p 2 ] = i p(1 p) = np(1 p) (5.10) Da g(x) eine Summe von ZVA darstellt, entstehen bei der Quadrierung Mischglieder, was zu Kovarianzen führt. Man hat es also mit einer multivariaten ZVA zu tun. Die Berechung wird erleichtert durch die Tatsache, daß x i unabhängig ist von x j für i j. Das bedeutet, daß P (x 1, x 2,..., x n ) = P (x 1 ) P (x 2 )...P (x n ) gilt. Man gelangt für unseren Spezialfall zu der einfachen Formel Var(X B ) = Var(X 1 ) + Var(X 2 ) Var(X n ) (5.11) 25

30 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Die Varianz der ZVA X i läßt sich leicht berechnen Var(X) = E((X i E(X i )) 2 ) = (x l E(X i )) 2 P (x l ) = (0 p) 2 (1 p) + (1 p) 2 p (5.12) l=0,1 Damit gilt Var(X B ) = np(1 p) (5.13) Poissonverteilung Die Poissonverteilung beschreibt die Anzahl von diskreten Ereignissen welche in einer Serie auftreten und eine bestimmte Art von Unabhängigkeit haben. Ähnlich wie bei der Binominalverteilung fragen wir hier nach der Wahrscheinlichkeit des Auftretens von einer bestimmten Anzahl von Ereignissen in einem bestimmten Zeitraum. Idealerweise ist das Ereignis so selten, also die Wahrscheinlichkeit p so klein, dass es sehr unwahrscheinlich ist, dass in dem vorgegebenen Zeitraum mehr als ein Ereignis auftritt. Der Zeitraum oder anders gesagt die Anzahl der Versuche n ist hingegen groß. Es macht also Sinn, den Grenzwert der Binominalverteilung für n zu bilden, wobei wir einen Parameter λ = np = endlich = const (5.14) definieren. Die Poissonverteilung hat einen Parameter λ, welche mit mittlere Rate des Auftretens eines Ereignisses darstellt. Dieser Parameter wird auch als Intensität bezeichnet. Sei bei einer Serie von Experimenten, die binomialverteilte ZVA ( ) n B(k, n, p) = p k (1 p) n k k = = λk k! n! k!(n k)! (λ n )k (1 λ n )n (1 λ n )k 1 n k (1 λ n )n (1 λ n )k = λk k! (1 λ n = λk n 0 ( n )n k 1 (n i) i=0 )( n 1 n 2 )( n n (1 λ n )k )... ( n (k 1) n ) k! (1 λ (1 0 )(1 1 )(1 2 k 1 )... (1 ) n )n n n n n (5.15) (1 λ n )k Bildet man die Grenzwerte lim (1 x n n ) = 1 (5.16) 26

31 5 Theoretische Wahrscheinlichkeitsdichteverteilungen und so verbleibt bei festem, aber beliebigen k lim n (1 λ n )n = exp( λ) (5.17) λk lim B(k, n, p) = f(k) = exp( λ) (5.18) n k! Abbildung 7 Poissonverteilung für unterschiedliche Parameter λ Die Dichteverteilung f(k) nennt man die Poissonverteilung und λ den Parameter der Possionverteilung. Sie gibt die Wahrscheinlichkeit an für das Eintreten k unwahrscheinlicher Ereignisse bei n Beobachtungen, die jedes für sich mit der kleinen Wahrscheinlichkeit p eintreten. Der Erwartungswert der ZVA K K = {(k, f(k)), k = 0,..., n} (5.19) ergibt sich zu E(K) = k=0 k λk exp( λ) = λ = µ (5.20) k! 27

32 5 Theoretische Wahrscheinlichkeitsdichteverteilungen und die Varianz zu Var(K) = E(K 2 ) µ 2 = µ (5.21) Die Poissonverteilung für verschiedene Parameter λ ist in der Abb. (7) dargestellt. Da auch das 3. zentrierte Moment der Poissonverteilung durch µ gegeben ist, hat die Poissonverteilung immer eine positive Schiefe von 1/ µ, also lange Ausläufer nach rechts, auch wenn das in Abb. (7) für die großen µ nicht deutlich wird. Für µ gegen nimmt die Poissonverteilung symmetrische Gestalt an. Ein gutes Beispiel für eine Poissonverteilung in der Meteorologie ist die Verteilung von Stark-niederschlägen. 5.2 Kontinuierliche Verteilungen Die meisten Variablen in der Meteorologie können einen kontinuierlichen Wert annehmen. Temperatur, Niederschlag, Geopotential, Windgeschwindigkeit sind zumindest konzeptionell nicht auf Integerwerte einer bestimmten Einheit beschränkt. Auch wenn Messwerte oder Modellergebnisse auf diskrete Werte gerundet werden, so ist der Satz der möglichen Werte in der Regel groß genug, um im weiteren die Variable als kontinuierlich Variable zu behandeln. Die in der Statistik vorkommenden Verteilungen können in zwei Kategorien unterteilt werden. Die einen werden benutzt, um die Daten zu repräsentieren, also Verteilungen, die im Zusammenhang mit einem mathematischen Modell benutzt werden. Hierzu gehören auch die Binominal- und Poissonverteilung. Ich werde hier einige vorstellen (Gaußverteilung, Log- Normalverteilung, Gamma-Verteilung, Beta-Verteilung,...). Eine zweite Kategorie von Verteilungen dient zur Abschätzung der Unsicherheit einer Schätzung z. B. des Mittelwertes oder der Varianz oder zum Vergleich von Mittelwert oder Varianz zweier ZVA. Natürlich lassen sich einige Verteilungen beiden Kategorien zuordnen Gaussverteilung Die univariate Gaußverteilung oder Normalverteilung (NV) ist die wichtigste Wahrscheinlichkeitsdichtefunktion für univariate, reelle ZVA, weil viele ZVA, die bei Experimenten beobachtet werden, einer NV entstammen. einige ZVA näherungsweise normalverteilt sind (bei unimodalen Verteilungen lassen sich in vielen Fällen sinnvolle Ergebnisse unter der Annahme NV erzielen). 28

33 5 Theoretische Wahrscheinlichkeitsdichteverteilungen einige ZVA sich durch geeignete Transformationen auf Normalverteilung bringen lassen (etwa ZVA, die ein endliches Intervall und nicht die gesamte reelle Zahlenmenge als Stichprobenraum haben). die klassische Statistik meist auf der Annahme der Normalverteilung basiert, der Zentrale Grenzwertsatz der Statistik oder central limit theorem gilt. Sei X = {(x, f(x)), x von der Form } eine reelle univariate ZVA. X heißt normalverteilt, wenn f(x) f(x) = 1 2πσ exp( 1 2 (x µ σ )2 ) (5.22) ist. µ, σ nennt man dann auch die Parameter der Normalverteilung. Bei einer Gauß- oder Normalverteilung mit µ = 0 und σ = 1 wird von einer Standard-Normalverteilung oder Standard-Gaußverteilung geredet. Jede Gauß-verteilte ZVA kann durch die Transformation Z = X µ σ (5.23) in ihre Standardform gebracht werden. µ bestimmt die Position des Maximums und den Symmetriepunkt, d.h. µ ist der Erwartungswert der ZVA X. Die Varianz der ZVA X ist dann gegeben durch Var(X) = (x µ) 2 f(x)dx = σ 2 was man durch einfaches Nachrechnen mit partieller Integration beweisen kann. Dies bedeutet, daß die Normalverteilung vollständig durch die Varianz σ 2 bzw. Streuung σ und den Mittelwert µ der ZVA X bestimmt ist. Damit sind aber auch alle Eigenschaften der ZVA X durch den Erwartungswert und die Streuung festgelegt. Hat man also E(X) und σ sowie die Gewißheit oder die Annahme, daß eine ZVA X normalverteilt ist, ist die gesamte Statistik der ZVA X bekannt. Da es für das Integral über die Dichtefunktion der Gauß-Verteilung (5.22) keine analytische Lösung gibt, gibt es für die Verteilungsfunktion der NV oder auch kummulative Dichtefunktion genannt, keine allgemeine Berechnungsvorschrift. F (x) = 1 2πσ x exp( 1 2 (t µ σ )2 )dt (5.24) 29

34 5 Theoretische Wahrscheinlichkeitsdichteverteilungen Für den Fall, dass µ = 0 und σ = 1 ist, heisst die ZVA auch reduzierte ZVA (oder eben standard-normalverteilt). Die Verteilungsfunktion F (x) ist dann die Fehlerfunktion (error function) und wird mit Φ(x) oder erf(x) bezeichnet. Es gilt dann natürlich F (x) = erf( x µ σ ) = 2 π x 0 e t2 dt. (5.25) Die Fehlerfunktion findet man tabelliert oder als Standardsubroutine in FORTRAN oder MATLAB. Die Quantile der NV kann man mit Hilfe der error - Funktion bestimmen: das 16%- (bzw. 84%) Quantil findet man bei µ σ das 2.5%- (bzw. 97.5%) Quantil findet man bei µ 1.96σ das 0.5%- (bzw. 99.5%) Quantil findet man bei µ 2.58σ Als gängige Abkürzung wollen wir noch folgende Bezeichnung einführen: Sei X eine Normalverteilte ZVA mit den Parametern µ, σ. Dann wird dies im folgenden auch einfach mit X N (µ, σ) bezeichnet. Abbildung 8 Johann Carl Friedrich Gauss ( ) Zentraler Grenzwertsatz der Statistik Der zentrale Grenzwertsatz der Statistik ist von fundamentaler Bedeutung in der Statistik und hat der Normalverteilung ihre herausragenden Rolle gegeben. Er besagt: Seien X i, i = 1,..., n unabhängige und identisch, aber beliebig verteilte Zufallsvariablen mit E(X i ) = µ und V ar(x i ) = σ 2. Dann ist das arithmetische Mittel X = 1 n X i (5.26) n 30

35 5 Theoretische Wahrscheinlichkeitsdichteverteilungen wiederum eine Zufallsvariable, die asymptotisch für große n Normalverteilt ist. Es gilt also lim n 1 n n (X i µ) N (0, 1) (5.27) 1 n σ Grob gesagt besagt dies, dass eine Zufallsvariable, welche sich zusammensetzt als Summe vieler, unabhängiger, Zufallsvariablen mit gleicher Verteilung, Gaußverteilt ist. Es ist jedoch nicht bekannt, wann diese Konvergenz eintritt, und manchmal muss n sehr gross sein, um näherungsweise eine Normalverteilung zu erhalten. Der zentrale Grenzwertsatz der Statistik lässt sich erweitern auf Summen von Zufallsvariablen, die nicht zwangsläufig die gleiche Verteilung haben. Dazu werden die Zufallsvariablen zentriert und mit (nv ar(x i )) 1/2 normiert, so dass X ni = X i E(X i ) nv ar(xi ). Es gilt dann, dass E(X ni ) = 0 und V ar(x i ) = σ 2 i und für σ 2 ni = V ar(x ni) gilt 0 < σ 2 ni = V ar(x ni ) <. Es kann ausserdem gezeigt werden, dass n σ2 ni = 1. Der zentrale Grenzwertsatz von Lindeberg besagt nun: Falls für jedes ɛ > 0 [ n lim n x >ɛ x 2 p i (x)dx ] = 0 (5.28) dann ist die Summe Y n = n X ni im Grenzfall n standardnormalverteilt N (0, 1) Die χ 2 -Verteilung Die χ 2 -Verteilung wird definiert als die Verteilung eine Summe der Quadrate von unabhangigen und standard-normalverteilten ZVA. Sie ist also nur auf dem Raum der postitiven reellen Zahlen definiert. Seien X 1, X 2,..., X n N (0, 1) unabhängige ZVA, von denen jede den Erwartungswert E(X i ) = 0 und die Varianz V ar(x I ) = E(XI 2 ) = 1 besitzt. Die Summe der Quadrate der ZVA X i wird im Allgemeinen mit χ 2 bezeichnet. χ 2 = i X 2 i. (5.29) Entsprechend heißt die Verteilung dieser Zufallsvariablen χ 2 auch die χ 2 -Verteilung. Ihre Wahrscheinlichkeitsdichte lautet f(x) = K n x (n 2)/2 e x/2 für x > 0 (5.30) 31