Die Normalverteilung

Ähnliche Dokumente
6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Mathematische und statistische Methoden II

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Diskrete Wahrscheinlichkeitsverteilungen

Verteilung von Summen

Standardnormalverteilung

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

5. Spezielle stetige Verteilungen

Statistik für Ingenieure Vorlesung 5

Auswahl von Schätzfunktionen

Übungsblatt 9 (25. bis 29. Juni)

Kapitel 2 Wahrscheinlichkeitsrechnung

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Statistik I für Betriebswirte Vorlesung 14

Wirtschaftsstatistik Normalverteilung

Grundlegende Eigenschaften von Punktschätzern

Der Trainer einer Fußballmannschaft stellt die Spieler seiner Mannschaft auf. Insgesamt besteht der Kader seiner Mannschaft aus 23 Spielern.

Willkommen zur Vorlesung Statistik (Master)

Statistik I für Betriebswirte Vorlesung 14

Wahrscheinlichkeitsverteilungen

5.4 Verteilungsfunktion Verteilungsfunktion diskreten Zufallsvariablen stetigen Zufallsvariablen Verteilungsfunktion

Inferenzstatistik (=schließende Statistik)

Einführung in Quantitative Methoden

QM III Normalverteilung Aufgabe 10.1 Die Lebensdauer (in Jahren) von KFZ-Batterien des Typs

Vorlesung: Statistik II für Wirtschaftswissenschaft

Ü b u n g s b l a t t 15

Vorlesung: Statistik II für Wirtschaftswissenschaft

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Von der Normalverteilung zu z-werten und Konfidenzintervallen

Über den Autor 7. Teil Beschreibende Statistik 29

Standardnormalverteilung

Normalverteilung und Dichtefunktionen

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

6.6 Poisson-Verteilung

Forschungsstatistik I

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Statistik 2 für SoziologInnen. Stetige Zufallsvariable Normalverteilung & Exponentialverteilung

Biometrieübung 5 Spezielle Verteilungen. 1. Anzahl von weiblichen Mäusen in Würfen von jeweils 4 Mäusen

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Zentraler Grenzwertsatz

Mathematik für Biologen

Zusammenfassung PVK Statistik

Kenngrößen von Zufallsvariablen

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

Sigma-Umgebung. Vergleichen wir die beiden Binomialverteilungen: n = 30 p = 0,5. n = 20 p = 0,75

Zentraler Grenzwertsatz

Konfidenzintervall für den Anteilswert θ. Konfidenzintervalle. Jost Reinecke. Universität Bielefeld. 13. Juni 2005

Marcus Hudec. Statistik 2 für SoziologInnen. Grenzwertsätze. Marcus Hudec. Statistik für SoziologInnen 1 Zentraler Grenzwertsatz

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Eine Zufallsvariable X sei stetig gleichverteilt im Intervall [0,5]. Die Wahrscheinlichkeit P(2< x <4) ist dann

Zufallsvariablen [random variable]

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Statistik I für Betriebswirte Vorlesung 5

Einführung in die Statistik

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Statistik I. 2. Klausur Wintersemester 2011/2012 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

STETIGE VERTEILUNGEN

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

70 Wichtige kontinuierliche Verteilungen

8 Stichprobenkennwerteverteilung

3 Grundlagen statistischer Tests (Kap. 8 IS)

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Wahrscheinlichkeitstheorie und Statistik

Einführung in die Statistik

Biostatistik, Sommer 2017

Mathematik für Biologen

Kapitel 2. Fehlerrechnung

Wahrscheinlichkeitsverteilungen

Statistik I für Betriebswirte Vorlesung 4

Mathematik 3 für Informatik

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Mathematik für Biologen

Fit for Abi & Study Stochastik

Vorlesung Gesamtbanksteuerung Mathematische Grundlagen II Dr. Klaus Lukas Carsten Neundorf. Vorlesung 04 Mathematische Grundlagen II,

7.2 Theoretische Kennwerte

Mathematik für Biologen

Motivation. Benötigtes Schulwissen. Übungsaufgaben. Wirtschaftswissenschaftliches Zentrum 10 Universität Basel. Statistik

Konfindenzintervall für My - Sigma unbekannt

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Beziehungen zwischen Verteilungen

Verteilungen eindimensionaler stetiger Zufallsvariablen Stetige Verteilungen. Chi-Quadrat-Verteilung Studentverteilung Fisher-Verteilung

(6.29) Z X. Die standardnormalverteilte Zufallvariable Z, Z ~ N(0,1), weist den Erwartungswert (6.30) E(Z) = 0 und die Varianz (6.31) V(Z) = 1 auf.

Weierstraß-Institut für Angewandte Analysis und Stochastik Von der Binomialverteilung zur Normalverteilung

Kapitel VII. Einige spezielle stetige Verteilungen

Glücksrad-Aufgabe. Das Glücksrad ist in 2 Sektoren mit den Zahlen 1 (Winkel 120 ) und 2 eingeteilt.

Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!)

Gemeinsame Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeit und Statistik BSc D-INFK

Exponentialverteilung

Transkript:

Die Normalverteilung Worum geht es in diesem Modul? Ist der Euro fair? Approximation der Binomialverteilung Dichte und Verteilungsfunktion Standardnormalverteilung und Lineartransformation Quantile Quantildiagramme Grenzwertsatz von de Moivre und Laplace Ist der Euro fair? - Fortsetzung Der zentrale Grenzwertsatz Die logarithmische Normalverteilung Die bivariate Normalverteilung Worum geht es in diesem Modul? Wenn bei einer Binomialverteilung die Anzahl der Versuchsdurchführungen sehr groß ist, gibt es Schwierigkeiten bei der Berechnung der Wahrscheinlichkeiten. Hierfür bietet die Normalverteilung eine Approximation. Sie ist aber auch zur Modellierung von Messdaten ein oft herangezogenes Modell. Wegen ihrer zentralen Bedeutung wird die Normalverteilung in einem eigenen Lernmodul behandelt. Nach der Darstellung der Approximation der Binomialverteilung durch die Normalverteilung werden die wichtigsten Eigenschaften der Normalverteilung betrachtet. Über die Approximation der Binomialverteilung hinaus lassen sich die Verteilungen von Summen von Zufallsvariablen durch die Normalverteilung annähern. Eine besondere Variante ergibt sich mit der logarithmischen Normalverteilung. Diese ist von Bedeutung, wenn einzelne Faktoren multiplikativ zusammenwirken. Ist der Euro fair? Im Zusammenhang mit der Einführung des Euro als gemeinsame europäische Währung berichteten polnische Mathematiker, dass die 1-Euro-Münze nicht fair sei. Die Wahrscheinlichkeiten seien verschieden, dass sie auf die Zahl- bzw. auf die Symbolseite falle. Muss daraufhin auf den Münzwurf zur objektiven, fairen Entscheidungsfindung verzichtet werden? (Beispielsweise beim Auslosen der Seiten beim Fußball.) Page 1

Quelle: Eigenproduktion Im Sinne der statistischen Wahrscheinlichkeit stabilisiert sich der Anteil der Zahlseiten bei dem wahren Wert, der Chance für das Eintreffen des Ereignisses "Die Zahlseite zeigt nach oben". Nun stellt sich die Frage, ob die von den Mathematikern festgestellte Ungleichheit der Chancen für die beiden Seiten relevant ist, d.h. ob wir sie tatsächlich bemerken können, oder ob sie so gering ist, dass wir die Ungleichheit getrost vergessen können. Eine erste Einschätzung erlaubt die. Da die Zufallsvariable = "Anzahl der Zahlseiten" bei Würfen binomialverteilt ist mit den Parametern und, gilt: Somit gilt gemäß der Tschebyschev-Ungleichung: Wählen wir, so ist die Mindestwahrscheinlichkeit Angenommen, der Euro sei nicht fair und habe eine Zahl-Wahrscheinlichkeit von Dann erhalten wir bei 100000 Würfen: Page 2

Selbst bei einer Serie dieser Länge kann es uns gut passieren, dass der beobachtete Anteil 0.5 oder sogar etwas größer ausfallen wird, obwohl ist. Nun ist die Mindestwahrscheinlichkeit, welche die Tschebyschev-Ungleichung angibt, eine untere Schranke. Im Einzelfall kann sie sehr grob sein. Daher ist eine genauere Berechnung über die Binomialverteilung wünschenswert. Approximation der Binomialverteilung Entsprechend der Problemstellung bzgl. der Fairness des Euro sei mit den Parametern und, binomialverteilt Jede näherungsweise Bestimmung von Wahrscheinlichkeiten steht vor dem Problem, dass mit wachsendem der Wertebereich entsprechend breiter wird. Das können Sie mit dem Applet Binomialverteilung (a6c.jar) nachvollziehen. Daher ist es für eine Näherungsformel günstig, von einer bzw. von den standardisierten Realisationsmöglichkeiten auszugehen. Sei binomialverteilt mit den Parametern und, Der standardisierte -Wert ist. Für große lassen sich die Binomialwahrscheinlichkeiten für standardisierte Werte aus jedem festgelegten Bereich approximieren gemäß: Die Approximationsgüte hängt von ab. Als Faustregel gilt: Für erhalten wir brauchbare Werte. Zur Beantwortung der Euro-Frage reicht diese Approximation allerdings nicht aus. Zwar können wir die einzelnen Binomialwahrscheinlichkeiten einfacher berechnen, jedoch haben wir keine einfache Formel für die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert aus einem Intervall annimmt. Daher greifen wir die Fragestellung weiter unten wieder auf. Page 3

Welches sind die größten Abweichungen der Binomialwahrscheinlichkeiten von den entsprechenden approximierenden Werten? Bestimmen Sie diese im Statistik-Labor für und. Labordatei öffnen ( ac4.mpf ) Dichte und Verteilungsfunktion Dichte Bei der Funktion, die sich bei der Binomialapproximation ergeben hat, ist ; und sind Erwartungswert und Varianz der zugrunde liegenden Binomialverteilung. Werden diese durch die allgemeinen Symbole Erwartungswert und für die Varianz ersetzt, so erhalten wir die Normalverteilungsdichte. für den Eine Zufallsvariable, deren Dichtefunktion die Gestalt hat, heißt normalverteilt mit den Parametern und. Dafür wird kurz geschrieben. ist tatsächlich eine Dichtefunktion: Es gilt und. Die Normalverteilung wird auch nach dem Mathematiker Carl Friedrich Gauß, der sie als Fehlerverteilung einführte, als Gauß-Verteilung bezeichnet Quelle: Stigler, S. M. (1986): The History of Statistics; Harvard: Belknap Entsprechend der Einführung der Normalverteilungsdichte gilt: In diesem Applet Normalverteilung (b16.jar) ist die Normalverteilungsdichte, auch Gaußsche Glockenkurve genannt, angegeben; daran lässt sich die Auswirkung der Parameter studieren. Verteilungsfunktion Wie bei jeder stetigen Verteilung hängt die Verteilungsfunktion mit der Dichte zusammen gemäß. lässt sich nicht in geschlossener Form angeben. Formal können über sie Wahrscheinlichkeiten für Intervalle bestimmt werden: Da eine stetige Funktion ist, spielt es keine Rolle, ob die Intervallgrenzen jeweils eingeschlossen sind oder nicht. Eine Reifenfirma untersucht die Lebensdauer eines neu entwickelten Reifens. Dabei zeigt sich, dass die ermittelte Laufleistung der Reifen gut durch eine Normalverteilung mit den Parametern km und km angenähert werden kann. Page 4

a) Wie groß ist die Wahrscheinlichkeit dafür, dass ein zufällig ausgewählter Reifen höchstens 48000 km hält? b) Wie groß ist die Wahrscheinlichkeit dafür, dass ein zufällig ausgewählter Reifen mehr als 28000 km hält? c) Wie groß ist die Wahrscheinlichkeit dafür, dass ein zufällig ausgewählter Reifen länger als 30000 km und weniger als 44000 km hält? Beantworten Sie die Fragen unter Zuhilfenahme des Statistik-Labors. Labordatei öffnen ( b59.mpf ) Ein Unternehmen hat festgestellt, dass die Anzahl der Tage zwischen der Ausstellung einer Rechnung und ihrer Bezahlung durch den Kunden angenähert einer Normalverteilung folgt mit dem Erwartungswert und der Standardabweichung. Hierbei ist die vom Unternehmen gewährte Zahlungsfrist. a)wie groß ist die Wahrscheinlichkeit dafür, dass eine Rechnung spätestens 60 Tage nach Ausstellung beglichen wird? b) Welcher Anteil der Rechnungen wird erst nach 30 Tagen bezahlt? c) Welcher Anteil der Rechnungen wird in dem Zeitintervall von 15 bis 20 Tagen bezahlt? Beantworten Sie die Fragen unter Zuhilfenahme des Statistik-Labors. Labordatei öffnen ( b75.mpf ) Standardnormalverteilung und Lineartransformation Die Standardnormalverteilung ist die Normalverteilung mit dem Erwartungswert null und der Varianz eins, und. Von einer beliebigen Normalverteilung gelangen wir durch zur Standardnormalverteilung: Umgekehrt gilt natürlich auch: Aus dieser Eigenschaft ergibt sich unmittelbar, dass jede Lineartransformation einer normalverteilten Zufallsvariablen wieder normalverteilt ist, sofern der Faktor von null verschieden ist: Die zur Standardnormalverteilung gehörige Verteilungsfunktion wird mit (sprich: Fi von z) bezeichnet, die Dichte mit (sprich: klein Fi von z). Das Applet Standard-Normalverteilung (ba7.jar) illustriert beide Funktionen. spielte in der älteren Statistikliteratur eine wesentliche Rolle. Erlaubte doch der oben angegebene Zusammenhang zwischen einer -Verteilung und der Standardnormalverteilung, sich auf eine einzige Tabelle von Wahrscheinlichkeiten zu beschränken. Noch jetzt macht es Sinn, zur Verdeutlichung der Parameter Wahrscheinlichkeiten mit Hilfe der Standardnormalverteilung anzugeben: Quantile Page 5

Die -Quantile einer -Verteilung mit der Verteilungsfunktion sind Sie stehen im Zusammenhang mit den Quantilen der Standardnormalverteilung:. Im Applet Quantile der Normalverteilung (bea.jar) kann die Bestimmung der Quantile zu vorgegebenen Wahrscheinlichkeiten untersucht werden. Die Quantile sind symmetrisch um den Erwartungswert: Zentrale Schwankungsintervalle Wir haben über die Eigenschaft eingeführt, dass die Zufallsvariable mit gleicher Wahrscheinlichkeit einen Wert links von der Untergrenze wie rechts von der Obergrenze annimmt. Da die Normalverteilung symmetrisch um den Erwartungswert ist, gilt hier. Die zentralen Schwankungsintervalle haben folglich die Form. Die Konstante wird dabei meist als Vielfaches der Standardabweichung angegeben. Wir sprechen dann von einem -fachen zentralen Schwankungsintervall: Für die ersten ganzzahligen Werte von k sind die Wahrscheinlichkeiten: 1 68.3% 2 95.4% 3 99.8% Nach der so genannten -Regel liegen bei einer Normalverteilung praktisch alle Beobachtungen innerhalb des dreifachen zentralen Schwankungsintervalls. Eine Reifenfirma untersucht die Lebensdauer eines neu entwickelten Reifens. Dabei zeigt sich, dass die ermittelte Laufleistung der Reifen gut durch eine Normalverteilung mit den Parametern km und km angenähert werden kann. d) Welche Laufleistung wird von 95 % der Reifen nicht überschritten? e) Welche Laufleistung wird von 90 % der Reifen nicht unterschritten? f) Berechnen Sie das zentrale Schwankungsintervall, in das 95% der Reifen fallen. g) Die Firma ist in der Lage, den Herstellungsprozess der Reifen so zu steuern, dass km konstant bleibt, aber die Standardabweichung veränderbar ist. Bei welcher Standardabweichung muss der Produktionsprozess ablaufen, wenn die Firma garantieren will, dass durchschnittlich nur 2% der Reifen diese Mindestlaufleistung von 30000 km unterschreiten? Beantworten Sie die Fragen d)-f) unter Zuhilfenahme des Statistik-Labors. Page 6

Labordatei öffnen ( c86.mpf ) Und hier ist ein Link zur Lösung von Teil g) ( : c8a.pdf ). Ein Unternehmen hat festgestellt, dass die Anzahl der Tage zwischen der Ausstellung einer Rechnung und ihrer Bezahlung durch den Kunden angenähert einer Normalverteilung folgt mit dem Erwartungswert und der Standardabweichung. Hierbei ist die vom Unternehmen gewährte Zahlungsfrist. d)welcher Zeitraum zur Bezahlung einer Rechnung wird von 20% der Kunden nicht eingehalten? e) Wie angegeben, gewährt das Unternehmen eine Zahlungsfrist von Tagen. Wenn eine Rechnung nach 40 Tagen noch nicht bezahlt worden ist, wird eine erste Mahnung abgeschickt. Wie groß müsste die gewährte Zahlungsfrist festgesetzt werden, wenn der Anteil der anzumahnenden Rechnungen nur noch 5% betragen soll? (bei gleichem ) Beantworten Sie die Frage d) unter Zuhilfenahme des Statistik-Labors. Labordatei öffnen ( cb0.mpf ) Und hier ist ein Link zur Lösung von Teil e) ( : cb4.pdf ). Quantildiagramme Die Normalverteilung ist die wohl wichtigste Verteilung für die statistische Modellierung von Datensätzen. Erfahrungsgemäß gehorchen Messfehler häufig zumindest approximativ einer Normalverteilung. Dies wird dadurch erklärt, dass bei der Entstehung von Messfehlern eine Vielzahl von Ursachen zusammenwirken. Somit wird diese Verteilung bei vielen Fehlerbetrachtungen zu Grunde gelegt. Um die Eignung der Normalverteilung für die Beschreibung eines Datensatzes zu untersuchen, sind Quantildiagramme besonders günstig. Hier werden die empirischen Quantile in Abhängigkeit von den theoretischen aufgetragen. Dabei wählen wir für die empirischen Quantile die Anteile v/n, v=1,...,n. Damit sind die geordneten Beobachtungen gleich den zugehörigen Quantilen. Aufgrund des Zusammenhangs zwischen den Quantilen einer beliebigen Normalverteilung und denen der Standardnormalverteilung reicht es, für die theoretischen Quantile die Quantile der Standardnormalverteilung zu nehmen. Die Punkte sollten dann einfach um eine Gerade streuen und keine Systematik bei einer Abweichung aufweisen. Für die den empirischen Quantilen entsprechenden theoretischen Quantile nehmen wir aber nicht die v/n-quantile, sondern die (v-0.5)/n-quantile (Stetigkeitskorrektur). Beispiel: Körpertemperatur In einem Artikel in der Zeitschrift "Journal of the American Medical Association" mit dem Titel "A Critical Appraisal of 98.6 Degrees F, the Upper Limit of the Normal Body Temperature, and Other Legacies of Carl Reinhold August Wunderlich" von Mackowiak, Wasserman, and Levine (1992) geht es um die Frage, ob die mittlere Körpertemperatur tatsächlich 98.6 F, bzw. 37.0 C beträgt. Aus den dort veröffentlichten Abbildungen sind die Daten der Körpertemperatur von Männern rekonstruiert. Das zugehörige QQ-Diagramm zeigt, dass die Körpertemperatur als Page 7

normalverteilt angesehen werden kann. Quelle: Eigene Berechnungen Labordatei öffnen ( ccb.spf ) Mr. McConway ist Bibliothekar in einer umfangreichen Bibliothek. Er maß bei 100 zufällig ausgewählten Büchern die Dicke (in mm). (Aus: Hand, D.J., Daly, F., Lunn, A.D., McConway, K.J., and Ostrowski, E. (1994) A Handbook of small data sets, Chapman & Hall: London.) Ist die Dicke der Bücher in dieser Bibliothek normalverteilt? Überprüfen Sie dies mittels eines QQ-Diagramms. Wenn Sie zu der Einschätzung kommen sollten, dass eine Normalverteilung kein gutes Modell ist, so beschreiben Sie, worin der Unterschied liegt. Labordatei öffnen ( cd5.mpf ) Grenzwertsatz von de Moivre und Laplace Der eingangs formulierte Zusammenhang mit der Binomialverteilung gibt Näherungswerte für die Einzelwahrscheinlichkeiten der Binomialverteilung. Wollen wir Wahrscheinlichkeiten für vorgegebene Bereiche bestimmen, so sind wegen der Diskretheit die einzelnen Werte aufzusummieren. Bezeichnet die Normalverteilungsdichte mit den Parametern und, so gilt für eine -verteilte Zufallsvariable : Nun gibt es einen Trick, der das direkte Arbeiten mit der Normalverteilung, d.h. mit der Verteilungsfunktion erlaubt. Der Trick lässt sich am besten anhand des Stabdiagrammes der Binomialverteilung verdeutlichen. Werden die Stäbe zu Blöcken mit der Breite Eins "verbreitert", so ist der Flächeninhalt der Blöcke, Grundseite*Höhe, rechnerisch gerade gleich der Höhe. Also entspricht die Fläche zwischen zwei Punkten auf der x-achse der Summe der Stäbe, die zu dazwischen liegenden Realisationsmöglichkeiten gehören. Dementsprechend gilt der Grenzwertsatz von de Moivre und Laplace: Quelle: Barth & Haller (1983): Stochastik, Erehnwirth Verlag München. Betrachten Sie die Umsetzung des Tricks selbst mit Hilfe des Applet Normal-Approximation der Binomialverteilung (d04.jar). Die Approximation lässt sich verbessern, wenn berücksichtigt wird, dass die Fläche, die zu den beiden Begrenzungspunkten gehört, ganz zu berücksichtigen ist, wenn die Relation das Gleichheitszeichen mit einschließt. Beispielsweise ist, wenn wir wieder beachten, dass für die Parameter und gilt: Bei dem Integral wird die Fläche nur bis zur Obergrenze bestimmt; der letzte Summand wird also nicht in der Form berücksichtigt, sondern nur zur Hälfte. Eine Verbesserung erhalten wir daher mit der Stetigkeitskorrektur Die Verbesserung kann mit dem obenstehenden Applet studiert werden. Ist der Euro fair? - Fortsetzung Page 8

Wir wollen die eingangs gestellte Frage wieder aufnehmen, ob die von polnischen Mathematikern festgestellte Verfälschung der 1-Euro-Münze praktisch relevant ist. Dazu bestimmen wir mit Hilfe der Normalapproximation für verschiedene und die Länge der Intervalle so, dass die Wahrscheinlichkeiten gleich 0.99 sind: n \ p 0.4500 0.4750 0.4900 0.4950 100 0.1719 0.1773 0.1803 0.1812 500 0.0768 0.0792 0.0806 0.0810 1000 0.0543 0.0560 0.0570 0.0573 10000 0.0171 0.0177 0.0180 0.0181 100000 0.0054 0.0056 0.0057 0.0057 Wir sehen, dass sich die Verhältnisse präziser darstellen als bei der Tschebyschev-Ungleichung. Schon bei n=10000 ist die Chance 0.01, dass bei einem tatsächlichen Wert von p=0.49 eine Beobachtung außerhalb von geschieht. (Hier ist zu beachten, dass in der Tabelle die Längen der Intervalle angegeben sind!) Insgesamt wird deutlich, dass eine sehr große Anzahl von Würfen mit einer 1-Euro-Münze notwendig ist, um kleinere Abweichungen von der 50:50-Chance der Zahlseite zu erkennen. Auch wenn also keine Sicherheit erreicht werden kann, bleibt die Überzeugung, dass der Euro weiterhin gut als "Entscheidungshilfe" in Zweifelsfällen einsetzbar ist. Der zentrale Grenzwertsatz Der Grenzwertsatz von de Moivre und Laplace lässt sich zum zentralen Grenzwertsatz erweitern. Dieser ist eines der bemerkenswertesten Ergebnisse der Wahrscheinlichkeitsrechnung. In der hier angegebenen, einfachsten Form sagt er, dass die Summe einer großen Anzahl von unabhängigen identisch verteilten Zufallsvariablen approximativ normalverteilt ist. Zudem wird die Normalverteilungsapproximation immer besser, je größer die Anzahl der Summanden ist. Zentraler Grenzwertsatz Die Verteilung der Summe von n unabhängigen, identisch verteilten Zufallsvariablen mit Erwartungswert und Varianz ist für große approximativ gleich der Normalverteilung. Genauer gilt Page 9

Aufgrund des zentralen Grenzwertsatzes können die Wahrscheinlichkeiten unter Verwendung der Normalverteilung mit dem Erwartungswert und der Varianz bestimmt werden. Dies gilt unabhängig von der Ausgangsverteilung der. Die Qualität der Näherung hängt lediglich von der Anzahl der Summanden ab. Beispiel: Länge von Piniennadeln In der Tabelle ist die empirische Verteilung von 3000 Durchschnittswerten der Länge von Piniennadeln angegeben. Jeder Durchschnittswert beruht auf jeweils 250 Messungen. Dieser Datensatz gibt uns die Möglichkeit, zu überprüfen, ob der Stichprobenumfang von schon groß genug ist, um in diesem Fall die arithmetischen Mittel als normalverteilt ansehen zu können. Mit einer Summe von identisch verteilten Zufallsvariablen ist auch der Durchschnitt approximativ normalverteilt. Der Übergang von der Summe zum Durchschnitt ist ja eine Lineartransformation, 3.08 3.09 0.033 3.09 3.10 0.033 3.10 3.11 0.200 3.11 3.12 0.733 3.12 3.13 1.467 3.13 3.14 2.900 3.14 3.15 5.000 3.15 3.16 7.533 3.16 3.17 10.767 3.17 3.18 13.400 3.18 3.19 12.933 3.19 3.20 12.900 3.20 3.21 13.000 3.21 3.22 7.967 3.22 3.23 5.433 3.23 3.24 3.267 3.24 3.25 1.267 3.25 3.26 0.867 3.26 3.27 0.233 3.27 3.28 0.067 Page 10

(Aus: Griffin, Smith und Watts (1982) Deriving the Normal and Exponential Densities Using EDA Techniques, The American Statistician, 36, 373-377.) Das arithmetische Mittel der durchschnittlichen Längen beträgt 3.186, die Standardabweichung ist 0.02823. Die Abbildung des Histogramms mit der überlagerten Dichte der -Verteilung zeigt eine gute Übereinstimmung. Quelle: Eigene Berechnungen Die logarithmische Normalverteilung In vielen Anwendungen kann die interessierende Variable nur Werte annehmen, die größer oder gleich null sind. Es resultiert dann oft eine rechtsschiefe Verteilung. Über eine logarithmische Transformation können sehr extreme Werte aber an die übrigen Daten herangezogen werden. Sehr kleine Werte werden dagegen durch diese Transformation auseinander gezogen. Hat eine Zufallsvariable eine Verteilung, so dass normalverteilt ist mit den Parametern und, so heißt logarithmisch normalverteilt mit den Parametern und. Zur Berechnung der Wahrscheinlichkeiten können wir die Beziehung zur Normalverteilung ausnutzen. Speziell gilt für die Verteilungsfunktion an der Stelle : Daraus ergibt sich auch die Dichtefunktion der logarithmischen Normalverteilung:. Es sind. Beispiel: Gesamtbezüge von Geschäftsführern In der Frankfurter Allgemeinen Zeitung vom 30.März 2002 sind in einer Tabelle die Gesamtbezüge von Geschäftsführern (Gehaltsklassen in tausend Euro) angegeben. (Dabei ist zu beachten, dass das Histogramm nicht korrekt ist. Die scheinbare Erhöhung der Häufigkeit in der Klasse von 200 bis 250 resultiert daraus, dass die Klassenbreite hier doppelt so groß ist wie bei den niedrigeren Beträgen!) Aus den Prozentangaben kann aber ein QQ-Diagramm erstellt werden. Dazu werden die Klassenobergrenzen als empirische Quantile gewählt. Die theoretischen ergeben sich dann direkt aus, wobei der kumulierte Anteil bis zu dieser Klasse ist. Quelle: Eigene Berechnungen Für das QQ-Diagramm wurden die Gehaltsangaben logarithmiert. Die logarithmierten Werte streuen zufrieden stellend um eine Gerade. Die Verteilung der logarithmierten Gesamtbezüge lässt sich offensichtlich gut durch eine Normalverteilung modellieren. Die Gesamtbezüge können als logarithmisch normalverteilt angesehen werden. Die bivariate Normalverteilung Eine der wichtigen Eigenschaften, die Galton, ein Enkel Darwins, bei seinen historisch bedeutsamen Untersuchungen über den Zusammenhang der Größe von Vätern (=) und Söhnen (=) entdeckte, war, dass die zugehörigen Streudiagramme eine ellipsenförmige Page 11

Gestalt aufwiesen. Zudem konnten die Größen der Väter und die der Söhne als normalverteilt angesehen werden. Die bivariate Normalverteilung formalisiert diese Erkenntnisse: Die Randverteilungen sind Normalverteilungen und die gemeinsame Struktur ist durch eine Ellipsenform gegeben. Die Ausrichtung der Ellipse wird durch einen Parameter gesteuert. Die Dichte der bivariaten Normalverteilung lautet ausformuliert Die Parameter sind die Erwartungswerte von und und die die Varianzen. ist der Korrelationskoeffizient; damit ist. Die Abbildung zeigt die bei (0,0) zentrierte bivariate Dichte. Quelle: Eigene Berechnungen Die Darstellung der bivariaten Dichte als so genannten Contour-Plot gibt Kurven konstanter Dichte für verschiedene Werte von an. Hier zeigt sich die Ellipsengestalt ganz deutlich. Quelle: Eigene Berechnungen Approximation von Verteilungen ErklärungGrenzwertsatz von de Moivre und Laplace Erklärunglogarithmische Normalverteilung ErklärungNormalverteilung ErklärungNormalverteilung, bivariate ErklärungStandardnormalverteilung ErklärungZentraler Grenzwertsatz Erklärung (c) Projekt Neue Statistik 2003, Freie Universität Berlin, Center für Digitale Systeme Kontakt: http://www.neuestatistik.de Page 12