Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign

Ähnliche Dokumente
5. Spezielle stetige Verteilungen

Zufallsvariable: Verteilungen & Kennzahlen

1. Grundbegri e. T n i=1 A i = A 1 \ A 2 \ : : : \ A n alle A i treten ein. na = A das zu A komplementäre Ereignis; tritt ein, wenn A nicht eintritt.

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

Zufallsvariablen [random variable]

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Kapitel VI - Lage- und Streuungsparameter

Wahrscheinlichkeit und Statistik: Zusammenfassung

Marcel Dettling. Grundlagen der Mathematik II Lineare Algebra und Statistik FS 2018 Woche 08 & 09. ETH Zürich, 18. April 2018

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

1. Grundbegri e der Stochastik

SozialwissenschaftlerInnen II

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Woche 2: Zufallsvariablen

Zufallsgröße. Würfelwurf mit fairem Würfel. Wahrscheinlichkeitsverteilung einer diskreten

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Programm. Wiederholung. Gleichverteilung Diskrete Gleichverteilung Stetige Gleichverteilung. Binomialverteilung. Hypergeometrische Verteilung

Zusammenfassung PVK Statistik

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Diskrete Zufallsvariablen (Forts.) I

Wirtschaftsmathematik

7.2 Moment und Varianz

Psychologische Methodenlehre und Statistik I

Wahrscheinlichkeitsverteilungen

Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn Referenten: Belinda Höher, Thomas Holub, Maria Böhm.

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc.

Kenngrößen von Zufallsvariablen

1. Grundbegri e der Stochastik

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s

Referenten: Gina Spieler, Beatrice Bressau, Laura Uhlmann Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn

Eindimensionale Zufallsvariablen

1.5 Erwartungswert und Varianz

Einführung in Quantitative Methoden

Standardnormalverteilung

6.6 Poisson-Verteilung

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

STETIGE VERTEILUNGEN

Statistische Methoden in den Umweltwissenschaften

1. Was ist eine Wahrscheinlichkeit P(A)?

Fit for Abi & Study Stochastik

15.5 Stetige Zufallsvariablen

Wichtige Definitionen und Aussagen

Stochastik für die Naturwissenschaften

Stetige Verteilungen Rechteckverteilung

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Stochastik für die Naturwissenschaften

Willkommen zur Vorlesung Statistik (Master)

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

1.5 Erwartungswert und Varianz

Spezielle Verteilungen

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Reelle Zufallsvariablen

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

5 Binomial- und Poissonverteilung

Biostatistik, Winter 2011/12

Übung Zeigen Sie, dass dies als Grenzwert der Wahrscheinlichkeitsfunktion der Binomialverteilung mit

4. Verteilungen von Funktionen von Zufallsvariablen

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Statistik für Informatiker, SS Verteilungen mit Dichte

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Kapitel 9. Verteilungsmodelle. 9.1 Diskrete Verteilungsmodelle Die Gleichverteilung

Exponentialverteilung

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Mathematik für Biologen

Erwartungswert, Umgebungswahrscheinlichkeiten und die Normalverteilung

Wahrscheinlichkeitsrechnung und Quantentheorie

P (X = 2) = 1/36, P (X = 3) = 2/36,...

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Mathematik für Naturwissenschaften, Teil 2

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen

4. Gemeinsame Verteilung und Grenzwertsätze

4. Gemeinsame Verteilung und Grenzwertsätze

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

2 Zufallsvariable und Verteilungsfunktionen

Stochastik. 1. Wahrscheinlichkeitsräume

Wird ein Bernoulli- Versuch, bei dem die Trefferwahrscheinlichkeit p = 0,2 ist, n = 40 mal durchgeführt, dann erwarten wir im Mittel 8 Treffer.

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Mathematische und statistische Methoden II

Statistische Inferenz

Forschungsstatistik I

Statistik und Wahrscheinlichkeitsrechnung

Modelle diskreter Zufallsvariablen

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

5 Erwartungswerte, Varianzen und Kovarianzen

Kapitel 6. Verteilungsparameter. 6.1 Der Erwartungswert Diskrete Zufallsvariablen

Wahrscheinlichkeitsrechnung und Statistik für Studierende der Informatik. PD Dr. U. Ludwig. Vorlesung 7 1 / 19

Das Histogramm ist glockenförmig. Es würde bei mehr als vier Fehlerquellen sich der Glockenform noch besser annähern.

Chi-Quadrat-Verteilung

Sabrina Kallus, Eva Lotte Reinartz, André Salé

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Transkript:

Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 10. Mai 017 1

Zufallsvariablen: Diskret oder Stetig? Eine diskrete Zufallsvariable X liegt dann vor, wenn sie endlich oder unendlich abzählbar viele Werte annimmt. Beispiele: - überall, wo gezählt wird - Fahrzeuge, Krankheitsfälle, Ausschuss,... Eine stetige Zufallsvariable X liegt dann vor, wenn sie jeden beliebigen Wert eines Intervalls annehmen kann. Beispiele: - überall, wo gemessen wird - Wartezeit, Hämatokrit, Regenmenge,...

Wahrscheinlichkeitsverteilungen Eine Wahrscheinlichkeitsverteilung gibt an, welche Werte eine Zufallsvariable mit welcher Wahrscheinlichkeit annimmt. Je nach Ausprägung der Zufallsvariablen (diskret/stetig) gibt es die entsprechenden Wahrscheinlichkeitsverteilungen Diskrete Wahrscheinlichkeitsverteilungen Stetige Wahrscheinlichkeitsverteilungen Die diskrete Wahrscheinlichkeitsfunktion ist bekanntlich das Stabdiagramm. Es stellt sich nun die Frage, wie sich das Konzept auf stetige Zufallsvariablen verallgemeinern lässt. 3

Wartezeiten am Flughafen An einem Schalter (z.b. am Flughafen) können pro Minute 6 Personen abgefertigt werden. Es treffen im langfristigen Schnitt nur 4 Personen pro Minute ein. Bisher: Neu: X = Anzahl eintreffender Personen ~ Poi( ) Y = Zeitdauer bis nächster Kunde kommt ~??? Während z.b. die Anzahl der eintreffenden Personen nur ganzzahlige Werte annehmen kann, ist dies für die Wartezeit nicht der Fall. Diese ist von kontinuierlichem Charakter. Y ist eine stetige Zufallsvariable mit stetiger Verteilung 4

Wie könnte diese Verteilung aussehen? Wir betrachten zu einem beliebigen Zeitpunkt die nächste Sekunde. Die Anzahl Kunden X, welche in der nächsten Sekunde am Schalter eintrifft, hat eine Poisson-Verteilung: X ~ Pois( 4 / 60) Wir bestimmen die W keit, dass in der nächsten Sekunde kein Kunde eintrifft, die Wartezeit also länger als 1s dauert: PX ( 0) exp( 4 / 60) 0.936 y Die W keit, dass nach Sekunden noch kein Kunde da ist: k PY ( y) P( X 0) 0.936 k 5

Wie könnte diese Verteilung aussehen? Approx. Verteilung der Wartezeit ww 0.0 0. 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 Wartezeit in Minuten 6

Wie könnte diese Verteilung aussehen? Approx. Verteilung der Wartezeit W'keit 0.0 0. 0.4 0.6 0.8 1.0 0.0 0.5 1.0 1.5 Wartezeit 7

Dichtefunktion Im Grenzübergang erhalten wir eine Dichtefunktion. Für die Wartezeiten zwischen dem unabhängigen Eintreffen von Personen ist die Exponentialverteilung ein geeignetes Modell. Deren Dichtefunktion ist wie folgt definiert: x f( x) e für x 0 f( x) 0 für x 0 Die Exponentialverteilung bezeichnet man als "gedächtnislos". Das Eintreffen des letzten Kunden hat keinen Einfluss auf das Eintreffen des nächsten und alle folgenden Kunden. 8

Bedeutung der Dichtefunktion X ~exp( ) mit 4 Pa ( X b) f( xdx ) [0,1] b a a b 9

Bedeutung der Dichtefunktion Gesucht: W'keit, dass die Wartezeit zwischen 15s und 4s beträgt. 0.4 P(0.5 X 0.4) f ( xdx ) 0.5 0.5 0.4 10

Kumulative Verteilungsfunktion Die kumulative Verteilungsfunktion ist definiert durch: x F( x) P( X x) f( z) dz Es ist die Wahrscheinlichkeit, dass die Zufallsvariable einen Wert kleiner als x annimmt. Sie ist bestimmt durch das Integral über die Dichtefunktion vom linken Rand bis zum Wert. Konkrete Durchführung für die Exponentialverteilung: siehe Wandtafel... F() X x 11

Allgemeine Definition der Dichtefunktion Die Dichte ist eine stückweise stetige Funktion mit f( x) 0 und f () f( x) dx 1 Oder in Worten: die Dichtefunktion nimmt keine negativen Werte an, und das Integral über den ganzen Bereich der reellen Zahlen ist gleich 1. 1

Rechnen mit stetigen Verteilungen In einem Betrieb verdienen Aushilfskräfte zwischen 000 und 4000 CHF brutto. Es sei X der Lohn, für welchen folgende Dichtefunktion gilt: f( x) cx falls x 4 0 sonst a) Gibt es mehr Leute, die zwischen 3000 und 4000 als unter 3000 verdienen? b) Wie ist die Konstante c? c) Wie gross ist die W keit für einen Lohn zwischen 500 und 3000? 13

Welche Verteilung haben Messdaten? percent 0 5 10 15 Histogramm der Körpergrösse von 350 zufällig ausgewählten Frauen 145 150 155 160 165 170 175 bodysize$bodysize 14

Normalverteilung Die Normalverteilung kommt dann zum Einsatz, wenn stetige Variablen einer symmetrischen, unimodalen Verteilung folgen. Dies ist typischerweise der Fall, wenn sich das Resultat eines Zufallsexperiments aus der additiven Überlagerung von vielen kleinen Einflüssen ergibt. Die Dichtefunktion der Normalverteilung lautet: 1 1 ( x ) f( x): exp Die Parameter der Verteilung sind und. Sie beschreiben Lage und Streuung. Wir schreiben kurz X ~ N(, ). 15

Dichte und Verteilungsfunktion Wir betrachten die Zufallsvariable X ~ N(0,1) Normal Distribution: = 0, = 1 Normal Distribution: = 0, = 1 Density 0.0 0.1 0. 0.3 0.4 Cumulative Probability 0.0 0. 0.4 0.6 0.8 1.0-3 - -1 0 1 3 x -3 - -1 0 1 3 x 16

Eigenschaften der Normalverteilung Die Normalverteilung mit 0 und 1 nennt man Standard-Normalverteilung. Wir schreiben X ~ N(0,1). Das Integral über die Dichtefunktion existiert, aber es kann nicht in geschlossener Form angegeben werden. Es gibt also keine "Formel" für die Verteilungsfunktion. Für die Berechnung von Wahrscheinlichkeiten muss man deshalb auf Tabellen oder Computerprogramme zurückgreifen. Es gibt unendlich viele Normalverteilungen, je nach Wahl der beiden Parameter. Die Glockenform haben alle gemeinsam. Parameter: verschiebt die Glocke, streckt/staucht sie. 17

Schwankungsbereich der Normalverteilung Diese Grafik liefert uns eine nützliche Faustregel: das Intervall [, ] enthält rund 95% der Wahrscheinlichkeit, d.h. P( X ) 95% 18

Quantile und Anwendungsbeispiel Der IQ über alle Personen hat die Verteilung N(100, 5) 19

Beispiel: Hämatokrit Anteil der Erythrozyten am Volumen des Bluts. Diese stellen rund 99% des Gesamtvolumen der Blutzellen dar. Normale Werte beim Menschen liegen zwischen 4% und 50%. Dichtefunktion Normalverteilung Kumulative Verteilungsfunktion f(x) 0.00 0.05 0.10 0.15 0.0 F(x) 0.0 0. 0.4 0.6 0.8 1.0 X N ~ ( 46, ) PX ( 51.5) 0.3% 40 45 50 40 45 50 Hämatokrit Hämatokrit 0

Schätzung der Parameter I.A. sind die Parameter einer Normalverteilung noch nicht bekannt und müssen aufgrund von Daten geschätzt werden. Wir verwenden dazu den Stichproben-Mittelwert für und die Stichproben-Standardabweichung für. ˆ x n i 1 x i 1 ˆ ( ) n xi x n 1 i 1 1

Lognormal-Verteilung Z "Regenmenge an einem Tag mit Niederschlag" Niederschlagsmenge pro Tag Menge 0 10 0 30 40 50 0 100 00 300 Tag

Lognormal-Verteilung Die Lognormal-Verteilung kommt für stetige Variablen zum Einsatz, welche nur positive Werte annehmen können und die eine rechtsschiefe Verteilung aufweisen. Charakteristisch ist es, dass für solche Grössen Unterschiede besser durch Verhältnisse als durch Differenzen ausgedrückt werden, bzw. sich das Resultat aus einer multiplikativen Überlagen von vielen kleinen Einflüssen ergibt. Zur Definition/Rechnung benützen wir folgende Eigenschaft: Es gilt Z ~log (, ) falls N log( Z) ~ (, ) N Wir schreiben in diesen Fällen kurz: Z ~log (, ). N 3

Dichtefunktionen im Beispiel Dichte Lognormal-Verteilung Dichte Normalverteilung f(z) 0.00 0.05 0.10 0.15 0.0 0.5 0.30 f(z') 0.00 0.05 0.10 0.15 0.0 0.5 0 10 0 30 40 50 Menge -4-0 4 6 log(menge) 4

Dichtefunktionen im Beispiel VF Lognormal-Verteilung VF Normalverteilung F(z) 0.0 0. 0.4 0.6 0.8 1.0 F(z') 0.0 0. 0.4 0.6 0.8 1.0 0 10 0 30 40 50 Menge -4-0 4 6 log(menge) 5

Anpassen und Rechnen Die Parameter, einer Lognormal-Verteilung werden durch Bilden von Mittelwert und Stichproben-Varianz auf den mit dem Logarithmus transformierten Daten bestimmt: mw <- mean(log(menge)) sv <- var(log(menge)) In R benützt man dlnorm(), plnorm(), qlnorm(): > plnorm(10, mw, sqrt(sv)) [1] 0.789 > pnorm(log(10), mw, sqrt(sv)) [1] 0.789 6

Erwartungswert Der Erwartungswert einer Zufallsvariablen ist das, was man im Schnitt, bei unendlich vielen Realisierungen, erhält. Er ist ein Lagemass für eine Zufallsvariable. Bildlich handelt es sich um die Position der Verteilung auf der x-achse Man kann den Erwartungswert geometrisch bestimmen: Es ist der Schwerpunkt (in x-richtung) der Wahrscheinlichkeits- bzw. Dichtefunktion Natürlich kann man den Erwartungswert einer Verteilung auch mittels Formeln rechnerisch bestimmen 7

Schwerpunkt/EW der Binomialverteilung Binomialverteilung P(X=k) 0.00 0.05 0.10 0.15 0.0 0 4 6 8 10 1 k 8

Schwerpunkt/EW der Exponentialverteilung Exponentialverteilung f(x) 0 1 3 4 0.0 0.5 1.0 1.5.0 x 9

Berechnung des Erwartungswerts 1) Für diskrete Zufallsvariablen X Es sei X eine diskrete Zufallsvariable mit W keitsfunktion p(). Der Erwartungswert EX [ ] ist definiert als: EX ( ) x PX ( i) x px ( ) x p i i i i i i i i EX ( ) falls diese Summe existiert. Wir schreiben oft auch. ) Für stetige Zufallsvariablen Z Sei Z eine stetige Zufallsvariable mit Dichtefunktion ist, falls das Integral existiert: EZ ( ) z f( z) dz f (). Dann 30

Varianz und Standardabweichung Sei X eine Zufallsvariable mit Erwartungswert EX [ ]. Dann ist die Varianz von X gegeben durch: Var( X ) E ( X E( X )) falls dieser Erwartungswert existiert. Die Standardabweichung ist die Wurzel aus der Varianz. Wir schreiben auch, bzw. für die Varianz, bzw. die Standardabweichung. Die Varianz ist ein Streuungsmass der Zufallsvariablen. Sie bestimmt grob gesagt die Breite der Verteilung, bzw. wird durch die Breite der Verteilung bestimmt. 31

Berechnung der Varianz 1) Für diskrete Zufallsvariablen X Es sei X eine diskrete Zufallsvariable mit W keitsfunktion p() und Erwartungswert EX [ ]. Die Varianz berechnet sich als: Var X x p x ( ) ( i ) ( i) i falls diese Summe existiert. ) Für stetige Zufallsvariablen Z Sei Z eine stetige Zufallsvariable mit Dichtefunktion f () und Erwartungswert EZ [ ]. Dann ist, falls das Integral existiert: Var( Z) ( z ) f ( z) dz 3

Erwartungswerte bestimmter Verteilungen Für alle parametrischen Verteilungsfamilien sind Erwartungswert und Varianz bereits als Funktion der Parameter bekannt: Verteilung E[X] bzw. E[Z] Var(X) bzw. Var(Z) Bernoulli X ~ Bernoulli( p ) p p(1 p) Binomial X ~ Bin( n, p ) np np(1 p) Poisson X ~ Pois( ) Exponential Z ~ Exp( ) 1/ Uniform Z ~ Unif ( uo, ) ( u o)/ Normal Lognormal Z ~ N(, ) Z ~log N(, ) 1/ ( o u) /1 ( 0.5 ) e e ( e 1) 33

Rechenregeln für Erwartungswert/Varianz Es ist nicht selten der Fall, dass wir an der Summe S von zwei beliebigen Zufallsvariablen X und Y interessiert sind. Selbst wenn wir die Verteilung von X, Y kennen, so ist es nur in wenigen Ausnahmefällen (z.b. Poissonverteilung, Normalverteilung) möglich, die Verteilung von S anzugeben. Einfacher ist die Sache für die Kenngrössen Erwartungswert und Varianz. Diese lassen sich für lineare Transformationen und für Summen einfach angeben. siehe nächste Folie 34

Rechenregeln für Erwartungswert/Varianz Es seien ab, skalare Grössen und S X Y Zufallsvariablen. Dann gelten die folgenden Rechenregeln immer: 1) Für den Erwartungswert E[ ax b] ae[ X ] b E[ S] E[ X] E[ Y] ) Für die Varianz Var( ax b) a Var( X ) Var( S) Var( X ) Var( Y ) Cov( X, Y ) Der Term Cov( X, Y) beschreibt den linearen Zusammenhang der beiden Zufallsvariablen. Er ist nur in Ausnahmefällen gleich null, z.b. wenn XY, unabhängig sind. 35

Beispielaufgabe Beispiel: Jasskarten wir studieren die Zufallsvariable X " Punktewert einer zufällig herausgegriffenen Jasskarte" Wir studieren Bedeutung, Form und Wert: der Wahrscheinlichkeitsverteilung des Erwartungswerts EX [ ] der Varianz Var( X ) der Summe S X X Siehe Wandtafel 36