Eine Einführung in R: Dichten und Verteilungsfunktionen

Ähnliche Dokumente
Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

SozialwissenschaftlerInnen II

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Willkommen zur Vorlesung Statistik (Master)

Statistische Methoden in den Umweltwissenschaften

Fit for Abi & Study Stochastik

Willkommen zur Vorlesung Statistik (Master)

Wahrscheinlichkeitstheorie und Statistik

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik

Vorlesung: Statistik II für Wirtschaftswissenschaft

Übersicht Statistik-Funktionen. Statistische Software (R) Nützliche Funktionen. Nützliche Funktionen

Zufallsvariablen [random variable]

Programm. Wiederholung. Gleichverteilung Diskrete Gleichverteilung Stetige Gleichverteilung. Binomialverteilung. Hypergeometrische Verteilung

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Wirtschaftsmathematik

Wahrscheinlichkeitsverteilungen

Wahrscheinlichkeitsrechnung und Statistik für Studierende der Informatik. PD Dr. U. Ludwig. Vorlesung 7 1 / 19

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Referenten: Gina Spieler, Beatrice Bressau, Laura Uhlmann Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

5. Spezielle stetige Verteilungen

Psychologische Methodenlehre und Statistik I

Wahrscheinlichkeitstheorie Kapitel V - Stetige Verteilungen

Einführung in Quantitative Methoden

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc.

Wahrscheinlichkeitsrechnung. Sommersemester Kurzskript

Willkommen zur Vorlesung Statistik (Master)

Spezielle stetige Verteilungen

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Die Monte Carlo (MC) Methode

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Finanzierung und Investition

Beziehungen zwischen Verteilungen

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Definition 4.1 Die Wahrscheinlichkeitsfunktion der Bernoulli-Verteilung ist gegeben durch

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign

Statistische Software (R)

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Eine Einführung in R: Statistische Tests

Statistische Software (R)

Stochastik. 1. Wahrscheinlichkeitsräume

Wahrscheinlichkeitsrechnung und schließende Statistik

Statistik für Ingenieure Vorlesung 3

Wahrscheinlichkeitsrechnung und schließende Statistik

Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn Referenten: Belinda Höher, Thomas Holub, Maria Böhm.

Forschungsstatistik I

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

70 Wichtige kontinuierliche Verteilungen

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Standardnormalverteilung

Kennwerteverteilungen von Häufigkeiten und Anteilen

Marcus Hudec. Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Statistik 2 für SoziologInnen 1 Normalverteilung

Chi-Quadrat-Verteilung

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Eindimensionale Zufallsvariablen

Eine Einführung in R: Statistische Tests

Häufigkeitsverteilungen

Wichtige Definitionen und Aussagen

Wahrscheinlichkeit und Statistik: Zusammenfassung

Statistik für Ökonomen

Eine Zufallsvariable X sei stetig gleichverteilt im Intervall [0,5]. Die Wahrscheinlichkeit P(2< x <4) ist dann

Statistik 2 für SoziologInnen. Normalverteilung. Univ.Prof. Dr. Marcus Hudec. Themen dieses Kapitels sind:

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

1. Grundbegri e der Stochastik

I. Deskriptive Statistik 1

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Biostatistik, Winter 2011/12

Kapitel 9. Verteilungsmodelle. 9.1 Diskrete Verteilungsmodelle Die Gleichverteilung

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Inhaltsverzeichnis. Robert Galata, Sandro Scheid. Deskriptive und Induktive Statistik für Studierende der BWL. Methoden - Beispiele - Anwendungen

Diskrete Zufallsvariablen (Forts.) I

Modelle diskreter Zufallsvariablen

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Die mit * gekennzeichneten Abschnitte beinhalten Themen, die über die Anforderungen des Gegenstandskatalogs hinausgehen.

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean()

I. Zahlen, Rechenregeln & Kombinatorik

Biostatistik, Sommer 2017

Kapitel VI - Lage- und Streuungsparameter

Die Familie der χ 2 (n)-verteilungen

Formelsammlung: Statistik und Wahrscheinlichkeitstheorie

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

1. Was ist eine Wahrscheinlichkeit P(A)?

Universität Basel Wirtschaftswissenschaftliches Zentrum. Zufallsvariablen. Dr. Thomas Zehrt

Zusammenfassung PVK Statistik

Abbildung 1: Dieses Quiz soll Ihnen helfen, die Residuenplots besser zu verstehen. Am Schluss kommen noch vermischte Aufgaben zur Wiederholung.

Arbeitsbuch zur deskriptiven und induktiven Statistik

Statistik Klausur Wintersemester 2013/2014 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

von x-würfeln bei wachsendem n? Zur Beantwortung führen wir ein Simulationsexperiment durch.

Institut für Statistik der LMU. FORMELSAMMLUNG 2003 zur STOCHASTIK FÜR BIOINFORMATIKER

Stochastik für die Naturwissenschaften

Transkript:

Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/ zuber/teaching/ws11/r-kurs/ 3. November 2011 Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 1

1 Diskrete Daten Theorie: Wahrscheinlichkeits- und Verteilungsfunktion Diskrete Verteilungen 2 Stetige Daten Theorie: Dichte und Verteilungsfunktion Stetige Verteilungen 3 Der Umgang mit Zufallszahlen Erzeugen von Zufallszahlen Darstellung von Verteilungen Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 2

Einschub: Zufallsvariablen Eine Variable oder Merkmal X, dessen Werte die Ergebnisse eines Zufallsvorganges sind, heiÿt Zufallsvariable. Notation: X : Die Zufallsvariable x: Eine Realisierung oder Beobachtung der Zufallsvariable Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 3

I. Diskrete Daten Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 4

Eine Zufallsvariable heiÿt diskret, wenn sie endlich viele Werte x 1,..., x k annehmen kann. Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariable X ist für x R deniert durch die Wahrscheinlichkeiten p i : { P(X = x f (x) = i ) = p i falls x = x i {x 1,..., x k } 0 sonst Die Verteilungsfunktion F (x) einer diskreten Zufallsvariable ist gegeben durch die Summe: F (y) = P(X y) = f (x i ) i:x i y Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 5

Eigenschaften Für die Wahrscheinlichkeitsfunktion f (x) gilt: 0 f (x) 1 p i = 1 i 1 Für die Verteilungsfunktion F (x) gilt: { 1 x max(x) F (x) = 0 x min(x) F(x) ist monoton steigend mit Wertebereich 0 bis 1. Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 6

Bernoulli-Experiment Binäre Zufallsvariable X : Tritt ein Ereignis A ein? { 1 falls A eintritt X = 0 falls A nicht eintritt Das Ereignis A tritt mit einer bestimmten Wahrscheinlichkeit 0 < π < 1 ein P(X = 1) = π P(X = 0) = 1 π Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 7

Binomialverteilung Die Binomialverteilung entspricht dem n-maligen Durchführen eines Bernoulli-Experimentes mit Wahrscheinlichkeit π ( ) n π f (x) = x (1 π) n x falls x = 0, 1,..., n x 0 sonst Beispiel Ein Schütze schieÿt n = 10 mal auf eine Torwand. Wie groÿ ist die Wahrscheinlichkeit, dass er genau fünfmal trit, wenn er eine Treerwahrscheinlichkeit π von 25 % hat? ( ) 10 P(X = 5) = 0.25 5 (1 0.25) 10 5 = 0.058 5 Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 8

Diskrete Gleichverteilung Die diskrete Gleichverteilung charakterisiert die Situation, dass x 1,..., x k -verschiedene Werte mit gleicher Wahrscheinlichkeit angenommen werden. { 1 falls x k f (x) = i mit i = 1,..., k 0 sonst Beispiel Würfeln, jede Zahl hat die gleiche Wahrscheinlichkeit 1 6 Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 9

II. Stetige Daten Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 10

Eine Zufallsvariable heiÿt stetig, wenn sie unendlich viele Werte x 1,..., x k,... annehmen kann, wie beispielsweise metrische Variablen. Die Dichte f (x) einer stetigen Zufallsvariable X ist für ein Intervall [a, b] deniert als: P(a X b) = b a f (x) x Die Verteilungsfunktion F (y) einer stetigen Zufallsvariable ist gegeben durch das Integral: F (y) = P(X y) = y f (x) x Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 11

Eigenschaften Für die Dichte f (x) gilt: + P(X = a) = f (x) x = 1 a a f (x) x = 0 Für die Verteilungsfunktion F (x) gilt: { 1 für x max(x) F (x) = 0 für x min(x) F (x) = F (X ) x = f (x) Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 12

Normalverteilung N(µ, σ) Eine der wichtigsten Verteilungen ist die Normal- oder Gauÿ-Verteilung mit Erwartungswert µ und Varianz σ 2 : ( 1 f (x µ, σ) = 2π exp 1 ( ) ) x µ 2 σ 2 σ Symmetrisch um µ Nur abhängig von µ und σ Beispiele: Klausurnoten, das (logarithmierte) Einkommen, Messfehler, Gröÿe und Gewicht Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 13

Stetige Gleichverteilung U(a, b) Gegeben: ein Intervall, deniert durch reelle Zahlen a und b mit a < b: { 1 für x [a, b] b a f (x) = 0 sonst Die stetige Gleichverteilung spielt eine wichtige Rolle bei statistischen Tests. Hat man x 1,..., x n Realisierungen einer Variablen X mit Verteilungsfunktion F, so gilt: F (x 1 ),..., F (x n ) U(0, 1) Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 14

III. Umgang mit Zufallszahlen Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 15

R ermöglicht den Umgang mit Zufallszahlen. Beispiel: (Standard)Normalverteilung 1 Ziehen von n Zufallszahlen: rnorm(n, mean=0, sd=1) 2 Dichte im Wert x: dnorm(x, mean=0, sd=1) Beispiel: dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 3 Verteilungsfunktion im Wert x: pnorm(x, mean=0, sd=1) Beispiel: pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 4 Quantil für Wahrscheinlichkeit p: qnorm(p, mean=0, sd=1) Beispiel: qnorm(c(0.25,0.5,0.75)) -0.67449 0.00000 0.67449 Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 16

Beispiel: (Standard)Normalverteilung 1 Dichte im Wert x: dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 2 Verteilungsfunktion im Wert x: pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 Dichte Verteilungsfunktion fx 0.0 0.1 0.2 0.3 0.4 Fx 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 x 4 2 0 2 4 x Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 17

R-Befehle für weitere Verteilungen rnorm(n, mean=0, sd=1) Normalverteilung mit Mittelwert mean und Standardabweichung sd rexp(n, rate=1) Exponentialverteilung mit Rate rate rpois(n, lambda) Poissonverteilung mit Rate lambda rcauchy(n, location=0, scale=1) Cauchyverteilung mit Lokations- und Skalenparameter rt(n, df)(studen)t-verteilung mit Freiheitsgraden df rbinom(n, size, prob) Binomialverteilung vom Umfang size und Wahrscheinlichkeit prob rgeom(n, prob) Geometrische Verteilung mit Wahrscheinlichkeit prob rhyper(nn, m, n, k) Hypergeometrische Verteilung runif(n, min=0, max=1) Stetige Gleichverteilung im Intervall [min, max] Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 18

Darstellung: Histogramme und Kerndichteschätzer 1 Histogramme: Darstellung von stetigen und diskreten Verteilungen hist(x, breaks = AnzahlBins, freq = NULL ) x: Daten breaks = AnzahlBins: Steuerung der Teilintervalle freq=true: absolute Häugkeiten freq=false: relative Häugkeiten (empirische Dichte) 2 Kerndichteschätzer: Darstellung von stetigen Verteilungen plot(density(x, kernel=gaussian, bw)) density(x): Kerndichteschätzung der Daten kernel: Option für spezielle Kerntypen bw: Bandbreite Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 19

Darstellung: Kerndichteschätzer Kerndichteschätzer sind aus dem Histogramm abgeleitete Verfahren zur Schätzung von stetigen Dichten Hat man gegebene Daten x 1,..., x n und eine konstante Bandbreite h R so ist der Kerndichteschätzer gegeben durch: ˆf (x) = 1 n ( ) 1 x xi n h K h i=1 Typische Kerne sind: Bisquare Kern: K(u) = 15 16 (1 u2 ) 2 für u [ 1, 1] und 0 sonst ) ( 12 u2 Gauÿ Kern: K(u) = 1 2π exp für u R Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 20

Beispiel: Simulation aus der Normalverteilung data10<-rnorm(10) hist(data10, freq=false) lines(density(data10), col=2) data1000<-rnorm(1000) hist(data1000, freq=false) lines(density(data1000), col=2) Histogram of data10 Histogram of data1000 Density 0.0 0.1 0.2 0.3 0.4 Density 0.0 0.1 0.2 0.3 0.4 2 1 0 1 2 3 data10 3 2 1 0 1 2 3 data1000 Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 21

Beispiel: Wie plottet man die Normalverteilung? x<-seq(from=-4, to=4, by=0.1) Dichte fx<-dnorm(x) plot(x,fx, type=l) Verteilungsfunktion Fx<-pnorm(x) plot(x,fx, type=l) Dichte Verteilungsfunktion fx 0.0 0.1 0.2 0.3 0.4 Fx 0.0 0.2 0.4 0.6 0.8 1.0 4 2 0 2 4 x 4 2 0 2 4 x Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 22

Darstellung: Q-Q-Plot Quantil-Quantil-Plots tragen die Quantile (empirisch oder theoretisch) zweier Verteilungen gegeneinander ab. Somit können Verteilungen miteinander verglichen werden. qqplot(x,y): Plottet die emp. Quantile von x gegen die emp. Quantile von y qqnorm(y): Plottet die emp. Quantile von y gegen die theoretischen Quantile einer Standard-Normalverteilung qqline(y): Fügt dem Quantilplot eine Gerade hinzu die durch das erste und dritte Quartil geht Bsp: Vergleich von Normal- und t-verteilung data <- rt(400, df = 2) qqnorm(data, main = QQ-Plot, xlab= Normalverteilung, ylab = t-verteilung) qqline(data, col = green) Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 23

Darstellung: Q-Q-Plot 3 2 1 0 1 2 3 15 10 5 0 5 10 QQ Plot Normalverteilung t Verteilung Bernd Klaus, Verena Zuber, Dichten und Verteilungsfunktionen, 3. November 2011 24