Angewandte Datenanalyse mit R und R-Stan

Größe: px
Ab Seite anzeigen:

Download "Angewandte Datenanalyse mit R und R-Stan"

Transkript

1 Angewandte Datenanalyse mit R und R-Stan Dieser Artikel zeigt die nötigen R-Befehle, um die Abbildungen und Simulationen zu den Beispielen im Buch D. Bättig: Angewandte Datenanalyse Der Bayes sche Weg erzeugen zu können. Version: 8. Februar 2016 Kapitel 1 Beispiel 1.7 (Nicht keimende Blumenzwiebeln) Die Daten sind im EXCEL-File mit Namen blumenzwiebeln.xlsx gespeichert. Sie liegen in der A-Spalte (A2 bis A51) und der Name der Variablen (in A1) ist anzahl. Zuerst wird das File in ein tab-getrenntes Formt umgewandelt: blumenzwiebeln.txt. Für das Einlesen der Daten muss man zuerst das Verzeichnis wählen, in dem das File abgespeichert ist. Besonders einfach ist dies bei RStudio. Dann File einlesen: > daten <- read.table("blumenzwiebeln.txt", header = T) Darstellen der Abb. 1.5 geht wie folgt: > plot(anzahl) > lines(anzahl) > grid() Kapitel 2 Beispiel 2.13 (Kanalwärmetauscher) Die Daten sind im tab-getrennten-file mit Namen kanalwaermetauscher.txt gespeichert. Die Messwerte von S, D, R und der Zielvariablen Verformung liegen in den Spalten. Einlesen der Daten zuerst richtiges Verzeichnis wählen mit: > daten <- read.table("kanalwaermetauscher.txt", header = T) Berechung der Effekte von S, D und R und ihrer Interaktion bis zu dritter Ordung mit: > lm(verformung ~.^3, data = daten) Call: lm(formula = Verformung ~.^3, data = daten) Coefficients: (Intercept) S D R S:D S:R D:R S:D:R R berechnet die halben Werte der Effekte und Interaktionen. 1

2 Kapitel 3 Beispiel 3.6 (Nicht keimende Blumenzwiebeln) Ziehen mit Zurücklegen einer Stichprobe mit Stichprobenumfang n aus einer Grundgesamtheit mit N Elementen: > sample(1:n, n, replace = T) Ziehen ohne Zurücklegen einer Stichprobe mit Stichprobenumfang n aus einer Grundgesamtheit mit N Elementen: > sample(1:n, n, replace = F) Besteht die Grundgesamtheit aus 10 Elementen und zieht man vier Elemente mit Zrücklegen, so hat man etwa > sample(1:10,4,replace=t) [1] Gezogen wurde zuerst 8, dann 1, dann 8 und schliesslich 3. Beispiel 3.13 (Druck in einer Vakuumkammer) Die Daten sind im tab-getrennten File mit Namen vakuum.txt gespeichert. Sie liegen in einer Spalte und der Name der Variablen ist druck. Einlesen der Daten: > daten <- read.table("vakuum.txt", header = T); Zeichnen der Kontrollkarte: > plot(druck); lines(druck) Die Kontrollgrenzen LCL und UCL können wie folgt berechnet werden: > mean(druck)+3*sd(druck) [1] > mean(druck)-3*sd(druck) [1] Kapitel 4 Beispiel 4.6 (Tagesschlusskurs einer Aktie) Darstellung der Massenfunktion des diskreten Wahrscheinlichkeitsmodells, wie in Abb. 4.1: > wschluss <- c( 2,6,10 ) > P <- c( 0.15,0.4,0.45 ) > plot(wschluss,p,"h",lwd=20) Die Zahl lwd=20 gibt die Stabdicke an. 2

3 Beispiel 4.9 (Zerfallszeit von Radon) Um die Abb. 4.4 für den Graph der Dichtefunktion für die Exponentialverteilung mit Rate λ = 1/5.515 zu zeichnen, geht man wie folgt vor: > lambda <- 1/ > x <- seq(-1,15,length.out=1000) > y <- dexp(x,lambda) > plot(x,y, type="l", lwd=3, col="blue") Der zweite Befehl entpricht dem MATLAB Befehl linspace(-1,15,1000). Beispiel 4.21 (Zeit zwischen starken Erdbeben) Die MCMC-Simulation für die gegebene Dichtefunktion erfolgt mit R-Stan und mit dem Logarithmus der Dichtefunktion. Zuerst wird in einem R-File das Modell eingegeben und einlesen: verteilungcode <- " // Logarithmus der Dichtefunkton: Name_log(...): functions { real meinefunktion_log(real x ) { return -29*log(x) /x; // Groessen, die mit dem Modell beschrieben werden: parameters { real<lower=0> mu; // Wahrscheinlichkeitsmodell: model { mu ~ meinefunktion(); " Das File nun mit R einlesen. Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlänge von ): > library(rstan) > mcmckette <- stan(model_code = verteilungcode, iter = 50000) > print(mcmckette) Inference for Stan model: verteilungcode. 4 chains, each with iter=50000; warmup=25000; thin=1; post-warmup draws per chain=25000, total post-warmup draws=1e+05. mean % 25% 50% 75% 97.5% n_eff Rhat 3

4 mu lp Samples were drawn using NUTS(diag_e) at Thu Jun 4 07:46: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass die Verteilung von µ wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0.95 ist µ Darstellung der Abtastung und der Dichtefunktion wie in Abb. 4.15: > mu <- extract(mcmckette)$mu > split.screen(c(1,2)) > screen(1) > plot(mu, type="l") > screen(2) > hist(mu, prob=t, col="grey", border="white") > lines(density(mu), lwd=3) Buntere und designte Bilder erhält man mit den folgenden Befehlen: > stan_trace( mcmckette, pars="mu" ) > bild <- stan_hist( mcmckette, pars="mu", fill="green", color="white" ) > bild + geom_density( size=2 ) Berechnung des plausibelsten Wertes (Modus) von µ: > op <- optimizing(mcmckette@stanmodel) > op mu $value [1] Der Modus µ 0 der Verteilung ist 479,65. Die Berechnung von Quantilen und Wahrscheinlichkeiten erfolgt mit: > quantile(mu, c(0.025,0.25,0.5,0.75,0.975) ) 2.5% 25% 50% 75% 97.5% > sum(mu>600)/length(mu) [1] Mit einer Wahrscheinlichkeit von 0,50 liegt µ zwischen 443,5 und 573,0. Die Wahrscheinlichkeit ist 0,18, dass µ grösser als 600 ist. 4

5 Kapitel 5 Beispiel 5.3 (HNV-Indikator) in Abb. 5.3: Prior und Plausibilität zum Anteil A dargestellt wie > A <- seq(0,1,length.out=10000) > plot(a,504*a^3*(1-a)^5, type="l", lwd=3) # Posterior > abline(h=1, lty="dashed") # Prior Bestimmung des Posteriors von A aus den Daten und dem Bernoulli-Model mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codebernoulli <- " data { int n; int<lower=0, upper=1> x[n]; parameters { real<lower=0, upper=1> A; model { A ~ uniform(0,1); // Prior for ( i in 1:n) { x[i] ~ bernoulli(a); // Datenmodell " Die Daten müssen eingelesen und strukturiert werden, damit Stan die MCMC-Simulation ausführen kann: > daten <- list(x = c(1,1,0,0,0,1,0,0), n = 8) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlänge von ): > library(rstan) > mcmckette <- stan(model_code = codebernoulli, data = daten, iter = 5000) > print(mcmckette) Inference for Stan model: codebernoulli. 4 chains, each with iter=5000; warmup=2500; thin=1; post-warmup draws per chain=2500, total post-warmup draws= mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat A

6 lp Samples were drawn using NUTS(diag_e) at Thu Jun 4 09:08: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass der Posterior von A wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0,95 ist 0,14 A 0,70. Darstellung der Abtastung und der Dichtefunktion wie in Abb. 5.4: > A <- extract(mcmckette)$a > split.screen(c(1,2)) > screen(1) > plot( A, type="l" ) > screen(2) > hist( A, prob = T, col="grey", border="white" ) > lines( density(a), lwd = 3 ) Berechnung des plausibelsten Wertes (Modus) von A: > op <- optimizing(mcmckette@stanmodel, data = daten) > op $par A $value [1] Der Modus A 0 des Posteriors von A ist 0,375. Die Berechnung von Quantilen und Wahrscheinlichkeiten erfolgt mit: > quantile(a, c(0.025,0.25,0.5,0.75,0.975) ) 2.5% 25% 50% 75% 97.5% > sum(a>0.5)/length(a) [1] Mit einer Wahrscheinlichkeit von 0,50 liegt A zwischen 0,295 und 0,499. Die Wahrscheinlichkeit ist 0,249, dass A grösser als 0,5 ist. Beta-Verteilung mit R Die Beta-Verteilung mit Kennzahlen α und β hat die Dichtefunktion pdf(a = x α, β) x α 1 (1 x) β 1 für 0 x 1 Beachten Sie die Exponenten: α 1 und β 1! Mit R: 6

7 Dichtefunktion: dbeta(x,alpha,beta) Quantil q: qbeta(q,alpha,beta) Wahrscheinlichkeit P(A x): pbeta(x,alpha,beta) Wahrscheinlichkeit P(a A b): pbeta(b,alpha,beta) - pbeta(a,alpha,beta) Kapitel 6 Beispiel 6.3 und 6.4 (Arbeitslosigkeit und Flexibilität) Die Daten sind im tabgetrennten-file mit Namen wirtschaft.txt gespeichert. Die Messwerte von Flexi und Arbeit liegen in den Spalten. Einlesen der Daten: > daten <- read.table("wirtschaft.txt", header = T) Das Streudiagramm in Abb. 6.5 erzeugt man wie folgt: > plot(flexi, Arbeit) Der empirische Korrelationskoeffizient ρ emp nach Pearson berechnet sich mit > cor(flexi, Arbeit) [1] Beispiel 6.7 (Zeit zwischen starken Erdbeben) Die Daten sind im tab-getrennten File mit Namen warteohnenach.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname Zeit. Einlesen der Daten: > daten <- read.table("warteohnenach.txt", header=t) Streudiagramm (Abb. 6.9) der Daten: > plot(zeit); lines(zeit) Der Graph der Autokorrelationsfunktion (Abb. 6.10) berechnet sich mit: > acf(zeit) Kapitel 7 Beispiel 7.3 (Qualität eines Expertensystems) P(Messwert = 1 Daten) Um das Prognosemodell für den nächsten Messwert zu bestimmen, muss man eine MCMC-Kette des Posteriors von A haben. Dies geschieht wie in Kapitel 5 mit dem Bernoulli-Model und R-Stan. Zuerst wird das R-File mit dem codebernoulli eingelesen. Die Daten müssen dann eingelesen und strukturiert werden, damit Stan die MCMC-Simulation ausführen kann: 7

8 > daten <- list(x = c( rep(0,18),1,1 ), n = 20) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlägne von ): > library(rstan) > mcmckette <- stan(model_code=codebernoulli, data = daten, iter = 5000) Die MCMC-Kette zu A extrahieren und mit dem Bernoulli-Modell nächste Messewerte simulieren: > A <- extract(mcmckette)$a > N <- length(a) > naechstermesswert <- rbinom(n,1,a) Die Wahrscheinlichkeit eine Eins als nächsten Messwert zu haben, ist : > sum(naechstermesswert>0)/length(naechstermesswert) [1] Kapitel 9 Exponentialverteilung mit R Die Exponential-Verteilung mit Rate λ = 1/µ hat die Dichtefunktion pdf(x = x µ) = 1 exp( x/µ) µ für x 0 Mit R: Dichtefunktion: dexp(x,lambda) Quantil q: qexp(q,lambda) Wahrscheinlichkeit P(X x): pexp(x,lambda) Wahrscheinlichkeit P(a X b): pexp(b,lambda) - pexp(a,lambda) n Zufallszahlen nach Exp-Modell: rexp(n,lambda) Beispiel 9.1 (Zeit zwischen starken Erdbeben) Die Daten sind im tab-getrennten File mit Namen warteohnenach.txt gespeichert. Die Messwerte liegen in einer Spalte mit Variablennamen Zeit. Einlesen der Daten: > daten <- read.table( warteohnenach.txt, header = T) Streudiagramm (Abb. 9.1) der Daten: > plot(zeit); lines(zeit) 8

9 Der Graph der Autokorrelationsfunktion (Abb. 9.2) berechnet sich mit: > acf(zeit) Bestimmung des Posteriors von µ (der durchschnittliche zukünfitgen Wartezeit zwischen starken Erdbeben) aus den Daten und dem Exponential-Model mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codeexponential <- " data { int n; real<lower=0> x[n]; parameters { real<lower=0> mu; model { // Prior mu ~ gamma(1e-10,1e-10); " // Datenmodell for ( i in 1:n ) { x[i] ~ exponential(1/mu); Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( x = Zeit, n = length(zeit) ) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlägne von ): > mcmckette <- stan(model_code=codeexponential, data=daten, iter=25000) > print(mcmckette) Inference for Stan model: codeexponential. 4 chains, each with iter=25000; warmup=12500; thin=1; post-warmup draws per chain=12500, total post-warmup draws= mean % 25% 50% 75% 97.5% n_eff Rhat mu lp

10 Samples were drawn using NUTS(diag_e) at Thu Jun 4 14:08: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass die Verteilung von µ wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0.95 ist 356 µ 744. Darstellung der Abtastung und der Dichtefunktion wie in Abb. 9.4: > mu <- extract(mcmckette)$mu > split.screen(c(1,2)) > screen(1) > plot(mu, type="l") > screen(2) > hist(mu, prob=t, col="grey", border="white" ) > lines(density(mu), lwd=3) Berechnung des plausibelsten Wertes (Modus) von µ: > op <- optimizing(mcmckette@stanmodel, data=daten) > op $par mu $value [1] Der Modus µ 0 der Verteilung ist 479,67 Tage. Die Berechnung von Quantilen und Wahrscheinlichkeiten erfolgt mit: > quantile(mu, c( 0.025,0.25,0.5,0.75,0.975 ) ) 2.5% 25% 50% 75% 97.5% > sum(mu>600)/length(mu) [1] Mit einer Wahrscheinlichkeit von 0,50 liegt µ zwischen 444,6 und 571,9 Tagen. Die Wahrscheinlichkeit ist 0,18, dass µ grösser als 600 ist. Nun zum Prognosemodell für den nächsten Messwert: Die Monte-Carlo-Simulation für weitere Messwerte erfolgt mit dem Exponential-Modell: > N <- length(mu) > neumess <- rexp(n,1/mu) Darstellung des Prognosemodells wie in Abb. 9.6 durch: > hist( neumess, prob = T, col="grey", border="white" ) > lines( density(neumess), lwd = 3, col = "red" ) 10

11 Beispiel 9.3 (Zeit zwischen starken Erdbeben) Mit dem Prognosemodell für den nächsten Messwert kann man überprüfen, ob das Datenmodell (die Exponentialverteilung) sinnvoll ist. Dazu macht man den QQ-Plot (Abb. 9.8): > n <- length(zeit); > quantilemodell <- quantile( neumess, ppoints(n) ) > qqplot(quantilemodell, Zeit) > abline(a = 0, b = 1) > grid() Kapitel 10 Normalverteilung mit R Die Normalverteilung mit Modus µ und Standardabweichung σ hat die Dichtefunktion ( ) 2 1 x µ pdf(x = x µ, σ) = { 0.5 exp 2πσ 2 σ Mit R: Dichtefunktion: dnorm(x,mu, sigma) Quantil q: qnorm(q,mu, sigma) Wahrscheinlichkeit P(X x): pnorm(x, mu, sigma) Wahrscheinlichkeit P(a X b): pnorm(b, mu, sigma) - pnorm(a, mu, sigma) n Zufallszahlen: rnorm(n,mu, sigma) Beispiel 10.4 (Chloridgehalt) Die Daten sind im tabstoppgetrennten File mit Namen chlorid.txt gespeichert. Die Messwerte liegen in einer Spalte mit Variablennamen konz. Einlesen der Daten: > daten <- read.table("chlorid.txt", header = T) Streudiagramm (Abb. 10.7) der Daten: > plot(konz); lines(konz) Bestimmung des Posteriors für den Chloridgehalt Cl (um den die Messwerte streuen) aus den Daten und dem Normal-Model mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: 11

12 codenormal <- " data { int n; real x[n]; parameters { real Cl; real<lower=0> sigma; model { // Prior sigma ~ gamma(1e-10,1e-10); " // Datenmodell for ( i in 1:n ) { x[i] ~ normal( Cl, sigma ); Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( konz = konz, n = length(konz) ) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlägne von ): > library(rstan) > mcmckette <- stan(model_code=codenormal, data=daten, iter=25000) > print(mcmckette) Inference for Stan model: codenormal. 4 chains, each with iter=25000; warmup=12500; thin=1; post-warmup draws per chain=12500, total post-warmup draws= mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat Cl sigma lp Samples were drawn using NUTS(diag_e) at Fri Jun 5 15:19: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). 12

13 Man sieht, dass der Posterior von Cl wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0,95 ist 102,0 Cl 103,8. Darstellung der Abtastung und der Dichtefunktion wie in Abb : > Cl <- extract(mcmckette)$cl > split.screen(c(1,2)) > screen(1) > plot(cl, type="l") > screen(2) > hist( Cl, prob = T, col="grey", border="white" ) > lines(density(cl), lwd=3) Die Berechnung von Quantilen für Cl erfolgt mit: > quantile(cl, c( 0.025,0.25,0.5,0.75,0.975 ) ) 2.5% 25% 50% 75% 97.5% Darstellung der Abtastung und der Dichtefunktion der Streuung σ des Datenmodells wie in Abb : > sigma <- extract(mcmckette)$sigma > split.screen(c(1,2)) > screen(1) > plot(sigma, type="l") > screen(2) > hist( sigma, prob = T, col="grey", border="white" ) > lines(density(sigma), lwd=3) Berechnung der plausibelsten Werte von Cl und der Streuung σ: > op <- optimizing(mcmckette@stanmodel, data=daten) > op $par Cl sigma $value [1] Der plausibelste Wert für den Chloridgehalt Cl ist Modus Cl 0 = 102,8. Der wahrscheinlichste Wert für die Streuung ist σ 0 = 0,83. Nun zum Prognosemodell für den nächsten Messwert: Die Monte-Carlo-Simulation für weitere Messwerte erfolgt mit dem Normalverteilungs-Modell: > N <- length(cl) > neumess <- rnorm(n, Cl, sigma) 13

14 Darstellung des Prognosemodells wie in Abb durch: > hist( neumess, prob = T, ylim = c(0,0.4), col="grey", border="white" ) > lines( density(neumess), lwd=3, col="red" ) Mit dem Prognosemodell für den nächsten Messwert kann man überprüfen, ob das Datenmodell (die Normalverteilung) sinnvoll ist. Dazu macht man den QQ-Plot (Abb ): > n <- length(konz); > quantilemodell <- quantile( neumess, ppoints(n) ) > qqplot(quantilemodell, konz) > abline(a = 0, b = 1) > grid() (Student) t-verteilung mit R Die t-verteilung mit Modus µ, Skalierung a > 0 und Freiheitsgrad n > 0 hat die Dichtefunkton ( ) (n+1)/2 1 pdf(x = x µ, a, n) 1 + (1/n) (x µ) 2 /a 2 Mit R: Dichtefunktion: dt( (x-mu)/a, df = n ) * 1/a Quantil q: qt( q, df = n ) * a + mu Wahrscheinlichkeit P(X x): pt( (x-mu)/a, df = n ) Wahrsch. P(x 1 X x 2 ): pt((x2-mu)/a,df = n) - pt((x1-mu)/a,df = n) n Zufallszahlen: rt(1, df = n) * a + mu Ist µ = 0 und a = 1, so hat man die Standard - t-verteilung mit Modus null und Skalierung eins. Kapitel 11 Beispiel 11.6 (Unwetterschäden) Die Daten sind im tab-getrennten File mit Namen unwetter.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. Einlesen der Daten: > daten <- read.table("unwetter.txt", header=t) Streudiagramm (Abb.11.5) der Daten: > plot(schaden); lines(schaden) Der Grösse nach darstellen (Abb. 11.6): > stripchart(schaden, method="stack") 14

15 Beispiel 11.6 (Unwetterschäden) Die Daten sind im tab-getrennten File mit Namen unwetter.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. Einlesen der Daten: > daten <- read.table("unwetter.txt", header=t) Stamm-Blatt-Diagramm (Abb.11.9) der Daten: > stem(schaden, scale=2) Mit dem Attribut scale kann indirekt die Stammbreite gewählt werden. Beispiel (Nicht keimende Blumenzwiebeln) Die Daten sin im tab-getrennten File mit Namen blumenzwiebeln.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. File einlesen: > daten <- read.table("blumenzwiebeln.txt", header = T) Darstellen der Häufigkeitsverteilung mit einem Stabdiagramm (Abb ) geht wie folgt: > plot(table(anzahl),lwd=20) Die Zahl lwd=20 gibt die Stabdicke an. Beispiel (Bleigehalte in Weinen) Die Daten sind im tab-getrennten File mit Namen wein.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname Bleigehalt. File einlesen: > daten <- read.table("wein.txt", header = T) Darstellen der Häufigkeitsverteilung mit einem Histogramm (Abb ) geht wie folgt: > hist(bleigehalt,col="gray", border="white", nclass=20) Die Zahl nclass=20 ist optional ung gibt die Anzahl Klassen an. In der Regel sollte man diesen Parameter nicht selber bestimmen. Beispiel (Chloridgehalt) Die Daten zur Methode A (bzw. Methode B)sind im tab-getrennten File mit Namen chlorida.txt (bzw. chloridb.txt) gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname gehalta (bzw. gehaltb). Die Daten einlesen und Boxplot (Abb ) darstellen: 15

16 > datena <- read.table("chlorida.txt", header=t) > attach(datena) > datenb <- read.table("chloridb.txt", header=t) > attach(datenb) > boxplot( gehalta, gehaltb, names=c("methodea","methodeb") ) Zeichnen der Wahrscheinlichkeitsintervalle zum Niveau 0,95 für den Chloridgehalt (mit Modellannahme Normalverteilung der Messwerte): > a <- t.test(gehalta,conf.level=0.95)$conf > segments(1,a[1],1,a[2],lwd=15,col="gray") > b <- t.test(gehaltb,conf.level=0.95)$conf > segments(2,b[1],2,b[2],lwd=15,col="gray") Kapitel 12 Beispiel 12.1 (Unwetterschäden) Die Daten sind im tab-getrennten File mit Namen unwetter.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. Einlesen der Daten: > daten <- read.table("unwetter.txt", header=t) Balken-Diagramm (Abb.12.1) der Daten: > plot(1977:1997,schaden,type="h",lwd=10) Beispiel 12.5 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Das Streudiagramm gemäss Abb.12.8 ist: > plot(alter, AkkoMono) > grid() Falls Punkte aufeinanderliegenden, können sie wie folgt leicht versetzt werden: > plot(jitter(alter), jitter(akkomono)) 16

17 Beispiel 12.9 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Ein Kernel-Regresionsmodel gemäss Abb kann wie folgt berechnet und visualisiert werden: > model <- ksmooth(alter, AkkoMono, kernel="box", bandwidth=10) > plot(alter, AkkoMono) > lines(model, lwd=3) > grid() Dabei ist bandwidth zweimal die Bandbreite (hier als h = 5). Wählt man den Parameter kernel="normal", so werden Messpunkte am Rand stark weniger gewichtet als diejenigen in der Mitte. Es ensteht ein glattes Regressionmodell. Kapitel 13 Beispiel 13.1 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Bestimmung der Parameter des Regressionsmodells mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codeakko <- " data{ int n; real Alter[n]; real AkkoMono[n]; parameters { real a; real<upper=0> b; real<lower=0> sigma; // Achsenabschnitt Reg.Gerade // Steigung Reg.Gerade // Streuung model { 17

18 // Prior a ~ uniform(-100,100); b ~ uniform(-100,0); sigma ~ gamma(1e-10,1e-10); // Skalenparameter " // Datenmodell for (i in 1:n) { AkkoMono[i] ~ normal( a + b*alter[i], sigma); Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( Alter = Alter, AkkoMono = AkkoMono, n = length(alter) ) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlänge von ): > library(rstan) > mcmckette <- stan(model_code=codeakko, data=daten, iter=25000) > print(mcmckette) Inference for Stan model: 7a a2b0649ffd7111dc592b chains, each with iter=25000; warmup=12500; thin=1; post-warmup draws per chain=12500, total post-warmup draws= mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat a b sigma lp Samples were drawn using NUTS(diag_e) at Sun Feb 7 16:12: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass die Posterior für die Parameter a, b und σ wahrscheinlich vollständig abgetast sind (R_hat= 1). Mit einer Wahrscheinlichkeit von 0,95 ist 11,9 a 16,4. Darstellung der Abtastung und der Dichtefunktion wie in Abb für die Plausibilität zum Parameter a: > a <- extract(mcmckette)$a > split.screen(c(1,2)) > screen(1) > plot(a, type="l") > screen(2) 18

19 > hist(a, prob = T, col="grey", border="white") > lines(density(a), lwd=3) Darstellung der Abtastung und der Dichtefunktion des Parameters b wie in Abb. 13.3: > b <- extract(mcmckette)$b > split.screen(c(1,2)) > screen(1) > plot(b, type="l") > screen(2) > hist(b, prob = T, col="grey", border="white") > lines(density(b), lwd=3) Der plausibelste Wert a 0 für den Parameter a ist a 0 = 14,16, für b ist der plausibelste Wert b 0 = 0,28. Plotten der Daten und des Regressionsmodells wie in Abb. 13.7: > plot(alter, AkkoMono) > abline(a=14.16, b=-0.28, lwd=3) > grid() Nun zum Prognosemodell für den nächsten Messwert, z.b. für das Alter von 35 Jahren: > a <- extract(mcmckette)$a > b <- extract(mcmckette)$b > sigma <- extract(mcmckette)$sigma > N <- length(a) > AkkoNeu35 <- rnorm(n,mean=a+b*35,sd=sigma) Darstellung des Prognosemodells wie in Abb durch: > hist( AkkoNeu35, prob = T, col="grey", border="white") > lines( density(akkoneu35), lwd=3, col ="red" ) Um die finale Darstellung des Prognosemodells und des Regressionsmodells wie in Abb zu erhalten, geht man wie folgt vor. Zuerst müssen wir uns entscheiden, für welche Alter wir die Bänder zeichnen wollen und anschliessend das Prognosemodell berechnen: > AlterNeu <- seq(20,50,by=2.5) > NBand <- length(alterneu) > AkkoNeu <- matrix(nrow=nband, ncol =N) > for (i in 1:NBand) AkkoNeu[i,] <- rnorm(n,mean=a+b*alterneu[i],sd=sigma) Zeichnen der Daten und des Regressionsmodells mit den plausibelsten Werten für die Parameter und der Prognosebänder: > plot(alter, AkkoMono) > abline(a=14.16, b=-0.28, lwd=3) 19

20 > grid() > q975 <- apply(akkoneu, 1, quantile, 0.975) > q025 <- apply(akkoneu, 1, quantile, 0.025) > segments(alterneu, q025, AlterNeu, q975, lwd=5, col="green") > q75 <- apply(akkoneu, 1, quantile, 0.75) > q25 <- apply(akkoneu, 1, quantile, 0.25) > segments(alterneu, q25, AlterNeu, q75, lwd=5, col="blue") > points(alter, AkkoMono) Beispiel 13.2 (Ausspülen von Milch) Die Daten sind im tab-getrennten File mit Namen milchdaten.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname v und M. Einlesen der Daten: > daten <- read.table("milchdaten.txt", header=t) Bestimmung der Parameter des Regressionsmodells mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codemilch <- " data { int n; real v[n]; real M[n]; parameters { real<lower=0,upper=10> A; real<lower=0,upper=10> c; real<lower=0> sigma; model { // Prior A ~ uniform(0,10); c ~ uniform(0,10); sigma ~ gamma(1e-10,1e-10); " // Datenmodell for (i in 1:n) { M[i] ~ normal( A*( 1 - exp(- c*v[i]) ), sigma); 20

21 Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( v = v, M = M, n = length(v) ) Nun erfolgt die MCMC-Simulation wie beim obigen Beispiel. Analog berechnen sich Prognosebänder für das Modell. Beispiel 13.3 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Bestimmung der Parameter des linearen Regressionsmodells (also linear in den Parametern) mit der Methode der kleinsten Quadrate: > model <- lm( AkkoMono ~ Alter, data = daten) > model Call: lm(formula = AkkoMono ~ Alter, data = daten) Coefficients: (Intercept) Alter Berechnung von Wahrscheinlichkeitsintervallen für die Parameter des Regressionsmodells zum Niveau 0,95: > confint(model,level=0.95) 2.5 % 97.5 % (Intercept) Alter Berechnung eines Prognoseintervalls zum Niveau 0,95 für die beiden Alter 30 Jahre und 40 Jahre: > AlterNeu = data.frame(alter=c(30,40)) > predict(model,alterneu,interval="prediction",level=0.95) fit lwr upr Mehr dazu findet man unter dem Befehl?lm. Insbesondere sieht man aus dieser Hilfe, wie man kompliziertere lineare Regressionsmodell (Stichwort formula ) eingeben kann. 21

22 Beispiel 13.5 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Nachdem die plausibelsten Werte a 0 und b 0 des Regressionsmodells berechnet sind, lassen sich die Residuen und die Abb wie folgt bestimmen: > residuen <- AkkoMono - ( *Alter) > plot(residuen); lines(residuen) > acf(residuen) 22

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Dichten und Verteilungsfunktionen Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/

Mehr

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Dichten und Verteilungsfunktionen Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 25. November 2009 Bernd

Mehr

Eine Einführung in R: Dichten und Verteilungsfunktionen

Eine Einführung in R: Dichten und Verteilungsfunktionen Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/

Mehr

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn

Statistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2014 Mehrdimensionale Datensätze: Multivariate Statistik Multivariate Statistik Mehrdimensionale Datensätze:

Mehr

Musterlösung zu Serie 1

Musterlösung zu Serie 1 Prof. Dr. W. Stahel Regression HS 2015 Musterlösung zu Serie 1 1. a) > d.bv plot(blei ~ verkehr, data = d.bv, main

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 13. Januar 2017 Prüfer: Etschberger, Jansen, Ivanov, Wins Studiengang: IM, BW, Inf und W-Inf Punkte: 21, 18, 12, 12, 11, 16 ; Summe der Punkte: 90 Aufgabe

Mehr

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch

Stetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch 6 Stetige Verteilungen 1 Kapitel 6: Stetige Verteilungen A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch dargestellt. 0.2 6

Mehr

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services

Statistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services Statistische Datenanalyse mit R, Korrelation und Regression Dr. Andrea Denecke Leibniz Universität IT-Services Korrelationsanalyse Eine Korrelationsanalyse soll herausfinden Ob ein linearer Zusammenhang

Mehr

I. Deskriptive Statistik 1

I. Deskriptive Statistik 1 I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................

Mehr

W-Rechnung und Statistik für Ingenieure Übung 8

W-Rechnung und Statistik für Ingenieure Übung 8 W-Rechnung und Statistik für Ingenieure Übung 8 Aufgabe 1 : Motivation Anhand von Daten soll eine Aussage über die voraussichtliche Verteilung zukünftiger Daten gemacht werden, z.b. die Wahrscheinlichkeit

Mehr

UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe

UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe 1 Aufgabe UE-II.1 Generieren Sie je 1000 Stichproben (samples) mit Umfang 5/30/100/500 für die Normalverteilung N(µ, σ 2 ) = N(4,

Mehr

Biostatistik 101 Korrelation - Regressionsanalysen

Biostatistik 101 Korrelation - Regressionsanalysen Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander

Mehr

Kapitel VI - Lage- und Streuungsparameter

Kapitel VI - Lage- und Streuungsparameter Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VI - Lage- und Streuungsparameter Markus Höchstötter Lehrstuhl für Statistik, Ökonometrie

Mehr

Lineare Regression in R, Teil 1

Lineare Regression in R, Teil 1 Lineare Regression in R, Teil 1 Christian Kleiber Abt. Quantitative Methoden, WWZ, Universität Basel October 6, 2009 1 Vorbereitungen Zur Illustration betrachten wir wieder den Datensatz CASchools aus

Mehr

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...

Inhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken... I. Deskriptive Statistik 1 1. Einführung 3 1.1. Die Grundgesamtheit......................... 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................ 10

Mehr

1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften

1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften 1. Übungsblatt zu Aufgabe 1: In R können die Logarithmen zu verschiedenen Basen mit der Funktion log berechnet werden, wobei im Argument base die Basis festgelegt wird. Plotten Sie die Logarithmusfunktion

Mehr

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington Wahrscheinlichkeit und die Normalverteilung Jonathan Harrington Der Populations-Mittelwert 100 Stück Papier nummeriert 0, 1, 2, 99 Ich ziehe 10 davon und berechne den Mittelwert. Was ist der Mittelwert

Mehr

Übersicht Statistik-Funktionen. Statistische Software (R) Nützliche Funktionen. Nützliche Funktionen

Übersicht Statistik-Funktionen. Statistische Software (R) Nützliche Funktionen. Nützliche Funktionen Übersicht Statistik-Funktionen Statistische Software (R) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten, Verteilungsfunktionen, etc. Funktion

Mehr

W-Rechnung und Statistik für Ingenieure Übung 13

W-Rechnung und Statistik für Ingenieure Übung 13 W-Rechnung und Statistik für Ingenieure Übung 13 Nächste Woche: Probeklausur Bringen Sie sich ein leeres Exemplar der Probeklausur mit, um sich eine Musterlösung zu erstellen. Aufgabe 1 : Testproblem Testproblem:

Mehr

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)

Mehr

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS) Vorbereitungen Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS) Falls das R - Paket car noch nicht installiert wurde, kann dies mit der Funktion install.packages() erledigt werden. install.packages("car")

Mehr

Einführung in die Ökonometrie

Einführung in die Ökonometrie Einführung in die Ökonometrie Das Programmpaket R Installierung und Pakete R als Taschenrechner Laden von Datensätzen und Einlesen von Daten Hilfe und Dokumentation Einfaches Datenmanagement Univariate

Mehr

Einführung Teil I: Erste Schritte bei der statistischen Analyse mit R... 25

Einführung Teil I: Erste Schritte bei der statistischen Analyse mit R... 25 O:/Wiley/Reihe_Dummies/71398_Schmuller/3d/ftoc.3d from 26.06.2017 16:16:30 Auf einen Blick Über den Autor.... 9 Einführung... 21 Teil I: Erste Schritte bei der statistischen Analyse mit R.... 25 Kapitel

Mehr

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung

Mehr

Statistische Methoden in den Umweltwissenschaften

Statistische Methoden in den Umweltwissenschaften Statistische Methoden in den Umweltwissenschaften Stetige und diskrete Wahrscheinlichkeitsverteilungen Lageparameter Streuungsparameter Diskrete und stetige Zufallsvariablen Eine Variable (oder Merkmal

Mehr

Statistik II für Betriebswirte Vorlesung 8

Statistik II für Betriebswirte Vorlesung 8 Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:

Mehr

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester

Messung von Rendite und Risiko. Finanzwirtschaft I 5. Semester Messung von Rendite und Risiko Finanzwirtschaft I 5. Semester 1 Messung von Renditen Ergebnis der Anwendung der Internen Zinsfuß- Methode ist die Rentabilität des Projekts. Beispiel: A0-100.000 ZÜ1 54.000

Mehr

Inhaltsverzeichnis. Über die Autoren Einleitung... 21

Inhaltsverzeichnis. Über die Autoren Einleitung... 21 Inhaltsverzeichnis Über die Autoren.... 7 Einleitung... 21 Über dieses Buch... 21 Was Sie nicht lesen müssen... 22 Törichte Annahmen über den Leser... 22 Wie dieses Buch aufgebaut ist... 23 Symbole, die

Mehr

Statistik für Betriebswirte I 1. Klausur Wintersemester 2014/

Statistik für Betriebswirte I 1. Klausur Wintersemester 2014/ Statistik für Betriebswirte I 1. Klausur Wintersemester 2014/2015 13.02.2015 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN Nachname:................................................................... Vorname:....................................................................

Mehr

Zufallsvariablen. f(x) dx = 1. Die stetige Zufallsvariable X wird also durch seine Dichtefunktion beschrieben. P(c < X < d) =

Zufallsvariablen. f(x) dx = 1. Die stetige Zufallsvariable X wird also durch seine Dichtefunktion beschrieben. P(c < X < d) = Diskrete Sei X stetig auf (a,b), wobei a, b unendlich sein können, a x 0 < x 1 b P(X = x 0 ) = 0, P(x 0 < X < x 1 ) > 0 (wenn f > 0). Die Funktion f heißt Dichtefunktion (von X) falls: 1. f(x) 0, a < x

Mehr

Angewandte Statistik mit R

Angewandte Statistik mit R Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis

Mehr

Musterlösung zu Serie 14

Musterlösung zu Serie 14 Dr. Lukas Meier Statistik und Wahrscheinlichkeitsrechnung FS 21 Musterlösung zu Serie 14 1. Der Datensatz von Forbes zeigt Messungen von Siedepunkt (in F) und Luftdruck (in inches of mercury) an verschiedenen

Mehr

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R) artihmetische Mittel median() mean()

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R) artihmetische Mittel median() mean() Übersicht deskriptiver Maße & anderer nützlicher Funktionen Statistische Software (R) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten, Verteilungsfunktionen,

Mehr

Zufallsauswahl mit R

Zufallsauswahl mit R Zufallsauswahl mit R Wie in der Vorlesung erwähnt, werden Zufallsstichproben mit Hilfe eines Computers erzeugt. In R kann der Befehl sample() verwendet werden, um aus einer Grundgesamtheit zufällige Elemente

Mehr

Angewandte Statistik mit R. Eine Einführung für Ökonomen und

Angewandte Statistik mit R. Eine Einführung für Ökonomen und Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 3. Auflage Springer Gabler Inhaltsverzeichnis Vorwort zur dritten Auflage Vorwort zur ersten Auflage Vorwort

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie

Mehr

Zusammenstellung der Befehle in R

Zusammenstellung der Befehle in R C. Fesl: Übungen zur Angewandten Statistik Befehle in R 1 Zusammenstellung der Befehle in R Im folgenden wird der Programmcode immer in dieser Schrift angegeben. Wenn nicht anders angegeben, bezeichnet

Mehr

Stichwortverzeichnis. Symbole

Stichwortverzeichnis. Symbole Stichwortverzeichnis Symbole 50ste Perzentil 119 A Absichern, Ergebnisse 203 Abzählbar unendliche Zufallsvariable 146 Alternativhypothese 237 238 formulieren 248 Anekdote 340 Annäherung 171, 191 Antwortquote

Mehr

PVK Statistik Tag Carlos Mora

PVK Statistik Tag Carlos Mora PVK Statistik Tag 2 11.1.2012 Block 4 Block 3 Übersicht 11.1.2012 09:00 6. Zwei-Stichproben-Tests für stetige Verteilungen (2.Teil) Übung 2C 1h inkl. Pause 7. Lineare Regression 12:00 Übung 3 Mittag 13:00

Mehr

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen

6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen 6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher: Diskrete Zufallsvariablen,

Mehr

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien

Deskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische

Mehr

Bayessche Lineare Regression

Bayessche Lineare Regression Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.

Mehr

Lineare Regression Mietpreis-Beispiel

Lineare Regression Mietpreis-Beispiel Lineare Regression Mietpreis-Beispiel Institut für Angewandte Statistik und EDV, Universität für Bodenkultur Wien http://www.rali.boku.ac.at/statedv.html Die aktuelle Version dieses Dokuments finden Sie

Mehr

Multivariate Verfahren

Multivariate Verfahren Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:

Mehr

Statistik I für Betriebswirte Vorlesung 14

Statistik I für Betriebswirte Vorlesung 14 Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli

Mehr

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 10. Mai 017 1 Zufallsvariablen:

Mehr

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington Wahrscheinlichkeit und die Normalverteilung Jonathan Harrington Der Bevölkerungs-Mittelwert 99 Stück Papier nummeriert 0, 1, 2, 99 Ich ziehe 10 davon und berechne den Mittelwert. Was ist der Mittelwert

Mehr

Kapitel 2 Wahrscheinlichkeitsrechnung

Kapitel 2 Wahrscheinlichkeitsrechnung Definition 2.77: Normalverteilung & Standardnormalverteilung Es sei µ R und 0 < σ 2 R. Besitzt eine stetige Zufallsvariable X die Dichte f(x) = 1 2 πσ 2 e 1 2 ( x µ σ ) 2, x R, so heißt X normalverteilt

Mehr

Hausaufgabe Modellierung und Simulation 1

Hausaufgabe Modellierung und Simulation 1 Hausaufgabe Modellierung und Simulation 1 Die Pareto Verteilung Die Pareto-Verteilung ist eine stetige Wahrscheinlichkeitsverteilung in einem rechtsseitig unendlichen Intervall zwischen x min und. Die

Mehr

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington

Wahrscheinlichkeit und die Normalverteilung. Jonathan Harrington Wahrscheinlichkeit und die Normalverteilung Jonathan Harrington Der Bevölkerungs-Mittelwert 99 Stück Papier nummeriert 0, 1, 2, 99 Ich ziehe 10 davon und berechne den Mittelwert. Was ist der Mittelwert

Mehr

Statistische Software (R)

Statistische Software (R) Statistische Software (R) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Verteilungen und Zufallszahlen Übersicht Statistik-Funktionen Funktion mean() median() exp(mean(log(

Mehr

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19

Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19 Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist

Mehr

Statistische Software (R)

Statistische Software (R) Statistische Software (R) Paul Fink, M.Sc., Eva Endres, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Verteilungen und Zufallszahlen Übersicht Statistik-Funktionen Funktion mean()

Mehr

Einführung in die Angewandte Bioinformatik: Datenanalyse mit R

Einführung in die Angewandte Bioinformatik: Datenanalyse mit R Einführung in die Angewandte Bioinformatik: Datenanalyse mit R 20.05.2010 Prof. Dr. Sven Rahmann 1 Funktionsaufruf mit benannten Parametern Es ist Konvention, einer Funktion erst die nötigen Daten zu übergeben;

Mehr

Statistics, Data Analysis, and Simulation SS 2015

Statistics, Data Analysis, and Simulation SS 2015 Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler

Mehr

10. Statistische Verteilungen

10. Statistische Verteilungen 10. Statistische Verteilungen Übung Röntgenpraxis XVI Die Patienten der Röntgenpraxis unterscheiden sich durch unterschiedliche Fitness. Daher benötigen die MTRA unterschiedliche Zeiten, um die Patienten

Mehr

ANGEWANDTE STATISTIK II Prüfungstermin Name:

ANGEWANDTE STATISTIK II Prüfungstermin Name: Die Beantwortung der Rechenaufgaben hat zusätzlich zu den numerischen Ergebnissen zu beinhalten: - Feststellung des Problemtyps, Angabe der Lösungsmethode; - bei den Testverfahren: Hypothesen, P-Wert,

Mehr

Binomialverteilung Vertrauensbereich für den Anteil

Binomialverteilung Vertrauensbereich für den Anteil Übungen mit dem Applet Binomialverteilung Vertrauensbereich für den Anteil Binomialverteilung Vertrauensbereich für den Anteil 1. Statistischer Hintergrund und Darstellung.... Wie entsteht der Vertrauensbereich?...

Mehr

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie

Teil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten

Mehr

Klausur Statistik Lösungshinweise

Klausur Statistik Lösungshinweise Klausur Statistik Lösungshinweise Prüfungsdatum: 21. Januar 2016 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Punkte: 15, 15, 12, 14, 16, 18 ; Summe der Punkte: 90 Aufgabe 1 15 Punkte Bei

Mehr

Ein metrisches Merkmal

Ein metrisches Merkmal Kapitel 4 Ein metrisches Merkmal 4.1 Wie kann man ein metrisches Merkmal numerisch beschreiben? Häufigkeitstabellen erzeugt man mit table. Das arithmetische Mittel und den Median berechnet man mit mean

Mehr

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum

Franz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst mit dem R Commander A Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist

Mehr

Biostatistik 101 Korrelation - Regressionsanalysen

Biostatistik 101 Korrelation - Regressionsanalysen Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander

Mehr

Sie wissen noch, dass 18.99% der Surfer, die kein Smartphone haben, pro Monat weniger als 20 Stunden das Internet nutzen, d.h. f(y 1 X 2 ) =

Sie wissen noch, dass 18.99% der Surfer, die kein Smartphone haben, pro Monat weniger als 20 Stunden das Internet nutzen, d.h. f(y 1 X 2 ) = Aufgabe 1 In einer Umfrage wird der Besitz eines Smartphones (Merkmal X) und die Nutzungsdauer des Internets pro Monat (Merkmal Y ) untersucht. Merkmal X hat zwei Ausprägungen: X 1 : Besitz und X 2 : Nichtbesitz.

Mehr

Einführung in die Statistik

Einführung in die Statistik Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt

Mehr

Stichwortverzeichnis. Chi-Quadrat-Verteilung 183, 186, 189, 202 ff., 207 ff., 211 Testen von Zufallszahlen 294 Cărtărescu, Mircea 319

Stichwortverzeichnis. Chi-Quadrat-Verteilung 183, 186, 189, 202 ff., 207 ff., 211 Testen von Zufallszahlen 294 Cărtărescu, Mircea 319 Stichwortverzeichnis A Ableitung partielle 230 absolute Häufigkeit 47 Abweichungen systematische 38, 216, 219 zufällige 216, 218, 220, 222 Algorithmus average case 303 Las Vegas 300 Monte Carlo 300 randomisierter

Mehr

Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017

Hochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017 für Wirtschaftsingenieure (B.Sc.) Sommersemester 017 Dr. rer. nat. habil. E-mail: adam-georg.balogh@h-da.de 1 Hochschule Darmstadt, Fachbereich MN Sommersemester 017 Testklausur zur Vorlesung Wirtschaftsstatistik

Mehr

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4

Inhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4 Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1

Mehr

Prüfung aus Statistik 2 für SoziologInnen

Prüfung aus Statistik 2 für SoziologInnen Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.

Mehr

library(lattice) nex = read.table(file.path(pfadu, "normexample.txt")) source(file.path(pfadu, "lattice.normal.r"))

library(lattice) nex = read.table(file.path(pfadu, normexample.txt)) source(file.path(pfadu, lattice.normal.r)) library(lattice) nex = read.table(file.path(pfadu, "normexample.txt")) source(file.path(pfadu, "lattice.normal.r")) 1. Der Populationsmittelwert Erstes Beispiel 100 Stück Papier nummeriert 0, 1, 2, 99

Mehr

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele

Teil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele Woche 5: Deskriptive Statistik Teil VII Patric Müller Deskriptive Statistik ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit

Mehr

Statistik für Ingenieure und Naturwissenschaftler

Statistik für Ingenieure und Naturwissenschaftler Sheldon M. Ross Statistik für Ingenieure und Naturwissenschaftler 3. Auflage Aus dem Amerikanischen übersetzt von Carsten Heinisch ELSEVIER SPEKTRUM AKADEMISCHER VERLAG Spektrum Inhalt Vorwort zur dritten

Mehr

Grafiken. Session 4. > plot(x,y, xlab=, ylab= sin(x), main= Steps, Type 2, type= S )

Grafiken. Session 4. > plot(x,y, xlab=, ylab= sin(x), main= Steps, Type 2, type= S ) Grafiken Session 4 1 Grundlegendes Bei der Analse von Daten sind Grafiken ein wichtiges Werkzeug. Viele Eigenschaften von Datensamples ((Auto)-Korrelationen, nicht lineare Zusammenhänge, mögliche Verteilungen,...

Mehr

Willkommen zur Vorlesung Statistik (Master)

Willkommen zur Vorlesung Statistik (Master) Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften

Mehr

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression Überblic Grundonepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münwürfe Lineare Regression Logistische Regression Bayes sche Vorhersage Münwürfe Lineare Regression 14 Modell für Münwürfe

Mehr

Prüfungstermin aus Angewandter Statistik (WS 2012/13) Name:

Prüfungstermin aus Angewandter Statistik (WS 2012/13) Name: 1. In einem als Paarvergleich geplanten Experiment wurden an 7 Probanden zeitlich hintereinander eine Testformulierung (A) und (nach einer ausreichend langen Wash-out-Periode) eine Kontrolle (K) verabreicht.

Mehr

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS) Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS) Es soll untersucht werden, ob und wie sich Rauchen während der Schwangerschaft auf den Gesundheitszustand des Neugeborenen auswirkt. Hierzu werden

Mehr

Stoffverteilungsplan Mathematik Leistungskurs. Lambacher Schweizer Stochastik ISBN Klassenarbeit

Stoffverteilungsplan Mathematik Leistungskurs. Lambacher Schweizer Stochastik ISBN Klassenarbeit Lambacher Schweizer Q3.1 Grundlegende Begriffe der Grundlagen der Wahrscheinlichkeitstheorie: Beschreiben von Zufallsexperimenten (Laplace-Experimente) unter Verwendung der Begriffe Ergebnis, Ergebnismenge,

Mehr

Anleitung zum Applet

Anleitung zum Applet Anleitung zum Applet Wahrscheinlichkeitsnetz bearbeitet von: WS 2006/2007 E/TI-7, betreut von: Prof. Dr. Wilhelm Kleppmann Inhaltsverzeichnis Anleitung zum Applet... 1 1 Vorwort... 3 2 Grafische Benutzeroberfläche

Mehr

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014

11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Universität des Saarlandes Lehrstab Statistik Dr. Martin Becker Dipl.-Kfm. Andreas Recktenwald 11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Aufgabe 45 Die in Aufgabe 43 getroffene Annahme heteroskedastischer

Mehr

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016

Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016 ETH Zürich D-USYS Institut für Agrarwissenschaften Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016 Peter von Rohr Datum 30. Mai 2016 Beginn 08:00 Uhr Ende 08:45

Mehr

Statistik für Ökonomen

Statistik für Ökonomen Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS 2., überarbeitete Auflage 4ü Springer Gabler Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R '! 3 1.1 Installieren

Mehr

Mehrere metrische Merkmale

Mehrere metrische Merkmale Kapitel 5 Mehrere metrische Merkmale 5.1 Wie kann man zwei metrische Merkmale grafisch beschreiben? Ein Streudiagram von zwei metrischen Merkmalen erzeugt man mit der Funktion plot mit den Beobachtungen

Mehr

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean()

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean() Übersicht deskriptiver Maße & anderer nützlicher Funktionen Statistische Software (R-Vertiefung) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten,

Mehr

Bachelorprüfung: Statistik (1 Stunde)

Bachelorprüfung: Statistik (1 Stunde) Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!

Mehr

Eine Einführung in R: Deskriptive Statistiken und Graphiken

Eine Einführung in R: Deskriptive Statistiken und Graphiken Eine Einführung in R: Deskriptive Statistiken und Graphiken Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 27. Oktober 2011 Bernd

Mehr

Arbeitsbuch zur deskriptiven und induktiven Statistik

Arbeitsbuch zur deskriptiven und induktiven Statistik Helge Toutenburg Michael Schomaker Malte Wißmann Christian Heumann Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage 4ü Springer Inhaltsverzeichnis 1. Grundlagen

Mehr

5. Spezielle stetige Verteilungen

5. Spezielle stetige Verteilungen 5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für

Mehr

Statistik für Ökonomen

Statistik für Ökonomen Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS tfü. Springer Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R 3 1.1 Installieren und Starten von R 3 1.2 R-Befehle

Mehr

Fit for Abi & Study Stochastik

Fit for Abi & Study Stochastik Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen

Mehr

Statistik für Naturwissenschaftler Woche 11-13: Regression basics (mit R Unterstützung)

Statistik für Naturwissenschaftler Woche 11-13: Regression basics (mit R Unterstützung) Woche 11-13: Regression basics (mit R Unterstützung) Ass.-Prof. Dr. Fachbereich Mathematik Universität Salzburg www.trutschnig.net Salzburg, Juni 2015 y Motivation + eindimensionale lineare Regression

Mehr

Kenngrößen von Zufallsvariablen

Kenngrößen von Zufallsvariablen Kenngrößen von Zufallsvariablen Die Wahrscheinlichkeitsverteilung kann durch die sogenannten Kenngrößen beschrieben werden, sie charakterisieren sozusagen die Verteilung. Der Erwartungswert Der Erwartungswert

Mehr

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean()

Übersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean() Übersicht deskriptiver Maße & anderer nützlicher Funktionen Statistische Software (R-Vertiefung) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten,

Mehr