Angewandte Datenanalyse mit R und R-Stan
|
|
- Hajo Straub
- vor 8 Jahren
- Abrufe
Transkript
1 Angewandte Datenanalyse mit R und R-Stan Dieser Artikel zeigt die nötigen R-Befehle, um die Abbildungen und Simulationen zu den Beispielen im Buch D. Bättig: Angewandte Datenanalyse Der Bayes sche Weg erzeugen zu können. Version: 8. Februar 2016 Kapitel 1 Beispiel 1.7 (Nicht keimende Blumenzwiebeln) Die Daten sind im EXCEL-File mit Namen blumenzwiebeln.xlsx gespeichert. Sie liegen in der A-Spalte (A2 bis A51) und der Name der Variablen (in A1) ist anzahl. Zuerst wird das File in ein tab-getrenntes Formt umgewandelt: blumenzwiebeln.txt. Für das Einlesen der Daten muss man zuerst das Verzeichnis wählen, in dem das File abgespeichert ist. Besonders einfach ist dies bei RStudio. Dann File einlesen: > daten <- read.table("blumenzwiebeln.txt", header = T) Darstellen der Abb. 1.5 geht wie folgt: > plot(anzahl) > lines(anzahl) > grid() Kapitel 2 Beispiel 2.13 (Kanalwärmetauscher) Die Daten sind im tab-getrennten-file mit Namen kanalwaermetauscher.txt gespeichert. Die Messwerte von S, D, R und der Zielvariablen Verformung liegen in den Spalten. Einlesen der Daten zuerst richtiges Verzeichnis wählen mit: > daten <- read.table("kanalwaermetauscher.txt", header = T) Berechung der Effekte von S, D und R und ihrer Interaktion bis zu dritter Ordung mit: > lm(verformung ~.^3, data = daten) Call: lm(formula = Verformung ~.^3, data = daten) Coefficients: (Intercept) S D R S:D S:R D:R S:D:R R berechnet die halben Werte der Effekte und Interaktionen. 1
2 Kapitel 3 Beispiel 3.6 (Nicht keimende Blumenzwiebeln) Ziehen mit Zurücklegen einer Stichprobe mit Stichprobenumfang n aus einer Grundgesamtheit mit N Elementen: > sample(1:n, n, replace = T) Ziehen ohne Zurücklegen einer Stichprobe mit Stichprobenumfang n aus einer Grundgesamtheit mit N Elementen: > sample(1:n, n, replace = F) Besteht die Grundgesamtheit aus 10 Elementen und zieht man vier Elemente mit Zrücklegen, so hat man etwa > sample(1:10,4,replace=t) [1] Gezogen wurde zuerst 8, dann 1, dann 8 und schliesslich 3. Beispiel 3.13 (Druck in einer Vakuumkammer) Die Daten sind im tab-getrennten File mit Namen vakuum.txt gespeichert. Sie liegen in einer Spalte und der Name der Variablen ist druck. Einlesen der Daten: > daten <- read.table("vakuum.txt", header = T); Zeichnen der Kontrollkarte: > plot(druck); lines(druck) Die Kontrollgrenzen LCL und UCL können wie folgt berechnet werden: > mean(druck)+3*sd(druck) [1] > mean(druck)-3*sd(druck) [1] Kapitel 4 Beispiel 4.6 (Tagesschlusskurs einer Aktie) Darstellung der Massenfunktion des diskreten Wahrscheinlichkeitsmodells, wie in Abb. 4.1: > wschluss <- c( 2,6,10 ) > P <- c( 0.15,0.4,0.45 ) > plot(wschluss,p,"h",lwd=20) Die Zahl lwd=20 gibt die Stabdicke an. 2
3 Beispiel 4.9 (Zerfallszeit von Radon) Um die Abb. 4.4 für den Graph der Dichtefunktion für die Exponentialverteilung mit Rate λ = 1/5.515 zu zeichnen, geht man wie folgt vor: > lambda <- 1/ > x <- seq(-1,15,length.out=1000) > y <- dexp(x,lambda) > plot(x,y, type="l", lwd=3, col="blue") Der zweite Befehl entpricht dem MATLAB Befehl linspace(-1,15,1000). Beispiel 4.21 (Zeit zwischen starken Erdbeben) Die MCMC-Simulation für die gegebene Dichtefunktion erfolgt mit R-Stan und mit dem Logarithmus der Dichtefunktion. Zuerst wird in einem R-File das Modell eingegeben und einlesen: verteilungcode <- " // Logarithmus der Dichtefunkton: Name_log(...): functions { real meinefunktion_log(real x ) { return -29*log(x) /x; // Groessen, die mit dem Modell beschrieben werden: parameters { real<lower=0> mu; // Wahrscheinlichkeitsmodell: model { mu ~ meinefunktion(); " Das File nun mit R einlesen. Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlänge von ): > library(rstan) > mcmckette <- stan(model_code = verteilungcode, iter = 50000) > print(mcmckette) Inference for Stan model: verteilungcode. 4 chains, each with iter=50000; warmup=25000; thin=1; post-warmup draws per chain=25000, total post-warmup draws=1e+05. mean % 25% 50% 75% 97.5% n_eff Rhat 3
4 mu lp Samples were drawn using NUTS(diag_e) at Thu Jun 4 07:46: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass die Verteilung von µ wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0.95 ist µ Darstellung der Abtastung und der Dichtefunktion wie in Abb. 4.15: > mu <- extract(mcmckette)$mu > split.screen(c(1,2)) > screen(1) > plot(mu, type="l") > screen(2) > hist(mu, prob=t, col="grey", border="white") > lines(density(mu), lwd=3) Buntere und designte Bilder erhält man mit den folgenden Befehlen: > stan_trace( mcmckette, pars="mu" ) > bild <- stan_hist( mcmckette, pars="mu", fill="green", color="white" ) > bild + geom_density( size=2 ) Berechnung des plausibelsten Wertes (Modus) von µ: > op <- optimizing(mcmckette@stanmodel) > op mu $value [1] Der Modus µ 0 der Verteilung ist 479,65. Die Berechnung von Quantilen und Wahrscheinlichkeiten erfolgt mit: > quantile(mu, c(0.025,0.25,0.5,0.75,0.975) ) 2.5% 25% 50% 75% 97.5% > sum(mu>600)/length(mu) [1] Mit einer Wahrscheinlichkeit von 0,50 liegt µ zwischen 443,5 und 573,0. Die Wahrscheinlichkeit ist 0,18, dass µ grösser als 600 ist. 4
5 Kapitel 5 Beispiel 5.3 (HNV-Indikator) in Abb. 5.3: Prior und Plausibilität zum Anteil A dargestellt wie > A <- seq(0,1,length.out=10000) > plot(a,504*a^3*(1-a)^5, type="l", lwd=3) # Posterior > abline(h=1, lty="dashed") # Prior Bestimmung des Posteriors von A aus den Daten und dem Bernoulli-Model mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codebernoulli <- " data { int n; int<lower=0, upper=1> x[n]; parameters { real<lower=0, upper=1> A; model { A ~ uniform(0,1); // Prior for ( i in 1:n) { x[i] ~ bernoulli(a); // Datenmodell " Die Daten müssen eingelesen und strukturiert werden, damit Stan die MCMC-Simulation ausführen kann: > daten <- list(x = c(1,1,0,0,0,1,0,0), n = 8) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlänge von ): > library(rstan) > mcmckette <- stan(model_code = codebernoulli, data = daten, iter = 5000) > print(mcmckette) Inference for Stan model: codebernoulli. 4 chains, each with iter=5000; warmup=2500; thin=1; post-warmup draws per chain=2500, total post-warmup draws= mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat A
6 lp Samples were drawn using NUTS(diag_e) at Thu Jun 4 09:08: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass der Posterior von A wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0,95 ist 0,14 A 0,70. Darstellung der Abtastung und der Dichtefunktion wie in Abb. 5.4: > A <- extract(mcmckette)$a > split.screen(c(1,2)) > screen(1) > plot( A, type="l" ) > screen(2) > hist( A, prob = T, col="grey", border="white" ) > lines( density(a), lwd = 3 ) Berechnung des plausibelsten Wertes (Modus) von A: > op <- optimizing(mcmckette@stanmodel, data = daten) > op $par A $value [1] Der Modus A 0 des Posteriors von A ist 0,375. Die Berechnung von Quantilen und Wahrscheinlichkeiten erfolgt mit: > quantile(a, c(0.025,0.25,0.5,0.75,0.975) ) 2.5% 25% 50% 75% 97.5% > sum(a>0.5)/length(a) [1] Mit einer Wahrscheinlichkeit von 0,50 liegt A zwischen 0,295 und 0,499. Die Wahrscheinlichkeit ist 0,249, dass A grösser als 0,5 ist. Beta-Verteilung mit R Die Beta-Verteilung mit Kennzahlen α und β hat die Dichtefunktion pdf(a = x α, β) x α 1 (1 x) β 1 für 0 x 1 Beachten Sie die Exponenten: α 1 und β 1! Mit R: 6
7 Dichtefunktion: dbeta(x,alpha,beta) Quantil q: qbeta(q,alpha,beta) Wahrscheinlichkeit P(A x): pbeta(x,alpha,beta) Wahrscheinlichkeit P(a A b): pbeta(b,alpha,beta) - pbeta(a,alpha,beta) Kapitel 6 Beispiel 6.3 und 6.4 (Arbeitslosigkeit und Flexibilität) Die Daten sind im tabgetrennten-file mit Namen wirtschaft.txt gespeichert. Die Messwerte von Flexi und Arbeit liegen in den Spalten. Einlesen der Daten: > daten <- read.table("wirtschaft.txt", header = T) Das Streudiagramm in Abb. 6.5 erzeugt man wie folgt: > plot(flexi, Arbeit) Der empirische Korrelationskoeffizient ρ emp nach Pearson berechnet sich mit > cor(flexi, Arbeit) [1] Beispiel 6.7 (Zeit zwischen starken Erdbeben) Die Daten sind im tab-getrennten File mit Namen warteohnenach.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname Zeit. Einlesen der Daten: > daten <- read.table("warteohnenach.txt", header=t) Streudiagramm (Abb. 6.9) der Daten: > plot(zeit); lines(zeit) Der Graph der Autokorrelationsfunktion (Abb. 6.10) berechnet sich mit: > acf(zeit) Kapitel 7 Beispiel 7.3 (Qualität eines Expertensystems) P(Messwert = 1 Daten) Um das Prognosemodell für den nächsten Messwert zu bestimmen, muss man eine MCMC-Kette des Posteriors von A haben. Dies geschieht wie in Kapitel 5 mit dem Bernoulli-Model und R-Stan. Zuerst wird das R-File mit dem codebernoulli eingelesen. Die Daten müssen dann eingelesen und strukturiert werden, damit Stan die MCMC-Simulation ausführen kann: 7
8 > daten <- list(x = c( rep(0,18),1,1 ), n = 20) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlägne von ): > library(rstan) > mcmckette <- stan(model_code=codebernoulli, data = daten, iter = 5000) Die MCMC-Kette zu A extrahieren und mit dem Bernoulli-Modell nächste Messewerte simulieren: > A <- extract(mcmckette)$a > N <- length(a) > naechstermesswert <- rbinom(n,1,a) Die Wahrscheinlichkeit eine Eins als nächsten Messwert zu haben, ist : > sum(naechstermesswert>0)/length(naechstermesswert) [1] Kapitel 9 Exponentialverteilung mit R Die Exponential-Verteilung mit Rate λ = 1/µ hat die Dichtefunktion pdf(x = x µ) = 1 exp( x/µ) µ für x 0 Mit R: Dichtefunktion: dexp(x,lambda) Quantil q: qexp(q,lambda) Wahrscheinlichkeit P(X x): pexp(x,lambda) Wahrscheinlichkeit P(a X b): pexp(b,lambda) - pexp(a,lambda) n Zufallszahlen nach Exp-Modell: rexp(n,lambda) Beispiel 9.1 (Zeit zwischen starken Erdbeben) Die Daten sind im tab-getrennten File mit Namen warteohnenach.txt gespeichert. Die Messwerte liegen in einer Spalte mit Variablennamen Zeit. Einlesen der Daten: > daten <- read.table( warteohnenach.txt, header = T) Streudiagramm (Abb. 9.1) der Daten: > plot(zeit); lines(zeit) 8
9 Der Graph der Autokorrelationsfunktion (Abb. 9.2) berechnet sich mit: > acf(zeit) Bestimmung des Posteriors von µ (der durchschnittliche zukünfitgen Wartezeit zwischen starken Erdbeben) aus den Daten und dem Exponential-Model mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codeexponential <- " data { int n; real<lower=0> x[n]; parameters { real<lower=0> mu; model { // Prior mu ~ gamma(1e-10,1e-10); " // Datenmodell for ( i in 1:n ) { x[i] ~ exponential(1/mu); Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( x = Zeit, n = length(zeit) ) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlägne von ): > mcmckette <- stan(model_code=codeexponential, data=daten, iter=25000) > print(mcmckette) Inference for Stan model: codeexponential. 4 chains, each with iter=25000; warmup=12500; thin=1; post-warmup draws per chain=12500, total post-warmup draws= mean % 25% 50% 75% 97.5% n_eff Rhat mu lp
10 Samples were drawn using NUTS(diag_e) at Thu Jun 4 14:08: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass die Verteilung von µ wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0.95 ist 356 µ 744. Darstellung der Abtastung und der Dichtefunktion wie in Abb. 9.4: > mu <- extract(mcmckette)$mu > split.screen(c(1,2)) > screen(1) > plot(mu, type="l") > screen(2) > hist(mu, prob=t, col="grey", border="white" ) > lines(density(mu), lwd=3) Berechnung des plausibelsten Wertes (Modus) von µ: > op <- optimizing(mcmckette@stanmodel, data=daten) > op $par mu $value [1] Der Modus µ 0 der Verteilung ist 479,67 Tage. Die Berechnung von Quantilen und Wahrscheinlichkeiten erfolgt mit: > quantile(mu, c( 0.025,0.25,0.5,0.75,0.975 ) ) 2.5% 25% 50% 75% 97.5% > sum(mu>600)/length(mu) [1] Mit einer Wahrscheinlichkeit von 0,50 liegt µ zwischen 444,6 und 571,9 Tagen. Die Wahrscheinlichkeit ist 0,18, dass µ grösser als 600 ist. Nun zum Prognosemodell für den nächsten Messwert: Die Monte-Carlo-Simulation für weitere Messwerte erfolgt mit dem Exponential-Modell: > N <- length(mu) > neumess <- rexp(n,1/mu) Darstellung des Prognosemodells wie in Abb. 9.6 durch: > hist( neumess, prob = T, col="grey", border="white" ) > lines( density(neumess), lwd = 3, col = "red" ) 10
11 Beispiel 9.3 (Zeit zwischen starken Erdbeben) Mit dem Prognosemodell für den nächsten Messwert kann man überprüfen, ob das Datenmodell (die Exponentialverteilung) sinnvoll ist. Dazu macht man den QQ-Plot (Abb. 9.8): > n <- length(zeit); > quantilemodell <- quantile( neumess, ppoints(n) ) > qqplot(quantilemodell, Zeit) > abline(a = 0, b = 1) > grid() Kapitel 10 Normalverteilung mit R Die Normalverteilung mit Modus µ und Standardabweichung σ hat die Dichtefunktion ( ) 2 1 x µ pdf(x = x µ, σ) = { 0.5 exp 2πσ 2 σ Mit R: Dichtefunktion: dnorm(x,mu, sigma) Quantil q: qnorm(q,mu, sigma) Wahrscheinlichkeit P(X x): pnorm(x, mu, sigma) Wahrscheinlichkeit P(a X b): pnorm(b, mu, sigma) - pnorm(a, mu, sigma) n Zufallszahlen: rnorm(n,mu, sigma) Beispiel 10.4 (Chloridgehalt) Die Daten sind im tabstoppgetrennten File mit Namen chlorid.txt gespeichert. Die Messwerte liegen in einer Spalte mit Variablennamen konz. Einlesen der Daten: > daten <- read.table("chlorid.txt", header = T) Streudiagramm (Abb. 10.7) der Daten: > plot(konz); lines(konz) Bestimmung des Posteriors für den Chloridgehalt Cl (um den die Messwerte streuen) aus den Daten und dem Normal-Model mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: 11
12 codenormal <- " data { int n; real x[n]; parameters { real Cl; real<lower=0> sigma; model { // Prior sigma ~ gamma(1e-10,1e-10); " // Datenmodell for ( i in 1:n ) { x[i] ~ normal( Cl, sigma ); Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( konz = konz, n = length(konz) ) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlägne von ): > library(rstan) > mcmckette <- stan(model_code=codenormal, data=daten, iter=25000) > print(mcmckette) Inference for Stan model: codenormal. 4 chains, each with iter=25000; warmup=12500; thin=1; post-warmup draws per chain=12500, total post-warmup draws= mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat Cl sigma lp Samples were drawn using NUTS(diag_e) at Fri Jun 5 15:19: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). 12
13 Man sieht, dass der Posterior von Cl wahrscheinlich vollständig abgetast ist (R_hat= 1). Mit einer Wahrscheinlichkeit von 0,95 ist 102,0 Cl 103,8. Darstellung der Abtastung und der Dichtefunktion wie in Abb : > Cl <- extract(mcmckette)$cl > split.screen(c(1,2)) > screen(1) > plot(cl, type="l") > screen(2) > hist( Cl, prob = T, col="grey", border="white" ) > lines(density(cl), lwd=3) Die Berechnung von Quantilen für Cl erfolgt mit: > quantile(cl, c( 0.025,0.25,0.5,0.75,0.975 ) ) 2.5% 25% 50% 75% 97.5% Darstellung der Abtastung und der Dichtefunktion der Streuung σ des Datenmodells wie in Abb : > sigma <- extract(mcmckette)$sigma > split.screen(c(1,2)) > screen(1) > plot(sigma, type="l") > screen(2) > hist( sigma, prob = T, col="grey", border="white" ) > lines(density(sigma), lwd=3) Berechnung der plausibelsten Werte von Cl und der Streuung σ: > op <- optimizing(mcmckette@stanmodel, data=daten) > op $par Cl sigma $value [1] Der plausibelste Wert für den Chloridgehalt Cl ist Modus Cl 0 = 102,8. Der wahrscheinlichste Wert für die Streuung ist σ 0 = 0,83. Nun zum Prognosemodell für den nächsten Messwert: Die Monte-Carlo-Simulation für weitere Messwerte erfolgt mit dem Normalverteilungs-Modell: > N <- length(cl) > neumess <- rnorm(n, Cl, sigma) 13
14 Darstellung des Prognosemodells wie in Abb durch: > hist( neumess, prob = T, ylim = c(0,0.4), col="grey", border="white" ) > lines( density(neumess), lwd=3, col="red" ) Mit dem Prognosemodell für den nächsten Messwert kann man überprüfen, ob das Datenmodell (die Normalverteilung) sinnvoll ist. Dazu macht man den QQ-Plot (Abb ): > n <- length(konz); > quantilemodell <- quantile( neumess, ppoints(n) ) > qqplot(quantilemodell, konz) > abline(a = 0, b = 1) > grid() (Student) t-verteilung mit R Die t-verteilung mit Modus µ, Skalierung a > 0 und Freiheitsgrad n > 0 hat die Dichtefunkton ( ) (n+1)/2 1 pdf(x = x µ, a, n) 1 + (1/n) (x µ) 2 /a 2 Mit R: Dichtefunktion: dt( (x-mu)/a, df = n ) * 1/a Quantil q: qt( q, df = n ) * a + mu Wahrscheinlichkeit P(X x): pt( (x-mu)/a, df = n ) Wahrsch. P(x 1 X x 2 ): pt((x2-mu)/a,df = n) - pt((x1-mu)/a,df = n) n Zufallszahlen: rt(1, df = n) * a + mu Ist µ = 0 und a = 1, so hat man die Standard - t-verteilung mit Modus null und Skalierung eins. Kapitel 11 Beispiel 11.6 (Unwetterschäden) Die Daten sind im tab-getrennten File mit Namen unwetter.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. Einlesen der Daten: > daten <- read.table("unwetter.txt", header=t) Streudiagramm (Abb.11.5) der Daten: > plot(schaden); lines(schaden) Der Grösse nach darstellen (Abb. 11.6): > stripchart(schaden, method="stack") 14
15 Beispiel 11.6 (Unwetterschäden) Die Daten sind im tab-getrennten File mit Namen unwetter.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. Einlesen der Daten: > daten <- read.table("unwetter.txt", header=t) Stamm-Blatt-Diagramm (Abb.11.9) der Daten: > stem(schaden, scale=2) Mit dem Attribut scale kann indirekt die Stammbreite gewählt werden. Beispiel (Nicht keimende Blumenzwiebeln) Die Daten sin im tab-getrennten File mit Namen blumenzwiebeln.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. File einlesen: > daten <- read.table("blumenzwiebeln.txt", header = T) Darstellen der Häufigkeitsverteilung mit einem Stabdiagramm (Abb ) geht wie folgt: > plot(table(anzahl),lwd=20) Die Zahl lwd=20 gibt die Stabdicke an. Beispiel (Bleigehalte in Weinen) Die Daten sind im tab-getrennten File mit Namen wein.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname Bleigehalt. File einlesen: > daten <- read.table("wein.txt", header = T) Darstellen der Häufigkeitsverteilung mit einem Histogramm (Abb ) geht wie folgt: > hist(bleigehalt,col="gray", border="white", nclass=20) Die Zahl nclass=20 ist optional ung gibt die Anzahl Klassen an. In der Regel sollte man diesen Parameter nicht selber bestimmen. Beispiel (Chloridgehalt) Die Daten zur Methode A (bzw. Methode B)sind im tab-getrennten File mit Namen chlorida.txt (bzw. chloridb.txt) gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname gehalta (bzw. gehaltb). Die Daten einlesen und Boxplot (Abb ) darstellen: 15
16 > datena <- read.table("chlorida.txt", header=t) > attach(datena) > datenb <- read.table("chloridb.txt", header=t) > attach(datenb) > boxplot( gehalta, gehaltb, names=c("methodea","methodeb") ) Zeichnen der Wahrscheinlichkeitsintervalle zum Niveau 0,95 für den Chloridgehalt (mit Modellannahme Normalverteilung der Messwerte): > a <- t.test(gehalta,conf.level=0.95)$conf > segments(1,a[1],1,a[2],lwd=15,col="gray") > b <- t.test(gehaltb,conf.level=0.95)$conf > segments(2,b[1],2,b[2],lwd=15,col="gray") Kapitel 12 Beispiel 12.1 (Unwetterschäden) Die Daten sind im tab-getrennten File mit Namen unwetter.txt gespeichert. Die Messwerte liegen in einer Spalte mit mit Variablenname schaden. Einlesen der Daten: > daten <- read.table("unwetter.txt", header=t) Balken-Diagramm (Abb.12.1) der Daten: > plot(1977:1997,schaden,type="h",lwd=10) Beispiel 12.5 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Das Streudiagramm gemäss Abb.12.8 ist: > plot(alter, AkkoMono) > grid() Falls Punkte aufeinanderliegenden, können sie wie folgt leicht versetzt werden: > plot(jitter(alter), jitter(akkomono)) 16
17 Beispiel 12.9 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Ein Kernel-Regresionsmodel gemäss Abb kann wie folgt berechnet und visualisiert werden: > model <- ksmooth(alter, AkkoMono, kernel="box", bandwidth=10) > plot(alter, AkkoMono) > lines(model, lwd=3) > grid() Dabei ist bandwidth zweimal die Bandbreite (hier als h = 5). Wählt man den Parameter kernel="normal", so werden Messpunkte am Rand stark weniger gewichtet als diejenigen in der Mitte. Es ensteht ein glattes Regressionmodell. Kapitel 13 Beispiel 13.1 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Bestimmung der Parameter des Regressionsmodells mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codeakko <- " data{ int n; real Alter[n]; real AkkoMono[n]; parameters { real a; real<upper=0> b; real<lower=0> sigma; // Achsenabschnitt Reg.Gerade // Steigung Reg.Gerade // Streuung model { 17
18 // Prior a ~ uniform(-100,100); b ~ uniform(-100,0); sigma ~ gamma(1e-10,1e-10); // Skalenparameter " // Datenmodell for (i in 1:n) { AkkoMono[i] ~ normal( a + b*alter[i], sigma); Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( Alter = Alter, AkkoMono = AkkoMono, n = length(alter) ) Nun erfolgt die MCMC-Simulation (hier Kette mit einer Gesamtlänge von ): > library(rstan) > mcmckette <- stan(model_code=codeakko, data=daten, iter=25000) > print(mcmckette) Inference for Stan model: 7a a2b0649ffd7111dc592b chains, each with iter=25000; warmup=12500; thin=1; post-warmup draws per chain=12500, total post-warmup draws= mean se_mean sd 2.5% 25% 50% 75% 97.5% n_eff Rhat a b sigma lp Samples were drawn using NUTS(diag_e) at Sun Feb 7 16:12: For each parameter, n_eff is a crude measure of effective sample size, and Rhat is the potential scale reduction factor on split chains (at convergence, Rhat=1). Man sieht, dass die Posterior für die Parameter a, b und σ wahrscheinlich vollständig abgetast sind (R_hat= 1). Mit einer Wahrscheinlichkeit von 0,95 ist 11,9 a 16,4. Darstellung der Abtastung und der Dichtefunktion wie in Abb für die Plausibilität zum Parameter a: > a <- extract(mcmckette)$a > split.screen(c(1,2)) > screen(1) > plot(a, type="l") > screen(2) 18
19 > hist(a, prob = T, col="grey", border="white") > lines(density(a), lwd=3) Darstellung der Abtastung und der Dichtefunktion des Parameters b wie in Abb. 13.3: > b <- extract(mcmckette)$b > split.screen(c(1,2)) > screen(1) > plot(b, type="l") > screen(2) > hist(b, prob = T, col="grey", border="white") > lines(density(b), lwd=3) Der plausibelste Wert a 0 für den Parameter a ist a 0 = 14,16, für b ist der plausibelste Wert b 0 = 0,28. Plotten der Daten und des Regressionsmodells wie in Abb. 13.7: > plot(alter, AkkoMono) > abline(a=14.16, b=-0.28, lwd=3) > grid() Nun zum Prognosemodell für den nächsten Messwert, z.b. für das Alter von 35 Jahren: > a <- extract(mcmckette)$a > b <- extract(mcmckette)$b > sigma <- extract(mcmckette)$sigma > N <- length(a) > AkkoNeu35 <- rnorm(n,mean=a+b*35,sd=sigma) Darstellung des Prognosemodells wie in Abb durch: > hist( AkkoNeu35, prob = T, col="grey", border="white") > lines( density(akkoneu35), lwd=3, col ="red" ) Um die finale Darstellung des Prognosemodells und des Regressionsmodells wie in Abb zu erhalten, geht man wie folgt vor. Zuerst müssen wir uns entscheiden, für welche Alter wir die Bänder zeichnen wollen und anschliessend das Prognosemodell berechnen: > AlterNeu <- seq(20,50,by=2.5) > NBand <- length(alterneu) > AkkoNeu <- matrix(nrow=nband, ncol =N) > for (i in 1:NBand) AkkoNeu[i,] <- rnorm(n,mean=a+b*alterneu[i],sd=sigma) Zeichnen der Daten und des Regressionsmodells mit den plausibelsten Werten für die Parameter und der Prognosebänder: > plot(alter, AkkoMono) > abline(a=14.16, b=-0.28, lwd=3) 19
20 > grid() > q975 <- apply(akkoneu, 1, quantile, 0.975) > q025 <- apply(akkoneu, 1, quantile, 0.025) > segments(alterneu, q025, AlterNeu, q975, lwd=5, col="green") > q75 <- apply(akkoneu, 1, quantile, 0.75) > q25 <- apply(akkoneu, 1, quantile, 0.25) > segments(alterneu, q25, AlterNeu, q75, lwd=5, col="blue") > points(alter, AkkoMono) Beispiel 13.2 (Ausspülen von Milch) Die Daten sind im tab-getrennten File mit Namen milchdaten.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname v und M. Einlesen der Daten: > daten <- read.table("milchdaten.txt", header=t) Bestimmung der Parameter des Regressionsmodells mit R-Stan. Zuerst wird in einem R-File das Modell eingegeben und eingelesen: codemilch <- " data { int n; real v[n]; real M[n]; parameters { real<lower=0,upper=10> A; real<lower=0,upper=10> c; real<lower=0> sigma; model { // Prior A ~ uniform(0,10); c ~ uniform(0,10); sigma ~ gamma(1e-10,1e-10); " // Datenmodell for (i in 1:n) { M[i] ~ normal( A*( 1 - exp(- c*v[i]) ), sigma); 20
21 Die Daten müssen nun eingelesen und strukturiert werden, damit Stan die MCMC- Simulation ausführen kann: > daten <- list( v = v, M = M, n = length(v) ) Nun erfolgt die MCMC-Simulation wie beim obigen Beispiel. Analog berechnen sich Prognosebänder für das Modell. Beispiel 13.3 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Bestimmung der Parameter des linearen Regressionsmodells (also linear in den Parametern) mit der Methode der kleinsten Quadrate: > model <- lm( AkkoMono ~ Alter, data = daten) > model Call: lm(formula = AkkoMono ~ Alter, data = daten) Coefficients: (Intercept) Alter Berechnung von Wahrscheinlichkeitsintervallen für die Parameter des Regressionsmodells zum Niveau 0,95: > confint(model,level=0.95) 2.5 % 97.5 % (Intercept) Alter Berechnung eines Prognoseintervalls zum Niveau 0,95 für die beiden Alter 30 Jahre und 40 Jahre: > AlterNeu = data.frame(alter=c(30,40)) > predict(model,alterneu,interval="prediction",level=0.95) fit lwr upr Mehr dazu findet man unter dem Befehl?lm. Insbesondere sieht man aus dieser Hilfe, wie man kompliziertere lineare Regressionsmodell (Stichwort formula ) eingeben kann. 21
22 Beispiel 13.5 (Akkommodationsbreite) Die Daten sind im tab-getrennten File mit Namen MonoSehen.txt gespeichert. Die Messwerte liegen in zwei Spalten mit mit Variablenname Alter und AkkoMono. Einlesen der Daten: > daten <- read.table("monosehen.txt", header=t) Nachdem die plausibelsten Werte a 0 und b 0 des Regressionsmodells berechnet sind, lassen sich die Residuen und die Abb wie folgt bestimmen: > residuen <- AkkoMono - ( *Alter) > plot(residuen); lines(residuen) > acf(residuen) 22
Eine Einführung in R: Dichten und Verteilungsfunktionen
Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/
MehrEine Einführung in R: Dichten und Verteilungsfunktionen
Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 25. November 2009 Bernd
MehrEine Einführung in R: Dichten und Verteilungsfunktionen
Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.uni-leipzig.de/
MehrR Befehle SS min(x) Bestimmt das Minimum von x Bestimmt die Anzahl der sum(x<=4) Werte von x, die kleiner oder max(x) Bestimmt das Maximum von x
I. Grundlagen: Datenverwaltung, grundlegende Operationen: - Speichern von Objekten:
MehrStatistikpraktikum. Carsten Rezny. Sommersemester Institut für angewandte Mathematik Universität Bonn
Statistikpraktikum Carsten Rezny Institut für angewandte Mathematik Universität Bonn Sommersemester 2014 Mehrdimensionale Datensätze: Multivariate Statistik Multivariate Statistik Mehrdimensionale Datensätze:
MehrMusterlösung zu Serie 1
Prof. Dr. W. Stahel Regression HS 2015 Musterlösung zu Serie 1 1. a) > d.bv plot(blei ~ verkehr, data = d.bv, main
MehrKlausur Statistik Lösungshinweise
Klausur Statistik Lösungshinweise Prüfungsdatum: 13. Januar 2017 Prüfer: Etschberger, Jansen, Ivanov, Wins Studiengang: IM, BW, Inf und W-Inf Punkte: 21, 18, 12, 12, 11, 16 ; Summe der Punkte: 90 Aufgabe
MehrStetige Verteilungen. A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch
6 Stetige Verteilungen 1 Kapitel 6: Stetige Verteilungen A: Beispiele Beispiel 1: a) In den folgenden Abbildungen sind die Dichtefunktionen von drei bekannten Verteilungen graphisch dargestellt. 0.2 6
MehrStatistische Datenanalyse mit R, Korrelation und Regression. Dr. Andrea Denecke Leibniz Universität IT-Services
Statistische Datenanalyse mit R, Korrelation und Regression Dr. Andrea Denecke Leibniz Universität IT-Services Korrelationsanalyse Eine Korrelationsanalyse soll herausfinden Ob ein linearer Zusammenhang
MehrI. Deskriptive Statistik 1
I. Deskriptive Statistik 1 1. Einführung 3 1.1. Grundgesamtheit und Stichprobe.................. 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................
MehrW-Rechnung und Statistik für Ingenieure Übung 8
W-Rechnung und Statistik für Ingenieure Übung 8 Aufgabe 1 : Motivation Anhand von Daten soll eine Aussage über die voraussichtliche Verteilung zukünftiger Daten gemacht werden, z.b. die Wahrscheinlichkeit
MehrUE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe
UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe 1 Aufgabe UE-II.1 Generieren Sie je 1000 Stichproben (samples) mit Umfang 5/30/100/500 für die Normalverteilung N(µ, σ 2 ) = N(4,
MehrBiostatistik 101 Korrelation - Regressionsanalysen
Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander
MehrKapitel VI - Lage- und Streuungsparameter
Universität Karlsruhe (TH) Institut für Statistik und Mathematische Wirtschaftstheorie Wahrscheinlichkeitstheorie Kapitel VI - Lage- und Streuungsparameter Markus Höchstötter Lehrstuhl für Statistik, Ökonometrie
MehrLineare Regression in R, Teil 1
Lineare Regression in R, Teil 1 Christian Kleiber Abt. Quantitative Methoden, WWZ, Universität Basel October 6, 2009 1 Vorbereitungen Zur Illustration betrachten wir wieder den Datensatz CASchools aus
MehrInhalt. I. Deskriptive Statistik Einführung Die Grundgesamtheit Merkmale und Verteilungen Tabellen und Grafiken...
I. Deskriptive Statistik 1 1. Einführung 3 1.1. Die Grundgesamtheit......................... 5 1.2. Merkmale und Verteilungen..................... 6 1.3. Tabellen und Grafiken........................ 10
Mehr1. Übungsblatt zu Wahrscheinlichkeitsrechnung und Statistik in den Ingenieurswissenschaften
1. Übungsblatt zu Aufgabe 1: In R können die Logarithmen zu verschiedenen Basen mit der Funktion log berechnet werden, wobei im Argument base die Basis festgelegt wird. Plotten Sie die Logarithmusfunktion
MehrWahrscheinlichkeit und die Normalverteilung. Jonathan Harrington
Wahrscheinlichkeit und die Normalverteilung Jonathan Harrington Der Populations-Mittelwert 100 Stück Papier nummeriert 0, 1, 2, 99 Ich ziehe 10 davon und berechne den Mittelwert. Was ist der Mittelwert
MehrÜbersicht Statistik-Funktionen. Statistische Software (R) Nützliche Funktionen. Nützliche Funktionen
Übersicht Statistik-Funktionen Statistische Software (R) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten, Verteilungsfunktionen, etc. Funktion
MehrW-Rechnung und Statistik für Ingenieure Übung 13
W-Rechnung und Statistik für Ingenieure Übung 13 Nächste Woche: Probeklausur Bringen Sie sich ein leeres Exemplar der Probeklausur mit, um sich eine Musterlösung zu erstellen. Aufgabe 1 : Testproblem Testproblem:
Mehr7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien
Statistik 7.1 Korrelationsanalyse Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien Sommersemester 2012 7 Regressions- und Korrelationsanalyse Kovarianz Pearson-Korrelation Der (lineare)
MehrAufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)
Vorbereitungen Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS) Falls das R - Paket car noch nicht installiert wurde, kann dies mit der Funktion install.packages() erledigt werden. install.packages("car")
MehrEinführung in die Ökonometrie
Einführung in die Ökonometrie Das Programmpaket R Installierung und Pakete R als Taschenrechner Laden von Datensätzen und Einlesen von Daten Hilfe und Dokumentation Einfaches Datenmanagement Univariate
MehrEinführung Teil I: Erste Schritte bei der statistischen Analyse mit R... 25
O:/Wiley/Reihe_Dummies/71398_Schmuller/3d/ftoc.3d from 26.06.2017 16:16:30 Auf einen Blick Über den Autor.... 9 Einführung... 21 Teil I: Erste Schritte bei der statistischen Analyse mit R.... 25 Kapitel
MehrPhilipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler
Philipp Sibbertsen Hartmut Lehne Statistik Einführung für Wirtschafts- und Sozialwissenschaftler 2., überarbeitete Auflage 4^ Springer Gabler Inhaltsverzeichnis Teil I Deskriptive Statistik 1 Einführung
MehrStatistische Methoden in den Umweltwissenschaften
Statistische Methoden in den Umweltwissenschaften Stetige und diskrete Wahrscheinlichkeitsverteilungen Lageparameter Streuungsparameter Diskrete und stetige Zufallsvariablen Eine Variable (oder Merkmal
MehrStatistik II für Betriebswirte Vorlesung 8
Statistik II für Betriebswirte Vorlesung 8 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 3. Dezember 2018 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 8 Version:
MehrMessung von Rendite und Risiko. Finanzwirtschaft I 5. Semester
Messung von Rendite und Risiko Finanzwirtschaft I 5. Semester 1 Messung von Renditen Ergebnis der Anwendung der Internen Zinsfuß- Methode ist die Rentabilität des Projekts. Beispiel: A0-100.000 ZÜ1 54.000
MehrInhaltsverzeichnis. Über die Autoren Einleitung... 21
Inhaltsverzeichnis Über die Autoren.... 7 Einleitung... 21 Über dieses Buch... 21 Was Sie nicht lesen müssen... 22 Törichte Annahmen über den Leser... 22 Wie dieses Buch aufgebaut ist... 23 Symbole, die
MehrStatistik für Betriebswirte I 1. Klausur Wintersemester 2014/
Statistik für Betriebswirte I 1. Klausur Wintersemester 2014/2015 13.02.2015 BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN Nachname:................................................................... Vorname:....................................................................
MehrZufallsvariablen. f(x) dx = 1. Die stetige Zufallsvariable X wird also durch seine Dichtefunktion beschrieben. P(c < X < d) =
Diskrete Sei X stetig auf (a,b), wobei a, b unendlich sein können, a x 0 < x 1 b P(X = x 0 ) = 0, P(x 0 < X < x 1 ) > 0 (wenn f > 0). Die Funktion f heißt Dichtefunktion (von X) falls: 1. f(x) 0, a < x
MehrAngewandte Statistik mit R
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 2., überarbeitete Auflage B 374545 GABLER Inhaltsverzeichnis Vorwort zur zweiten Auflage Tabellenverzeichnis
MehrMusterlösung zu Serie 14
Dr. Lukas Meier Statistik und Wahrscheinlichkeitsrechnung FS 21 Musterlösung zu Serie 14 1. Der Datensatz von Forbes zeigt Messungen von Siedepunkt (in F) und Luftdruck (in inches of mercury) an verschiedenen
MehrÜbersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R) artihmetische Mittel median() mean()
Übersicht deskriptiver Maße & anderer nützlicher Funktionen Statistische Software (R) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten, Verteilungsfunktionen,
MehrZufallsauswahl mit R
Zufallsauswahl mit R Wie in der Vorlesung erwähnt, werden Zufallsstichproben mit Hilfe eines Computers erzeugt. In R kann der Befehl sample() verwendet werden, um aus einer Grundgesamtheit zufällige Elemente
MehrAngewandte Statistik mit R. Eine Einführung für Ökonomen und
Reiner Hellbrück Angewandte Statistik mit R Eine Einführung für Ökonomen und Sozialwissenschaftler 3. Auflage Springer Gabler Inhaltsverzeichnis Vorwort zur dritten Auflage Vorwort zur ersten Auflage Vorwort
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
MehrZusammenstellung der Befehle in R
C. Fesl: Übungen zur Angewandten Statistik Befehle in R 1 Zusammenstellung der Befehle in R Im folgenden wird der Programmcode immer in dieser Schrift angegeben. Wenn nicht anders angegeben, bezeichnet
MehrStichwortverzeichnis. Symbole
Stichwortverzeichnis Symbole 50ste Perzentil 119 A Absichern, Ergebnisse 203 Abzählbar unendliche Zufallsvariable 146 Alternativhypothese 237 238 formulieren 248 Anekdote 340 Annäherung 171, 191 Antwortquote
MehrPVK Statistik Tag Carlos Mora
PVK Statistik Tag 2 11.1.2012 Block 4 Block 3 Übersicht 11.1.2012 09:00 6. Zwei-Stichproben-Tests für stetige Verteilungen (2.Teil) Übung 2C 1h inkl. Pause 7. Lineare Regression 12:00 Übung 3 Mittag 13:00
Mehr6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen
6. Stochastische Modelle II: Stetige Wahrscheinlichkeitsverteilungen, insbesondere Normalverteilungen Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012 Bisher: Diskrete Zufallsvariablen,
MehrDeskription, Statistische Testverfahren und Regression. Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik Deskriptive Statistik: beschreibende Statistik, empirische
MehrBayessche Lineare Regression
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Baessche Lineare Regression Niels Landwehr Überblick Baessche Lernproblemstellung. Einführendes Beispiel: Münzwurfexperimente.
MehrLineare Regression Mietpreis-Beispiel
Lineare Regression Mietpreis-Beispiel Institut für Angewandte Statistik und EDV, Universität für Bodenkultur Wien http://www.rali.boku.ac.at/statedv.html Die aktuelle Version dieses Dokuments finden Sie
MehrMultivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
MehrStatistik I für Betriebswirte Vorlesung 14
Statistik I für Betriebswirte Vorlesung 14 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 13. Juli 017 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 14 Version: 8. Juli
MehrMarcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign
Marcel Dettling Institut für Datenanalyse und Prozessdesign Zürcher Hochschule für Angewandte Wissenschaften marcel.dettling@zhaw.ch http://stat.ethz.ch/~dettling Winterthur, 10. Mai 017 1 Zufallsvariablen:
MehrWahrscheinlichkeit und die Normalverteilung. Jonathan Harrington
Wahrscheinlichkeit und die Normalverteilung Jonathan Harrington Der Bevölkerungs-Mittelwert 99 Stück Papier nummeriert 0, 1, 2, 99 Ich ziehe 10 davon und berechne den Mittelwert. Was ist der Mittelwert
MehrKapitel 2 Wahrscheinlichkeitsrechnung
Definition 2.77: Normalverteilung & Standardnormalverteilung Es sei µ R und 0 < σ 2 R. Besitzt eine stetige Zufallsvariable X die Dichte f(x) = 1 2 πσ 2 e 1 2 ( x µ σ ) 2, x R, so heißt X normalverteilt
MehrHausaufgabe Modellierung und Simulation 1
Hausaufgabe Modellierung und Simulation 1 Die Pareto Verteilung Die Pareto-Verteilung ist eine stetige Wahrscheinlichkeitsverteilung in einem rechtsseitig unendlichen Intervall zwischen x min und. Die
MehrWahrscheinlichkeit und die Normalverteilung. Jonathan Harrington
Wahrscheinlichkeit und die Normalverteilung Jonathan Harrington Der Bevölkerungs-Mittelwert 99 Stück Papier nummeriert 0, 1, 2, 99 Ich ziehe 10 davon und berechne den Mittelwert. Was ist der Mittelwert
MehrStatistische Software (R)
Statistische Software (R) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Verteilungen und Zufallszahlen Übersicht Statistik-Funktionen Funktion mean() median() exp(mean(log(
MehrTrim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, :34 P.M. Page 11. Über die Übersetzerin 9. Einleitung 19
Trim Size: 176mm x 240mm Lipow ftoc.tex V1 - March 9, 2016 6:34 P.M. Page 11 Inhaltsverzeichnis Über die Übersetzerin 9 Einleitung 19 Was Sie hier finden werden 19 Wie dieses Arbeitsbuch aufgebaut ist
MehrStatistische Software (R)
Statistische Software (R) Paul Fink, M.Sc., Eva Endres, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Verteilungen und Zufallszahlen Übersicht Statistik-Funktionen Funktion mean()
MehrEinführung in die Angewandte Bioinformatik: Datenanalyse mit R
Einführung in die Angewandte Bioinformatik: Datenanalyse mit R 20.05.2010 Prof. Dr. Sven Rahmann 1 Funktionsaufruf mit benannten Parametern Es ist Konvention, einer Funktion erst die nötigen Daten zu übergeben;
MehrStatistics, Data Analysis, and Simulation SS 2015
Mainz, May 12, 2015 Statistics, Data Analysis, and Simulation SS 2015 08.128.730 Statistik, Datenanalyse und Simulation Dr. Michael O. Distler Dr. Michael O. Distler
Mehr10. Statistische Verteilungen
10. Statistische Verteilungen Übung Röntgenpraxis XVI Die Patienten der Röntgenpraxis unterscheiden sich durch unterschiedliche Fitness. Daher benötigen die MTRA unterschiedliche Zeiten, um die Patienten
MehrANGEWANDTE STATISTIK II Prüfungstermin Name:
Die Beantwortung der Rechenaufgaben hat zusätzlich zu den numerischen Ergebnissen zu beinhalten: - Feststellung des Problemtyps, Angabe der Lösungsmethode; - bei den Testverfahren: Hypothesen, P-Wert,
MehrBinomialverteilung Vertrauensbereich für den Anteil
Übungen mit dem Applet Binomialverteilung Vertrauensbereich für den Anteil Binomialverteilung Vertrauensbereich für den Anteil 1. Statistischer Hintergrund und Darstellung.... Wie entsteht der Vertrauensbereich?...
MehrTeil XI. Hypothesentests für zwei Stichproben. Woche 9: Hypothesentests für zwei Stichproben. Lernziele. Beispiel: Monoaminooxidase und Schizophrenie
Woche 9: Hypothesentests für zwei Stichproben Patric Müller Teil XI Hypothesentests für zwei Stichproben ETHZ WBL 17/19, 26.06.2017 Wahrscheinlichkeit und Statistik Patric
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten von Prof. Dr. Rainer Schlittgen Universität Hamburg 12., korrigierte Auflage Oldenbourg Verlag München Inhaltsverzeichnis 1 Statistische Daten
MehrKlausur Statistik Lösungshinweise
Klausur Statistik Lösungshinweise Prüfungsdatum: 21. Januar 2016 Prüfer: Etschberger, Heiden, Jansen Studiengang: IM und BW Punkte: 15, 15, 12, 14, 16, 18 ; Summe der Punkte: 90 Aufgabe 1 15 Punkte Bei
MehrEin metrisches Merkmal
Kapitel 4 Ein metrisches Merkmal 4.1 Wie kann man ein metrisches Merkmal numerisch beschreiben? Häufigkeitstabellen erzeugt man mit table. Das arithmetische Mittel und den Median berechnet man mit mean
MehrFranz Kronthaler. Statistik angewandt. Datenanalyse ist (k)eine Kunst. mit dem R Commander. A Springer Spektrum
Franz Kronthaler Statistik angewandt Datenanalyse ist (k)eine Kunst mit dem R Commander A Springer Spektrum Inhaltsverzeichnis Teil I Basiswissen und Werkzeuge, um Statistik anzuwenden 1 Statistik ist
MehrBiostatistik 101 Korrelation - Regressionsanalysen
Good Data don't need statistics Biostatistik 101 Korrelation - Regressionsanalysen Carl Herrmann IPMB Uni Heidelberg & DKFZ B080 carl.herrmann@uni-heidelberg.de Korrelation Sind Alter und Blutdruck miteinander
MehrSie wissen noch, dass 18.99% der Surfer, die kein Smartphone haben, pro Monat weniger als 20 Stunden das Internet nutzen, d.h. f(y 1 X 2 ) =
Aufgabe 1 In einer Umfrage wird der Besitz eines Smartphones (Merkmal X) und die Nutzungsdauer des Internets pro Monat (Merkmal Y ) untersucht. Merkmal X hat zwei Ausprägungen: X 1 : Besitz und X 2 : Nichtbesitz.
MehrEinführung in die Statistik
Einführung in die Statistik Analyse und Modellierung von Daten Von Prof. Dr. Rainer Schlittgen 4., überarbeitete und erweiterte Auflage Fachbereich Materialwissenschaft! der Techn. Hochschule Darmstadt
MehrStichwortverzeichnis. Chi-Quadrat-Verteilung 183, 186, 189, 202 ff., 207 ff., 211 Testen von Zufallszahlen 294 Cărtărescu, Mircea 319
Stichwortverzeichnis A Ableitung partielle 230 absolute Häufigkeit 47 Abweichungen systematische 38, 216, 219 zufällige 216, 218, 220, 222 Algorithmus average case 303 Las Vegas 300 Monte Carlo 300 randomisierter
MehrHochschule Darmstadt FB Mathematik und Naturwissenschaften. Statistik. für Wirtschaftsingenieure (B.Sc.) Sommersemester 2017
für Wirtschaftsingenieure (B.Sc.) Sommersemester 017 Dr. rer. nat. habil. E-mail: adam-georg.balogh@h-da.de 1 Hochschule Darmstadt, Fachbereich MN Sommersemester 017 Testklausur zur Vorlesung Wirtschaftsstatistik
MehrInhaltsverzeichnis. Vorwort. Abbildungsverzeichnis. Tabellenverzeichnis. 1 Einleitung Gegenstand Aufbau 4
Inhaltsverzeichnis Vorwort Abbildungsverzeichnis Tabellenverzeichnis v xv xvii 1 Einleitung 1 1.1 Gegenstand 1 1.2 Aufbau 4 2 Datenerhebung - ganz praktisch 7 2.1 Einleitung 7 2.2 Erhebungsplan 7 2.2.1
MehrPrüfung aus Statistik 2 für SoziologInnen
Prüfung aus Statistik 2 für SoziologInnen 11. Oktober 2013 Gesamtpunktezahl =80 Name in Blockbuchstaben: Matrikelnummer: Wissenstest (maximal 16 Punkte) Kreuzen ( ) Sie die jeweils richtige Antwort an.
Mehrlibrary(lattice) nex = read.table(file.path(pfadu, "normexample.txt")) source(file.path(pfadu, "lattice.normal.r"))
library(lattice) nex = read.table(file.path(pfadu, "normexample.txt")) source(file.path(pfadu, "lattice.normal.r")) 1. Der Populationsmittelwert Erstes Beispiel 100 Stück Papier nummeriert 0, 1, 2, 99
MehrTeil VII. Deskriptive Statistik. Woche 5: Deskriptive Statistik. Arbeitsschritte der Datenanalyse. Lernziele
Woche 5: Deskriptive Statistik Teil VII Patric Müller Deskriptive Statistik ETHZ WBL 17/19, 22.05.2017 Wahrscheinlichkeit und Statistik Patric Müller WBL 2017 Wahrscheinlichkeit
MehrStatistik für Ingenieure und Naturwissenschaftler
Sheldon M. Ross Statistik für Ingenieure und Naturwissenschaftler 3. Auflage Aus dem Amerikanischen übersetzt von Carsten Heinisch ELSEVIER SPEKTRUM AKADEMISCHER VERLAG Spektrum Inhalt Vorwort zur dritten
MehrGrafiken. Session 4. > plot(x,y, xlab=, ylab= sin(x), main= Steps, Type 2, type= S )
Grafiken Session 4 1 Grundlegendes Bei der Analse von Daten sind Grafiken ein wichtiges Werkzeug. Viele Eigenschaften von Datensamples ((Auto)-Korrelationen, nicht lineare Zusammenhänge, mögliche Verteilungen,...
MehrWillkommen zur Vorlesung Statistik (Master)
Willkommen zur Vorlesung Statistik (Master) Thema dieser Vorlesung: Verteilungen stetiger Zufallsvariablen Prof. Dr. Wolfgang Ludwig-Mayerhofer Universität Siegen Philosophische Fakultät, Seminar für Sozialwissenschaften
MehrÜberblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression
Überblic Grundonepte des Bayes schen Lernens Wahrscheinlichstes Modell gegeben Daten Münwürfe Lineare Regression Logistische Regression Bayes sche Vorhersage Münwürfe Lineare Regression 14 Modell für Münwürfe
MehrPrüfungstermin aus Angewandter Statistik (WS 2012/13) Name:
1. In einem als Paarvergleich geplanten Experiment wurden an 7 Probanden zeitlich hintereinander eine Testformulierung (A) und (nach einer ausreichend langen Wash-out-Periode) eine Kontrolle (K) verabreicht.
MehrLineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)
Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS) Es soll untersucht werden, ob und wie sich Rauchen während der Schwangerschaft auf den Gesundheitszustand des Neugeborenen auswirkt. Hierzu werden
MehrStoffverteilungsplan Mathematik Leistungskurs. Lambacher Schweizer Stochastik ISBN Klassenarbeit
Lambacher Schweizer Q3.1 Grundlegende Begriffe der Grundlagen der Wahrscheinlichkeitstheorie: Beschreiben von Zufallsexperimenten (Laplace-Experimente) unter Verwendung der Begriffe Ergebnis, Ergebnismenge,
MehrAnleitung zum Applet
Anleitung zum Applet Wahrscheinlichkeitsnetz bearbeitet von: WS 2006/2007 E/TI-7, betreut von: Prof. Dr. Wilhelm Kleppmann Inhaltsverzeichnis Anleitung zum Applet... 1 1 Vorwort... 3 2 Grafische Benutzeroberfläche
Mehr11. Übungsblatt zur Vorlesung Ökonometrie SS 2014
Universität des Saarlandes Lehrstab Statistik Dr. Martin Becker Dipl.-Kfm. Andreas Recktenwald 11. Übungsblatt zur Vorlesung Ökonometrie SS 2014 Aufgabe 45 Die in Aufgabe 43 getroffene Annahme heteroskedastischer
MehrLösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016
ETH Zürich D-USYS Institut für Agrarwissenschaften Lösungen zur Prüfung Angewandte Statistische Methoden in den Nutzierwissenschaften FS 2016 Peter von Rohr Datum 30. Mai 2016 Beginn 08:00 Uhr Ende 08:45
MehrStatistik für Ökonomen
Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS 2., überarbeitete Auflage 4ü Springer Gabler Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R '! 3 1.1 Installieren
MehrMehrere metrische Merkmale
Kapitel 5 Mehrere metrische Merkmale 5.1 Wie kann man zwei metrische Merkmale grafisch beschreiben? Ein Streudiagram von zwei metrischen Merkmalen erzeugt man mit der Funktion plot mit den Beobachtungen
MehrÜbersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean()
Übersicht deskriptiver Maße & anderer nützlicher Funktionen Statistische Software (R-Vertiefung) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten,
MehrBachelorprüfung: Statistik (1 Stunde)
Prof. H.R. Künsch D-BIOL, D-CHAB Winter 2010 Bachelorprüfung: Statistik (1 Stunde) Bemerkungen: Es sind alle mitgebrachten schriftlichen Hilfsmittel und der Taschenrechner erlaubt. Natels sind auszuschalten!
MehrEine Einführung in R: Deskriptive Statistiken und Graphiken
Eine Einführung in R: Deskriptive Statistiken und Graphiken Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 27. Oktober 2011 Bernd
MehrArbeitsbuch zur deskriptiven und induktiven Statistik
Helge Toutenburg Michael Schomaker Malte Wißmann Christian Heumann Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage 4ü Springer Inhaltsverzeichnis 1. Grundlagen
Mehr5. Spezielle stetige Verteilungen
5. Spezielle stetige Verteilungen 5.1 Stetige Gleichverteilung Eine Zufallsvariable X folgt einer stetigen Gleichverteilung mit den Parametern a und b, wenn für die Dichtefunktion von X gilt: f x = 1 für
MehrStatistik für Ökonomen
Wolfgang Kohn Riza Öztürk Statistik für Ökonomen Datenanalyse mit R und SPSS tfü. Springer Inhaltsverzeichnis Teil I Einführung 1 Kleine Einführung in R 3 1.1 Installieren und Starten von R 3 1.2 R-Befehle
MehrFit for Abi & Study Stochastik
Fit for Abi & Study Stochastik Prof. Dr. Tilla Schade Hochschule Harz 15. und 16. April 2014 No. 1 Stochastik besteht aus: Wahrscheinlichkeitsrechnung Statistik No. 2 Gliederung Grundlagen Zufallsgrößen
MehrStatistik für Naturwissenschaftler Woche 11-13: Regression basics (mit R Unterstützung)
Woche 11-13: Regression basics (mit R Unterstützung) Ass.-Prof. Dr. Fachbereich Mathematik Universität Salzburg www.trutschnig.net Salzburg, Juni 2015 y Motivation + eindimensionale lineare Regression
MehrKenngrößen von Zufallsvariablen
Kenngrößen von Zufallsvariablen Die Wahrscheinlichkeitsverteilung kann durch die sogenannten Kenngrößen beschrieben werden, sie charakterisieren sozusagen die Verteilung. Der Erwartungswert Der Erwartungswert
MehrÜbersicht deskriptiver Maße & anderer. Nützliche Funktionen. Statistische Software (R-Vertiefung) artihmetische Mittel median() mean()
Übersicht deskriptiver Maße & anderer nützlicher Funktionen Statistische Software (R-Vertiefung) Paul Fink, M.Sc. Institut für Statistik Ludwig-Maximilians-Universität München Pseudo Zufallszahlen, Dichten,
Mehr