Variablen Selektion beste Volles Modell
|
|
|
- Hilko Heinrich
- vor 8 Jahren
- Abrufe
Transkript
1 Variablen Selektion Wähle das beste Modell aus einer Klasse von MLR s. Volles Modell enthält alle m möglicherweise erklärenden Größen (Prädiktoren) Suche nach dem besten Modell, das nur eine Teilmenge dieser Prädiktoren enthält. Zwei Aspekte hierbei sind: 1. evaluiere jedes dieser betrachteten Modelle, 2. entscheide, welche Untermenge von Prädiktoren die beste ist. 1
2 Kriterien zur Evaluierung: Adjustiertes R 2 : Bestimmtheitsmaß ist definiert als Anteil der totalen Stichprobenvarianz in den y, der durch das Regressionsmodell erklärt ist: R 2 = SSR SST = 1 SSE SST Nimmt man weitere irrelevante Prädiktoren ins Modell auf, so hat dies oft an Anwachsen von R 2 zur Folge. Um dies zu kompensieren, definiert man R 2 adj = 1 SSE/(n p) SST/(n 1), wobei p die Anzahl der Parameter im betrachteten Modell bezeichnet. 2
3 Wir zeigen, dass die Hinzunahme eines Prädiktors nur dann zu einem größeren Radj 2 führt, wenn die korrespondierende partielle F -Test Statistik größer als 1 ist. Betrachte ein Modell mit p 1 Prädiktoren (µ = X 1 β 1 ) und gib eine weitere erklärende Variable dazu (µ = Xβ, X = (X 1 x new ), β = (β t 1, β new ) t ). So gilt R 2 adj ( ˆβ 1 ) = 1 SSE( ˆβ 1 )/(n (p 1)) SST/(n 1) ( SSE( ˆβ 1 ) SSE( ˆβ) ) /1 SSE( ˆβ)/(n p) < R 2 adj ( ˆβ) = 1 SSE( ˆβ)/(n p) SST/(n 1) SSE( ˆβ 1 )/(n p + 1) > SSE( ˆβ)/(n p) SSE( ˆβ 1 ) > n p + 1 SSE( ˆβ) n p ( = ) SSE( n p ˆβ) = F 1,n p > 1. 3
4 Oft ist es Praxis, jenen Satz an Prädiktoren zu wählen, der den größten Wert von R 2 adj generiert. Aber R2 adj ist maximal für minimales S2 = SSE/(n p). Wir können zeigen, dass dies zu Problem des Overfitting führt. AIC, Akaike s Informationskriterium: Bewertet die Balance zwischen hoher Anpassungsgüte und geringer Modellkomplexität. AIC ist derart definiert, dass je kleiner der Wert von AIC desto besser das Modell. In diesem Sinn ist ein Maß für die Anpassungsgüte die negative Likelihood zum Modell, während p ein Maß für die Modellkomplexität ist. Wir definieren somit AIC = 2 [ log L( ˆβ, ] ˆσ 2, y) + (p + 1), da sowohl β als auch σ 2 im Modell geschätzt werden. 4
5 Zur Erinnerung ist das Minimum der Log-Likelihood Funktion log L( ˆβ, ˆσ 2, y) = n 2 log(2π) n 2 Wir erhalten daher = n 2 log SSE( ˆβ) n log SSE( ˆβ) n n 2 log(2π) n 2. 1 SSE( ˆβ) 2SSE( ˆβ)/n AIC = 2 [ log L( ˆβ, ] ˆσ 2, y) + (p + 1) = n log SSE( ˆβ) n + 2p + Rest, wobei der Rest weder von SSE noch von p abhängt, und somit derselbe ist für alle betrachteten Modelle. Deshalb berechnet R AIC = n log SSE( ˆβ) n 5 + 2p.
6 AIC c, Korrigiertes Akaike s Informationskriterium: Bias-korrigierte Version des AIC für kleine Stichprobengrößen oder falls die Parameteranzahl im Vergleich zu n relativ groß ist. AIC c sollte dem AIC vorgezogen werden falls n/(p + 1) 40. Weiters wird generell empfohlen, in der Praxis AIC c zu verwenden, da für n folgt, dass AIC c AIC. Diese korrigierte Version ist definiert als AIC c = 2 log L( ˆβ, ˆσ 2 (p + 1)(p + 2), y) + 2(p + 1) + 2 n p (p + 1)(p + 2) = AIC + 2 n p. Jedoch hat auch AIC die Tendenz zum Overfitting, falls n klein oder falls p in relation zu n groß ist (der Strafterm für Modellkomplexität ist nicht stark genug). Da AIC c einen größeren Strafterm aufweist, ist die biaskorrigierte Version fast immer dem AIC vorzuziehen. 6
7 BIC, Bayes sches Informationskriterium: Schwarz (1978) schlug folgendes Kriterium vor. BIC = 2 log L( ˆβ, ˆσ 2, y) + (p + 1) log n. Auch BIC ist derart definiert, dass gilt: je kleiner der Wert von BIC desto besser das Modell. BIC ist sehr ähnlich zu AIC, nur ist der Faktor 2 im Strafterm jetzt durch log n ersetzt. Somit zieht BIC eher einfache Modelle vor. Eine sehr populäre Strategie in der Praxis ist es, Werte von R 2 adj, AIC, AIC c und BIC zu berechnen und die Modelle zu vergleichen, die AIC, AIC c und BIC minimieren, mit jenem das R 2 adj maximiert. 7
8 Entscheidung über Prädiktoren: Hier gibt es 2 unterschiedliche Vorgehensweisen: 1. betrachte alle möglichen Teilmengen, 2. verwende schrittweise Methoden. Alle möglichen Teilmengen: Stehen m Prädiktoren zu Verfügung, so betrachtet man alle 2 m möglichen Regressionsmodelle und identifiziert jenes, welches ein Anpassungsmaß maximiert oder ein Informationskriterium minimiert. Hält man die Anzahl der Prädiktoren in einem Modell fest, so liefern alle 4 Kriterien das Modell als bestes, welches die kleinste Fehlerquadratsumme aufweist. Stellt man jedoch Vergleiche über Modelle mit verschiedenen Anzahlen von Prädiktoren an, so können die Kriterien sehr wohl unterschiedliche Resultate generieren. 8
9 Beispiel: (Brückenkonstruktion) Bevor man mit der Konstruktion beginnt, durch läuft ein derartiges Projekt viele Entwurfsphasen. Kann man die Dauer der Entwurfsphasen vorhersagen, hilft dies bei der Planung des notwendigen Budget. Informationen von 45 Brückenprojekten stehen zu Verfügung. y Time: Entwurfszeit in Personen-Tage x 1 DArea: Deck area (Brückenfläche) in 1,000 sq ft x 2 CCost: Konstruktionskosten in $ 1,000 x 3 Dwgs: Anzahl Konstruktionspläne x 4 Length: Brückenlänge in ft x 5 Spans: Anzahl der Brückenfelder > bridge <- read.table("bridge.txt", header=true) > attach(bridge) > m1 <- lm(log(time) ~ log(darea)+log(ccost)+log(dwgs)+log(length)+log(spans)) > summary(m1) 9
10 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** log(darea) log(ccost) log(dwgs) *** log(length) log(spans) Residual standard error: on 39 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 5 and 39 DF, p-value: 1.043e-11 F-Test ist hoch signifikant aber nur 1 Slope-Schätzer ist signifikant (log(dwgs), p-wert < 0.001). Wir wollen daher eine Teilmenge der Prädiktoren wählen. Identifiziere für eine feste Anzahl an Prädiktoren jenes Modell mit maximalem Radj 2 (minimalem SSE). Das Package leaps (functions for model selection) bietet hierzu einiges. 10
11 > logdarea <- log(darea) > logccost <- log(ccost) > logdwgs <- log(dwgs) > loglength <- log(length) > logspans <- log(spans) > X <- cbind(logdarea, logccost, logdwgs, loglength, logspans) > install.packages("leaps") > library(leaps) > b <- regsubsets(as.matrix(x),log(time)) > (rs <- summary(b)) Subset selection object 5 Variables (and intercept) Forced in Forced out logdarea FALSE FALSE logccost FALSE FALSE logdwgs FALSE FALSE loglength FALSE FALSE logspans FALSE FALSE 11
12 1 subsets of each size up to 5 Selection Algorithm: exhaustive logdarea logccost logdwgs loglength logspans 1 ( 1 ) " " " " "*" " " " " 2 ( 1 ) " " " " "*" " " "*" 3 ( 1 ) " " "*" "*" " " "*" 4 ( 1 ) "*" "*" "*" " " "*" 5 ( 1 ) "*" "*" "*" "*" "*" > par(mfrow=c(1,2)) > plot(1:5, rs$adjr2, xlab="subset Size", ylab="adjusted R-squared") > rs$adjr2 [1] > library(car) # An R Companion to Applied Regression > subsets(b, statistic=c("adjr2")) # to plot a regsubsets object 12
13 Adjusted R squared Statistic: adjr lgd ls lc lgd ls lda lc lgd ls lda lc lgd ll ls lda: logdarea lc: logccost lgd: logdwgs ll: loglength ls: logspans lgd Subset Size Subset Size
14 > om1 <- lm(log(time)~log(dwgs)) > om2 <- lm(log(time)~log(dwgs)+log(spans)) > om3 <- lm(log(time)~log(dwgs)+log(spans)+log(ccost)) > om4 <- lm(log(time)~log(dwgs)+log(spans)+log(ccost)+log(darea)) > om5 <- m1 > #Subset size=1 > n <- length(om1$residuals) > npar <- length(om1$coefficients) + 1 > extractaic(om1, k=2) #Calculate edf & AIC [1] > extractaic(om1, k=2) + 2*npar*(npar+1)/(n-npar-1) # Calculate edf & AICc [1] > extractaic(om1, k=log(n)) # Calculate edf & BIC [1] u.s.w. 14
15 Prädiktoren Radj 2 AIC AIC c BIC 1 log(dwgs) log(dwgs)+log(spans) log(dwgs)+log(spans)+log(ccost) log(dwgs)+log(spans)+log(ccost) +log(darea) log(dwgs)+log(spans)+log(ccost) +log(darea)+log(length) Die Kriterien R 2 adj und AIC favorisieren 3 Prädiktoren während die Kriterien AIC c und BIC ein Modell mit 2 Prädiktoren als bestes einstufen. Wir entscheiden uns den zuvor erwähnten Gründen für das 2 Prädiktoren Modell. 15
16 > summary(om2) Estimate Std. Error t value Pr(> t ) (Intercept) e-12 *** log(dwgs) e-08 *** log(spans) ** --- Residual standard error: on 42 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 42 DF, p-value: 6.632e-14 > summary(om3) Estimate Std. Error t value Pr(> t ) (Intercept) e-08 *** log(dwgs) *** log(spans) log(ccost) Residual standard error: on 41 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 3 and 41 DF, p-value: 2.484e-13 16
17 Beide Prädiktoren sind signifikant im 2 Prädiktoren Modell während nur 1 Prädiktor im 3 Prädiktoren Modell signifikant ist. Das 3er Modell scheint also zu einem overfit der Daten zu führen und wir entscheiden uns für das 2er Modell. 17
18 Schrittweises Auswählen: Prüfe sequentielle Teilmenge aller 2 m möglichen Regressionsmodelle. Populäre Variationen dieser Methode sind die backward elimination und die forward selection. Backward elimination: Starte mit allen möglichen Prädiktoren im Modell. Dann lösche in jedem Schritt jenen Prädiktor, so dass das resultierende Modell den kleinsten Wert des Informationskriteriums hat (dies entspricht jedesmal einem Löschen jenes Prädiktors mit dem größten p-wert). Fahre diese Strategie solange fort, bis alle Prädiktoren entfernt sind oder das Informationskriterium anwächst. Forward selection: Starte mit einem Modell, das nur den Intercept enthält. Dann nimm in jedem Schritt jenen Prädiktor ins Modell auf, so dass das resultierende Modell den kleinsten Wert des Informationskriteriums hat (dies entspricht jedesmal einem Aufnehmen jenes Prädiktors mit dem kleinsten p-wert). Fahre diese Strategie solange fort, bis alle Prädiktoren beinhaltet sind oder das Informationskriterium anwächst. 18
19 Beide Verfahren betrachten maximal m+(m 1)+ +1 = m(m 1)/2 mögliche Untermengen von Prädiktoren. Daher findet man nicht immer das beste Modell mit dem kleinsten Informationskriterium unter allen möglichen 2 m Modellen. Es gibt auch keine Garantie, dass beide Verfahren dasselbe Modell finden. Beispiel (Brückenkonstruktion): Backward elimination mit AIC Kriterium > backaic <- step(m1, direction="backward", data=bridge, k=2) Start: AIC= log(time) ~ log(darea) + log(ccost) + log(dwgs) + log(length) + log(spans) Df Sum of Sq RSS AIC - log(length) log(darea) <none> log(ccost) log(spans) log(dwgs)
20 Step: AIC= log(time) ~ log(darea) + log(ccost) + log(dwgs) + log(spans) Df Sum of Sq RSS AIC - log(darea) <none> log(ccost) log(spans) log(dwgs) Step: AIC= log(time) ~ log(ccost) + log(dwgs) + log(spans) Df Sum of Sq RSS AIC <none> log(ccost) log(spans) log(dwgs)
21 Backward elimination mit BIC Kriterium > backbic <- step(m1,direction="backward", data=bridge, k=log(n)) Start: AIC= log(time) ~ log(darea) + log(ccost) + log(dwgs) + log(length) + log(spans) Df Sum of Sq RSS AIC - log(length) log(darea) log(ccost) log(spans) <none> log(dwgs)
22 Step: AIC= log(time) ~ log(darea) + log(ccost) + log(dwgs) + log(spans) Df Sum of Sq RSS AIC - log(darea) log(ccost) log(spans) <none> log(dwgs) Step: AIC= log(time) ~ log(ccost) + log(dwgs) + log(spans) Df Sum of Sq RSS AIC - log(ccost) log(spans) <none> log(dwgs)
23 Step: AIC= log(time) ~ log(dwgs) + log(spans) Df Sum of Sq RSS AIC <none> log(spans) log(dwgs) Backward Elimination mit BIC führt zu einem sparsameren Modell mit nur den beiden Prädiktoren log(dwgs) und log(spans). Forward Selection basierend auf AIC liefert dasselbe Modell wie Backward Elimination basierend auf AIC: > mint <- lm(log(time) ~ 1, data=bridge) # Intercept model as initial model > forwardaic <- step(mint, scope=list(lower=~1, upper=~log(darea)+log(ccost)+log(dwgs)+log(length)+log(spans)), direction="forward", data=bridge, k=2) 23
24 Start: AIC= log(time) ~ 1 Df Sum of Sq RSS AIC + log(dwgs) log(ccost) log(darea) log(length) log(spans) <none> Step: AIC=-94.9 log(time) ~ log(dwgs) Df Sum of Sq RSS AIC + log(spans) log(ccost) log(length) log(darea) <none>
25 Step: AIC= log(time) ~ log(dwgs) + log(spans) Df Sum of Sq RSS AIC + log(ccost) <none> log(darea) log(length) Step: AIC= log(time) ~ log(dwgs) + log(spans) + log(ccost) Df Sum of Sq RSS AIC <none> log(darea) log(length) Interessante, hilfreiche R-Funktionen, um ein derartige Variablenselektion durchzuführen sind für die Rückwärtselimination: > dropterm(om5, test="f") Single term deletions 25
26 Model: log(time) ~ log(darea) + log(ccost) + log(dwgs) + log(length) + log(spans) Df Sum of Sq RSS AIC F Value Pr(F) <none> log(darea) log(ccost) log(dwgs) *** log(length) log(spans) oder für die Forwärtsselektion > addterm(om2, om5, test="f") Single term additions Model: log(time) ~ log(dwgs) + log(spans) Df Sum of Sq RSS AIC F Value Pr(F) <none> log(darea) log(ccost) log(length)
27 Stepwise Regression: hierbei werden in jedem Schritt 4 Optionen betrachtet: nimm einen Prädiktor dazu, lösche einen Prädiktor raus, tausche einen Prädiktor im Modell gegen einen nicht im Modell, oder stoppe. Die Funktion stepaic im Package MASS erlaubt gerade dieses Vorgehen. > stepaic(om1, scope=list(upper=~log(darea)*log(ccost)*log(dwgs)*log(length)*log(spans), lower=~1)) Start: AIC=-94.9 log(time) ~ log(dwgs) Df Sum of Sq RSS AIC + log(spans) log(ccost) log(length) log(darea) <none> log(dwgs) Step: AIC= log(time) ~ log(dwgs) + log(spans) 27
28 Df Sum of Sq RSS AIC + log(ccost) <none> log(dwgs):log(spans) log(darea) log(length) log(spans) log(dwgs) Step: AIC= log(time) ~ log(dwgs) + log(spans) + log(ccost) Df Sum of Sq RSS AIC <none> log(ccost) log(spans) log(dwgs):log(spans) log(darea) log(ccost):log(dwgs) log(length)
29 + log(ccost):log(spans) log(dwgs) Coefficients: (Intercept) log(dwgs) log(spans) log(ccost) Verwendet man hingegen das BIC Kriterium, dann liefert dies jetzt auch das Modell mit den 3 Prädiktoren: > stepaic(om1, scope=list(upper=~log(darea)*log(ccost)*log(dwgs)*log(length)*log(spans), lower=~1), k=log(n)) Start: AIC= log(time) ~ log(dwgs) Df Sum of Sq RSS AIC + log(spans) log(ccost) log(length)
30 + log(darea) <none> log(dwgs) Step: AIC= log(time) ~ log(dwgs) + log(spans) Df Sum of Sq RSS AIC <none> log(ccost) log(dwgs):log(spans) log(darea) log(length) log(spans) log(dwgs) Coefficients: (Intercept) log(dwgs) log(spans)
Lineare Modelle in R: Klassische lineare Regression
Lineare Modelle in R: Klassische lineare Regression Achim Zeileis 2009-02-20 1 Das Modell Das klassische lineare Regressionsmodell versucht den Zusammenhang zwischen einer abhängigen Variablen (oder Responsevariablen)
13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017
13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017 1. Aufgabe: Für 25 der größten Flughäfen wurde die Anzahl der abgefertigten Passagiere in den Jahren 2009 und 2012 erfasst. Aus den Daten (Anzahl
Mehrfache und polynomiale Regression
Mehrfache und polynomiale Regression Kriteria für die Durchführung einer Regression Jonathan Harrington Bitte datasets.zip (unter 5.5, Tabellarische Daten) neu herunterladen und in pfad auspacken Einfache
Prognoseintervalle für y 0 gegeben x 0
10 Lineare Regression Punkt- und Intervallprognosen 10.5 Prognoseintervalle für y 0 gegeben x 0 Intervallprognosen für y 0 zur Vertrauenswahrscheinlichkeit 1 α erhält man also analog zu den Intervallprognosen
Statistisches Lernen
Statistisches Lernen Einheit 12: Modellwahl und Regularisierung Dr. rer. nat. Christine Pausch Institut für Medizinische Informatik, Statistik und Epidemiologie Universität Leipzig WS 2014/2015 1 / 28
Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)
Vorbereitungen Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS) Falls das R - Paket car noch nicht installiert wurde, kann dies mit der Funktion install.packages() erledigt werden. install.packages("car")
1 Beispiel zur Methode der kleinsten Quadrate
1 Beispiel zur Methode der kleinsten Quadrate 1.1 Daten des Beispiels t x y x*y x 2 ŷ ˆɛ ˆɛ 2 1 1 3 3 1 2 1 1 2 2 3 6 4 3.5-0.5 0.25 3 3 4 12 9 5-1 1 4 4 6 24 16 6.5-0.5 0.25 5 5 9 45 25 8 1 1 Σ 15 25
X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?
Aufgabe 1 (25 Punkte) Zur Schätzung der Produktionsfunktion des Unternehmens WV wird ein lineares Regressionsmodell der Form angenommen. Dabei ist y t = β 1 + x t2 β 2 + e t, t = 1,..., T (1) y t : x t2
1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann.
Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09 Dr Sylvia Kaufmann Februar 2009 Angewandte Ökonometrie, Sylvia Kaufmann, FS09 1 1 Gliederung Zeitreihenökonometrie Einführung
3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)
3.1. MODELL UND STATISTIK 32 3 Multiple lineare Regression a 3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m) Y i = β 0 + β 1 x (1)
Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression
Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik Regression Dozent: Fabian Scheipl Material: H. Küchenhoff LMU München 39 Einfache lineare Regression Bestimmung der Regressionsgerade
FORMELN IN. Referent: Daniel Laskow Betreuer: Eugen Betke Programmierung in R Arbeitsbereich Wissenschaftliches Rechnen Universität Hamburg
FORMELN IN Referent: Daniel Laskow Betreuer: Eugen Betke Programmierung in R Arbeitsbereich Wissenschaftliches Rechnen Universität Hamburg 01.06.2016 Gliederung Arithmetische Operatoren Funktionen aus
Auswertung und Lösung
Körperkraft [Nm] 0 50 100 150 200 250 0 20 40 60 80 Lean Body Mass [kg] Dieses Quiz soll Ihnen helfen, den R Output einer einfachen linearen Regression besser zu verstehen (s. Kapitel 5.4.1) Es wurden
Lineare Regression in R, Teil 1
Lineare Regression in R, Teil 1 Christian Kleiber Abt. Quantitative Methoden, WWZ, Universität Basel October 6, 2009 1 Vorbereitungen Zur Illustration betrachten wir wieder den Datensatz CASchools aus
Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)
3 Einfache lineare Regression Einfache lineare Modelle mit R 36 Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen) > summary(lm(y~x)) Call: lm(formula =
Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell
Kapitel 8 Einfache Regression Josef Leydold c 2006 Mathematische Methoden VIII Einfache Regression 1 / 21 Lernziele Lineares Regressionsmodell Anpassen des linearen Regressionsmodells, OLS Eigenschaften
Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen
Breusch-Pagan-Test I Ein weiterer Test ist der Breusch-Pagan-Test. Im Gegensatz zum Goldfeld-Quandt-Test ist es nicht erforderlich, eine (einzelne) Quelle der Heteroskedastizität anzugeben bzw. zu vermuten.
6.4 Kointegration Definition
6.4 Kointegration 6.4.1 Definition Nach Engle und Granger (1987): Wenn zwei oder mehrere Variablen I(1) sind, eine Linearkombination davon jedoch I() ist, dann sind die Variablen kointegriert. Allgemein:
Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)
Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS) Es soll untersucht werden, ob und wie sich Rauchen während der Schwangerschaft auf den Gesundheitszustand des Neugeborenen auswirkt. Hierzu werden
Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann
Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am 24.04.2015 Autor: Ludwig Bothmann Contents Aufgabe 1 1 b) Schätzer................................................. 3 c) Residuenquadratsummen........................................
Eine Einführung in R: Varianzanalyse
Eine Einführung in R: Varianzanalyse Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2011 Bernd Klaus, Verena Zuber Das
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk
Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC Referenten: Linda Gräfe & Konstantin Falk 1 Agenda Schätzverfahren ML REML Beispiel in SPSS Modellbeurteilung Devianz AIC BIC
Übung V Lineares Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Michael Alpert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2007 Übung
Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell
Dr. Wolfgang Langer - Integrierte Veranstaltung Methoden IV WS 2002/2003-1 Die Anwendung des globalen und partiellen F-Tests beim Regressionsmodell von XENOPHOB auf V247 und POSTMAT, MATERIAL Für unsere
Lineare Modelle in R: Einweg-Varianzanalyse
Lineare Modelle in R: Einweg-Varianzanalyse Achim Zeileis 2009-02-20 1 Datenaufbereitung Wie schon in der Vorlesung wollen wir hier zur Illustration der Einweg-Analyse die logarithmierten Ausgaben der
Schriftliche Prüfung (90 Minuten)
Dr. M. Kalisch Probeprüfung Statistik 1 Sommer 2014 Schriftliche Prüfung (90 Minuten) Bemerkungen: Alle schriftlichen Hilfsmittel und ein Taschenrechner sind erlaubt. Mobiltelefone sind auszuschalten!
Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression
Fragen Welche Unsicherheitsfaktoren beeinflussen die Schätzung einer Regressionsgeraden? Einführung in die induktive Statistik Friedrich Leisch Institut für Statistik Ludwig-Maximilians-Universität München
Regressionsanalyse in R
Regressionsanalyse in R Session 6 1 Einfache Regression Lineare Regression ist eines der nützlichsten Werkzeuge in der Statistik. Regressionsanalyse erlaubt es Zusammenhänge zwischen Parametern zu schätzen
Statistik Einführung // Lineare Regression 9 p.2/72
Statistik Einführung Lineare Regression Kapitel 9 Statistik WU Wien Gerhard Derflinger Michael Hauser Jörg Lenneis Josef Ledold Günter Tirler Rosmarie Wakolbinger Statistik Einführung // Lineare Regression
Vorlesung: Statistik II für Wirtschaftswissenschaft
Vorlesung: Statistik II für Wirtschaftswissenschaft Prof. Dr. Helmut Küchenhoff Institut für Statistik, LMU München Sommersemester 2017 6 Genzwertsätze Einführung 1 Wahrscheinlichkeit: Definition und Interpretation
Statistik für Naturwissenschaftler Woche 11-13: Regression basics (mit R Unterstützung)
Woche 11-13: Regression basics (mit R Unterstützung) Ass.-Prof. Dr. Fachbereich Mathematik Universität Salzburg www.trutschnig.net Salzburg, Juni 2015 y Motivation + eindimensionale lineare Regression
y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.
Aufgabe 1 (25 Punkte Zur Schätzung des Werbe-Effekts in einem Getränke-Unternehmen wird das folgende lineare Modell aufgestellt: Dabei ist y t = β 1 + x t2 β 2 + e t. y t : x t2 : Umsatz aus Getränkeverkauf
Logistische Regression
Logistische Regression Werner Brannath VO Biostatistik im WS 2006/2007 Inhalt Logistische Regression Beispiel 1: Herzerkrankungsdaten aus Framingham Log Odds Modell Beispiel 1: Einfluss von Blutdruck Maximum
Vorlesung: Multivariate Statistik für Psychologen
Vorlesung: Multivariate Statistik für Psychologen 6. Vorlesung: 28.04.2003 Organisatorisches Terminverlegung Übungsgruppen Gruppe 5 alter Termin: Donnerstag, 01.05.03, 12 14 Uhr, IfP SR 9 neuer Termin:
Fragestunde zur Übung
Prof. Bernd Fitzenberger, Ph.D. Dr. Roland Füss Aderonke Osikominu Übung zur Veranstaltung Empirische Wirtschaftsforschung Albert-Ludwigs-Universität Freiburg Wintersemester 2007/08 Fragestunde zur Übung
1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt:
Beispiele zum Üben und Wiederholen zu Wirtschaftsstatistik 2 (Kurs 3) 1 Einfachregression 1.1In 10 Haushalten wurden Einkommen und Ausgaben für Luxusgüter erfragt: Haushaltseinkommen 12 24 30 40 80 60
Lösung - Übungsblatt 10
Lösung - Übungsblatt 10 Aufgabe 2: Siehe Outputfile Aufgabe 2 a) Regressionsgleichung - Equation 1: price = β 1 + β 2 lotsize + β 3 sqrft + β 4 bdrms + u i Fit: price = β 1 + β 2 lotsize + β 3 sqrft +
Multivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Musterlösung Aufgabe 1 (40 Punkte) Auf der dem Kurs beigelegten CD finden Sie im Unterverzeichnis Daten/Excel/ die Datei zahlen.xlsx. Alternativ können Sie
Statistik II. IV. Hypothesentests. Martin Huber
Statistik II IV. Hypothesentests Martin Huber 1 / 41 Übersicht Struktur eines Hypothesentests Stichprobenverteilung t-test: Einzelner-Parameter-Test F-Test: Multiple lineare Restriktionen 2 / 41 Struktur
Übungsklausur Lineare Modelle. Prof. Dr. H. Toutenburg
Übungsklausur Lineare le Prof. Dr. H. Toutenburg Aufgabe Ein lineares Regressionsmodell mit der abhängigen Variablen Körpergröße und der unabhängigen Variablen Geschlecht wurde einmal mit der dummykodierten
FRAGESTUNDE WS 2016/17 QM 2. Dr. Christian Schwarz 1
FRAGESTUNDE Dr. Christian Schwarz 1 #2 - Allgemein Q: Müssen wir den Standard Error händisch berechnen können? R: Nein. Q: Hat das Monte Carlo Experiment irgendeine Bedeutung für uns im Hinblick auf die
> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings)
> ### Beispiel 7 ### > > library(faraway); options(digits = 5) > data(savings) > savings.lm = lm(sr ~ pop15 + pop75 + dpi + ddpi, savings) > # Indexplot der Residuen > plot(savings.lm$res, ylab="residuen",
Schrittweise Regression. Schrittweise Regression. Verfahren und Kriterien. Multikollinearität. Vorwärtsauswahl und Rückwärtselimination
TECHNISCHE UNIVERSITÄT MÜNCHEN-WEIHENSTEPHAN MATHEMATIK UND STATISTIK INFORMATIONS- UND DOKUMENTATIONSZENTRUM R. Biometrische und Ökonometrische Methoden I WS /1 Verfahren und Kriterien Partielle Korrelationskoeffizienten
1 Binäre Regression (I)
Übung zur Vorlesung Generalisierte Regressionsmodelle Blatt 2 Gerhard Tutz, Moritz Berger, Wolfgang Pößnecker WiSe 14/15 1 Binäre Regression (I) Aufgabe 1 Der Datensatz shuttle beschreibt für die 23 Space
Strukturgleichungsmodellierung
Strukturgleichungsmodellierung FoV Methodenlehre FSU-Jena Dipl.-Psych. Norman Rose Parameterschätzung, Modelltest & Fit Indizes bei SEM Forschungsorientierte Vertiefung - Methodenlehre Dipl.-Psych. Norman
4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers
4. Statistik im multiplen Regressionsmodell In diesem Kapitel wird im Abschnitt 4.1 zusätzlich zu den schon bekannten Standardannahmen noch die Annahme von normalverteilten Residuen hinzugefügt. Auf Basis
1 Interaktion von zwei Dummyvariablen. 2 Interaktion einer Dummyvariablen mit einer kardinalskalierten Variablen
Modelle mit Interationsvariablen I Modelle mit Interationsvariablen II In der beim White-Test verwendeten Regressionsfuntion y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 2 1 + β 4 x 2 2 + β 5 x 1 x 2, ist anders
Kurs Empirische Wirtschaftsforschung
Kurs Empirische Wirtschaftsforschung 5. Bivariates Regressionsmodell 1 Martin Halla Institut für Volkswirtschaftslehre Johannes Kepler Universität Linz 1 Lehrbuch: Bauer/Fertig/Schmidt (2009), Empirische
Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)
Poisson Regression Verallgemeinerte Lineare Modelle (GLMs) 28.11.2011 Poisson Regression Aus der Einführungsvorlesung Poisson-Verteilung ist in der Regel gut geeignet, um Anzahlen zu modellieren. Frage
Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke
Vorlesungsplan 17.10. Einleitung 24.10. Ein- und Ausgabe 31.10. Reformationstag, Einfache Regeln 7.11. Naïve Bayes, Entscheidungsbäume 14.11. Entscheidungsregeln, Assoziationsregeln 21.11. Lineare Modelle,
Das lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Prof. Dr. Werner Smolny Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Institutsdirektor Das ökonomische
Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell
Universität Ulm 89069 Ulm Germany Dipl.-WiWi Christian Peukert Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Sommersemester 2010
Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik
Ludwig Fahrmeir, Nora Fenske Institut für Statistik Bitte für die Korrektur freilassen! Aufgabe 1 2 3 4 Punkte Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik 29. März 21 Hinweise:
Das Lineare Regressionsmodell
Das Lineare Regressionsmodell Bivariates Regressionsmodell Verbrauch eines Pkw hängt vom Gewicht des Fahrzeugs ab Hypothese / Theorie: Je schwerer ein Auto, desto mehr wird es verbrauchen Annahme eines
Kapitel 4: Binäre Regression
Kapitel 4: Binäre Regression Steffen Unkel (basierend auf Folien von Nora Fenske) Statistik III für Nebenfachstudierende WS 2013/2014 4.1 Motivation Ausgangssituation Gegeben sind Daten (y i, x i1,...,
3. Das einfache lineare Regressionsmodell
3. Das einfache lineare Regressionsmodell Ökonometrie: (I) Anwendung statistischer Methoden in der empirischen Forschung in den Wirtschaftswissenschaften Konfrontation ökonomischer Theorien mit Fakten
Kurze Einführung in die Ökonometrie-Software E-Views
Kurze Einführung in die Ökonometrie-Software E-Views Folie 2 Workfile Kurze Einführung in die Ökonometrie-Software E-Views 4. November 2008 Typischerweise liegen die Daten in einem Spreadsheet -Format
Methodik der multiplen linearen Regression
Methodik der multiplen linearen Regression Sibel Aydemir Statistisches Amt, Direktorium Landeshauptstadt München Name, Stadt Regressionsanalyse: Schritt für Schritt Schritt 1 Schritt 2 Schritt 3 Schritt
Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen
4 Multiple lineare Regression Tests auf Heteroskedastie 4.11 Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen Ein weiterer Test auf Heteroskedastie in den Störgrößen ist der Breusch-Pagan-Test.
Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X.
Lineare Regression Einfache Regression Beispieldatensatz: trinkgeld.sav Ziel: Vorhersage eines Kriteriums/Regressand Y durch einen Prädiktor/Regressor X. H0: Y lässt sich nicht durch X erklären, das heißt
6.2 Lineare Regression
6.2 Lineare Regression Einfache lineare Regression (vgl. Kap. 4.7) Y i = θ 0 + θ 1 X i + ǫ i ǫ i (0, σ 2 ) ˆθ 1 ˆθ 0 = S XY S 2 X = 1 ( Yi n ˆθ ) 1 Xi als Lösung der Minimumaufgabe n (Y i θ 1 X 1 θ 0 )
Kapitel 3 Schließende lineare Regression Einführung. induktiv. Fragestellungen. Modell. Matrixschreibweise. Annahmen.
Kapitel 3 Schließende lineare Regression 3.1. Einführung induktiv Fragestellungen Modell Statistisch bewerten, der vorher beschriebenen Zusammenhänge auf der Basis vorliegender Daten, ob die ermittelte
Lehrstuhl für Statistik und emp. Wirtschaftsforschung, Prof. Regina T. Riphahn, Ph.D. Diplomvorprüfung Statistik II Einf. Ökonometrie im WS 06/07
Aufgabe 1: [21 Punkte] Ein Forschungsinstitut hat den Auftrag bekommen, die individuellen monatlichen Ausgaben für Bioprodukte zu erklären. Es wird eine Kleinstquadrate Regression der Höhe der Ausgaben
6. Statistische Schätzung von ARIMA Modellen
6. Statistische Schätzung von ARIMA Modellen Vorschau: ARIMA Modelle Modellidentifikation verschiedene Schätzverfahren Modelldiagnostik Fallstudien Zeitreihenanalyse 1 6.1 ARIMA Modelle Bisher: ARMA(p,q)-Modelle:
Klausur ÖKONOMETRIE für Bachelor VWL
Klausur ÖKONOMETRIE für Bachelor VWL Name, Vorname: Matrikel-Nr. Die Klausur enthält zwei Typen von Aufgaben: Teil A besteht aus Fragen mit mehreren vorgegebenen Antwortvorschlägen, von denen mindestens
Multivariate Verfahren
Selbstkontrollarbeit 1 Multivariate Verfahren Diese Selbstkontrollarbeit bezieht sich auf die Kapitel 1 bis 4 der Kurseinheit 1 (Multivariate Statistik) des Kurses Multivariate Verfahren (883). Hinweise:
Schriftliche Prüfung (90 Minuten)
Dr. M. Kalisch Prüfung Statistik I Winter 2015 Schriftliche Prüfung (90 Minuten) Bemerkungen: Alle schriftlichen Hilfsmittel und ein Taschenrechner sind erlaubt. Mobiltelefone sind auszuschalten! Die Prüfung
Ergänzung der Aufgabe "Mindestlöhne" zu einer multiplen Regression
Prof. Dr. Peter von der Lippe ( Übungsblatt E) Ergänzung der Aufgabe "Mindestlöhne" zu einer multiplen Regression Das Beispiel "Mindestlöhne" zur einfachen multiplen Regression ergab die folgenden Parameter
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)
8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme) Annahme B4: Die Störgrößen u i sind normalverteilt, d.h. u i N(0, σ 2 ) Beispiel: [I] Neoklassisches Solow-Wachstumsmodell Annahme einer
6. Schätzung stationärer ARMA-Modelle
6. Schätzung stationärer ARMA-Modelle Problemstellung: Statistische Anpassung eines stationären ARMA(p, q)-prozesses an eine Stichprobe von t = 1,..., T Prozessbeobachtungen Es bezeichne x 1,..., x T die
Varianzanalyse (ANOVA)
Varianzanalyse (ANOVA) K. Molt Universität Duisburg-Essen, Fak. 4, FG Instrumentelle Analytik 7. Juni 2007 K. Molt (Fachgeb. IAC) 7. Juni 2007 1 / 1 Einweg Varianzanalyse (einfaktorielle ANOVA) Einweg-Varianzanalyse
Einführung in die Ökonometrie
Einführung in die Ökonometrie Das Programmpaket R Installierung und Pakete R als Taschenrechner Laden von Datensätzen und Einlesen von Daten Hilfe und Dokumentation Einfaches Datenmanagement Univariate
Eine Einführung in R: Das Lineare Modell
Eine Einführung in R: Das Lineare Modell Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 6. Januar 2009 Bernd Klaus, Verena Zuber
Kapitel 4: Merkmalszusammenhänge
Kapitel 4: Merkmalszusammenhänge Korrelationen 1 Lineare Regression 3 Literatur 5 Korrelationen Mit Hilfe von G*Power lässt sich analog zum Vorgehen beim t-test (Kapitel 3, Band I) vor einer Untersuchung
Musterlösung. Modulklausur Multivariate Verfahren
Musterlösung Modulklausur 31821 Multivariate Verfahren 25. September 2015 Aufgabe 1 (15 Punkte) Kennzeichnen Sie die folgenden Aussagen zur Regressionsanalyse mit R für richtig oder F für falsch. F Wenn
Logistische Regression mit Messwiederholungen: Anwendung von PROC GENMOD in SAS
Logistische Regression mit Messwiederholungen: Anwendung von PROC GENMOD in SAS Birgit Hay Silvia Sander Schwabstraße 13 Schwabstraße 13 89070 Ulm 89070 Ulm [email protected] [email protected]
Finanzmarkttheorie I. Performancemessung in EViews Übungsunterlage. Prof. Dr. Heinz Zimmermann WWZ Uni Basel Frühling 2015
Prof. Dr. Heinz Zimmermann WWZ Uni Basel Frühling 2015 Finanzmarkttheorie I Performancemessung in EViews Übungsunterlage Die vorliegende Unterlage liefert eine kurze Einführung in die Schätzung linearer
Allgemein zu Hypothesentests: Teststatistik. OLS-Inferenz (Small Sample) Allgemein zu Hypothesentests
OLS-Inferenz (Small Sample) K.H. Schild 3. Mai 017 Allgemein zu Hypothesentests: Teststatistik Konstruktion eines Hypothesentests erfolgt meistens über eine Teststatistik Eine Teststatistik T ist eine
Tutorial: Regression Output von R
Tutorial: Regression Output von R Eine Firma erzeugt Autositze. Ihr Chef ist besorgt über die Anzahl und die Kosten von Maschinenausfällen. Das Problem ist, dass die Maschinen schon alt sind und deswegen
Vorlesung: Lineare Modelle
Vorlesung: Lineare Modelle Prof Dr Helmut Küchenhoff Institut für Statistik, LMU München SoSe 2014 5 Metrische Einflußgrößen: Polynomiale Regression, Trigonometrische Polynome, Regressionssplines, Transformationen
Übungsblatt 7: Schätzung eines Mietspiegels
Prof. Bernd Fitzenberger, Ph.D. Ute Leuschner Stefanie Schäfer Übung zur Veranstaltung Empirische Wirtschaftsforschung Albert-Ludwigs-Universität Freiburg Wintersemester 2010/11 Übungsblatt 7: Schätzung
Beispiele für Prüfungsfragen Ökonometrie I und II
Beispiele für Prüfungsfragen Ökonometrie I und II Von den sieben Beispielen von Prüfungsfragen wären in einer konkreten einstündigen Prüfung etwa deren zwei zu beantworten. Aufgaben 3, 4, 6 und 7 beziehen
4 Binäre Regressionsmodelle, Folien 2
4 Binäre Regressionsmodelle, Folien 2 Ludwig Bothmann (basierend auf Unterlagen von Nora Fenske) Statistik III für Nebenfachstudierende WS 2014/2015 4.5 Hypothesentests Lineare Hypothesen Betrachtet werden
4. Das multiple lineare Regressionsmodell
4. Das multiple lineare Regressionsmodell Bisher: 1 endogene Variable y wurde zurückgeführt auf 1 exogene Variable x (einfaches lineares Regressionsmodell) Jetzt: Endogenes y wird regressiert auf mehrere
Die Schätzung einer Produktionsfunktion
Universität Ulm 89069 Ulm Germany Prof. Dr. Werner Smolny Institut für Wirtschaftspolitik Fakultät für Mathematik und Wirtschaftswissenschaften Ludwig-Erhard-Stiftungsprofessur Institutsdirektor Sommersemester
Übungsaufgaben Angewandte Ökonometrie I
Département d Économie Quantitative Departement für Quantitative Wirtschaftsforschung Übungsaufgaben Angewandte Ökonometrie I c Séminaire de Statistique Université de Fribourg c Seminar für Statistik Universität
Was ist R? Warum R? Literatur Eine Beispielsitzung mit R. Einführung in R. Dr. Mike Kühne. Technische Universität Dresden Institut für Soziologie
Technische Universität Dresden Institut für Soziologie Übersicht 1 Was ist R? 2 3 4 Die Sprache R Geschichte Übersicht 1 Was ist R? Die Sprache R Geschichte 2 3 4 Die Sprache R Geschichte Was ist R? Flexible
