8 Allgemeine Modelle & Robuste Regression

Ähnliche Dokumente
Poisson Regression. Verallgemeinerte Lineare Modelle (GLMs)

13 Allgemeine Regressionsmodelle

3.1 Modell und Statistik Zusammenhang zwischen einer Zielgrösse Y und mehreren Eingangsgrössen X (1), X (2),..., X (m)

Logistische Regression

Prognoseintervalle für y 0 gegeben x 0

Einfache lineare Modelle mit Statistik-Software R Beispiel (Ausgaben in Abhängigkeit vom Einkommen)

Auswertung und Lösung

Ordinale abhängige Variablen. Einführung Regressionsmodelle für ordinale Variablen Empirisches Beispiel Ausblick

Kapitel 4: Binäre Regression

Vorlesung: Statistik II für Wirtschaftswissenschaft

4.1 Problemstellung. E E i = 0 : Linearität, Additivität. 4 Residuen-Analyse 4.1. PROBLEMSTELLUNG 96. (a) (b) gleiche Varianz var E i = σ 2,

Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Kapitel 4. Zensierte (censored) und gestutzte (truncated) abhängige Variablen, Sample Selection

1 Beispiel zur Methode der kleinsten Quadrate

κ Κα π Κ α α Κ Α

Seminar zur Energiewirtschaft:

Multivariate Verfahren

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

1 (2π) m/2 det (Σ) exp 1 ]

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Willkommen zur Vorlesung Statistik (Master)

Kurs Empirische Wirtschaftsforschung

y t = 30, 2. Benutzen Sie die Beobachtungen bis einschließlich 2002, um den Koeffizientenvektor β mit der KQ-Methode zu schätzen.

Tutorial: Regression Output von R

Schriftliche Prüfung (90 Minuten)

Simultane Mehrgleichungssysteme: Parameterschätzung

Multivariate Verfahren

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Berechnung der prädiktiven Power. in klinischen Studien mit WinBUGS

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

1 Binäre Regression (I)

Lösung - Übungsblatt 10

Musterlösung. Modulklausur Multivariate Verfahren

Bachelorprüfung: Mathematik 4 - Statistik (2 Stunden)

Empirische Wirtschaftsforschung in R

Lösung Übungsblatt 5

6.2 Lineare Regression

Pareto optimale lineare Klassifikation

X =, y In welcher Annahme unterscheidet sich die einfache KQ Methode von der ML Methode?

Aufgabe 35 mit R (Ökonometrie SS 2014 an der UdS)

Analyse von Querschnittsdaten. Signifikanztests I Basics

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood

1 Analyse von Kontigenztafeln: Das loglineare Modell

Lineare Regression in R, Teil 1

ML-Schätzung. Likelihood Quotienten-Test. Zusammenhang Reparametrisierung und Modell unter linearer Restriktion. Es gilt: β = Bγ + d (3.

> library(nlme) > fit <- lme(y ~ 1, random = ~1 id, data = sim.y.long) > summary(fit)

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

4.1 Stichproben, Verteilungen und Schätzwerte. N(t) = N 0 e λt, (4.1)

Übung V Lineares Regressionsmodell

Mathematische Statistik Aufgaben zum Üben. Schätzer

Statistik I für Betriebswirte Vorlesung 14

Fragen. Einführung in die induktive Statistik. Übersicht. Lineare Einfachregression

Klassen diskreter Variablen

Unterlagen zu Fisher s Exact Test, Vergleich von Anteilswerten und logistischer Regression. Robin Ristl. Wintersemester 2012/13

Statistik Einführung // Lineare Regression 9 p.2/72

Die Regressionsanalyse

13. Lösung weitere Übungsaufgaben Statistik II WiSe 2016/2017

8. Keine Normalverteilung der Störgrößen (Verletzung der B4-Annahme)

Multivariate Verfahren

Lineare Modelle in R: Klassische lineare Regression

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Hypothesentests für Erwartungswert und Median. für D-UWIS, D-ERDW, D-USYS und D-HEST SS15

Hypothesen: Fehler 1. und 2. Art, Power eines statistischen Tests

Statistik II. IV. Hypothesentests. Martin Huber

1 Gliederung Zeitreihenökonometrie. Angewandte Ökonometrie (Folien) Zeitreihenökonometrie Universität Basel, FS 09. Dr. Sylvia Kaufmann.

Vorlesung: Statistik I für Studierende der Statistik, Mathematik & Informatik. Regression. Einfache lineare Regression

Bootstrap-Methoden zur Ermittlung kritischer Werte für asymptotische FWER-Kontrolle

Statistik II. IV. Hypothesentests. Martin Huber

ANalysis Of VAriance (ANOVA) 2/2

7. Stochastische Prozesse und Zeitreihenmodelle

Logit-Analyse mit ordinalen und nominalen abhängigen Variablen

Willkommen zur Vorlesung Statistik (Master)

5.8 Anpassungstests. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 419

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Vorlesung 8a. Kovarianz und Korrelation

Vorlesung: Lineare Modelle

Statistische Datenanalyse

Forschungsstatistik I

Versuchsplanung SoSe 2015 R - Lösung zu Übung 1 am Autor: Ludwig Bothmann

Allgemein zu Hypothesentests: Teststatistik. OLS-Inferenz (Small Sample) Allgemein zu Hypothesentests

Hypothesentests für Erwartungswert und Median. Statistik (Biol./Pharm./HST) FS 2015

iid N(0, σ 2 ), b i, ε ij unabhängig i, j

Statistik für Naturwissenschaftler Woche 11-13: Regression basics (mit R Unterstützung)

All subsets: Grafische Darstellung, C p plot

Breusch-Pagan-Test I auf Heteroskedastie in den Störgrößen

Lineare Regressionen mit R (Ökonometrie SS 2014 an der UdS)

Imputationsverfahren

Züchtungslehre - Lösung 3

Statistik und Wahrscheinlichkeitsrechnung

Klausur zur Vorlesung

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Eine Einführung in R: Varianzanalyse

Maximum-Likelihood Schätzung

Statistik. Andrej Depperschmidt. Sommersemester 2016

Übung zur Empirischen Wirtschaftsforschung V. Das Lineare Regressionsmodell

Gemischte Modelle zur Schätzung geoadditiver Regressionsmodelle

Wahrscheinlichkeitsrechnung und Statistik für Biologen Spezielle Verteilungen

Das (multiple) Bestimmtheitsmaß R 2. Beispiel: Ausgaben in Abhängigkeit vom Einkommen (I) Parameterschätzer im einfachen linearen Regressionsmodell

Das Lineare Regressionsmodell

Transkript:

8.1 Allgemeines Lineares Regressions-Modell 182 8 Allgemeine Modelle & Robuste Regression 8.1 Allgemeines Lineares Regressions-Modell a Modell. Y i F µ i, γ, g µ i = η i = x T i β b Weibull-Verteilung. Ausfalls-, Überlebenszeiten. f x = α σ (x/σ)α 1 exp (x/σ) α Erwartungswert σγ 1/α + 1 σ ist Skalen-Parameter: c Y W c σ, α α Form-Parameter

8.1 Allgemeines Lineares Regressions-Modell 183 0 1 2 α = 0.5 1 2 0.0 0.5 1.0 1.5 2.0 α = 1 1 2 0.0 0.5 1.0 1.5 2.0 α = 1.3 1 2 0.0 0.5 1.0 1.5 2.0 α = 2 1 2 0.0 0.5 1.0 1.5 2.0 α = 4 1 2 0 1 2 3 α = 10 1 2

8.1 Allgemeines Lineares Regressions-Modell 184 c Beispiel Kohlenstoff-Fasern. Länge: 1, 10, 20, 50 mm, Zielgrösse Reisskraft. Laenge = 300 150 Anzahl 50 20 1.8 2.0 2.2 2.4 2.6 2.8 3.0 Reissfestigkeit

8.1 Allgemeines Lineares Regressions-Modell 185 d Weibull-Regression. Y i W σ i, α, log σ i = x T i β. e Gumbel-Regression. log Y (umgedrehte) Gumbel-Verteilung f x = τ 1 e z exp e z, z = x µ τ µ = log σ, τ = 1/α. Erwartungswert µ + γτ µ 0.577 τ. Dichte 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 4 3 2 1 0 1 2 3

8.1 Allgemeines Lineares Regressions-Modell 186 Regressionsmodell Ỹ i = log Y i G µ i, τ, µ i = x T i β. f* Zensierte Daten. Von einigen Beobachtungen weiss man nur, dass sie grösser sind als ein gegebener Wert, z.b. bei Abschluss der Studie. Weibull-Regression wird oft im Zusammenhang mit zensierten Daten behandelt.

8.1 Allgemeines Lineares Regressions-Modell 187 g Lineares Modell mit nicht-normalen Fehlern. Form Zielgrösse = Regressionsfunktion + Zufallsabweichung" Y i = x T i β + E i, E i /σ F 1. h Langschwänzige Fehler. i t-verteilung. Dichte der t-veretilung mit ν Freiheitsgraden: f ν z = c(1 + z 2 /ν) (ν+1)/2 Skalieren und verschieben Lokations-Skalen-Familie", Dichte f µ,σ,ν x = c ( ) σ (1 + x µ 2 σ /ν) (ν+1)/2 ν = : Normalverteilung ν = 1: Cauchy-Verteilung F 1 = t µ = 0, σ = 1, ν, ν = 3, 5, 7.

8.1 Allgemeines Lineares Regressions-Modell 188 j Maximum Likelihood. ll β, σ = i ρ Yi x T I β σ + n log σ ρ r = log f 1 r. Normalverteilung: f 1 = φ ρ r = r 2 /2 t-verteilung: ρ r = ν+1 2 log 1 + r 2 /ν k Normalgleichungen. R i = (Y i x T I β)/σ ableiten nach β x i /σ i ψ Yi x T i β x i = 0, σ ψ r = ρ r

8.1 Allgemeines Lineares Regressions-Modell 189 Normalverteilung: ψ r = r i (Y i x T i β) x i = 0 t-verteilung: ψ r = (1 + 1/ν) r 1+r 2 /ν ψ 2 1 0 1 2 ν 20 9 5 3 5 4 3 2 1 0 1 2 3 4 5 r

8.1 Allgemeines Lineares Regressions-Modell 190 Die LS Methode ist besonders einfach, da die Normalgleichungen nach β aufgelöst werden können, die zu minimierende Grösse ri 2 die Skala σ nicht enthält der Skalen-Parameter σ nach β geschätzt werden kann. Schätzung für andere Verteilungen braucht iterativen Algorithmus. (Kein Problem.) l Gewichtete Kleinste Quadrate. i w ir i x i = 0, R i = Y i x T i β σ, w i = ψ R i /R i.

8.1 Allgemeines Lineares Regressions-Modell 191 m Beispiel der Reissfestigkeit von Fasern R: package survival für zensierte Daten. Zielgrösse muss Surv Objekt sein, Surv(Y, rep(1,length(y))) survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd) Value Std. Error z p (Intercept) 1.068937 8.53e-03 125.28 0.00e+00 length -0.000343 4.99e-05-6.87 6.31e-12 Log(scale) -2.833522 7.24e-02-39.11 0.00e+00 Scale= 0.0588 Weibull distribution Loglik(model)= 31.5 Loglik(intercept only)= 13.4 Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09 Number of Newton-Raphson Iterations: 6

8.1 Allgemeines Lineares Regressions-Modell 192 log(strength) 0.7 0.8 0.9 1.0 1.1 0 50 100 150 200 250 300 350 length

8.1 Allgemeines Lineares Regressions-Modell 193 n Verteilung der Schätzung. var β = σ 2 κc 1, C = i x ix T i, κ = ψ 2 u f 1 u du (kein 1 n ) o Tests, Vertrauensbereiche. wie üblich aus dieser Verteilung bestimmt.

8.2 Tobit-Regression 194 8.2 Tobit-Regression b Beispiel von Tobin: Zielgrösse: Ausgaben für haltbare Güter durable Eingangsgr: Alter ( age ), Index f. Liquidität ( quant ) Viele geben (in der abgefragten Periode) nichts für durable s aus. Zielgrösse hat P Y = 0 > 0, aber für Y > 0 eine Dichte. Wie modellieren? Ebenso: Chemische Konzentrationen: Nachweisgrenze Regen Schäden von Versicherungspolicen

8.2 Tobit-Regression 195 c Modelle: Zweistufig: 1. logist. Regr. für Y > 0 vs. Y = 0, 2. Gew. lin. Regr. für Beob. mit Y > 0 (oder allgemeinere Regr.) Tobit-Regression" d Tobit-Regression. Latente Variable Z mit Z i = x T i β + E i, E i N 0, σ 2 Beobachtungen Y i = { y falls Zi y Z i falls Z i > y

8.2 Tobit-Regression 196 Z (o) / Y (x) 2 0 2 4 6 y* 0 1 2 3 4 5 6 7 8 9 10 x

8.2 Tobit-Regression 197 e Interpretation von Z. Nachweisgrenze: Z = wahrer Wert Regen: Potential" Ausgaben (bei Wahl-Bedarf): Neigung zum Kauf Vergleich mit 2-stufigem Modell P Y > 0 und E Y Y > 0 hängen zusammen Weniger Parameter

8.2 Tobit-Regression 198 f Schätzung. Max.Li. Tests, Vertrauensintervalle Beispiel: g Call: regr(formula = Tobit(durable) ~ age + I(age^2) + quant, data = tobin) Terms: coef stcoef signif R2.x df p.value (Intercept) -88.2971 NA -0.722 NA 1 NA age 4.5248 34.51 1.057 0.992 1 0.038 I(age^2) -0.0505-36.47-1.088 0.992 1 0.033 quant -0.0494-1.28-0.496 0.060 1 0.331 deviance df p.value Model 5.65 3 0.13 Null 53.33 20 NA Distribution: gaussian. Shape p. ( scale ): 4.61 AIC: 5.0063.33

8.2 Tobit-Regression 199 Trick: age zentrieren, damit die Koeffzienten sinnvoller werden quant weg. Call: regr(formula = Tobit(durable) ~ age + I((age - 45)^2), data = tobin) Terms: coef stcoef signif R2.x df p.value (Intercept) 5.0340 NA 0.201 NA 1 NA age -0.0887-0.677-0.184 0.044 1 0.719 I((age - 45)^2) -0.0554-4.066-1.044 0.112 1 0.041 deviance df p.value Model 4.71 2 0.0949 Null 54.27 20 NA Distribution: gaussian. Shape p. ( scale ): 5.02 AIC: 4.0062.27

8.2 Tobit-Regression 200 durable 5 0 5 10 Tobit Kl.Qu. ohne 0 35 40 45 50 55 60 age h Zensierte Beobachtungen. Allgemeiner: Überlebenszeiten oder Ausfallzeiten (survival, failure time data) Intervall-zensierte Daten.

8.2 Tobit-Regression 201 Beispiel Kondensatoren. Kondensatoren verlieren im Lauf der Zeit ihre Kapazität (Korrosion). capacity 0 50 100 150 200 250 300 all outdoor indoor 0 50 100 150 200 250 300 0 500 1000 1500 2000 2500 3000 3500 service days

8.2 Tobit-Regression 202 Modell: C(t) = c 0 m t n log(c 0 C(t)) = α + β log(t t 0 ) Zensiert bei Anfangswert und Ausfall des Geräts ( 0 Kapazität).

8.2 Tobit-Regression 203 capacity 0 200 400 600 800 all outdoor indoor 0 200 400 600 800 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 years

8.2 Tobit-Regression 204 Merkpunkte Allgemeine lineare Modelle Multiple lineare Regr. mit nicht-normalen Zufallsabweichungen bildet eine harmlose" Verallgemeinerung der multiplen lin. Regr. Gumbel-Regression, äquivalent zur Weibull-Regression, Regression mit t-verteilten Zufallsabweichungen Tobit-Regression: ein Modell für zensierte Zielgrössen, mit latenter Variablen, die unterhalb (oder oberhalb) eines Schwellenwertes nicht mehr beobachtet werden kann. Gebrauch u.a. für Grössen, die 0 sein müssen & oft 0 werden.