Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

Transkript

1 Kap. 2: Generalisierte lineare Modelle (GLMs) Lineare und generalisierte lineare Modelle Schätzung und Inferenz in GLMs Literatur

2 2.1 Lineare und generalisierte lineare Modelle Das klassische lineare Regressionsmodell y i x i N (x i β, σ 2 ) (restriktiver als in Ökonometrie 1!) ist gegeben durch folgende Elemente: (1) linearer Prädiktor η i = x i β, (2) (bedingte) Verteilung der abhängigen Variablen y i x i ist N (µ i, σ 2 ), (3) Verbindung zwischen erwartetem Wert µ i = E(y i x i ) der abhängigen Variablen und linearem Prädiktor ist Identität, d.h. µ i = η i. Die Klasse der generalisierten linearen Modelle (GLMs) erweitert (2) und (3) auf allgemeinere Verteilungen für y und allgemeinere Beziehungen zwischen E(y i x i ) und dem linearen Prädiktor. Damit erweitern GLMs die Ideen hinter dem linearen Modell auf Daten, deren abhängige Variablen binär oder Zähldaten sind (u.a.). Ursprünge: statistische Literatur (Nelder und Wedderburn, 1972), in Ökonometrie (leider) wenig gebräuchlich. C. Kleiber: Mikroökonometrie Kap. 2-1 U Basel, HS 2009

3 2.1 Lineare und generalisierte lineare Modelle GLM gegeben durch (1) linearer Prädiktor η i = x i β, (2) (bedingte) Verteilung der abhängigen Variablen y i x i hat Dichte des Typs ( ) yθ b(θ) f(y i ; θ, φ) = exp + c(y; φ), φ dabei θ von linearem Prädiktor abhängig und Dispersionsparameter φ oft bekannt. Für festes φ ist dies eine (lineare) Exponentialfamilie (Spezialfälle: Normal-, Poisson-, Binomialverteilung) mit kanonischem (oder natürlichem) Parameter θ/φ, (3) monotone Transformation g verbindet erwarteten Wert µ i der abhängigen Variablen und linearen Prädiktor η i, d.h. g(e(y i x i )) = g(µ i ) = η i. Die Funktion g heisst Link-Funktion. (Vorsicht: manche Autoren nennen g 1 die Linkfunktion.) C. Kleiber: Mikroökonometrie Kap. 2-2 U Basel, HS 2009

4 2.1 Lineare und generalisierte lineare Modelle Beispiele für Exponentialfamilien: (a) Bernoulli-Verteilung (y {0, 1}) f(y; p) = p y (1 p) 1 y = exp (b) Poisson-Verteilung (y N 0 ) { y log p 1 p } + log(1 p), p (0, 1). f(y; λ) = λy e λ y! = exp {y log λ λ log y!}, λ > 0. (c) Normalverteilung (y R) { f(y; µ, σ 2 1 ) = exp 1 } 2πσ 2 2σ2(y µ)2 ) = exp {(yµ µ2 1 2 σ 2 1 ( )} y 2 2 σ 2 + log(2πσ2 ), µ R. C. Kleiber: Mikroökonometrie Kap. 2-3 U Basel, HS 2009

5 2.1 Lineare und generalisierte lineare Modelle GLMs mit g(x) x sind also lineare Modelle für eine Transformation von µ i, nämlich g(µ i ), und damit nichtlineare Modelle für µ i selbst. In einem anderen Zweig der Literatur heissen Modelle der Form E(y i x i ) = h(x i β) auch Single-Index-Modelle. Typischerweise ist h unbekannt, also zu schätzen, so dass Modell semiparametrisch (unbekannte [inverse] Link-Funktion und linearer Prädiktor). In dieser Terminologie sind das LRM und GLMs parametrische Single-Index-Modelle (denn h = g 1 ist bekannt). Wenn Dispersionsparameter φ unbekannt, kann Verteilung eine zweiparametrige Exponentialfamilie sein, muss aber nicht. Für einige klassische GLMs ist φ bekannt, da die zugrundeliegende Verteilung nur einen Parameter hat (Bernoulli, Poisson). Die Link-Funktion, die durch den natürlichen Parameter θ der Exponentialfamilie gegeben ist, heisst natürlicher oder kanonischer Link. C. Kleiber: Mikroökonometrie Kap. 2-4 U Basel, HS 2009

6 2.1 Lineare und generalisierte lineare Modelle Der natürliche Parameter θ ist nicht immer der Parameter aus der üblichen Darstellung der Verteilung, sondern i.d.r. eine Transformation. Bei Poisson bspw. θ = log λ. da Verteilung voll spezifiziert: Schätzung mittels Maximum Likelihood (ML) naheliegend. Bsp.: für GLM mit y i x i N (µ i, σ 2 ) und η i = µ i ist ML = KQ nichts Neues! Im allg. keine geschlossene Form des ML-Schätzers, nur numerische Lösung. Standard-Algorithmus für GLMs heisst iterative weighted least squares (IWLS), eine für GLMs adaptierte Version von Fisher-Scoring ( Likelihood-Methodik). Annahmen implizieren E(y i x i ) = µ i = b (θ i ), Var(y i x i ) = φ b (θ i ) Die Funktion V (µ i ) = b (θ i ) b (θ(µ i )) heisst Varianzfunktion. Bsp.: Poisson-GLM hat θ = log(µ), φ = 1 und b(θ) = µ = e θ, also V (µ) = µ. Analogien zum linearen Regressionsmodell suggerieren, dass Funktion zur Schätzung solcher Modelle aussehen kann wie Funktion zur KQ-/ML-Schätzung im linearen Regressionsmodell in Programmpaketen wie R, S-PLUS oder Stata ist dies der Fall. C. Kleiber: Mikroökonometrie Kap. 2-5 U Basel, HS 2009

7 2.1 Lineare und generalisierte lineare Modelle GLMs in R: glm(formula, family = gaussian(link = "identity"), data, weights,...) gegenüber lm() neu: Argumente family und link Ausgewählte GLMs und ihre kanonischen Links Familie Kanonischer Link Name binomial log(µ/(1 µ)) logit gaussian µ identity poisson log µ log Funktion glm liefert Objekt der Klasse "glm". Für Objekte dieser Klasse existieren i.w. dieselben Methoden wie für Objekte der Klasse "lm": residuals(), fitted(), coef(), vcov(), anova(), plot(), summary(), predict(),... C. Kleiber: Mikroökonometrie Kap. 2-6 U Basel, HS 2009

8 2.2 Schätzung und Inferenz in GLMs Schätzung in GLMs beruht auf Likelihood. Für unabhängige Daten y i, i = 1,..., n, Oft praktischer: Log-Likelihood L(θ) = [L(θ, y) =] n f(y i ; θ) i=1 Bei Unabhängigkeit gilt l(θ) = [l(θ, y) =] log L(θ) ML-Schätzer definiert durch l(θ) = n l i (θ) i=1 ˆθ ML := max L(θ) (= max l(θ)) C. Kleiber: Mikroökonometrie Kap. 2-7 U Basel, HS 2009

9 2.2 Schätzung und Inferenz in GLMs Inferenz in GLMs: wie bisher (approximative) t-tests zum Testen einzelner Regressoren statt F -Test nun Likelihood-Quotienten-Test mit anova() R> anova(fm1, fm2) oder über Funktion lrtest() aus Paket lmtest R> lrtest(fm1, fm2) oder von Hand: R> 2 * (loglik(fm2) - loglik(fm1)) Modellwahl: Informationskriterien: Die (generische) Funktion AIC() hat ein Argument, mit dem sich die Form des Straftems wählen lässt (AIC, BIC,... ). C. Kleiber: Mikroökonometrie Kap. 2-8 U Basel, HS 2009

10 2.2 Schätzung und Inferenz in GLMs Spezielle Terminologie in GLM-Literatur im Zusammenhang mit Likelihood-Methoden: LQ-Statistik zum Vergleich zweier Modelle ist 2{l 1 l 2 } Sei l(y, y) Log-Likelihood des saturierten Modells (Modell mit maximaler Parameterzahl, i.d.r. dann Zahl Parameter = Zahl Beobachtungen). skalierte Deviance: D (y, θ) = 2{l(y, y) l(θ, y)} Deviance: D(y, θ) = φ D (y, θ) Saturiertes Modell liefert bestmögliche Anpassung in der gegebenen Modellklasse. Deviance misst dann, wie nahe ein kleineres Modell an diesen Idealzustand kommt. C. Kleiber: Mikroökonometrie Kap. 2-9 U Basel, HS 2009

11 2.2 Schätzung und Inferenz in GLMs Deviance ist eine Verallgemeinerung der Fehlerquadratsumme (RSS) aus dem linearen Regressionsmodell: Für Normalverteilung ist der Beitrag zur Log-Likelihood für eine Beobachtung Damit ist die skalierte Deviance l i (µ, σ 2 ) = log( 2πσ 2 ) 1 2σ 2(y i µ i ) 2 D (y, µ, σ 2 ) = 2{l(y, y) l(µ, y)} = 2 1 2σ 2(y i µ i ) 2 = 1 σ 2(y i µ i ) 2 und mit φ = σ 2 ist D(y, µ, σ 2 ) = φ 1 σ 2(y i µ i ) 2 = (y i µ i ) 2 = RSS Somit kann man OLS hier als minimum deviance -Schätzer auffassen. C. Kleiber: Mikroökonometrie Kap U Basel, HS 2009

12 2.2 Schätzung und Inferenz in GLMs Deviance: Für die hier interessierenden Verteilungen ergibt sich Familie (skalierte) Deviance Bernoulli/Binomial 2 {y i log(y i /ˆµ i ) + (1 y i ) log((1 y i )/(1 ˆµ i ))} Normal (yi ˆµ i ) 2 Poisson 2 {y i log(y i /ˆµ i ) (y i ˆµ i )} Deviance ist additiv für hierarchische Modelle, nenne deshalb Verallgemeinerung der Streuungszerlegung/ANOVA: analysis of deviance. C. Kleiber: Mikroökonometrie Kap U Basel, HS 2009

13 2.2 Schätzung und Inferenz in GLMs Residuen: Im linearen Regressionsmodell waren die Residuen definiert über y i ŷ i = y i ˆµ i Dies ist eine sinnvolle Definition, da dort (oft) Homoskedastie angenommen wird. GLMs sind typischerweise heteroskedastisch, deshalb ist es naheliegend, dort mit der Standardabweichung zu gewichten. Die Art der Gewichtung ist dabei durch die Varianzfunktion des GLMs festgelegt. Die gewichteten Residuen y i ˆµ i V (ˆµi ) heissen auch Pearson-Residuen. Die gebräuchlichsten Varianzfunktionen sind V (µ) = 1 (Normalverteilung) V (µ) = µ(1 µ) (Bernoulli-Verteilung) V (µ) = µ (Poisson-Verteilung) C. Kleiber: Mikroökonometrie Kap U Basel, HS 2009

14 2.2 Schätzung und Inferenz in GLMs Verschiedene Definitionen von Residuen in GLMs: Anderer Zugang zu Pearson-Residuen: die Pearson-Statistik ( Chi-Quadrat- Anpassungstest) ist X 2 := (y i ˆµ i ) 2 /V (ˆµ i ). Definiere deshalb Pearson-Residuen r P i := (y i ˆµ i )/ V (ˆµ i ) Deviance D(y, θ) = n i=1 d i führt auf Deviance-Residuen r D i := sign(y i ˆµ i ) d i In der Ökonometrie sind Pearson-Residuen unter dem Namen standardisierte Residuen weit verbreitet, Deviance-Residuen aber weitgehend unbekannt. In nichtlinearen Modellen wie GLMs ist nicht mehr offensichtlich, was die richtige Definition von Residuen ist, deswegen gibt es zahlreiche Varianten. C. Kleiber: Mikroökonometrie Kap U Basel, HS 2009

15 2.3 Literatur de Jong, P., and Heller, G.Z. (2008). Generalized Linear Models for Insurance Data. Cambridge University Press. Dobson, A.J. und Barnett, A.G. (2008). Introduction to Generalized Linear Models, 3rd ed. Chapman & Hall. McCullagh, P. und Nelder, J.A. (1989). Generalized Linear Models, 2nd ed. Chapman & Hall. Nelder, J.A. und Wedderburn, R.W.M. (1972). Generalized linear models. Journal of the Royal Statistical Society, Series A, 135, Wood, S.N. (2006). Generalized Additive Models. An Introduction with R. Chapman & Hall. [erste 120 S. über lineare Modelle und GLMs] C. Kleiber: Mikroökonometrie Kap U Basel, HS 2009