Poisson Regression & Verallgemeinerte lineare Modelle

Transkript

1 Poisson Regression & Verallgemeinerte lineare Modelle

2 Motivation Ausgangslage Wir haben Anzahldaten (count data) Y i, cf. Vorlesung zu kategoriellen Variablen. Zu jeder Beobachtung Y i haben wir erklärende Grössen x i. Einführungsvorlesung Poisson-Verteilung in der Regel gut geeignet, um Anzahlen zu modellieren. Heute Verwendung der Poisson-Verteilung in einem Regressions-Kontext. Dies dient als weiteres Beispiel für verallgemeinerte lineare Modelle. 2

3 Beispiel: Schiffs-Havarien Poisson-Verteilung Zielvariable: Y Anzahl Schaden-Ereignisse (incidents) in Flotten von Schiffen Erklärende Variablen T Schiffstyp (type) A, B, C, D, E C Baujahr (year) 60 (60-64), 65 (65-69), 70 (70-74), 75 (75-79) P Beobachtungsperiode (period) 0 ( ), 1 ( ) M # Betriebsmonate (service) 3

4 Regressionsansatz Ziel Wir möchten für das Havarien-Beispiel ein Regressionsmodell konstruieren. Ansatz Wenn wir annehmen, dass Y i ~Pois λ i, wobei λ i > 0, dann gilt E Y i = λ i, Var Y i = λ i Regression Wir modellieren den Erwartungswert in Abhängigkeit von den erklärenden Variablen. Verwende also gleichen Ansatz wie bei multipler linearer Regression und logistischer Regression: E Y i x i 1, x i 2,, x i m = λ i = h x i 1, x i 2,, x i m 4

5 Poisson Regression Erinnerung Bei der logistischen Regression war E Y i x i = P Y i = 1 x i ) 0,1 und wir benötigten eine geeignete Link-Funktion (logit). Hier Wir haben E Y i x i = λ i > 0. -> Wähle wiederum geeignete Link-Funktion. Poisson Regression Wir nehmen den Logarithmus als Link-Funktion und modellieren dann linear g E Y i x i = g λ i = log λ i = x i T β Entsprechend gilt (inverse Link-Funktion): E Y i x i = λ i = exp x i T β Die Poisson Regression kombiniert die logarithmische Link-Funktion mit der Annahme der Poisson-Verteilung für die Zielgrösse. 5

6 Schätzungen und Tests Schätzung Parameterschätzung mit dem Maximum-Likelihood Prinzip Likelihood in Abhängigkeit der Parameter β : l β Übergang zu log-likelihood: ll β Maximierung mithilfe von iterativen Verfahren መβ Tests / Vertrauensintervalle Analog zur logistischen Regression Wald Tests aus dem iterativen Verfahren (z-tests) Likelihood Ratio Tests via Devianzen. Diese sind in der Regel vorzuziehen, da mehr Macht. 6

7 Interpretation der Parameter Schauen wir das Modell noch etwas genauer an. Es gilt: E Y i x i = λ i = exp x i T β = exp β 0 exp β 1 x i 1 exp βm x i (m) Ändert man x j um eine Einheit, bewirkt dies eine Multiplikation des Erwartungswertes mit dem Faktor exp β j. Dies ist sinnvoll. Wir wollen in der Regel Aussagen im Stil von «In der einen Gruppe ist die Anzahl um einen gewissen Faktor höher (z.b. 30%)» Mit zunehmendem x j gilt: Ist β j positiv Erwartungswert wird grösser Ist β j negativ Erwartungswert wird kleiner Ist β j = 0 Erwartungswert bleibt unverändert 7

8 Beispiel Schiffs-Havarien Zielvariable: Y Anzahl Schaden-Ereignisse (incidents) in Flotten von Schiffen Erklärende Variablen T Schiffstyp (type) A, B, C, D, E C Baujahr (year) 60 (60-64), 65 (65-69), 70 (70-74), 75 (75-79) P Beobachtungsperiode (period) 0 ( ), 1 ( ) M # Betriebsmonate (service) 8

9 Beispiel: Schiffs-Havarien Naheliegende Annahme Anzahl Schaden-Ereignisse Y i proportional zu Anzahl Betriebsmonate M i. In der linearen Regression hätten wir einfach die Rate Y i /M i als normalisierte Zielgrösse verwendet. Das ist hier nicht möglich. Y i /M i ist nicht mehr Poisson-verteilt. Gewünschtes Modell lautet eigentlich λ i = M i exp x i T β, beziehungsweise log λ i = log M i + x i T β Für log M i ist also kein Parameter zu schätzen. R-Hinweis Benutze das Argument offset in der Funktion glm(). 9

10 Beispiel: Schiffs-Havarien Auswertung mit R summary von gefittetem glm: Modellgleichung Poisson Regression Koeffizient für log(service) = log(m i ) wird nicht mitgeschätzt 10

11 Beispiel: Schiffs-Havarien Auswertung mit R summary von gefittetem glm: typea fehlt period60 fehlt year60 fehlt Referenzlevels: Schiffstyp A (typea), Beobachtungsperiode (period60) und Baujahr (year60) 11

12 Beispiel: Schiffs-Havarien Referenzlevels: Schiffstyp A (typea), Beobachtungsperiode (period60) und Baujahr (year60) Jeweils erstes Faktorlevel als Referenzlevel. Anderes Referenzlevel kann z.b. mit der R-Funktion relevel( ) festgelegt werden. 12

13 Beispiel: Schiffs-Havarien Modellgleichung (für Typ B, Beobachtungsperiode , Baujahr ) log( መλ i ) = መβ 0 + log M i + መβ typeb + መβ period75 = log M i Dementsprechend: መλ i = exp log M i = exp M i 13

14 Beispiel: Schiffs-Havarien p-werte Wie bereits besprochen sind p-werte für Faktoren wenig aussagekräftig. Zur Bestimmung der Signifikanz eines Faktors: R-Funktion: drop1(fit, test=«chisq») 14

15 Beispiel: Schiffs-Havarien Vergleiche und Vertrauensintervalle Typ B mit Typ C: መλ typeb መλ typec = exp exp = exp = 1.15 Typ B hat 15% mehr Havarien als Typ C (wegen multiplikativem Effekt) Typ C mit Typ A: exp = 0.5 (C hat halb so viele Havarien wie A) Approximatives 95%-Vertrauensintervall für Faktor-Level Typ C: [exp , exp ] = [0.26,0.96] 15

16 Verallgemeinerte lineare Modelle (GLM)

17 Motivation Bis jetzt gesehen: Logistische Regression Poisson Regression Gemeinsamkeiten In beiden Modellen hatten wir Einschränkungen an E Y i x i : Logistische Regression E Y i x i 0,1 Poisson Regression E Y i x i > 0 Wir haben dann E Y i x i mit einer Link-Funktion so transformiert, dass wir E Y i x i mit einer linearen Funktion der Parameter β i modellieren konnten. Idee: Dieses Konzept lässt sich verallgemeinern Verallgemeinerte lineare Modelle 17

18 Verallgemeinerte lineare Modelle Annahme (verallgemeinertes lineares Modell) Der Erwartungswert der Zielgrösse Y lässt sich, indem er durch eine geeignete Link-Funktion g transformiert wird, mit einer linearen Funktion der Parameter β, dem linearen Prädiktor η, gleichsetzen. g E Y i x i = η i = x i T β Die Verteilungsannahmen und Link-Funktionen waren jeweils unterschiedlich: Logistische Regression: Bernoulli-/Binomialverteilung g = logit Poisson Regression: Poisson-Verteilung g = log Bemerkung: Auch die lineare Regression folgt obiger Annahme mit g = Identität und Normalverteilungsannahme. 18

19 Exponentialfamilie Die Verteilung der Zufallsvariable Y gehört einer einfachen Exponentialfamilie an, wenn sich ihre Dichte f(y) oder Wahrscheinlichkeitsfunktion P(Y = y) schreiben lässt als f y; θ, φ, ω = exp yθ b θ φ ω + c y; φ, ω, wobei θ φ ω b c Kanonischer Parameter Dispersionsparameter Gewicht der Beobachtung Funktion, die die Verteilung festlegt Normierung auf Wahrscheinlichkeit 1 ( f Dichte/W keitsfunktion) 19

20 Exponentialfamilie Erwartungswert und Varianz von Y können allgemein ausgerechnet werden: μ = E Y = b θ Var Y = b θ φ ω Wir schreiben nun den kanonischen Parameter θ als θ = b 1 μ und erhalten somit: Var Y = b b 1 μ φ ω Varianzfunktion V(μ) Die Varianzfunktion V(μ) ist eine Funktion des Erwartungswerts. 20

21 Beispiel: Poisson-Verteilung Es gilt: P Y = y = λy y! Somit erhalten wir: exp λ log P Y = y = log y! + y log λ λ θ = log λ b θ = exp θ = λ φ = 1 ω = 1 c y; φ, ω = log(y!) 21

22 Beispiel: Normalverteilung Es gilt: Somit erhalten wir: log f y; μ, σ 2 = log 2πσ 1 2 = yμ 1 2 μ2 σ 2 θ = μ b θ = θ 2 /2 φ = σ 2 ω = 1 y2 2σ 2 log y μ σ 2πσ 2 c y; φ = 1 2 y 2 φ + log 2πφ 22

23 Weitere Beispiele Die Exponentialfamilie ist eine grosse Klasse von Verteilungen Weitere Beispiele sind: Binomialverteilung Exponentialverteilung Gamma-Verteilung Weibull-Verteilung 23

24 Link-Funktion Durch Verwendung der Link-Funktion sollen unmögliche Werte vermieden werden. Bisher gesehen: g μ = μ wenn E[Y] beliebig. g μ = log(μ) wenn E Y > 0 "μ = λ" g μ = log μ 1 μ wenn 0 < E Y < 1 "μ = π" 24

25 Kanonische Link-Funktion Die Link-Funktion heisst kanonische Link-Funktion, wenn η = g μ = θ mit θ = b 1 μ Der lineare Prädiktor η entspricht also gerade dem kanonischen Parameter θ. Die erklärenden Variablen wirken linear auf den kanonischen Parameter. Wähle die Link-Funktion: g = (b ) 1 Normalverteilung: Poisson-Verteilung: Binomial-Verteilung: g μ = μ g μ = log(μ) g μ = logit(μ) Vorteile: Existenz und Eindeutigkeit des ML-Schätzers, einfachere Schätzgleichungen 25

26 Schätzungen und Tests

27 Schätzungen und Tests Wie gesehen bei der logistischen Regression und Poisson-Regression: Parameterschätzungen mit Hilfe des Maximum-Likelihood Prinzips Verwendung von iterativen Verfahren zur numerischen Maximierung (Iteratively Reweighted Least Squares) Tests mit Wald-Tests beziehungsweise eher mit Likelihood-Ratio Tests (unter Verwendung der Devianzen) Für technische Details, siehe Skript, Abschnitt

28 Übergrosse Streuung

29 Übergrosse Streuung Bei bestimmten Verteilungen ist die Varianz durch das Modell festgelegt Beispiele: Poisson-Regression Var Y i = λ i Binomial-Regression Var Y i = nπ i (1 π i ) Oft hat man jedoch in den Daten eine grössere Streuung als durch das Modell erwartet würde. Man spricht von «overdispersion». Mögliche Gründe: Fehlende erklärende Variablen im Modell falls vorhanden, benutzen Korrelierte Beobachtungen (z.b. in Gruppen) 29

30 Quasi-Likelihood Modelle Damit man dennoch Statistik betreiben kann, braucht man ein neues Modell. Die einfachste Art und Weise, eine grössere Streuung als im Poisson-Modell zuzulassen, besteht darin, die jeweilige Varianzfunktion beizubehalten und den Dispersionsparameter φ nicht mehr auf 1 festzulegen. Dieser wird zu einem Störparameter. Beispiel: Bei der Poisson-Regression würde man das Modell erweitern zu E Y = μ, Var Y = φμ, mit φ 1 Da es dazu allerdings keine entsprechende Verteilung gibt, spricht man von Quasi-Modellen und Quasi-Likelihood. 30

31 Dispersionsparameter φ Frage Wie lässt sich eine übergrosse Streuung feststellen? Verwende zum Beispiel die Pearson Chiquadrat-Statistik: T = n ωi (y i μ i ) 2 i=1 φ V( μ i ) Wenn φ nicht aus den Daten geschätzt werden muss, ist T χ 2 -verteilt mit n p Freiheitsgraden. Man kann die Residuen-Devianz betrachten. Ein grosser Wert deutet darauf hin, dass etwas nicht stimmt. Man kann den Dispersionsparameter φ schätzen und schauen, was dies für Auswirkungen hat. 31

32 Schätzung von φ Schätzung des Dispersionsparameters φ via Pearson-Statistik: φ = 1 n p ω i (y i μ i ) 2 i V( μ i ) Alternativ kann man die Devianz verwenden: φ = 1 D y; μ n p Zuerst werden die «gewöhnlichen» Parameter geschätzt, und am Ende wird noch φ angepasst. R-Code: glm(): Wähle family = quasipoisson ( φ erst in summary.glm berechnet) regr(): Quasipoisson wird i.d.r. standardmässig verwendet 32

33 Overdispersion - Auswirkungen Schätzung der Parameter (Koeffizienten): keinen Einfluss Varianz Overdispersion verändert die Varianz um den Faktor φ Standardfehler verändert sich um den Faktor φ Vertrauensintervalle werden um den Faktor φ breiter 33

34 Beispiel: Schiffs-Havarien Poisson-Regression mit Schätzung der Overdispersion Andere Werte (Berücksichtigung von Overdispersion) φ Parameterschätzungen unverändert 34

35 Residuenanalyse

36 Residuen Es existieren mehrere mögliche Definitionen (vgl. logistische Regression) Rohe Residuen (response residuals) R i = Y i μ i, μ i = g 1 T x i መβ Prädiktor Residuen (working residuals, link residuals) R i (L) = Ri g μ i (in der Skala des Prädiktors ausgedrückt) Pearson Residuen R i (P) = Ri / V μ i /ω i (standardisiert) Devianz-Residuen R i (D) = sign(yi μ i ) d i wobei d i der i-te Summand der Residuen-Devianz ist. 36

37 Merkpunkte Verallgemeinerte lineare Modelle (GLMs) umfassen als Verteilungen der Zielgrösse: Normalverteilung Bernoulli- oder Binomialverteilung Poisson-Verteilung Exponential- und Gamma-Verteilung Theorie und Algorithmus für all diese Modelle: Maximum Likelihood Schätzung Iteratively Reweighted Least Squares Begriff der Devianzen In der Praxis: Möglichkeit der Overdispersion Residuen nicht eindeutig definiert und weniger nützlich, da «künstliche» Strukturen auftreten. Man braucht sie trotzdem! 37