8 Allgemeine Modelle & Robuste Regression

8.1 Allgemeines Lineares Regressions-Modell 182 8 Allgemeine Modelle & Robuste Regression 8.1 Allgemeines Lineares Regressions-Modell a Modell. Y i F µ i, γ, g µ i = η i = x T i β b Weibull-Verteilung. Ausfalls-, Überlebenszeiten. f x = α σ (x/σ)α 1 exp (x/σ) α Erwartungswert σγ 1/α + 1 σ ist Skalen-Parameter: c Y W c σ, α α Form-Parameter

8.1 Allgemeines Lineares Regressions-Modell 183 0 1 2 α = 0.5 1 2 0.0 0.5 1.0 1.5 2.0 α = 1 1 2 0.0 0.5 1.0 1.5 2.0 α = 1.3 1 2 0.0 0.5 1.0 1.5 2.0 α = 2 1 2 0.0 0.5 1.0 1.5 2.0 α = 4 1 2 0 1 2 3 α = 10 1 2

8.1 Allgemeines Lineares Regressions-Modell 184 c Beispiel Kohlenstoff-Fasern. Länge: 1, 10, 20, 50 mm, Zielgrösse Reisskraft. Laenge = 300 150 Anzahl 50 20 1.8 2.0 2.2 2.4 2.6 2.8 3.0 Reissfestigkeit

8.1 Allgemeines Lineares Regressions-Modell 185 d Weibull-Regression. Y i W σ i, α, log σ i = x T i β. e Gumbel-Regression. log Y (umgedrehte) Gumbel-Verteilung f x = τ 1 e z exp e z, z = x µ τ µ = log σ, τ = 1/α. Erwartungswert µ + γτ µ 0.577 τ. Dichte 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 4 3 2 1 0 1 2 3

8.1 Allgemeines Lineares Regressions-Modell 186 Regressionsmodell Ỹ i = log Y i G µ i, τ, µ i = x T i β. f* Zensierte Daten. Von einigen Beobachtungen weiss man nur, dass sie grösser sind als ein gegebener Wert, z.b. bei Abschluss der Studie. Weibull-Regression wird oft im Zusammenhang mit zensierten Daten behandelt.

8.1 Allgemeines Lineares Regressions-Modell 187 g Lineares Modell mit nicht-normalen Fehlern. Form Zielgrösse = Regressionsfunktion + Zufallsabweichung" Y i = x T i β + E i, E i /σ F 1. h Langschwänzige Fehler. i t-verteilung. Dichte der t-veretilung mit ν Freiheitsgraden: f ν z = c(1 + z 2 /ν) (ν+1)/2 Skalieren und verschieben Lokations-Skalen-Familie", Dichte f µ,σ,ν x = c ( ) σ (1 + x µ 2 σ /ν) (ν+1)/2 ν = : Normalverteilung ν = 1: Cauchy-Verteilung F 1 = t µ = 0, σ = 1, ν, ν = 3, 5, 7.

8.1 Allgemeines Lineares Regressions-Modell 188 j Maximum Likelihood. ll β, σ = i ρ Yi x T I β σ + n log σ ρ r = log f 1 r. Normalverteilung: f 1 = φ ρ r = r 2 /2 t-verteilung: ρ r = ν+1 2 log 1 + r 2 /ν k Normalgleichungen. R i = (Y i x T I β)/σ ableiten nach β x i /σ i ψ Yi x T i β x i = 0, σ ψ r = ρ r

8.1 Allgemeines Lineares Regressions-Modell 189 Normalverteilung: ψ r = r i (Y i x T i β) x i = 0 t-verteilung: ψ r = (1 + 1/ν) r 1+r 2 /ν ψ 2 1 0 1 2 ν 20 9 5 3 5 4 3 2 1 0 1 2 3 4 5 r

8.1 Allgemeines Lineares Regressions-Modell 190 Die LS Methode ist besonders einfach, da die Normalgleichungen nach β aufgelöst werden können, die zu minimierende Grösse ri 2 die Skala σ nicht enthält der Skalen-Parameter σ nach β geschätzt werden kann. Schätzung für andere Verteilungen braucht iterativen Algorithmus. (Kein Problem.) l Gewichtete Kleinste Quadrate. i w ir i x i = 0, R i = Y i x T i β σ, w i = ψ R i /R i.

8.1 Allgemeines Lineares Regressions-Modell 191 m Beispiel der Reissfestigkeit von Fasern R: package survival für zensierte Daten. Zielgrösse muss Surv Objekt sein, Surv(Y, rep(1,length(y))) survreg(formula = Surv(strength, rep(1, nrow(dd))) ~ length, data = dd) Value Std. Error z p (Intercept) 1.068937 8.53e-03 125.28 0.00e+00 length -0.000343 4.99e-05-6.87 6.31e-12 Log(scale) -2.833522 7.24e-02-39.11 0.00e+00 Scale= 0.0588 Weibull distribution Loglik(model)= 31.5 Loglik(intercept only)= 13.4 Chisq= 36.1 on 1 degrees of freedom, p= 1.8e-09 Number of Newton-Raphson Iterations: 6

8.1 Allgemeines Lineares Regressions-Modell 192 log(strength) 0.7 0.8 0.9 1.0 1.1 0 50 100 150 200 250 300 350 length

8.1 Allgemeines Lineares Regressions-Modell 193 n Verteilung der Schätzung. var β = σ 2 κc 1, C = i x ix T i, κ = ψ 2 u f 1 u du (kein 1 n ) o Tests, Vertrauensbereiche. wie üblich aus dieser Verteilung bestimmt.

8.2 Tobit-Regression 194 8.2 Tobit-Regression b Beispiel von Tobin: Zielgrösse: Ausgaben für haltbare Güter durable Eingangsgr: Alter ( age ), Index f. Liquidität ( quant ) Viele geben (in der abgefragten Periode) nichts für durable s aus. Zielgrösse hat P Y = 0 > 0, aber für Y > 0 eine Dichte. Wie modellieren? Ebenso: Chemische Konzentrationen: Nachweisgrenze Regen Schäden von Versicherungspolicen

8.2 Tobit-Regression 195 c Modelle: Zweistufig: 1. logist. Regr. für Y > 0 vs. Y = 0, 2. Gew. lin. Regr. für Beob. mit Y > 0 (oder allgemeinere Regr.) Tobit-Regression" d Tobit-Regression. Latente Variable Z mit Z i = x T i β + E i, E i N 0, σ 2 Beobachtungen Y i = { y falls Zi y Z i falls Z i > y

8.2 Tobit-Regression 196 Z (o) / Y (x) 2 0 2 4 6 y* 0 1 2 3 4 5 6 7 8 9 10 x

8.2 Tobit-Regression 197 e Interpretation von Z. Nachweisgrenze: Z = wahrer Wert Regen: Potential" Ausgaben (bei Wahl-Bedarf): Neigung zum Kauf Vergleich mit 2-stufigem Modell P Y > 0 und E Y Y > 0 hängen zusammen Weniger Parameter

8.2 Tobit-Regression 198 f Schätzung. Max.Li. Tests, Vertrauensintervalle Beispiel: g Call: regr(formula = Tobit(durable) ~ age + I(age^2) + quant, data = tobin) Terms: coef stcoef signif R2.x df p.value (Intercept) -88.2971 NA -0.722 NA 1 NA age 4.5248 34.51 1.057 0.992 1 0.038 I(age^2) -0.0505-36.47-1.088 0.992 1 0.033 quant -0.0494-1.28-0.496 0.060 1 0.331 deviance df p.value Model 5.65 3 0.13 Null 53.33 20 NA Distribution: gaussian. Shape p. ( scale ): 4.61 AIC: 5.0063.33

8.2 Tobit-Regression 199 Trick: age zentrieren, damit die Koeffzienten sinnvoller werden quant weg. Call: regr(formula = Tobit(durable) ~ age + I((age - 45)^2), data = tobin) Terms: coef stcoef signif R2.x df p.value (Intercept) 5.0340 NA 0.201 NA 1 NA age -0.0887-0.677-0.184 0.044 1 0.719 I((age - 45)^2) -0.0554-4.066-1.044 0.112 1 0.041 deviance df p.value Model 4.71 2 0.0949 Null 54.27 20 NA Distribution: gaussian. Shape p. ( scale ): 5.02 AIC: 4.0062.27

8.2 Tobit-Regression 200 durable 5 0 5 10 Tobit Kl.Qu. ohne 0 35 40 45 50 55 60 age h Zensierte Beobachtungen. Allgemeiner: Überlebenszeiten oder Ausfallzeiten (survival, failure time data) Intervall-zensierte Daten.

8.2 Tobit-Regression 201 Beispiel Kondensatoren. Kondensatoren verlieren im Lauf der Zeit ihre Kapazität (Korrosion). capacity 0 50 100 150 200 250 300 all outdoor indoor 0 50 100 150 200 250 300 0 500 1000 1500 2000 2500 3000 3500 service days

8.2 Tobit-Regression 202 Modell: C(t) = c 0 m t n log(c 0 C(t)) = α + β log(t t 0 ) Zensiert bei Anfangswert und Ausfall des Geräts ( 0 Kapazität).

8.2 Tobit-Regression 203 capacity 0 200 400 600 800 all outdoor indoor 0 200 400 600 800 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 years

8.2 Tobit-Regression 204 Merkpunkte Allgemeine lineare Modelle Multiple lineare Regr. mit nicht-normalen Zufallsabweichungen bildet eine harmlose" Verallgemeinerung der multiplen lin. Regr. Gumbel-Regression, äquivalent zur Weibull-Regression, Regression mit t-verteilten Zufallsabweichungen Tobit-Regression: ein Modell für zensierte Zielgrössen, mit latenter Variablen, die unterhalb (oder oberhalb) eines Schwellenwertes nicht mehr beobachtet werden kann. Gebrauch u.a. für Grössen, die 0 sein müssen & oft 0 werden.