BINARY CHOICE MODELS 1 mit Pr( Y = 1) = P Y = 0 mit Pr( Y = 0) = 1 P Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS? Y i = X i β + ε i Probleme: Nonsense Predictions ( < 0, > 1) Funktionale Form: lineare Parameter haben immer gleichen Effekt ε heteroskedastisch 1
2
Binäre Variable E( y) = μ Var( y) = μ(1 μ) weil: 2 2 2 Var( y): E ( y μ) = E( y 2 yμ+ μ ) = 2 2 E( y ) 2 μe( y) + μ 2 da y = 1 oder 0 2 2 Var(y) = μ 2 μ + μ = μ(1 μ ) E( y ) = E( y) = μ Heteroskedastie Varianz steigt mit... ( ) xβ μ 3
LATENTE VARIABLE Bsp.: Beschäftigungsentscheidung 0 oder 1 Dahinter muss stehen: Latent Propensity to Work Y i *: (basiert auf Arbeitsangebot) Y = X β + ε Y i * i i i 1 wenn Y * > 0 = i 0 wenn Y * 0 i auch anderer Wert als Schwelle denkbar. 4
( ) ( ) P = Pr Y = 1 = F Xβ mit F als symmetrischer kumulativer Wahrscheinlichkeitsdichte. F( Xβ ) X β + F( Xβ ) Also: lim = 1 lim = 0 X β Y = 1 wenny* > 0 X β + ε > 0 X β > ε ε > Xβ i i i i Pr ( Y = 1) = Pr ( ε > Xβ) = F( Xβ) Pr ( Y = 0) = 1 F( Xβ ) 5
6
SCHÄTZUNG - MAXIMUM LIKELIHOOD Die Mutmaßlichkeit, bestimmte Ergebnisse in der Stichprobe zu erzielen, wird durch die Wahl geeigneter Parameter β maximiert. N i = 1 i = 1 Y i ( ) L = Pr Y = y, Y = y,, Y = y = 1 1 2 2 ( β ) ( β ) = 1 F X F X i = i Y = 0 Y = 1 i N = 1 i 1 yi ( β ) ( β ) F X i F X {( i) ( iβ ) i ( iβ )} ln L = 1 y ln 1 F X + y ln F X MAX β Log-likelihood function is globally concave ==> unique global maximum N i N y i 7
Form von F ( i ) Probit-Modell Normalverteilung X β 2 1 t F( Xβ) =Φ ( Xβ) = exp dt 2π 2 Logit-Modell Standard Logistische Verteilung ( β ) F X exp = 1 + exp ( X β ) ( X β ) Beide geben sehr ähnliche Ergebnisse 8
GOODNESS OF FIT 2 ln L Pseudo R :1, ln L0 ln L Wert der Log-Likelihood im Modell ohne Kovariate 0 + Variationen (McFadden, etc.) Problem: Pseudo 2 R nur 1 wenn X β ± Observed/Predicted Tabelle Anzahl der Right Predictions : Y ˆ i = 1 wenn mit Y i Problem: Naive Regel ist manchmal besser: ˆ 1 ( ) o i Y = wenn Pr 1 im Sample > 0,5 Pˆi * > P (meist 0,5) Vergleich Yˆi 9
SCHÄTZPROBLEME Maximum Likelihood ist o konsistent, o asymptotisch effizient und asymptotisch normalverteilt In kleinen Samples problematisch (sollte >100 (besser 1000) sein) ln L ist global konkav, trotzdem Schätzprobleme (keine Konvergenz des Iterationsverfahrens, Singularität der Hessematrix der 2. Ableitungen) Multikollinearität der Variablen Eine Dummyvariable erklärt Outcome komplett ( Riesenkoeffizienten) + Linearkombinationen 10
d i : immer wenn d i =1, dann ist y i =1 MAX β i = 1 { i ( i i) ( i) ( i i) } N ln L = y ln F X β + δd + 1 y ln 1 F X β + δ d i { } ( β ) ( β ) ( ) ( β ) = ln F X + d + y ln F X + 1 y ln 1 F X i i i i i i d =1 d =0 i δ nur aus dem ersten Term geschätzt, Maximierung von ln L bedeutet δ wird maximal ==> + Scaling der Variablen Standardfehler checken 11
EIGENSCHAFTEN DES SCHÄTZERS OLS macht wenig Probleme, wenn einige Annahmen verletzt sind, z.b. immer noch konsistent, wenn Fehler autokorreliert oder heteroskedastisch In Probit/Logit: Nur β ist identifiziert, nicht β allein, übliche Annahme σ=1. σ Heteroskedastie: o Wenn unabhängig von RHS-variablen, kein Problem, aber: 2 o Wenn σi = exp( γ1 + γ2x1 i) o β kann nicht konsistent geschätzt werden 12
INTERPRETATION DER KOEFFIZIENTEN Nichtlineares Verfahren Einfluss der Variablen abhängig von Lage Marginale Effekte notwendig dp dx 1 = β 1 f ( X β ) An welcher Stelle sollen marginale Effekte ausgewertet werden? Für alle i, dann 0 Zum Sample-Durchschnitt Für besonders relevante Kombinationen von Variablen 13
14
15
DUMMY VARIABLEN Diskrete Änderung X k ( Y X) Δ Pr = 1 ΔX k ( Y X X ) ( Y X X ) = Pr = 1, = 0 Pr = 1, = 1 k k Stata, Limdep bieten automatisierte Prozesse für marginale Effekte an Tabellen in marginalen Effekten immer besser Scott Long (Univ. of Indiana) hat eigene Prozeduren für Interpretation am Web 16
ODDS RATIO IM LOGIT Pr( Y = 1 X) Pr( Y = 1 X) Odds: = Pr Y = 0 X 1 Pr Y = 1 X ( ) ( ) Also: wie oft passiert 1 relativ zu 0, Variation zwischen 0 und Ln(Odds): Variation zwischen und : ( Y = X) ( Y X) Pr 1 ln 1 Pr = 1 = X β Äquivalent zum Logit: Pr ( Y 1 X) Interpretation ( X β ) ( X ) exp = =, ergibt interessante 1 + exp β 17
ODDS Ω P Ω ( X) = = 1 P e X β Gegeben zwei Realisationen von X : X 1 und X 0 Verhältnis der Odds Ω Ω ( X1 ) ( X ) 0 = e ( X X ) 1 0 β Wenn 1, ( 0) j e β > β j >, X j erhöht die Odds, Y = 1 zu beobachten 18
ORDERED PROBIT/LOGIT Ordinale Variable, z.b. Schulnoten * Latente Variable (, ) Y wird nur in N Werten gemessen Yi = m wenn τ * m 1 i τ m, 1 Y < m N τ Threshold, Cutpoints Schwellen sind unbekannt müssen auch geschätzt werden 19
FÜR ORDERED PROBIT Pr Y = 0 =Φ 0 Xβ ( ) ( ) ( Y = ) =Φ( τ1 Xβ) Φ( Xβ) ( Y = ) =Φ( τ Xβ) Φ( τ Xβ) Pr 1 Pr 2 2 1 ( Y = N) = Φ( τ Xβ) Pr 1 N 1 Eine Änderung von X verschiebt die gesamte Wahrscheinlichkeitsdichte nach links/rechts Achtung: Interpretation schwierig, nur an den Rändern eindeutig 20
21
22
23