Kapitel 4. Zensierte (censored) und gestutzte (truncated) abhängige Variablen, Sample Selection

Kapitel 4 Zensierte (censored) und gestutzte (truncated) abhängige Variablen, Sample Selection In den vorhergehenden Abschnitten haben wir uns mit Fällen beschäftigt, in denen die abhängige Variable y entweder binären und ordinalen Charakter hatte. In diesem Abschnitt befassen wir uns mit Fällen, in denen die abhängige Variable über einen bestimmten Bereich intervallskaliert ist, aber in anderen Bereichen wesentlichen Restriktionen unterliegt (z.b. nicht beobachtbar ist oder nur einen bestimmten Wert annehmen kann). Man spricht in diesen Fällen von limited dependent variables. Zwei Fälle sind zu unterscheiden: Zensierte Variablen ( censored variables ): Die erklärenden Variablen werden über den gesamten Bereich beobachtet, aber die abhängige Variable ist nur über einen beschränkten Bereich bekannt. Alle Werte der abhängigen Variablen über oder unter einem Schwellenwert werden in einen einzigen Wert transformiert ( limited dependent variable ). Als Merkhilfe kann man sich einen Zensor vorstellen, der aus Geheimhaltungsgründen bestimmte Stellen schwarz übermalt (Werte der abhängigen Variable, die eine bestimmte Größe unter- oder überschreiten, einen fixen Wert zuordnet, aber die Werte der erklärenden Variable nicht manipuliert). Beispiele: Einkommen über einer bestimmten Grenze werden in der Statistik aus Datenschutzgründen häufig nur aggregiert ausgewiesen, Daten über Alter etc. der befragten Personen sind aber bekannt. Ausgaben für dauerhafte Konsumgüter, Urlaub,... Anzahl von Seitensprüngen (Fair 1978). Anzahl der Stunden, die berufstätige Frauen arbeiten. Anzahl von Wiederverhaftungen von entlassenen Häftlingen. In all diesen Beispielen nehmen wir an, dass wir die erklärenden Variablen auch für Personen beobachten, dir ein Gut nicht kaufen, bzw. nicht Urlaub 1

Empirische Wirtschaftsforschung 2 fahren, sich auf keinen Seitensprung einlassen, nicht arbeiten, oder nicht wiederverhaftet werden. Gestutzte Variablen (truncated variables): Weder die abhängige Variable noch die unabhängigen Variablen sind über den gesamten Bereich bekannt. Zum Beispiel, wenn alle Datensätze für Personen über einem bestimmten Schwellenwert verworfen werden ( Truncation ändert die Größe des Datensatzes!). Das Problem bei OLS-Schätzungen von zensierten (censored) oder gestutzten (truncated) abhängigen Variablen wird in Abbildung 4.1 verdeutlicht. y 5 4 3 2 τ 1 0 OLS auf latente Variable 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 x y 5 4 3 2 τ 1 OLS auf zensierte Daten (Censored Data) OLS auf gestutzte Daten (Truncated Sample) Tobit 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Abbildung 4.1: OLS auf latente Variable sowie auf zensierte ( censored ) und gestutzte ( truncated ) Variable. Bei der zensierten Variable wird jeder Beobachtung mit y < τ der Wert Null zugewiesen (Kreise auf der x Achse, bei der gestutzten Variable werden alle Beobachtungen mit y < τ verworfen. x 4.1 Die Verteilung von zensierten und gestutzten Variablen Die Verteilung von censored und truncated Variablen wird in 4.2 verdeutlicht.

Empirische Wirtschaftsforschung 3 Normal Censored Truncated Dichte F(τ) 1 F(τ) τ µ y τ µ y τ µ y y > τ Abbildung 4.2: Zensierte ( censored ) & gestutzte ( truncated ) Variablen Die linke Grafik in Abbildung 4.2 zeigt die Verteilung (Dichte) einer latenten Variable y N(µ, 2 ). Die Dichtefunktion der latenten Variablen ist [ f(y 1 µ,) = 2π exp 1 ( ) ] y 2 µ 2 = 1 ( ) y φ µ = 1 ( ) µ y φ für φ(z) = 1 2πe 0.5z 2 N(0,1) Die Wahrscheinlichkeit, dass eine Beobachtungen in den linken schraffierten Bereich fällt, ist sodass ( ) y Pr(y µ τ) = Φ ( ) y Pr(y µ > τ) = 1 Φ wobei wir uns zunutze gemacht haben, dass aufgrund der Symmetrie der Normalverteilung um Null gilt φ(z) = φ( z) Φ(z) = 1 Φ( z) Die rechte Grafik Abbildung 4.2 zeigt die Verteilung einer gestutzten (truncated) Variable y y > τ. Da die schraffierte Fläche links von τ nicht berücksichtigt werden darf muß die Fläche angepaßt werden, damit die Fläche unter der Dichte Eins bleibt. Dies geschieht, indem die ursprüngliche Verteilung durch die Fläche rechts von τ dividiert wird. f(y y > τ,µ,) = f(y µ,) Pr(y > τ)

Empirische Wirtschaftsforschung 4 (die ursprüngliche Verteilung ist zu Vergleichszwecken punktiert eingezeichnet). Unter Verwendung der früheren Ergebnisse 1 f(y y > τ,µ,) = φ( ) y µ 1 Φ ( ) τ µ Da die Verteilung links abgeschnitten ist liegt der Erwartungswert der gestutzten Variable E(y y > τ) rechts vom Erwartungswert der latenten Variable E(y ) = µ, oder konkret (siehe Long 1997, S. 194) E(y y > τ) = µ+ φ( ) µ τ ( ) µ τ Φ ( ) µ τ = µ+λ (4.1) wobei λ( ) = φ( )/Φ( ) inverse Mills ratio genannt wird. Das gestutzte (truncated) Modell kann mittel Maximum Likelihood geschätzt werden. Die Log-Likelihood Funktion für das gestutzte Modell ist lnl = n 2 ln(2π) n 2 ln(2 ) 1 2 2 n (y x iβ) i=1 n ln(φ(x iβ/)) i=1 Die Koeffizienten des gestutzten Modells geben die marginalen Auswirkungen einer erklärenden Variablex k aufe(y)inder (nicht gestutzten!) Grundgesamtheit an. Die marginalen Effekte für die gestutzte Stichprobe (d.h. für y > 0) können folgendermaßen berechnet werden (siehe Long 1997, S 208f) E(y y > τ x k = β k [1 δλ(δ) λ(δ) 2 ] wobei λ den inverse Mills ratio bezeichnet und δ i = x iβ τ Die mittlere Grafik in Abbildung 4.2 zeigt die Verteilung einer zensierten Variable y { y wenn yi y i = > τ, 0 wenn yi τ. mit ε i N(0, 2 ). Dies kann auch für das Regressionsmodell geschrieben werden als y i = max(τ,x iβ +ε i ) wobei in der Literatur häufig τ = 0 angenommen wird (dies ist keine wesentliche Einschränkung, da dies einfach erreicht werden kann, indem man y in Abweichungen vom bekannten Schwellenwert τ misst). Für Abbildung 4.2 bedeutet dies, dass alle Punkte, die im linken Panel im schraffierten Bereich links von τ liegen, im mittleren Panel genau auf τ liegen.

Empirische Wirtschaftsforschung 5 Die Beobachtungen in der schraffierten Region der linken Grafik liegen alle bei τ. Die Wahrscheinlichkeit, dass eine Beobachtung im zensierten Bereich liegt, ist ( ) τ µ Pr(Censored) = Pr(y < τ) = Φ und die Wahrscheinlichkeit einer Beobachtung im nicht zensierten Bereich ist ( ) ( ) τ µ µ τ Pr(Uncensored) = 1 Φ = Φ Deshalb ist der Erwartungswert einer zensierten Variable y E(y) = [Pr(Uncensored) E(y y > τ)]+[pr(censored) E(y y = τ y )] { ( )[ ( )] ( } µ τ µ τ τ µ = Φ µ+λ +Φ )τ y wobeiτ derschwellenwert ist,abdemy zensiert ist,undτ y derwertist,dery zugewiesen wird im Falle der Zensierung. Meist wird τ = τ y = 0 angenommen. 4.2 Das Tobit Modell für zensierte Variablen Das einfachste Tobit Modell bezieht sich auf den Fall einer von unten zensierten abhängigen Variablen y i, wobei die latente Variable y i linear in den x ist mit einem normalverteilten Störterm ε i, also mit y i = x i β +ε i ε i N(0, 2 ) Die beobachtete abhängige Variable y nimmt den Wert y an, wenn die latente Variable den Schwellenwert τ überschreitet, und den Wert τ y, wenn yi τ, also { yi y i = = x i β +ε i wenn yi > τ, wenn yi τ τ y Dieses Modell wurde im Laufe der Zeit in die verschiedensten Richtungen erweitert. Generell wird für eine Tobit Schätzung die Log-Likelihood Funktion einer zensierten (oder gestutzten) Variable maximiert. y i = max(τ y,x i β +ε i), ε i N(0, 2 ) Die Wahrscheinlichkeit für eine zensierte Beobachtung ist Pr(zensiert x i) = Pr(y i τ x i) = Pr(ε i τ x iβ x i)

Empirische Wirtschaftsforschung 6 Da ε i N(0, 2 ) ist ε i / N(0,1), deshalb ist ( Pr(Censored x i ) = Pr εi τ ) ( ) x iβ τ x x i = Φ i β := Φ( δ i ) und für nicht zensierte Beobachtungen ( ) ( ) τ x Pr(Uncensored x i) = 1 Φ i β x = Φ i β τ := Φ(δ i ) für Erwartungswert Erinnern wir uns, y i = ( ) x δ i := i β τ { y i = x i β +ε i wenn y i > τ, τ y wenn y i τ Für den Erwartungswert müssen wir beide Teil berücksichtigen E(y i x i = [Pr(Uncensored x i) E(y i y i > τ,x i)] +[Pr(Censored x i) τ y ] Unter Berücksichtigung der vorher berechneten Wahrscheinlichkeiten E(y i x i = [Φ(δ i ) E(y i y i > τ,x i)]+[φ( δ i ) τ y ] Sehen wir uns E(y i y i > τ,x i ) etwas genauer an E(y i y i > τ,x i) = E(x iβ +ε i y i > τ,x i) = x i β +E(ε i y i > τ,x i ) Aus Gleichung (4.1) folgt, dass E(ε i y i > τ,x i) = λ(δ i ), wobei die Standardabweichung von ε i ist, δ := (x iβ τ)/, und λ(z) = φ(z)/φ(z) wieder der inverse Mills ratio ist. Daraus folgt nach einigen weiteren Vereinfachungen E(y i x i ) = Φ(δ i)x i β +φ(δ i)+φ( δ i )τ y Schätzung Für nicht zensierte Beobachtungen ist die log-likelihood Funktion lnl u (β, 2 ) = ln 1 ( φ yi x i β ) Uncensored Für zensierte Beobachtungen ist X bekannt und wir wissen, dass y τ. Die entsprechende Wahrscheinlichkeit ist ( ) τ x Pr(yi τ x i) = Φ i β

Empirische Wirtschaftsforschung 7 Die Likelihood Funktion für zensierte Beobachtungen ist also L c (β, 2 ) = ( ) τ x Φ i β bzw. die Log-Likelihood Funktion Censored lnl c (β, 2 ) = Censored ( ) τ x lnφ i β Die Likelihood Funktion für zensierte Beobachtungen und nichtzensierte Beobachtungen ist deshalb lnl(β, 2 y,x) = Censored ( ) τ x lnφ i β + Uncensored ln 1 ( ) φ yi x iβ Man beachte, dass in diesem Modell β und einzeln identifiziert sind. Das Tobit Modell reagiert sehr empfindlich auf die Verletzung der zugrundeliegenden Annahmen, wie z.b. auf Heteroskedastizität (siehe z.b. Johnston/DiNardo 1997, S. 440f)! Interpretation der Parameter In Bezug auf die latente Variable y : wie OLS E(y i x i ) x k = β k In Bezug auf die zensierte Variable y: Wir haben bereits gesehen, dass E(y i x i ) = Φ(δ i)x i β +φ(δ i)+φ( δ i )τ y Daraus folgt der marginale Effekt (siehe Long 1997, S. 209) E(y i x i ) x h = Φ(delta i )β h +(τ τ y )φ(δ i ) β h Häufig ist τ = τ y, in diesem Fall vereinfacht sich der Ausdruck zu E(y i x i) x h = Φ(δ i )β h In Bezug auf die gestutzte Variable y > τ: Der Erwartungswert ist Die partielle Ableitung nach x h ist E(y y > τ,x i ) = x i β +λ(δ) E(y i y > τ,x i) x h = ( 1 δλ(δ) [λ(δ)] 2) β h wobei δ = (x iβ τ)/ und λ( ) = φ( )/Φ( ) wieder der inverse Mills ratio ist.

Empirische Wirtschaftsforschung 8 4.3 Sample Selection Truncation führt zu einer Selektion der Stichprobe(für eine ausführliche Diskussion siehe Wooldridge 2000, Chapter 17, p. 557ff). Faustregel: Erfolgt die Auswahl in Abhängigkeit von exogenen Variablen (x) ist die Selektion weitgehend problemlos. Erfolgt die Auswahl in Abhängigkeit von endogenen Variablen (y) ist OLS weder erwartungstreu noch konsistent! cov(x i,ε i ) 0, sehr ähnlich wie ommitted variables. Das einfachste Selektionsmodell ist das bivariate Selektionsmodell (auch Tobit 2 genannt), wobei eine eigene Selektionsgleichung geschätzt wird und mit z i = y i = { 1 wenn z i > 0, 0 wenn z i 0. { y i wenn z i > 0, wenn z i 0. z i y i = w i γ +v i = x i β +ε i Meistens wird angenommen ( [( ( )] v 0 1 ρ N, u) 0) ρ u 2 4.3.1 Zweistufige Sample Selection nach Heckman (1976) Bei der sogenannten Heckit Methode wird der Mechanismus, demzufolge eine Beobachtung zensiert oder nicht zensiert ist, explizit modelliert. Das eigentliche Modell ist wieder y i = x i β +ε i aber die Selektion, ob y i beobachtet wird oder nicht hängt nicht von einem τ ab, sondern von einer zweiten latenten Variable z mit z i = w iα+v i

Empirische Wirtschaftsforschung 9 mit z i = 1 wenn z i > 0 und Null sonst. Pr(z i = 1 w i ) = Φ(w i α) Pr(z i = 0 w i ) = 1 Φ(w i α) y wird nur beobachtet, wenn z > 0. Die Matrizen X und W können auch gleiche Variablen enthalten. Wenn X und W völlig gleich sind (d.h. wenn die Selektionsgleichung und Regression für y die gleichen Variablen enthalten) treten allerdings häufig große Probleme mit der Multikollinearität auf, da der inverse Mills ratio über weite Bereiche annähernd linear ist. Das Grundprinzip bei Heckman s zweistufigem Vorgehen ist einfach: zuerst wird auf Grundlage eines Probit Modells der inverse Mills ratio ˆλ i für jede Beobachtung berechnet. AufderzweitenStufewirdeineOLS-Regressionvony i aufallex i undden inverse Mills ratio ˆλ i für alle selektierten Beobachtungen (d.h. für Beobachtungen mit z i = 1) gerechnet, d.h. y i = x i β +γˆλ i wobei nur die Beobachtungen der gestutzten Stichprobe verwendet werden. Die so berechneten b sind konsistent und annähernd normalverteilt, aber nicht effizient. Die Standardfehler der zweiten Stufe sind bei dieser einfachen Vorgangsweise verzerrt und deshalb nicht anwendbar, da dabei die erste Stufe nicht berücksichtigt wird. Die folgende Vorgangsweise erlaubt die Schätzung konsistenter Standardfehler. Theorem Momente der gestutzte bivariaten Normalverteilung, siehe Greene (2003), S. 781: Wenn y und z bivariat normalverteilt sind mit Erwartungswerten µ y und µ z, Standardabweichungen y und z sowie Korrelation ρ, dan gilt E(y z > a) = µ y +ρ y λ(ω z ) [ var(y z > a) = y 2 1 ρ 2 δ(ω z ) ] mit ω z = a µz z ; λ = φ(ω z )/[1 Φ(ω z )] und δ(ω z ) = λ(ω z )[λ(ω z ) ω z ]. Deshalb gilt (siehe z.b. Greene 2003, 784) E(y i z i = 1,x i,z i ) = x i β +ρ u λ(w iα) Schätzung der Parameter Die Schätzung kann entweder mit Maximum Likelihood oder zweistufig erfolgen. Nach Greene (2003, S. 784f) kann man folgendermaßen vorgehen: 1. Schätze mit einem Probit die Parameter α der Selektionsgleichung. Berechne für jede Beobachtung den inverse Mills ratio sowie ˆλ i = φ(w iˆα) Φ(w iˆα) ˆδ i = ˆλ i (ˆλ i w iˆα)

Empirische Wirtschaftsforschung 10 2. Berechne eine Schätzung für den Koeffizientenvektor β und βˆλ = ρ u mittels OLS, indem y auf x und ˆλ regressiert wird. Man kann zeigen, dass ˆ u = ˆεˆε n ˆ δb 2 λ ein konsistenten Schätzer für u 2 ist. Daraus kann schließlich ein Schätzer für ρ berechnet werden ˆρ = b λ ˆ u