Binäre abhängige Variablen Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg
Einführung Oft wollen wir qualitative Variablen erklären Macht ein Individuum Abitur? Kommt ein Student mit einem Fahrrad, einem Auto oder mit öffentlichen Nahverkehrsmitteln in die Uni etc. Obwohl das traditionelle lineare Modell auch hier benutzt werden kann, hat eine eine Reihe von Nachteilen Wir werden die Problematik anhand des einfachen bivariaten Modells mit binären abhängigen Variablen illustrieren Plan für heute: Das linear Modell Probit und Logit 2 / 17
Binäre Variablen Einführung Binär bedeutet, dass die Variable nur zwei Ausprägungen annehmen kann Von oben: Individuum macht Abitur oder nicht Patient stirbt oder überlebt Freiwurf geht in den Korb oder nicht Wir codieren die binäre Variable y i mit 0 und 1 Beispielsweise: Patient überlebt 1 Patient stirbt 0 3 / 17
Interpretation als Wahrscheinlichkeit Was sollen wir mit binären abhängigen Variablen nun anfangen? Wir wissen, dass der Erwartungswert einer binären Variablen y i folgendermaßen formuliert werden kann E(y i ) = p(y i = 1) 1 + (1 p(y i = 1)) 0 = p(y i = 1) 4 / 17
Interpretation als Wahrscheinlichkeit Gleichzeitig wissen wir, dass für das linear Modell wenn E(ɛ) = 0 folgendes gilt Also E(y i ) = p(y i = 1) y i = a + bx i + ɛ i (1) E(y i ) = a + bx i (2)... Und daher kann man ŷ i als Predicted Value der Wahrscheinlichkeit, dass y = 1 ist, interpretieren Der geschätzte Koeffizient ˆb ist dann eine Schätzung des marginalen Effekts der Variable x i auf die Wahrscheinlichkeit, dass y i = 1 5 / 17
Probleme des linearen Modells Obwohl das linear Modell eine einfache Interpretation besitzt hat es auch Schwächen Die vorhergesagte Wahrscheinlichkeit ŷ i kann > 1 und < 0 sein Der Fehlerterm ɛ i ist weder normalverteilt noch homoskedastisch 6 / 17
Der Fehlerterm im linearen Modell Es gilt, dass wenn y i = 1 ɛ i = (1 a bx i ) wenn y i = 0 ɛ i = ( (a + bx i )) Also kann ɛ i, gegeben ein beliebiges x i, nur zwei Werte annehmen und kann demnach nicht normalverteilt sein 7 / 17
Heteroskedastischer Fehler Man kann auch zeigen, dass ɛ i heteroskedastisch ist Zunächst leiten wir E(ɛ i ) her: E(ɛ i ) = p(y i = 1) (1 a bx i ) + (1 p(y i = 1)) ( (a + bx i )) = 0. Wir benutzen hierbei p(y i = 1) = E(y i ) = (a + bx i ) Zunächst können wir einmal feststellen, dass die Annahmen der lineare funktionalen Form und E(ɛ i ) = 0 miteinander vereinbar sind 8 / 17
Heteroskedastischer Fehler Die Varianz von E(ɛ i ) ergibt sich aus (Wir definieren zur Vereinfachung p(y i = 1) = p) Var(ɛ i ) = p ((1 a bx i ) 0) 2 + (1 p) (( (a + bx i )) 0) 2 Wenn man wieder einsetzt p(y i = 1) = E(y i ) = (a + bx i ), kann man ausrechnen Var(ɛ i ) = (a + bx i )(1 a bx i ) (3)... was klar von x i abhängt Heteroskedastisch 9 / 17
Logit und Probit Einführung Wegen der Unzulänglichkeiten des linearen Modells werden binäre abhängige Variablen nichtlinear modelliert Idee: Finde eine Funktion F, so dass der Wertebereich von F (ŷ i ) (0, 1) Man erhält verschiedene Modelle für verschiedene Funktionen F Die beliebtesten sind Probit und Logit Probit benutzt als F die Verteilungsfunktion der Standardnormalverteilung, Logit die sogenannten Logitfunktion 10 / 17
Motivation Einführung Die Tatsache, dass eine kontinuierliche Funktion benutzt wird, um binäre Variablen zu modellieren bzw. die Interpretation als Wahrscheinlichkeit bedarf einer Rechtfertigung Wir liefern Sie für das Probit-Modell, für Logit ist sie identisch Annahme: Es gibt eine kontinuierliche aber unbeobachtbare Variable yi, so dass { 1, wenn yi > 0 y i = (4) 0, sonst Die Variable y i ist also ein latente Variable 11 / 17
Die Latente Variable Wir machen folgende Annahmen über y i mit ν i N(0, σ 2 ) yi y i = a + bx i + ν i, (5) ist also linear in den Parametern, hängt von x i ab und ist normalverteilt Wenn wir yi beobachten können, würden wir einfach ein lineares Modell spezifizieren und OLS benutzen 12 / 17
y i als beobachtbarer Ersatz für y i Da wir yi nicht beobachten können, müssen wir eine Variable mit geringerem Informationsgehalt benutzen y i Beispiel: Einem Insekt geht es kontinuierlich schlechter, wenn man ihm Gift verabreicht Wir können nur beobachten, ob es (noch) lebt oder schon tot ist, aber nicht seinen aktuellen Zustand Irgendwann überschreitet der Zustand eine kritische Marke und das Insekt stirbt Wir werden im folgenden die Wahrscheinlichkeit modellieren, dass diese kritische Marke überschritten wird 13 / 17
Die Wahrscheinlichkeit: Probit Wir unterstellen, dass der kritische Wert 0 ist - dann: p(y = 1) = p(y > 0) = p(a + bx i + ν i > 0) = p(ν i > a + bx i ) ( νi = p σ > a + bx ) i σ Wir wissen dass ν i σ symmetrisch ist standardnormalverteilt und somit 14 / 17
Die Wahrscheinlichkeit: Probit Wegen Symmetrie kann man die letzte Gleichung auch schreiben als ( νi p(y i = 1) = p σ < a + bx ) i σ ( ) a + bxi = Θ σ = ( a+bx i σ ) 1 2π exp ( z 2 2 ) dz 15 / 17
Die Wahrscheinlichkeit: Logit Logit funktioniert ähnlich, nur dass die Funktion folgendermaßen aussieht p(y i = 1) = Λ(a + bx i ) = expa+bx i 1 + exp a+bx i Die Parameter werden bei beiden Verfahren mit ML geschätzt 16 / 17
Der Marginale Effekt Obwohl die Parameter in beiden Modellen konstant sind, ist der marginale Effekt von x i auf die Wahrscheinlichkeit nicht konstant Im Probit ergibt sich dieser als dp = dθ b = f (z) b, (6) dx i dz mit f (z) als der Dichtefunktion der Normalverteilung Im Logit is der marginale Effekt dp dx i = e a+bx i (1 + e a+bx i ) 2 b (7) 17 / 17