in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg
Gliederung 1 2 3 4 2 / 31
Maximum Likelihood (ML) ist in der Ökonomie nach OLS das wohl beliebteste Verfahren, um die Parameter eines empirischen Modells zu schätzen Hat eine Reihe von guten, aber auch viele problematische Eigenschaften Güte der Schätzung hat viel mit der Größe der Stichprobe und den richtigen Verteilungsannahmen zu tun 3 / 31
Vorteile Nichtlineare Modelle können relativ einfach geschätzt werden Normalverteilungsannahme bzgl. des Fehlerterms nicht essentiell Konsistent und asymptotisch effizient unter relativ schwachen Annahmen Flexibler als OLS 4 / 31
Nachteile Die Likelihood-Funktion muss explizit berechnet werden Oft müssen numerische Verfahren verwendet werden, um Maxima zu finden Sensitiv gegenüber Startwerten Kann in kleinen Samples extrem verzerrt sein Viele wünschenswerte Eigenschaften gelten nur asymptotisch 5 / 31
Gliederung 1 2 3 4 6 / 31
Idee Man nimmt an, dass man ein Sample mit N Beobachtungen über eine Zufallsvariable hat Man hat also für i = 1,..., N Einheiten konkrete Werte der Variablen x i Dise Variable könnte beispielsweise sein Das Einkommen eines Individuums Wieviele Patienten in einem bestimmten Krankenhaus in letzten Jahr gestorben sind... 7 / 31
Idee Da jede dieser Beobachtungen per Annahme eine Zufallsvariable ist, hat jede auch eine stochastische Verteilung Also gibt es prinzipiell eine Wahrscheinlichkeit, mit der die i te Beobachtung, i = 1,.., N, genau den Wert x i annimmt Bei kontinuierlichen ZV hat kann man einem konkreten x i den entsprechenden Werte der Dichtefunktion zuordnen Wir machen im folgenden zur terminologischen Vereinfachung keinen Unterschied zwischen Wahrscheinlichkeits- und Dichtefunktionen 8 / 31
Beispiel Wenn x i Bernoulli-verteilt ist mit p = 0.3, dann nimmt x i den Wert 1 mit Wahrscheinlichkeit 0.3 und den Wert 0 mit Wahrscheinlichkeit 0.7 an Wenn x i Standardnormalverteilt ist, nimmt x i den Wert 2 mit Wahrscheinlichkeit 0.054 an 9 / 31
Die i.i.d. Annahme Wir machen jetzt eine entscheidende Annahme: Alle x i sind identisch und unabhängig verteilt (i.i.d.) Konkret bedeutet das, dass alle x i derselben Verteilung entstammen, wie immer sie auch aussehen mag... Und die Wahrscheinlichkeit, die wir einem konkreten x i zuordnen, nicht davon abhängt, welche Werte alle anderen x j i angenommen haben Wie realistisch sind diese Annahmen? Warum machen wir sie? 10 / 31
Likelihoodfunktion Unter der i.i.d-annahme können wir nun einen einfachen Ausdruck für die Wahrscheinlichkeit angeben, mit der wir ein beliebiges Sample erhalten Lass also f (x i Θ) die Wahrscheinlichkeit sein, mit der die i te Beobachtung den Wert x i annimmt Die Wahrscheinlichkeit ergibt sich aus einer Wahrscheinlichkeitsfunktion, die von bestimmten Parametern Θ abhängt Bei Bernoulli also p, Bei Normalverteilung µ und σ 11 / 31
Likelihoodfunktion Die so genannte Likelihoodfunktion ist also Die Likelihoodfunktion L =f (x 1 Θ) f (x 2 Θ) f (x 3 Θ)... f (x N Θ) (1) N = f (x i Θ) (2) i=1 12 / 31
Maximum Die Idee ist nun, die Parameter so zu wählen, dass die Likelihoodfunktion maximal ist Man wählt also die Parameter so, dass die Wahrscheinlichkeit für das tatsächlich vorhandene Sample maximal ist Ein ziemlich indirektes Argument... Denn man kann die Wahrscheinlichkeit nicht beobachten, sondern nur die konkrete Ausprägung des Samples 13 / 31
Log-Likelihood Da man schwerer mit Produkten als mit Summen rechnen kann, transformiert man die Likelihoodfunktion Unter einer monotonen Transformation ändert sich das Maximum einer Funktion nicht Daher wird mit dem Logarithmus der Likelihoodfunktion gerechnet 14 / 31
Log-Likelihood Die Log-Likelihoodfunktion ist Die Log-Likelihoodfunktion ln L = ln (f (x 1 Θ) f (x 2 Θ) f (x 3 Θ)... f (x N Θ)) = ln (f (x 1 Θ)) + ln(f (x 2 Θ)) + ln(f (x 3 Θ)) +... + f (x N Θ)) N = ln (f (x i Θ)) i 15 / 31
Gliederung 1 2 3 4 16 / 31
Likelihoodfunktionen Im folgenden werden wir konkrete Likelihoodfunktionen herleiten Das Ziel ist zunächst nur, Parameter einer Wahrscheinlichkeitsfunktion zu schätzen Wir schätzen also hier noch nicht lineare Modelle Aber enger Zusammenhang... 17 / 31
Normalverteilung Wir fangen mit der Normalverteilung an Die Wahrscheinlichkeitsfunktion ist f (x i µ, σ) = 1 σ (x i µ) 2 2π exp 2σ 2 (3) Die Likelihoodfunktion ist ( ) 1 N Ni L = σ exp (x i µ) 2 2σ (4) 2π Warum? 18 / 31
Normalverteilung Die Log-Likelihoodfunktion ist ln L = N ln(1) N ln(σ ( N ) i (x i µ) 2 2π) 2σ 2 (5) Viel einfacher zu differenzieren als die Likelihoodfunktion... 19 / 31
Der Mittelwert Ableiten nach µ ergibt: d ln L N dµ : 2 i (x i µ) 2σ 2 = 0 (6) N µ = x i /N (7) Der Erwartungswert µ wird also unverzerrt mit dem Stichprobenmittelwert geschätzt i 20 / 31
Sum of Squares Ableiten nach σ ergibt: d ln L dσ : N N σ + 4σ i (x i µ) 2 4σ 4 = 0 (8) N σ 2 = (x i µ) 2 /N (9) Die Varianz wird konsistent, aber nicht erwartungstreu geschätzt Der Schätzer ist also nur asymptotisch effizient i 21 / 31
Bernoulli Jetzt schätzen wir die Parameter einer Bernoulli-Verteilung Es gibt nur einen: p Die Likelihoodfunktion kann man folgendermaßen schreiben n L = p x i (1 p) 1 x i (10) i=1 p i x i (1 p) N i x i (11) 22 / 31
Bernoulli Die Log-Likelihoodfunktion ist ln L = i x i ln(p) + (N i x i ) ln(1 p) (12) 23 / 31
Der Mittelwert, schon wieder Ableiten ergibt: d ln L dp : i x i p p = i N i x i 1 p = 0 (13) x i /N (14) Der Parameter p wird also mit dem Stichprobenmittelwert geschätzt Was ist dann der geschätzte Erwartungswert, was die geschätzte Varianz einer Bernoulli-Verteilung? 24 / 31
Gliederung 1 2 3 4 25 / 31
Der Fehlerterm Die Parameter im linearen Modell werden nach demselben Prinzip geschätzt y i = a + bx i + ɛ i (15) Entscheidend ist hier, welche Verteilungsannahme man über den Fehlerterm macht Illustration des Sachverhaltes anhand eines normalverteilten Fehlerterms im linearen Modell 26 / 31
Normalverteilung Wir nehmen also an, dass der Fehlerterm normalverteilt ist Ausserdem nehmen wir wie immer an, dass E(ɛ i ) = 0 Die Wahrscheinlichkeit für ein konkretes ɛ i ist also f (ɛ i µ, σ) = 1 σ ɛ 2 2π exp i 2σ 2 (16) Also ergibt sich für die Likelihoodfunktion L = i ( ) 1 N f (ɛ i µ, σ) = σ exp i ɛ2 i 2σ 2 (17) 2π 27 / 31
Normalverteilung Bekanntlich gilt ɛ i = y i a bx i Also: ( ) 1 N L = σ exp i (y i a bx i )2 2σ 2 (18) 2π Das Aufstellen der Log-Likelihoodfunktion und das Ableiten nach a, b und σ funktioniert wie in dem Beispiel, wo wir µ bestimmt haben 28 / 31
a und b Man erhält Cov(x, y) a =ȳ x Var(x) (19) Cov(x, y) b = Var(x) (20) Also identisch zu den OLS Schätzern, von denen wir wissen, dass sie erwartungstreu sind 29 / 31
Die Varianz Für die Varianz ergibt sich aber σ 2 = i (y i a bx i ) 2 Zwar konsistent, aber nicht erwartungstreu N = i e2 i N (21) 30 / 31
Hausaufgabe Herleitung der Log-Likelihoodfunktion für das Probit-Modell!!!