Einführung in die Maximum Likelihood Methodik

Ähnliche Dokumente
Die Stochastischen Eigenschaften von OLS

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Binäre abhängige Variablen

Wahrscheinlichkeitsrechnung und Statistik

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

Einführung in Panel-Verfahren

Fortgeschrittene Ökonometrie: Maximum Likelihood

Statistik I für Betriebswirte Vorlesung 13

Wahrscheinlichkeitsverteilungen

Beispiel 6 (Einige Aufgaben zur Gleichverteilung)

Wichtige Definitionen und Aussagen

4. Verteilungen von Funktionen von Zufallsvariablen

OLS-Schätzung: asymptotische Eigenschaften

0 sonst. a) Wie lautet die Randwahrscheinlichkeitsfunktion von Y? 0.5 y = 1

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Mehrdimensionale Zufallsvariablen

Kapitel 3 Schließende Statistik

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Wahrscheinlichkeitstheorie und Statistik vom

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Mathematik für Biologen

Lineare Regression. Kapitel Regressionsgerade

Nachklausur Mathematik für Biologen WS 08/09

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Übungen zur Vorlesung Statistische Methoden Kapitel 1-2

Zulassungsprüfung Stochastik,

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Varianzkomponentenschätzung

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Vorlesung Wissensentdeckung

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

Willkommen zur Vorlesung Statistik (Master)

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

SozialwissenschaftlerInnen II

Nicht-kontinuierliche abhängige Variablen: Das generalisierte lineare Modell und die Parameterschätzung via Maximum Likelihood

Vorlesung: Statistik II für Wirtschaftswissenschaft

WS 2014/15. (d) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X. (e) Bestimmen Sie nun den Erwartungswert und die Varianz von X.

Statistik Klausur Sommersemester 2013 Hamburg, BITTE LESERLICH IN DRUCKBUCHSTABEN AUSFÜLLEN!

Simultane Mehrgleichungssysteme: Parameterschätzung

Wahrscheinlichkeitsrechnung

Frequentisten und Bayesianer. Volker Tresp

Zufallsvariablen [random variable]

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

Einführung in die Statistik für Wirtschaftswissenschaftler für Betriebswirtschaft und Internationales Management

Univariates Datenmaterial

Die Momentenmethode. Vorteil: Oft einfach anwendbar. Nachteil: Güte kann nur schwer allgemein beurteilt werden; liefert zum Teil unbrauchbare

Proxies, Endogenität, Instrumentvariablenschätzung

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Willkommen zur Vorlesung Statistik (Master)

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

2.Tutorium Multivariate Verfahren

Probeklausur - Statistik II, SoSe 2017

Vorlesung: Statistik II für Wirtschaftswissenschaft

Willkommen zur Vorlesung Statistik (Master)

5. Spezielle stetige Verteilungen

5. Stichproben und Statistiken

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Maximum-Likelihood Schätzung

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Goethe-Universität Frankfurt

Stichproben Parameterschätzung Konfidenzintervalle:

Kennwerteverteilungen von Häufigkeiten und Anteilen

Statistik I für Betriebswirte Vorlesung 4

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Einführung in die Induktive Statistik: Regressionsanalyse

Statistik und Datenanalyse (Handout zum Seminarvortrag von Norman Bhatti, gehalten am )

5 Erwartungswerte, Varianzen und Kovarianzen

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Statistik II. IV. Hypothesentests. Martin Huber

Klausur zu Methoden der Statistik II (mit Kurzlösung) Sommersemester Aufgabe 1

Chi-Quadrat-Verteilung

Transkript:

in die Maximum Likelihood Methodik Thushyanthan Baskaran thushyanthan.baskaran@awi.uni-heidelberg.de Alfred Weber Institut Ruprecht Karls Universität Heidelberg

Gliederung 1 2 3 4 2 / 31

Maximum Likelihood (ML) ist in der Ökonomie nach OLS das wohl beliebteste Verfahren, um die Parameter eines empirischen Modells zu schätzen Hat eine Reihe von guten, aber auch viele problematische Eigenschaften Güte der Schätzung hat viel mit der Größe der Stichprobe und den richtigen Verteilungsannahmen zu tun 3 / 31

Vorteile Nichtlineare Modelle können relativ einfach geschätzt werden Normalverteilungsannahme bzgl. des Fehlerterms nicht essentiell Konsistent und asymptotisch effizient unter relativ schwachen Annahmen Flexibler als OLS 4 / 31

Nachteile Die Likelihood-Funktion muss explizit berechnet werden Oft müssen numerische Verfahren verwendet werden, um Maxima zu finden Sensitiv gegenüber Startwerten Kann in kleinen Samples extrem verzerrt sein Viele wünschenswerte Eigenschaften gelten nur asymptotisch 5 / 31

Gliederung 1 2 3 4 6 / 31

Idee Man nimmt an, dass man ein Sample mit N Beobachtungen über eine Zufallsvariable hat Man hat also für i = 1,..., N Einheiten konkrete Werte der Variablen x i Dise Variable könnte beispielsweise sein Das Einkommen eines Individuums Wieviele Patienten in einem bestimmten Krankenhaus in letzten Jahr gestorben sind... 7 / 31

Idee Da jede dieser Beobachtungen per Annahme eine Zufallsvariable ist, hat jede auch eine stochastische Verteilung Also gibt es prinzipiell eine Wahrscheinlichkeit, mit der die i te Beobachtung, i = 1,.., N, genau den Wert x i annimmt Bei kontinuierlichen ZV hat kann man einem konkreten x i den entsprechenden Werte der Dichtefunktion zuordnen Wir machen im folgenden zur terminologischen Vereinfachung keinen Unterschied zwischen Wahrscheinlichkeits- und Dichtefunktionen 8 / 31

Beispiel Wenn x i Bernoulli-verteilt ist mit p = 0.3, dann nimmt x i den Wert 1 mit Wahrscheinlichkeit 0.3 und den Wert 0 mit Wahrscheinlichkeit 0.7 an Wenn x i Standardnormalverteilt ist, nimmt x i den Wert 2 mit Wahrscheinlichkeit 0.054 an 9 / 31

Die i.i.d. Annahme Wir machen jetzt eine entscheidende Annahme: Alle x i sind identisch und unabhängig verteilt (i.i.d.) Konkret bedeutet das, dass alle x i derselben Verteilung entstammen, wie immer sie auch aussehen mag... Und die Wahrscheinlichkeit, die wir einem konkreten x i zuordnen, nicht davon abhängt, welche Werte alle anderen x j i angenommen haben Wie realistisch sind diese Annahmen? Warum machen wir sie? 10 / 31

Likelihoodfunktion Unter der i.i.d-annahme können wir nun einen einfachen Ausdruck für die Wahrscheinlichkeit angeben, mit der wir ein beliebiges Sample erhalten Lass also f (x i Θ) die Wahrscheinlichkeit sein, mit der die i te Beobachtung den Wert x i annimmt Die Wahrscheinlichkeit ergibt sich aus einer Wahrscheinlichkeitsfunktion, die von bestimmten Parametern Θ abhängt Bei Bernoulli also p, Bei Normalverteilung µ und σ 11 / 31

Likelihoodfunktion Die so genannte Likelihoodfunktion ist also Die Likelihoodfunktion L =f (x 1 Θ) f (x 2 Θ) f (x 3 Θ)... f (x N Θ) (1) N = f (x i Θ) (2) i=1 12 / 31

Maximum Die Idee ist nun, die Parameter so zu wählen, dass die Likelihoodfunktion maximal ist Man wählt also die Parameter so, dass die Wahrscheinlichkeit für das tatsächlich vorhandene Sample maximal ist Ein ziemlich indirektes Argument... Denn man kann die Wahrscheinlichkeit nicht beobachten, sondern nur die konkrete Ausprägung des Samples 13 / 31

Log-Likelihood Da man schwerer mit Produkten als mit Summen rechnen kann, transformiert man die Likelihoodfunktion Unter einer monotonen Transformation ändert sich das Maximum einer Funktion nicht Daher wird mit dem Logarithmus der Likelihoodfunktion gerechnet 14 / 31

Log-Likelihood Die Log-Likelihoodfunktion ist Die Log-Likelihoodfunktion ln L = ln (f (x 1 Θ) f (x 2 Θ) f (x 3 Θ)... f (x N Θ)) = ln (f (x 1 Θ)) + ln(f (x 2 Θ)) + ln(f (x 3 Θ)) +... + f (x N Θ)) N = ln (f (x i Θ)) i 15 / 31

Gliederung 1 2 3 4 16 / 31

Likelihoodfunktionen Im folgenden werden wir konkrete Likelihoodfunktionen herleiten Das Ziel ist zunächst nur, Parameter einer Wahrscheinlichkeitsfunktion zu schätzen Wir schätzen also hier noch nicht lineare Modelle Aber enger Zusammenhang... 17 / 31

Normalverteilung Wir fangen mit der Normalverteilung an Die Wahrscheinlichkeitsfunktion ist f (x i µ, σ) = 1 σ (x i µ) 2 2π exp 2σ 2 (3) Die Likelihoodfunktion ist ( ) 1 N Ni L = σ exp (x i µ) 2 2σ (4) 2π Warum? 18 / 31

Normalverteilung Die Log-Likelihoodfunktion ist ln L = N ln(1) N ln(σ ( N ) i (x i µ) 2 2π) 2σ 2 (5) Viel einfacher zu differenzieren als die Likelihoodfunktion... 19 / 31

Der Mittelwert Ableiten nach µ ergibt: d ln L N dµ : 2 i (x i µ) 2σ 2 = 0 (6) N µ = x i /N (7) Der Erwartungswert µ wird also unverzerrt mit dem Stichprobenmittelwert geschätzt i 20 / 31

Sum of Squares Ableiten nach σ ergibt: d ln L dσ : N N σ + 4σ i (x i µ) 2 4σ 4 = 0 (8) N σ 2 = (x i µ) 2 /N (9) Die Varianz wird konsistent, aber nicht erwartungstreu geschätzt Der Schätzer ist also nur asymptotisch effizient i 21 / 31

Bernoulli Jetzt schätzen wir die Parameter einer Bernoulli-Verteilung Es gibt nur einen: p Die Likelihoodfunktion kann man folgendermaßen schreiben n L = p x i (1 p) 1 x i (10) i=1 p i x i (1 p) N i x i (11) 22 / 31

Bernoulli Die Log-Likelihoodfunktion ist ln L = i x i ln(p) + (N i x i ) ln(1 p) (12) 23 / 31

Der Mittelwert, schon wieder Ableiten ergibt: d ln L dp : i x i p p = i N i x i 1 p = 0 (13) x i /N (14) Der Parameter p wird also mit dem Stichprobenmittelwert geschätzt Was ist dann der geschätzte Erwartungswert, was die geschätzte Varianz einer Bernoulli-Verteilung? 24 / 31

Gliederung 1 2 3 4 25 / 31

Der Fehlerterm Die Parameter im linearen Modell werden nach demselben Prinzip geschätzt y i = a + bx i + ɛ i (15) Entscheidend ist hier, welche Verteilungsannahme man über den Fehlerterm macht Illustration des Sachverhaltes anhand eines normalverteilten Fehlerterms im linearen Modell 26 / 31

Normalverteilung Wir nehmen also an, dass der Fehlerterm normalverteilt ist Ausserdem nehmen wir wie immer an, dass E(ɛ i ) = 0 Die Wahrscheinlichkeit für ein konkretes ɛ i ist also f (ɛ i µ, σ) = 1 σ ɛ 2 2π exp i 2σ 2 (16) Also ergibt sich für die Likelihoodfunktion L = i ( ) 1 N f (ɛ i µ, σ) = σ exp i ɛ2 i 2σ 2 (17) 2π 27 / 31

Normalverteilung Bekanntlich gilt ɛ i = y i a bx i Also: ( ) 1 N L = σ exp i (y i a bx i )2 2σ 2 (18) 2π Das Aufstellen der Log-Likelihoodfunktion und das Ableiten nach a, b und σ funktioniert wie in dem Beispiel, wo wir µ bestimmt haben 28 / 31

a und b Man erhält Cov(x, y) a =ȳ x Var(x) (19) Cov(x, y) b = Var(x) (20) Also identisch zu den OLS Schätzern, von denen wir wissen, dass sie erwartungstreu sind 29 / 31

Die Varianz Für die Varianz ergibt sich aber σ 2 = i (y i a bx i ) 2 Zwar konsistent, aber nicht erwartungstreu N = i e2 i N (21) 30 / 31

Hausaufgabe Herleitung der Log-Likelihoodfunktion für das Probit-Modell!!!