Maximum-Likelihood Schätzung

Ähnliche Dokumente
Kategoriale abhängige Variablen: Logit- und Probit -Modelle. Statistik II

Kategoriale abhängige Variablen:

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Kapitel 4: Binäre Regression

Grundlagen der Inferenzstatistik: Was Ihnen nicht erspart bleibt!

Stochastische Eingangsprüfung,

Binäre abhängige Variablen

Ausarbeitung des Seminarvortrags zum Thema


Kapitel 3. Zufallsvariable. Wahrscheinlichkeitsfunktion, Dichte und Verteilungsfunktion. Erwartungswert, Varianz und Standardabweichung

2.Tutorium Generalisierte Regression

Klausur zur Vorlesung Statistik III für Studenten mit dem Wahlfach Statistik

Kommentierter SPSS-Ausdruck zur logistischen Regression

Statistische Thermodynamik I Lösungen zur Serie 1

1 Statistische Grundlagen

9. Schätzen und Testen bei unbekannter Varianz

Multivariate Analyseverfahren

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Regressionsanalysen. Zusammenhänge von Variablen. Ziel der Regression. ( Idealfall )

Nichtlineare Optimierung ohne Nebenbedingungen

Teil I Beschreibende Statistik 29

Übungsrunde 7, Gruppe 2 LVA , Übungsrunde 7, Gruppe 2, Markus Nemetz, markus.nemetz@tuwien.ac.at, TU Wien, 11/2006

Kap. 9: Regression mit einer binären abhängigen Variablen

Modul G.1 WS 07/08: Statistik Die Korrelation ist ein standardisiertes Maß für den linearen Zusammenhangzwischen zwei Variablen.

Grundzüge der Ereignisdatenanalyse

Im Jahr t = 0 hat eine Stadt Einwohner. Nach 15 Jahren hat sich die Einwohnerzahl verdoppelt. z(t) = at + b

Statistik im Bachelor-Studium der BWL und VWL

Generalisierte Additive Modelle im Credit Rating: Eine Fallstudie zum Vergleich verschiedener Verfahren

Einfache Modelle für Paneldaten. Statistik II

Bachelorprüfung. Praxis der empirischen Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Name, Vorname. Matrikelnr. . Studiengang.

Zufallsgrößen. Vorlesung Statistik für KW Helmut Küchenhoff

8. Februar Bei Unterschleif gilt die Klausur als nicht bestanden und es erfolgt eine Meldung an das Prüfungsamt.

Übersicht. VL Forschungsmethoden. Ereignisdatenanalyse

Die Tarifierung in der Autohaftpflichtversicherung mittels verallgemeinerter linearer Modelle

Technische Universität München. Zentrum Mathematik

Weiterbildungskurs Stochastik

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Willkommen zur Vorlesung Statistik

Regelmäßigkeit (Erkennen von Mustern und Zusammenhängen) versus Zufall

Kern- und Schulcurriculum Mathematik Klasse 9/10. Stand Schuljahr 2009/10

Beispiel Zusammengesetzte Zufallsvariablen

a) Zeichnen Sie in das nebenstehende Streudiagramm mit Lineal eine Regressionsgerade ein, die Sie für passend halten.

Verteilungsmodelle. Verteilungsfunktion und Dichte von T

Prüfung im Fach Ökonometrie im WS 2011/12 Aufgabenteil. Name, Vorname. Matrikelnr. Studiengang. -Adresse. Unterschrift

In konstanten Modellen wird davon ausgegangen, dass die zu prognostizierende Größe sich über die Zeit hinweg nicht verändert.

Teil II. Nichtlineare Optimierung

, dt. $+ f(x) = , - + < x < +, " > 0. " 2# Für die zugehörige Verteilungsfunktion F(x) ergibt sich dann: F(x) =

Box-and-Whisker Plot -0,2 0,8 1,8 2,8 3,8 4,8

Einführung in Statistik und Messwertanalyse für Physiker

SLAM. Simultaneous Localization and Mapping. KogSys-Sem-M2: Reading Club - SLAM - Andreas Habermann

Herzlich Willkommen zur Vorlesung Statistik

Motivation. Jede Messung ist mit einem sogenannten Fehler behaftet, d.h. einer Messungenauigkeit

Technische Mathematik

Monte Carlo Methoden in Kreditrisiko-Management

Nachholklausur STATISTIK II

Versuchsplanung. Teil 1 Einführung und Grundlagen. Dr. Tobias Kiesling <kiesling@stat.uni-muenchen.de> Einführung in die Versuchsplanung

Generalisierte lineare Modelle. Statistik 3 im Nebenfach. Binäre Regressionsmodelle. 4.1 Binäre Regression

Unsupervised Kernel Regression

Lehrstuhl für Statistik und empirische Wirtschaftsforschung Prof. Regina T. Riphahn, Ph.D. Prüfung im Fach Ökonometrie im WS 2011/12 Lösungsskizze

Einführung in die Mathematik für Volks- und Betriebswirte

Parametrische Statistik

Statistik. R. Frühwirth. Statistik. VO Februar R. Frühwirth Statistik 1/536

Lebensdauer eines x-jährigen

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Kommentierte Musterlösung zur Klausur HM I für Naturwissenschaftler

Zusammenfassung - Mathematik

Monte-Carlo Simulation

Multivariate Statistik

Oliver Kuß*; Dorothee Twardella**; Maria Blettner***; Thomas L. Diepgen**

Interne und externe Modellvalidität

Prof. Dr. H. Rommelfanger: Entscheidungstheorie, Kapitel 3 38

DIPLOMVORPRÜFUNG GRUNDZÜGE DER STATISTIK, TEIL B WINTERSEMESTER 2006/

Statistik - Fehlerrechnung - Auswertung von Messungen

Semiparametrisches Kredit Scoring

Multinomiale logistische Regression

Lernzettel Mathe Inhaltsverzeichnis

Multiple Regression. Ziel: Vorhersage der Werte einer Variable (Kriterium) bei Kenntnis der Werte von zwei oder mehr anderen Variablen (Prädiktoren)

Generalisierte lineare Modelle und GEE-Modelle in SPSS Statistics

Vorlesungsplan. Von Naïve Bayes zu Bayesischen Netzwerk- Klassifikatoren. Naïve Bayes. Bayesische Netzwerke

Anleitung zum Physikpraktikum für Oberstufenlehrpersonen Fehlerrechnung und Statistik (FR) Herbstsemester 2015

Ein möglicher Unterrichtsgang

6.0 Logistische Regression. 6 Logistische Regression. 6.1 Das binäre Modell. 6 Logistische Regression

Schulinternes Curriculum. Mathematik

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

METHODENLEHRE I WS 2013/14 THOMAS SCHÄFER

Zeitreihen. Statistik II

MÖGLICHKEITEN UND GRENZEN DER VORHERSAGBARKEIT VON EPIDEMIEN IN FRÜHEN STADIEN

Commercial Banking Übung 1 Kreditscoring

Fehler in numerischen Rechnungen

Klausur zu Methoden der Statistik II (mit Kurzlösung) Wintersemester 2010/2011. Aufgabe 1

RUPRECHTS-KARLS-UNIVERSITÄT HEIDELBERG

2.12 Potenzreihen. 1. Definitionen. 2. Berechnung POTENZREIHEN 207. Der wichtigste Spezialfall von Funktionenreihen sind Potenzreihen.

Grundprinzipien der Bayes-Statistik

Rating. { 0 = kein Ausfall des Kreditnehmers i

Multiple Regression II: Signifikanztests, Gewichtung, Multikollinearität und Kohortenanalyse

B 2. " Zeigen Sie, dass die Wahrscheinlichkeit, dass eine Leiterplatte akzeptiert wird, 0,93 beträgt. (genauerer Wert: 0,933).!:!!

Transkript:

Maximum-Likelihood Schätzung VL Forschungsmethoden 1 Wiederholung Einführung: Schätzung 2 Likelihood-Schätzung und Generalisiertes Lineares Modell Zufallsverteilungen 3 Lernziele 1 Grundzüge der Likelihood-Schätzung 2 Struktur des Generalisierten Linearen Modells

Wiederholung Einführung: Schätzung Wiederholung Kausalität ist komplex Kontrafaktische Definition Prüfung vor allem eine Frage des Designs VL Forschungsmethoden ML Schätzung (1/37) Wiederholung Einführung: Schätzung Was ist ein Modell? Quelle: Morton 1999 Sozialer Prozeß, Parameter und zufällige Einflüsse VL Forschungsmethoden ML Schätzung (2/37)

Wiederholung Einführung: Schätzung Inferenzproblem Was ist ein Schätzverfahren? Mathematisches Modell (y = β 0 + β 1 x 1... ) Unsere Vorstellung über Zustand einer Grundgesamtheit oder den DGP selbst Wie können wir mit Daten auf Parameter des Modells schließen? Schätzverfahren Schätzt Parameter Auf Grundlage der Daten Berücksichtigt Unsicherheit (durch beschränkte Information) VL Forschungsmethoden ML Schätzung (3/37) Wiederholung Einführung: Schätzung Maß für Probleme: MSE Welche Eigenschaften hat ein gutes Verfahren? Mean Squared Error (MSE) =(bias(ˆβ)) 2 + Varianz(ˆβ) Gute Eigenschaften 1 Asymptotisch unverzerrt: kein systematischer Fehler (Mittelwert über Parameterschätzungen) 2 Effizient: Schätzungen haben relative geringe Varianz um wahren Wert (Kehrwert MSE) 3 Konsistenz: Wahrscheinlichkeit einer relevanten Differenz zwischen Schätzung und Parameter kann durch zusätzliche Beobachtungen beliebig verringert werden Wenn bias und Varianz bei steigendem n gegen null streben... Hinreichende Bedingung für Konsistenz VL Forschungsmethoden ML Schätzung (4/37)

Wiederholung Einführung: Schätzung Zwei Ansätze Frequentistisch Bayesianisch Annahme, daß sich essentiell identische Stichprobenziehungen/Beobachtungen beliebig oft wiederholen lassen Wahrscheinlichkeit als langfristige relative Häufigkeit Verteilung von Stichprobenkennwerten bzw. Parameterschätzungen Konkreter Wert/Schätzung als zufälliger Wert aus bekannter Zufallsverteilung Klassische Konfidenzintervalle und Hypothesentests VL Forschungsmethoden ML Schätzung (5/37) Wahrscheinlichkeit als subjektive Überzeugung einer Forscherin ( beliefs ) Systematische Inkorporation bisheriges Wissens ( prior beliefs ), beschrieben durch Wahrscheinlichkeitsdichte (Verteilung) Modellschätzungen integrieren neue Daten und bisheriges Wissen ( posterior beliefs ) Credible Intervals Wiederholung Einführung: Schätzung Unterschiede/Gemeinsamkeiten Große philosophische Unterschiede Bayesianische Methoden flexibler Sehr ähnliche Ergebnisse in großen Stichproben (kein prior knowledge) Beide Verfahren basieren auf dem Likelihood-Prinzip VL Forschungsmethoden ML Schätzung (6/37)

Drei Arten von Wahrscheinlichkeiten 1 Unbedinge Wahrscheinlichkeit (marginal probability) Wie wahrscheinlich ist Ausprägung/Intervall von X insgesamt über alle Ausprägungen/gesamtes Intervall von Y hinweg? 2 Gemeinsame Wahrscheinlichkeit (joint probability) Wie wahrscheinlich ist gemeinsames Auftreten einer Ausprägung/eines Intervalls von X mit Ausprägung/Intervall von Y? (Produkt der marginalen Wahrscheinlichkeiten wenn X und Y unabhängig) 3 Bedingte Wahrscheinlichkeit (conditional probability) Wie wahrscheinlich ist Ausprägung/Intervall von X wenn Ausprägung/Intervall von Y bekannt? = marginale Wahrscheinlichkeit, wenn unabhängig Sonst gemeinsame Wahrscheinlichkeit durch Wahrscheinlichkeit von Y VL Forschungsmethoden ML Schätzung (7/37) Unbedingte vs bedingte Wahrscheinlichkeit Ethnizität und PI +D -D +B 60 40 100 -B 360 540 900 420 580.42.58 Wahrscheinlichkeiten Gemeinsame Wahrscheinlichkeit Pr( B D) : 0.54 Konditionale Wahrscheinlichkeit Pr( D + B) = Pr( D +B) Pr(+B) =.04.10 = 0.4 Konditionale Wahrscheinlichkeiten über Bayes Rule verbunden VL Forschungsmethoden ML Schätzung (8/37)

Grundgedanke Likelihood-Schätzung Wenn Daten als gegeben betrachtet werden (konditional)... Welche Parameterschätzungen sind mehr oder weniger plausibel? Likelihood Funktion von Daten, Modell und Parameterschätzungen Keine echte Wahrscheinlichkeit (fehlende Informationen) Aber proportional zu Wahrscheinlichkeit Vergleich von Schätzwerten möglich Regel: Maximiere Likelihood, um gute Schätzungen zu erhalten VL Forschungsmethoden ML Schätzung (9/37) Was ist eine Zufallsvariable? Zufallsvariablen werden durch Verteilungsfunktionen beschrieben Diskrete Variablen: Säulen, die die Wahrscheinlichkeit eines Ereignisses repräsentieren Die Summe der Säulen ergibt 1 Stetige Zufallsvariablen: Stetige Verteilungsfunktion ( Dichte ) Wahrscheinlichkeit eines exakten Wertes gleich null Statt dessen Wahrscheinlichkeiten für Intervalle, indem das Integral (Fläche unter der Dichtekurve) bestimmt wird Die Gesamtfläche ist ebenfalls 1 VL Forschungsmethoden ML Schätzung (10/37)

Verteilung einer diskreten Zufallsvariablen Wahrscheinlichkeit 0.1.2.3.4 0 2 4 6 8 Wert der Einstellungsvariablen x VL Forschungsmethoden ML Schätzung (11/37) Verteilung einer stetigen Zufallsvariablen f (x µ, σ 2 ) = 1 1 ( x µ σ 2π e 2 σ ) 2 Dichte 0,1,2,3,4 f 4 2 VL Forschungsmethoden 0 ML2 Schätzung (12/37) 4

Verteilung einer stetigen Zufallsvariablen 1,96 1,96 f (x µ, σ2 ) = 0, 95 Dichte 0,1,2,3,4 f 4 2 0 2 4 VL Forschungsmethoden ML Schätzung (13/37) Wie läßt sich das lineare Modell erweitern? Das generalisierte Modell hat drei Komponenten 1 Eine Verteilung, die die Streuung von Y um den konditionalen Mittelwert µ beschreibt und deren Varianz normalerweise eine Funktion des konditionalen Mittelwertes µ ist 2 Eine systematische Komponente (Prädiktor) Xβ beziehungsweise β 0 x 0 + β 1 x 1... 3 Eine (normalerweise non-lineare) Funktion θ (link), die Prädiktor und konditionalen Mittelwert verbindet Xβ = θ(µ) Für die Verteilung wird ein Mitglied der Exponentialfamilie gewählt (u. a. Normalverteilung, Bernoulli-Verteilung, Poissonverteilung), das zu den Daten paßt Zu jeder Verteilung gehört ein kanonischer Link (d.h. eine bestimmte Funktion) Große Flexibilität + konveniente mathematische Eigenschaften, u. a. existiert VL für Forschungsmethoden Likelihood-Funktion ML Schätzung ein (14/37) globales Maximum

Was ist die Exponentialfamilie? Grundsätzlich: Modellierung der konditionalen Verteilung von y (diskret oder stetig) Normalverteilung normalerweise so definiert: (f (y µ, σ 2 ) = 1 2πσ 2 e 1 2( y µ σ ) 2 π und e sind Konstanten Achtung: hier y statt x VL Forschungsmethoden ML Schätzung (15/37) Ergibt durch Umformung: ( yµ µ 2 f (y µ, σ 2 ) = exp Was ist die Exponentialfamilie? 2 σ 2 1 2 ( y 2 σ 2 + ln ( ) ) 2πσ 2) Generelle Form: ( yθ b(θ) f (y θ, φ) = exp φ ) + c(y, φ) θ ist eine Funktion des Mittelwertes µ b ist eine Funktion von θ (und damit von µ) φ ist ein Parameter, der die Varianz definiert c ist eine Funktion des betreffenden y-wertes und des Varianz-Parameters VL Forschungsmethoden ML Schätzung (16/37)

Was ist die Exponentialfamilie? Die Funktion θ(µ) ist die kanonische Link-Funktion Die zweite Ableitung der Funktion b(θ) ist die Varianzfunktion, d. h. Varianz hängt vom Mittelwert ab Besonderheiten der Normalverteilung Kanonische Link-Funktion = Identität: θ(µ) = µ Zweite Ableitung von b(θ) = b = 1, d. h. Varianz ist konstant σ 2 und nicht vom Mittelwert abhängig Normalverteilung besonders einfacher Spezialfall der Exponentialfamilie Lineare Regression besonders einfacher Spezialfall des generalisierten Modells VL Forschungsmethoden ML Schätzung (17/37) Wie läßt sich das lineare Modell als generalisiertes Modell rekonstruieren? Identitäts-Link; y ist für ein gebenes µ normalverteilt mit einem separaten Varianzparameter σ 2 Bisher... GLM y =Xβ + ɛ (1) ɛ N(0, σ 2 ) (2) y N(µ, σ 2 ) (3) θ(µ) = µ =Xβ (4) VL Forschungsmethoden ML Schätzung (18/37)

Was gibt es sonst noch? Sehr viele interessante Variablen dichotom (unser Ausgangspunkt), d. h. y = 0 oder y = 1 Solche Variablen werden allgemein durch Binomialverteilung beschrieben... ( ) n f (y n, p) = p y (1 p) n y y... die sich für unsere Zwecke meistens auf die Bernoulli- Verteilung (n = 1) reduzieren läßt...... die eine sehr einfache exponentielle Form hat: ( ( ) ( π f (y π) = exp y ln ln 1 + π )) 1 π 1 π ( ) π y 1 =π VL ForschungsmethodenAchtung: ML Schätzung statt (19/37) µ meistens π 1 π Wieso ist das besonders einfach? Die kanonische Funktion θ = ln ( π 1 π), d. h. die beliebte Logit-Transformation b(θ) = ln (1 + exp (θ)), die zweite Ableitung davon (Varianzfunktion) ist π(1 π) φ = 1, c(y, φ) = 0 VL Forschungsmethoden ML Schätzung (20/37)

Was gibt es sonst noch? Für die Zahl der Ereignisse pro Zeitraum die Poisson-Verteilung mit dem Parameter λ, der Varianz und Mittelwert definiert Survival Analysis, z. B. mit der Exponentialfunktion Vieles andere mehr Alle diese Modelle haben Diesselbe Struktur (systematischer Teil, konditionale Verteilung von y, deren Varianz von µ abhängt, nicht-linearer Link zwischen Xβ und µ) Erfreuliche Eigenschaften des zugehörigen Schätzverfahrens (ML) VL Forschungsmethoden ML Schätzung (21/37) Was ist die Grundidee der? Die Daten werden als gegeben angesehen Nun variiert man die Parameterschätzungen...... bis man solche Werte gefunden hat, die am wahrscheinlichsten die beobachteten Daten hervorgebracht haben können en sind 1 Asymptotisch unverzerrt und effizient 2 Konsistent 3 Bei großen Stichproben approximativ normalverteilt VL Forschungsmethoden ML Schätzung (22/37)

Welches ist die Likelihood-Funktion im linearen Modell? Für jeden individuellen Fall i ist die Likelihood-Funktion die Dichtefunktion der Normalverteilung ( (f (y i µ i, σ 2 ) = 1 exp 1 ( ) ) yi µ 2 i 2πσ 2 2 σ 2 ( = 1 exp 1 ( ) ) yi X i β 2 2πσ 2 2 σ 2 VL Forschungsmethoden ML Schätzung (23/37) Welches ist die Likelihood-Funktion im linearen Modell? Da die Fälle voneinander unabhängig sind, ergibt sich die gemeinsame Likelihood-Funktion für alle Fälle in der Stichprobe durch Multiplikation der individuellen Funktionen (f (y 1, y 2... y n β, σ 2 ) = 1 2πσ 2 exp ( 1 2 1 2πσ 2 exp ( 1 2 ( ) ) y1 X 1 β 2 σ 2 ( ) ) y2 X 2 β 2... σ 2 ( 1 exp 1 ( ) ) yn X n β 2 2πσ 2 2 σ 2 n 1 = exp ( 1 ( y i X i β ) ) 2 VL Forschungsmethoden ML Schätzung (24/37)

y y 5 4 3 2 1 5 4 3 2 1 1.5 2 2.5 3 x L 0 1 1.5 2 2.5 3 x z z z z 1.5 1 0.5 1.5 0.5 0 0.5 0 0.5 1 1.5 2 2.5 y 1 1.5 0.5 0 0.5 1 1.5 2 2.5 3 3.5 y 1 1.5 0 1.5 2 2.5 3 3.5 4 4.5 y 1 0.5 0 0.5 1 1.5 2 2.5 3 3.5 y Welches ist die Likelihood-Funktion im linearen Modell? Der erste Faktor in diesem Produkt ist eine Konstante: ( ) 1 n 1 = 2πσ 2 (2πσ 2 ) n/2 Der zweite Faktor ist ein Produkt von Potenzen mit gleicher Basis (e), deshalb kann man die Exponenten addieren So erhält man die altbekannten SAQ In Matrix-Form: ( f (y β, σ 2 1 ) = (2πσ 2 exp (y ) Xβ) (y Xβ) ) n/2 2σ 2 =L(y β, σ 2 ) VL Forschungsmethoden ML Schätzung (25/37) Beispiel lineare Regression VL Forschungsmethoden ML Schätzung (26/37)

Was passiert dann? Meistens ist es einfacher, nicht mit der Likelihood-Funktion selbst, sondern mit deren Logarithmus zu rechnen (Log-Likelihood) Logarithmus ist monotone Transformation, deshalb führt Maximierung zum selben Ergebnis Nimmt man auf beiden Seiten den Logarithmus, erhält man ln ( L(y β, σ 2 ) ) = n 2 ln ( 2πσ 2) (y Xβ) (y Xβ) 2σ 2 Log-Likelihood wird maximal, wenn (y Xβ) (y Xβ) minimal wird Wenn Fläche der Likelihood-Funktion in der Nähe des Maximums stark gewölbt, präzise Schätzungen möglich VL Forschungsmethoden ML Schätzung (27/37) Wieso Fläche? 1 L 0.5 0 1 0 VL Forschungsmethoden ML Schätzung (28/37) 1.5 2

Was ist die Devianz? Beschreibt, wie gut Modell und Daten zueinander passen Wichtig für Vergleich (Differenz) zwischen konkurrierenden Modellvarianten (vor allem Nullmodell (keine Parameter) und saturiertes Modell (pro Fall ein Parameter)) Differenz zwischen zwei Devianzen ist χ 2 -verteilt Test möglich (sind alle Parameter in der Grundgesamtheit gleich null) Formal entspricht die Devianz eines Modells der doppelten Differenz zwischen der Log-Likelihood des saturierten Modells und des Modells, das analysiert wird Unterschiedlicher Log-Likelihood-Funktionen unterschiedliche Berechnung der Devianz Im linearen Fall: SAQ/σ 2 VL Forschungsmethoden ML Schätzung (29/37) Wie schätzt man die Parameter des logistischen Modells? Nochmal: Varianz hängt jetzt vom konditionalen Mittelwert, d. h. von der Wahrscheinlichkeit, daß y = 1 ab Kanonischer Link: Logit-Funktion. Andere Links möglich (z.b. Probit) D. h. Zusammenhang zwischen Xβ und µ nicht-linear, sondern über Funktion θ (Logit-Transformation) vermittelt VL Forschungsmethoden ML Schätzung (30/37)

Wie schätzt man die Parameter des logistischen Modells? Die Bernoulli-Verteilung ist gegeben durch f (y π) = exp ( y ln ( ) ( ( π 1 π ln 1 + exp π ))) 1 π π ist eine nichtlineare Funktion von Daten und Parametern: (Umkehr der Logit-Funktion) exp(xβ) 1+exp(Xβ) Wir drehen die Überlegung wieder um und suchen die Likelihood von π für gegebene Daten... Müssen aber so umformen, daß das ganze eine Funktion des Vektors β ist, für die wir uns interessieren Wenn man von der resultierenden Likelihood-Funktion wiederum den Logarithmus sucht, erhält man n i=1 ( y i ln (1 VL Forschungsmethoden + exp( X i β)) ML (1Schätzung y i ) ln (31/37) (1 + exp(x i β))) Wie schätzt man die Parameter des logistischen Modells? Diese Log-Likelihood-Funktion ist differenzierbar Die erste Ableitung heißt Score-Funktion Diese kann auf null gesetzt werden (Am Maximum einer Funktion ist die erste Ableitung =0) Aber die Lösung ist nicht mit analytischen Methoden zu finden numerische Methoden VL Forschungsmethoden ML Schätzung (32/37)

Wie funktioniert diese numerische Schätzung? Mit dem Newton-Raphson-Algorithmus kann man iterativ die Nullstelle(n) einer Funktion finden: x n+1 = x n f (x n) f (x n ) (basiert auf Taylor-Serie, die den Zusammenhang zwischen zwei Funktionswerten approximiert) D. h. man teilt den Wert der Funktion durch den Wert der ersten Ableitung an dieser Stelle, zieht das Ergebnis vom Ausgangswert ab und bewegt sich so auf die Nullstelle zu Dabei werden die Schritte immer kleiner Wenn Differenz zwischen x n und x n+1 Grenzwert unterschreitet, wird der Algorithmus abgebrochen VL Forschungsmethoden ML Schätzung (33/37) y x X β LL 0 0.15 0-0.693 0 0.27 0-0.693 1 0.48 0-0.693 1-1.23 0-0.693 Startwerte für β 0, β 1 : 0; 0 Initiale LL -2.77 Wie geht der Computer vor? VL Forschungsmethoden ML Schätzung (34/37)

Mögliche Probleme? Achtung: Da f bereits die erste Ableitung der Log-Likelihood-Funktion ist, ist f die (partielle) zweite Ableitung der Log-Likelihood-Funktion Hesse-Matrix Inverse der Hesse-Matrix Varianz-Kovarianz-Matrix der Koeffizienten (Standardfehler) Startwerte und lokale Extremwerte für die hier vorgestellten Modelle normalerweise unproblematisch, sehr schnelle und sichere Konvergenz VL Forschungsmethoden ML Schätzung (35/37) Zusammenfassung Im GLM ist y ein Zufallswert aus einer statistischen Verteilung Der wesentliche Parameter dieser Verteilung ist µ µ ist über eine (nicht-lineare) Linkfunktion θ mit dem linearen Prediktor Xβ verbunden Mit ML können β und evtl. weitere Parameter iterativ geschätzt werden (+Standardfehler) Grundlage für sehr viele moderne Verfahren VL Forschungsmethoden ML Schätzung (36/37)

Ausblick Nächste Woche: Analyse sozialer Netzwerke Literatur zur Einführung: Ebook von Hanneman/Riddle: http://www.faculty.ucr.edu/~hanneman/nettext/ Scott (2000): Social Network Analysis VL Forschungsmethoden ML Schätzung (37/37)