Die Maximum-Likelihood-Methode

Vorlesung: Computergestützte Datenauswertung Die Maximum-Likelihood-Methode Günter Quast Fakultät für Physik Institut für Experimentelle Kernphysik SS '17 KIT Die Forschungsuniversität in der Helmholtz-Gemeinschaft www.kit.edu

Kleinste Quadrate & Maximum Likelihood Zwei Möglichkeiten, die am besten zur Messung passende Verteilung zu finden: kleinster Abstand Messung Erwartungswert Minimiere Abstand vom Sollwert Messung Maximale Wahrscheinlichkeit Maximiere Höhe der pdf Likelihood-Methode Beide Methoden bevorzugen in diesem Beispiel die durchgezogene Verteilung

Likelihood-Methode Mehrere unabhängige Messgrößen x i, i =1,, n einer Größe folgen einer Verteilungsdichte p(x,a) mit Parametern a i. Als Verteilungsdichte ist p(x;a) positiv und normiert (bzgl. x, aber nicht bzgl. a!) Beispiel von 7 Messungen und Likelihood bzgl. zweier Verteilungen Skript likelihood-pdf.py Likelihood ist das Produkt der Wahrscheinlichkeiten p(x i a) aller Messungen

[** Anmerkung Likelihood-Methode ] Mit Hilfe der Likelihood-Methode können neben der Parameterabhängigkeit auch verschiedene Verteilungen verglichen werden: Wichtig für Hypothesentests

Maximum Likelihood-Prinzip Likelihood-Funktion: Produkt der Werte der Wahrscheinlichkeitsdichte, P i, für n unabhängige Messungen x i : hängt nur noch von den Parametern a ab! Maximum-Likelihood-Prinzip: Der beste Schätzwert für den Parametervektor der die Likelihood-Funktion maximiert ist derjenige,

Anmerkungen zur Likelihood-Methode Maximum Likelihood (ML) Eingeführt von Sir Ronald A. Fisher 1912 zur bestmöglichen Schätzung von Parametern von Verteilungen aus Stichproben engl. likelihood = Wahrscheinlichkeit (ähnlich probability ); im Deutschen wird der Begriff Likelihood übernommen Basis der mathematischen Statistik ( Fisher-Information) sehr universell einsetzbare Methode ( ältere Methode der kleinsten Quadrate ist Spezialfall) Likelihood ist eine zentrale Größe in der klassischen (frequentistischen) und in der Bayes'schen Statistik erlaubt die Schätzung von Konfidenzintervallen für Parameterwerte Für gegebene Stichprobenwerte x i aus einer zu Grunde liegenden Verteilungsdichte f ist die Likelihood-Funktion eine Funktion der Modellparameter: (L lebt im Parameterraum)

Maximum Likelihood in der Praxis Technische und theoretische Gründe: Minimiere den negativen Logarithmus der Likelihood-Funktion: Likelihood-Gleichung definiert Schätzwert(e)

Beispiel: Likelihood der Gaußverteilung = χ 2! const. bzgl. a Für Gauß-förmig um f(x i, a) verteilte Messungen y i ist χ 2 äquivalent zu lnl Ist f(x i, a) zusätzlich eine lineare Funktion der Parameter a = (a i ), dann ist lnl (a i y i ) ( und χ 2 (a i, y i ) ) eine Parabel Näherungsweise kann lnl (a i y i ) in der Nähe des Minimums häufig durch eine Parabel approximiert werden!

Beispiel: Likelihood beim Münzwurf Erinnerung: Binomialverteilung beim Wurf einer Münze: Skript nllcoin.py relative Häufigkeit des Auftretens des Ergebnisses Kopf Für einige der Ergebnisse aus der Reihe von Münzwürfen oben ist nebenan die jeweilige Likelihood-Funktion gezeigt: ist eine Funktion des Parameters p für gegebene Beobachtung (N, k ) Mit zunehmender Zahl an Würfen wird der Parameter p durch die Likelihood-Funktion immer genauer eingegrenzt

Parameterunsicherheiten mit Hilfe der Likelihood-Funktion

Maximum-Likelihood: Prameterunsicherheiten Parabel aus Krümmung am Minimum F(a) näherungsweise quadratisch um das Minimum; ±1σ ±1σ - Intervall (=68%) aus ΔF = 0.5 1. Ableitung näherungsweise linear, =0 am Minimum 2. Ableitung ~ konstant Varianz 1 / Krümmung 1/σ 2 2 F / a 2 bei mehreren Parametern a i : (cov-1) ij 2 F / a i a j Typischer Verlauf einer negativen log-likelihood- Funktion und ihrer 1. und 2. Ableitungen Mathematisch exakt: die angegebenen Fehlerabschätzungen sind Untergrenzen Nur für Parabel-förmigen Verlauf von F(a) sind die beiden Fehlerdefinitionen äquivalent

Prameterunsicherheiten (2) Plausibilitätserklärung (kein Beweis, Stichwort Cramer-Rao-Frechet Grenze ) nur ein Parameter a, betrachten Taylor-Entwicklung von F(a) um Minimum: näherungsweise parabelförmig Likelihood = exp(-f(a)) als Verteilungsdichte in a auffassen: ist Gauß-Verteilung (mit Normierungsfaktor A) Standardabweichung gegeben durch weiter gilt mit dieser Beziehung für σ:

Einschub: Parabel-Eigenschaften allg. Darstellung einer Parabel Wenn F(a) eine negative Log-Likelihood Funktion ist, dann ist

Prameterunsicherheiten (3) zur Fehlerbestimmung aus F(a): Log-Likelihood- Differenz bestimmt Fehler. Vorteil dieser Methode: invariant unter Variablentransformation a a'(a): F(a) F(â) = F( a'(a) ) F( a'(â) ) Das so bestimme Unsicherheitsintervall entspricht 1σ einer Gaußverteilung (68% Konfidenz-Intervall) Fehlerbestimmung: Δ (-ln L) Δχ 2 1σ 0.5 1 2σ 2.0 4 3σ 4.5 9 n σ n2/2 n2 Wichtig, wenn ln L nicht parabelförmig in der Nähe des Minimums: Angabe eines asymmetrischen Fehlerintervalls

Übersicht: Methoden zur Bestimmung der Unsicherheiten Lineare Probleme mit gaußförmigen Unsicherheiten: - analytische Lösung möglich (χ 2 -Minimierung) - Position des Minimums gegeben durch Linearkombination der Messwerte: - Varianz der Parameterschätzung durch Fehlerfortpflanzung: Nicht- lineare Probleme oder andere als gaußförmige Unsicherheiten: - Likelihood-Analyse: Ausnutzen der Cramer-Rao-Frechet-Grenze: 2. Ableitungen am Minimum: Nicht-lineare Probleme - Scan der (Profil-) Likelihood in der mit nicht-parabolischer Nähe des Minimums Likelihood am Minimum: (für Grenzfall hoher Statistik) Bei Unklarheit oder sehr kleiner Statistik: Monte-Carlo-Studie: Anpassung an viele der Genauigkeit und Verteilung der Daten entsprechende Stichproben, Verteilungen der Parameter studieren. Achtung: nur die letzten beiden Methoden liefern Konfidenz-Intervalle (z. B. 1σ 68%)