2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion.

Ähnliche Dokumente
2 Lineare Regression am Beispiel des Hall-Effekts

6 Jenseits der Methode der kleinsten Fehlerquadrate: Fitten eines Histogramms mit Maximum Likelihood

Statistik - Fehlerrechnung - Auswertung von Messungen

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Statistische Methoden

3 Schätzwerte und ihre Unsicherheiten ( Fehler )

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Wahrscheinlichkeitsrechnung und Statistik

Wichtige Definitionen und Aussagen

Wahrscheinlichkeitsrechnung und Statistik

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

5 Erwartungswerte, Varianzen und Kovarianzen

Die Maximum-Likelihood-Methode

Vorlesung 9b. Kovarianz und Korrelation

Vorlesung 7b. Kovarianz und Korrelation

Lineare Regression. Kapitel Regressionsgerade

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Vorlesung 8a. Kovarianz und Korrelation

Computer in der Wissenschaft

Statistics, Data Analysis, and Simulation SS 2017

Vorlesung 8b. Kovarianz, Korrelation und Regressionsgerade

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Varianz und Kovarianz

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Vorlesung Wissensentdeckung

Statistics, Data Analysis, and Simulation SS 2017

Statistik, Datenanalyse und Simulation

Das Bayes'sche Prinzip

Stochastik Praktikum Parametrische Schätztheorie

Hochschule RheinMain WS 2018/19 Prof. Dr. D. Lehmann. 8. Übungsblatt zur Vorlesung Ökonometrie

Rechnernutzung in der Physik

2 Zufallsvariable und Verteilungsfunktionen

Reelle Zufallsvariablen

Statistische Methoden

7.5 Erwartungswert, Varianz

Mehrdimensionale Zufallsvariablen

67 Zufallsvariable, Erwartungswert, Varianz

Rechnernutzung in der Physik Teil 3 Statistische Methoden der Datenanalyse

Statistik I für Betriebswirte Vorlesung 3

Numerische Methoden und Algorithmen in der Physik

5 Allgemeine Verfahren zum Testen von Hypothesen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Varianzkomponentenschätzung

Deskriptive Beschreibung linearer Zusammenhänge

Frequentisten und Bayesianer. Volker Tresp

Anwendungen der Differentialrechnung

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Statistik I für Betriebswirte Vorlesung 4

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Gauß-Prozess-Regression

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Multivariate Verteilungen

Multivariate Verfahren

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Grundbegriffe der Wahrscheinlichkeitsrechnung

Zufallsvariablen [random variable]

Statistische Methoden der Datenanalyse. Übung VIII

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Mehrdimensionale Verteilungen und Korrelation

Konfidenzintervalle. Gesucht: U = U(X 1,..., X n ), O = O(X 1,..., X n ), sodass für das wahre θ gilt

Musterlösung. Modulklausur Multivariate Verfahren

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Messunsicherheit und Fehlerrechnung

Unabhängige Zufallsvariablen

Spezielle Verteilungen

Clusteranalyse: Gauß sche Mischmodelle

Fortgeschrittene Ökonometrie: Maximum Likelihood

5 Fehlerfortpflanzung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

7.1 Korrelationsanalyse. Statistik. Kovarianz. Pearson-Korrelation. Institut für angewandte Statistik & EDV Universität für Bodenkultur Wien

1 Beispiel zur Methode der kleinsten Quadrate

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Institut für Stochastik Prof. Dr. N. Henze Dipl.-Math. V. Riess

Einführung in die Maximum Likelihood Methodik

Multivariate Verteilungen und Copulas

Wahrscheinlichkeiten. Verteilungen

Strukturgleichungsmodellierung

Statistik. Sommersemester Stefan Etschberger. für Betriebswirtschaft, Internationales Management, Wirtschaftsinformatik und Informatik

Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.

Lösung Übungsblatt 5

Kapitel 8. Parameter multivariater Verteilungen. 8.1 Erwartungswerte

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Fehler- und Ausgleichsrechnung

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Zusammenfassung: Kapitel 5, Zusammenhangsmaße

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

1.8 Mehrdimensionale Zufallsvariablen

Institut für Statistik der LMU. FORMELSAMMLUNG 2003 zur STOCHASTIK FÜR BIOINFORMATIKER

Multiple Lineare Regression (Forts.) Residualanalyse (1)

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Ausgleichsproblem. Definition (1.0.3)

Transkript:

2 Alle Standardabweichungen σ i sind bekannt, bzw. die Kovarianzmatrix der Daten ist bekannt: Minimieren der χ 2 - Funktion. 2.1 Allgemeine Behandlung Definition der χ 2 -Funktion. Hier definieren wir die χ 2 F unktion χ 2 (θ) := ( yi f(x i ; θ) σ i ) 2 für statistisch unabhängige ɛ i, bzw. χ 2 (θ) := (y i f(x i ; θ))w ij (y j f(x j ; θ)) j=1 im statistisch abhängigen Fall. Bemerkung 17. Bei bekannten Wertepaaren (x i, y i ) und bekannten σ i ist die χ 2 -Funktion eine Funktion der M unbekannten Parameter θ. Beispiel 4. Ist das Modell der Messung y i = µ + ɛ i, dann ist die χ 2 -Funktion quadratisch im Parameter µ, nämlich ( ) χ 2 yi µ 2 (µ) =. Graphisch beschreibt diese Funktion eine nach oben geöffnete Parabel. Damit ist klar, dass ein eindeutiges Minimum von χ 2 existiert. Beispiel 5. Ist das Modell der Messung y i = ax i + b + ɛ i, dann ist die χ 2 -Funktion eine quadratische Form der beiden Parameter a und b. Die Konturlinien dieser Funktion sind Ellipsen und die Funktion besitzt ein eindeutiges Minimum. Bemerkung 18. Ist das Modell der Messung nichtlinear in den Parametern θ, dann besitzt die χ 2 -Funktion nicht notwendigerweise ein eindeutiges Minimum. 2.1.1 Priorverteilung der Parameter θ. Im Rahmen der Gaussschen Fehlerrechnung verwendet man meist Priorverteilungen für die Parameter, die jedem möglichen Parameterwert dieselbe Wahrscheinlichkeit(sdichte) zuordnen (sog. flache Priorverteilungen). Damit ist σ i prob(θ) = pdf(θ)dθ = const. dθ. 6

Bemerkung 19. Diese Wahl folgt dem Prinzip des unzureichenden Grundes (Indifferenzprinzip) von Laplace. Wenn keine Gründe dafür bekannt sind, einen Parameterwert gegenüber anderen zu begünstigen, dann sind alle Parameterwerte als gleich wahrscheinlich anzusehen. (Wie beim Würfel: jedem der sechs möglichen Ergebnisse wird dieselbe Wahrscheinlichkeit 1/6 zugeordnet.) Bemerkung 20. Wenn ein Modell Parameter besitzt, die nicht beliebige reelle Werte annehmen können, dann kann der Wertebereich über die Priorwahrscheinlichkeit eingeschränkt werden. Ist ein Parameter θ zum Beispiel mit Sicherheit positiv (z.b. eine Masse, eine Zerfallskonstante, etc.), dann wählt man am einfachsten die Priorverteilung { const. for θ 0 prob(θ) = 0 elsewhere. Auf diese Weise kann man den möglichen Parameterwerten einfach Bedingungen auferlegen. Bemerkung 21. Es gibt weiterführende Prinzipien und Methoden Priorverteilungen festzulegen. Besonders zu erwähnen ist dabei die Methode der maximalen Entropie (maximum entropy method, maxent), die wir hier jedoch nicht weiter besprechen. 2.1.2 Anwendung des Bayesschen Theorems: von der Priorverteilung zur Posteriorverteilung. Das Bayessche Theorem ist zentral für die Parameterabschätzung in der Datenanalyse. Bezeichnen wir mit D die gemessenen Daten, M das Modell für die Messung, mit P die Parameter des Modells, dann können wir das Bayessche Theorem in der Form prob(p D, M) = prob(p M)prob(D P, M) prob(d M) (Bayessches Theorem) schreiben. Bemerkung 22. Das Bayessche Theorem ist eine modifizierte Form der Produktregel der Wahrscheinlichkeitsrechnung. Letztere lautet, in unserer Notation, prob(d, P M) = prob(d M)prob(P D, M) = prob(p M)prob(D P, M). Dabei ist prob(d, P M) die Verbundwahrscheinlichkeit für D und P. Bemerkung 23. Die vier Wahrscheinlichkeiten, die im Bayesschen Theorem auftreten, haben im Rahmen der Parameterabschätzung eigene Namen: prob(θ M) ist die oben bereits eingeführte Priorwahrscheinlichkeit der Parameter bei gegebenem Modell. prob(d P, M) wird als Stichprobenverteilung (sampling distribution) der Daten bei gegebenen Parametern 7

bezeichnet, wenn wir die Abhängigkeit von den Daten D in den Vordergrund stellen. Interessiert uns hingegen die Abhängigkeit dieser Funktion von den Parameterwerten P, dann nennen wir sie die Likelihood der Parameter. prob(p D, M) heisst Posteriorverteilung der Parameter bei gegebenen Daten. prob(d M) nennt man prior predictive probability for the data, oder auch Evidenz für das Modell. Bemerkung 24. Alle Wahrscheinlichkeiten in unserer Form des Bayesschen Theorems setzen voraus, dass das Modell M für die Messung bekannt und für die Analyse zutreffend ist. Es ist die Aufgabe des Experimentalphysikers, ein geeignetes Modell zu verwenden. Im Rahmen des Modellvergleichs, der später zu besprechen sein wird, lassen sich verschiedene geeignete Modelle bezüglich ihrer Kompatibilität mit den Daten vergleichen. Bemerkung 25. Alle Wahrscheinlichkeiten auf der rechten Seite des Bayesschen Theorems sind bereits vor der Messung bekannt, die Wahrscheinlichkeit auf der linken Seite hingegen kann erst nach der Messung (bei bekannten Daten) berechnet werden. Auf diese Weise beschreibt das Bayessche Theorem den Prozess des Lernens aus den Daten. Schematisch: prob(p M) Daten prob(p D, M) Bemerkung 26. Wir interpretieren Wahrscheinlichkeiten als eine Beschreibung unseres Kenntnisstandes. prob(p M) beschreibt, was wir über die Parameter wissen, bevor wir messen. Entsprechend beschreibt prob(p D, M), was wir über die Parameter nach der Messung wissen. Die Veränderung von der Priorverteilung zur Posteriorverteilung der Parameter beschreibt, was wir aus der Messung über die Parameter gelernt haben. 2.1.3 Posteriorverteilung für die Parameter. Bei Annahme flacher Priorverteilungen für die Parameter θ ist die Posteriorverteilung proportional zur Likelihood, also ( pdf(θ {(x i, y i )}, {σ i }) exp 1 ) 2 χ2 (θ). Bemerkung 27. Besitzt die χ 2 (θ)-funktion ein eindeutiges Minimum für gewisse Parameterwerte ˆθ, so besitzt die Posteriorverteilung an genau dieser Stelle ein Maximum. Bemerkung 28. Daten zu fitten heisst, die Parameter ˆθ zu finden, welche die Posteriorwahrscheinlichkeit maximieren. Das kommt im Rahmen der Gaussschen Fehlerrechnung mit bekannten Fehlerbalken der Messpunkte einer Minimierung von χ 2 (θ) gleich. Allgemeiner können wir sagen, wir minimieren den negativen Logarithmus der Posteriorverteilung. Der negative Logarithmus der Posteriorverteilung ist L(θ) = const. + 1 2 χ2 (θ). 8

Zum Minimieren dieser Funktion wird häufig der Levenberg-Marquardt-Algorithmus verwendet. 1 Auf diese Weise finden wir ˆθ und χ 2 min = χ2 (ˆθ), sowie L min = L(ˆθ). Python: die Funktion scipy.optimize.curve fit. In Python kommt der Levenberg- Marquardt Algorithmus bei der Funktion scipy.optimize.curve fit zum Einsatz, welche die Minimierung von χ 2 (θ) durchführen kann. Sie bekommt als Eingabeparameter die Fitfunktion f(x i ; θ), die Datenpunkte (x i, y i ), sowie die Fehlerbalken σ i. Zusätzlich werden noch Startwerte für die Parameter angegeben. Wir geben hier ein Beispiel für die Anwendung dieser Funktion: import numpy as np from scipy.optimize import curve_fit # Fitfunktion definieren def fit_func(x,param0,param1): return param0*exp(-param1*x) # Vektor mit den Fehlerbalken (Standardabweichungen der Datenpunkte) # definieren sig = 0.1*np.ones(shape=xdata.shape) # Startwerte f. Parameter festlegen startparam = (1,1) # fit the data with scipy.optimize.curve_fit result = curve_fit(fit_func,xdata,ydata,startparam,sigma=sig, absolute_sigma=true) p0hat = result[0][0] p1hat = result[0][1] 2.2 Spezialfall 1: Konstante Fitfunktion und unkorrelierte Fehler Nehmen wir f(x i, µ) = µ, 1 K. Levenberg, A method for the solution of certain non-linear problems in least squares, Quart. Appl. Math. 2, 164 (1944); D.W. Marquardt, An Algorithm for Least-Squares Estimation of Nonlinear Parameters, J. Soc. Industrial and Applied Mathematics 11, 431 (1963). 9

dann ist Bezeichnen wir χ 2 (µ) = (y i µ) 2 σ 2 i = yi 2 2y iµ + µ 2. σ 2 i = 1 σ 2 i als Gewichte, 2 und dann haben wir w = χ 2 (µ) = w w (y2 i 2y i µ + µ 2 ) = w( y 2 i 2 y i µ + µ 2 ) = w(µ y i ) 2 + wvar(y i ), mit den gewichteten Mittelwerten y i = w y i und y 2 i = w y2 i und der gewichteten Varianz Damit finden wir den Schätzwert Var(y i ) = w (y i y i ) 2. ˆµ = y i. Bemerkung 29. Intuitiv macht die Gewichtung einzelner Werte mit 1/σi 2 Sinn. Werte mit grossen Fehlerbalken erhalten so ein kleines Gewicht für den Mittelwert, Werte mit kleinen Fehlerbalken ein grösseres. In Phython berechnet man gewichtete Mittelwerte, wie im nachfolgenden Beispiel gezeigt. from numpy import average from numpy import square 2 Die Python-Funktion numpy.polyfit(), die für Polynomfits mit bekannten Standardabweichungen verwendet werden kann, nimmt als Eingabe-Parameter stattdessen die Gewichte = 1/σ i, minimiert aber ebenfalls die χ 2 -Funktion. 10

# Weighted average of x-values Meanx = average(xdata[:,0],weights=xdata[:,1]) # Weighted average of x**2 Meanx2 = average(square(xdata[:,0]),weights=xdata[:,1]) # Weighted variance Varx = Meanx2 - Meanx*Meanx Spezialfall, wenn alle Standardabweichungen σ i gleich σ sind. so dass w = N σ 2, und y i = 1 N µ = y i y i In diesem Fall ist der ungewichtete Mittelwert ist. In Python berechnet man den ungewichteten Mittelwert wie im nachfolgenden Beispiel gezeigt. from numpy import mean Meanx = mean(data[:,0]) 2.3 Spezialfall 2: lineare Fitfunktion und unkorrelierte Fehler Nehmen wir den Fall der linearen Regression wobei dann ist χ 2 (α, β) = w f(x i, α, β) = α(x i x i ) + β, x i = w (y i α(x i x i ) β) 2 = w x i, w( yi 2 + α 2 (x i x i ) 2 + β 2 2α (y i y i )(x i x i ) 2β y i ) = [ wvar(x i ) α Cov(x ] i, y i ) 2 + w(β y i ) 2 + wvar(y i )(1 ρ 2 ), Var(x i ) 11

wobei alle statistischen Grössen als gewichtete Mittelwerte zu berechnen sind. Insbesondere ist die empirische Kovarianz gegeben durch Cov(x i, y i ) = w (x i x i )(y i y i ), und der empirische lineare Korrelationskoeffizient ist ρ = Cov(x i, y i ) Var(xi )Var(y i ). Damit sind unsere Schätzwerte, welche die χ 2 -Funktion minimieren gegeben durch ˆα = Cov(x i, y i ), und ˆβ = yi. Var(x i ) In Python berechnet man die gewichtete Kovarianz wie im nachfolgenden Beispiel gezeigt. from numpy import average Meanx = average(xdata[:,0],weights=ydata[:,1]) Meany = average(ydata[:,0],weights=ydata[:,1]) xy = xdata[:,0]*ydata[:,0]; Meanxy = average(xy,weights=ydata[:,1]) Covxy = Meanxy - Meanx*Meany 12