Das Bayes'sche Prinzip

Ähnliche Dokumente
2. Prinzipien der Datenreduktion

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

3.3 Methoden zur Evaluierung von Schätzern

Wichtige Definitionen und Aussagen

Parameterschätzung. Kapitel 14. Modell Es sei {P θ θ Θ}, Θ R m eine Familie von Verteilungen auf χ (sog. Stichprobenraum),

Punktschätzer Optimalitätskonzepte

Vorlesung Wissensentdeckung

Vorlesung: Statistik II für Wirtschaftswissenschaft

4.2 Methoden um Tests zu finden: Likelihood Quotienten Tests (LRT) Falls X 1,..., X n iid aus f(x θ), so gilt für die Likelihood Funktion

Bayes Inferenz Schätzen und Testen von Hypothesen. Helga Wagner Bayes Statistik WS 2010/11 301

Errata für: Methoden der statistischen Inferenz: Likelihood und Bayes

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Modellanpassung. Einführung in die induktive Statistik. Statistik. Statistik. Friedrich Leisch

Die Varianz (Streuung) Definition

Kapitel 6. Suffiziente Statistiken. 6.1 Vorbetrachtungen

2 Invarianz. 2.1 Definitionen

Teil VIII. Zentraler Grenzwertsatz und Vertrauensintervalle. Woche 6: Zentraler Grenzwertsatz und Vertrauensintervalle. Lernziele. Typische Situation

Mathematik für Biologen

Einführung in die Induktive Statistik: Schätzen von Parametern und Verteilungen

Step-Down Prozeduren

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

13 Grenzwertsätze Das Gesetz der großen Zahlen

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Wahrscheinlichkeitsverteilungen

Brownsche Bewegung. M. Gruber. 19. März Zusammenfassung

Kapitel 9. Schätzverfahren und Konfidenzintervalle. 9.1 Grundlagen zu Schätzverfahren

1. Grundbegri e der Stochastik

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Lösung Übungsblatt 5

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Die Funktion f X;Y (x; y) := Pr[X = x; Y = y] heit gemeinsame Dichte der Zufallsvariablen X und Y. Aus der gemeinsamen Dichte f X;Y kann man ableiten

Einführung in die Maximum Likelihood Methodik

7.2 Moment und Varianz

5 Optimale erwartungstreue Schätzer

Wahrscheinlichkeit und Statistik: Zusammenfassung

Einführung in die Bayes-Statistik. Helga Wagner. Ludwig-Maximilians-Universität München WS 2010/11. Helga Wagner Bayes Statistik WS 2010/11 1

Mehrdimensionale Zufallsvariablen

Statistik I für Betriebswirte Vorlesung 14

Institut für Stochastik, SoSe K L A U S U R , 13:

Wahrscheinlichkeitstheorie 2

Mathematische Statistik Aufgaben zum Üben. Schätzer

Zufallsvariablen [random variable]

1 Verteilungsfunktionen, Zufallsvariable etc.

Schätzer und Konfidenzintervalle

Kapitel II Kontinuierliche Wahrscheinlichkeitsraume

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

Stochastische Unabhängigkeit, bedingte Wahrscheinlichkeiten

Statistik und Wahrscheinlichkeitsrechnung

2.3 Intervallschätzung

2.3 Intervallschätzung

Brownsche Bewegung. M. Gruber. 20. März 2015, Rev.1. Zusammenfassung

Seminar zur Energiewirtschaft:

Satz 16 (Multiplikationssatz)

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Bayes sches Lernen: Übersicht

Brownsche Bewegung. M. Gruber SS 2016, KW 11. Zusammenfassung

2.2 Klassische Testtheorie

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

BZQ II: Stochastikpraktikum

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

VERTEILUNGEN VON FUNKTIONEN EINER ZUFALLSVARIABLEN

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Fit for Abi & Study Stochastik

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

4. Verteilungen von Funktionen von Zufallsvariablen

Suffizienz und Vollständigkeit

Musterlösung zur Klausur im Fach Fortgeschrittene Statistik am Gesamtpunktzahl: 60

Stochastik für Ingenieure

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Die Maximum-Likelihood-Methode

Stochastik für die Naturwissenschaften

Einführung in die statistische Testtheorie

5. Spezielle stetige Verteilungen

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

Wie groß ist die Wahrscheinlichkeit Pr[X > y + x X > x]? Da bei den ersten x Versuchen kein Erfolg eintrat, stellen wir uns vor, dass das

Einführung in die Statistik Kapitel 6: Crash-Course in Statistik: Testtheorie

Kapitel 1: Elemente der Statistik

Statistik für Ingenieure Vorlesung 2

4 Statistik der Extremwertverteilungen

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Der Metropolis-Hastings Algorithmus

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

Beispiel 37. Wir werfen eine Münze so lange, bis zum ersten Mal

1 Diskriminanzanalyse

Signifikanztests Optimalitätstheorie

Transkript:

Das Bayes'sche Prinzip Olivia Gradenwitz Patrik Kneubühler Seminar über Bayes Statistik FS8 26. Februar 28 1 Bayes'sches statistisches Modell 1.1 Statistische Probleme und statistische Modelle In diesem Seminar konzentrieren wir uns auf die schliessende Statistik. Die schliessende Statistik verwendet die Realisierungen von Zufallsvariablem um damit Rückschlüsse auf die entsprechenden Verteilungen zu machen. Die unbekannte Verteilung ist bekannt bis auf einen Parameter θ. Denition 1.1. Ein parametrisches statistisches Modell besteht aus einer Realisierung einer Zufallsariablen x, mit Verteilungsdichte f(x θ), wobei θ unbekannt ist und zu einem Vektorraum Θ gehöhrt. Typischerweise gilt Θ R p. Bemerkung. Wir gehen immer davon aus, dass die betrachteten Verteilungen absolutstetig sind in Bezug auf ein xes Referenzmass µ auf dem Stichprobenraum. Ist der Stichprobenraum gleich R n, so wählen wir für µ meist das Lebesguemass, ist der Stichprobenraum hingegen diskret, so wählen wir das Zählmass. 1.2 Bayes'sches statistisches Modell Wir nehmen nun an, dass ein parametrisches Modell gegeben ist und möchten auf Grund von vorliegenden Daten/Experimenten Informationen über den Parameter erhalten. Die einfachste Möglichkeit dafür ist die Likelihood Funktion. Denition 1.2. Sei ein parametrisches statistisches Modell mit Dichten f(x θ) gegeben. Die Likelihood Funktion ist deniert als l(θ x) := f(x θ). Intuitiv könnte man die Likelihood Funktion l(θ x) als die Wahrscheinlichkeit interpretieren, dass θ der wahre Parameter ist, falls man die Daten x kennt. Im allgemeinen ist jedoch l(θ, x) nicht integrabel, geschweige denn l(θ, x)dθ = 1. 1

Die Basis für das Bayes'sche Modell ist die Bayes Formel, die wir in der ersten Stunde bereits kennen gelernt haben. Die stetige Version davon lautet wie folgt: Lemma 1. Seien x, y Zufallsvariablen, wobei die Randverteilung von y durch g(y) und die Verteilung von x gegeben y durch f(x y) beschrieben sei. Dann hat die bedingte Verteilung von y gegeben x die Dichte g(y x) = f(x y)g(y) f(x y)g(y)dy. Denition 1.3. Ein Bayes'sches statistisches Modell ist ein parametrisches Modell f(x θ) mit einer Wahrscheinlichkeitsverteilung auf dem Parameterraum, die wir a priori Verteilung nennen. Wir nehmen an, dass die a priori Verteilung absolutstetig ist mit Dichte π(θ). 1.3 A Posteriori Verteilung Sei ein Bayes'sches statistisches Modell f(x θ) mit einer a priori Verteilung π(θ) gegeben. Die a posteriori Verteilung erhalten wir durch Einsetzen von π an der Stelle von g in Lemma 1: π(θ x) = f(x θ)π(θ) f(x θ)π(θ)dθ. Bemerkung. 1. Beachte, dass π(θ x) proportional zur Likelihood Funktion multipliziert mit der a priori Verteilung ist. 2. Mit der a posteriori Verteilung kann man Punktschätzer, Prognosen, Vertrauensintervalle und allgemeiner statistische Verfahren denieren. Darauf möchten wir im nächten Abschnitt genauer eingehen. 1.4 Bayes'sches Prinzip Das Bayes'sche Prinzip ist das Arbeiten mit der a posteriori Verteilung, insbesondere das Denieren statistischer Verfahren, die nur von der a posteriori Verteilung abhängen. Wir geben in den folgenden Paragraphen eine kurze Erklärung von Prognosen und vom Bayes Verfahren. Letzeres wird im Vortrag über Entscheidungstheorie ausführlicher behandelt. Prognosen Mit der a posteriori Verteilung können wir Prognosen berechnen. Sei also eine Zufallsvariable y mit der Verteilung g(y θ, x) gegeben. Dann gilt g(y x) = g(y θ, x)π(θ x)dθ. Weil die Prognose g(y x) nur von der a posteriori Verteilung abhängt, ist sie ein Beispiel für das Bayes'sche Prinzip. 2

Bayes Verfahren Sei X = R n ein Stichprobenraum, A ein Aktionsraum und d : X A ein statistisches Verfahren. Wir denieren eine Verlustfunktion L : Θ A R, das Risiko R(θ, d) := L(θ, d(x))f(x θ)dx des Verfahrens bei wahrem Parameter θ, und schliesslich das über alle θ gemittelte Risiko X r(π, θ) = R(θ, d)π(dθ). Ein Bayes Verfahren ist nun ein Abbildung d, welche Θ das gemittelte Risiko r, auch Bayes Risiko genannt, minimiert. Dank Satz 2.1 aus [2] gilt dann d(x) = argmin a E[L(θ, a) x], falls das Minimum existiert. Damit ist das Bayes Verfahren nur von der a posteriori Verteilung abhängig. Setzt man A = Θ = R, so ist das Verfahren d ein Punktschätzer. Man kann zeigen, dass für quadratischen Verlust L(θ, a) = (θ a) 2 der Punktschätzer d(x) = E[θ x], auch Posterior Mean genannt, resultiert. Das folgende Beispiel soll die Idee der a posteriori Verteilung und der Prognose konkretsieren. Beispiel 1. Wir betrachten das Interval [, 1] und wählen in einem ersten Schritt mit einer a priori Verteilung π einen Punkt darin aus, den wir θ nennen. Weil wir keine weiteren Informationen haben, nehmen wir die Gleichverteilung als a priori Verteilung an. In einem zweiten Schritt wählen wir, ebenfalls mit der Gleichverteilung, zufällig n Punkte in [, 1] aus. Die Anzahl Punkte X links von θ ist dann Bin(n, θ)-verteilt. Wir erhalten also mit der a priori Verteilungsdichte π(θ) 1 ( ) n f(x θ) := P (X = x θ) = θ x (1 θ) n x x ( n ) x θ x (1 θ) n x π(θ x) = ( n ) x θx (1 θ) n x dθ = θ x (1 θ) n x Beta(x + 1, n x + 1), wobei wir folgende Identität benutzt haben t l (1 t) m dt = Γ(l + 1)Γ(m + 1) Γ(l + m + 2) = Beta(l + 1, m + 1). Wir gehen davon aus, dass wir nicht θ, aber X kennen. Wir wählen nun zusätzlich einen weiteren Punkt p in [, 1] wie oben und setzen Y {, 1} genau dann eins, wenn p links von θ liegt. Eine Prognose für Y kann nun aus der a posteriori 3

Verteilung wie folgt bestimmt werden: g(y θ, x) := P (Y = y θ, X = x) = θ1 {y=1} + (1 θ)1 {y=} P (Y = 1 X = x) = = = g(y θ, x)π(θ x)dθ = θx+1 (1 θ) n x θx (1 θ) n x dθ dθ = x + 1 ( 1 n ) P (Y = X = x) = n x + 1 folglich erhalten wir die Prognose = 1 2 + n x n ( 1 n θ x (1 θ) n x θ θx (1 θ) n x dθ dθ ) 1 2 + n n x n, g(y x) := P (Y X = x) = x + 1 1 {y=1} + n x + 1 1 {y=}. Die Wahrscheinlichkeit für das Ereignis {Y = 1} ist eine konvexe Kombination der a priori Wahrscheinlichkeit 1 2 und der bisherigen Erfolgsquote k n, die wir aus den Daten X erhalten haben. Dabei wird bei wachsendem n die empirische Erfolgsquote immer stärker gewichtet. 2 Likelihood-Prinzip 2.1 Denition der Prinzipien Denition 2.1. Sei x f(x θ). Eine Funktion T von x (auch Statistik genannt) heisst suzient für das Modell f(x θ), wenn die Verteilung von x bedingt auf T (x) unabhängig von θ ist. Das Faktorisierungslemma (siehe [2]) sagt aus, dass eine Statistik genau dann suzient ist, wenn sie wie folgt zerlegt werden kann Das folgende Prinzip ist wichtig: f(x θ) = g(t (x) θ)h(x T (x)). (1) Prinzip 2.2 (Suzienz). Für zwei Beobachtungen x und y mit T (x) = T (y), müssen die Rückschlüsse auf θ gleich sein. Korollar 2.3. Das Bayes-Verfahren erfüllt das Suzienz-Prinzip. Beweis. Sei eine suziente Statistik T gegeben. Wegen dem Faktorisierungslemma hängt die a posteriori Verteilung nur durch T (x) von den Daten x ab π(θ x) π(θ)f(x θ) = π(θ)g(t (x) θ)h(x) π(θ)g(t (x) θ). (2) Weil das Bayes-Verfahren nur von der a posteriori Verteilung abhängt, folgt damit die Behauptung. 4

Während dieses Prinzip generell anerkannt wird, weil nach dem Theorem von Rao-Blackwell zulässige Verfahren bei konvexen Verlustfunktionen nur von suzienten Statistiken abhängen (siehe [2]), wird das folgende Prinzip in der frequentistischen Statistik manchmal verletzt. Prinzip 2.4 (Likelihood). Die Information einer Beobachtung x über θ ist vollständig in der Likelihood-Funktion l(θ x) enthalten. Ausserdem, falls x 1 und x 2 twei Beobachtungen sind, die vom gleichen Parameter θ abhängen, so dass eine Konstante c existiert, mit l 1 (θ x) 1 = cl 2 (θ x 2 ) für jedes θ, dann enthalten sie die gleichen Informationen über θ und sollten deshalb die gleichen Rückschlüsse bewirken. Das nächste Prinzip ist das letzte was wir vorstellen müssen, um unser Hauptresultat präsentieren zu können. Prinzip 2.5 (Conditionality). Wenn zwei Experimente ɛ 1 and ɛ 2, für einen Parameter θ, zu Verfügung stehen und wenn eines der Experimente mit Wahrscheinlichkeit p gewählt wird, dann sollte der resultierende Rückschluss auf θ nur vom gewähltem Experiment abhängen. 2.2 Äquivalenz des Likelihood-Prinzips zum Suzienz- und Conditionality-Prinzip Theorem 2.6. Das Likelihood-Prinzip ist äquivalent zum Suzienz- plus Conditionality-Prinzip. Aus dem generell akzeptierten Suzienz-Prinzip und dem vertretbaren Conditionality-Prinzip folgt also das umstrittene Likelihood-Prinzip. Die Annahme des Likelihood-Prinzips wird dadurch gerechtfertigt. 2.3 Maximum Likelihood Estimate Gegeben ein statistisches Modell f(x, θ) wir möchten einen Punktschätzer für den Wert θ konstruieren, der das Likelihood-Prinzip erfüllt. Wir wissen bereits, dass alle Bayes Punktschätzer, zum Beispiel der Posterior Mean, eine Lösung zu diesem Problem sind. Eine natürlichere und intuitivere Implementation des Likelihood-Prinzips ist aber auch der folgende Punktschätzer. Denition 2.7. Sei f(x, θ) ein statistisches Modell. Wir erinnern an die Likelihoodfunktion l(θ, x) := f(x, θ) und denieren den Punktschätzer als θ := argmax θ l(θ x). Oensichtlich hängt dieser Schätzer nur von der Likelihood Funktion ab. 5

Beispiel 2. Sei x = (x 1,..., x n ) eine Familie von i.i.d. Zufallsvariablen mit der gemeinsamen Dichte f(x θ) = 1 (2π) n e 1 n 2 i=1 (xi θ)2. Anstatt l(θ x) zu maximieren, maximieren wir durch Ableiten und Null setzen die Funktion log l(θ x) = n log( 1 2π ) 1 n (x i θ) 2. 2 i=1 Wir erhalten als Schätzer den Mittelwert θ = 1 n n i=1 x i. Die Maximum Likelihood Methode wird oft verwendent, weil sie sehr intuitiv ist und gute asymptotische Eigenschaften hat. Die Methode hat jedoch keinen entscheidungstheoretischen Hintergrund und kann oft nur numerisch (z.b. mit dem EM-Algorithmus) berechnet werden. Literatur [1] The Bayesian Choice Robert, Springer NY 27 [2] Mathematische Statistik Künsch, October 27 6