Einleitung Wahl der a priori Verteilung Bezug zur Maximum Likelihood Methode. Bayessche Statistik. Christian Meisel

Ähnliche Dokumente
Vorlesung: Statistik II für Wirtschaftswissenschaft

P(B A j )P(A j ) n. P(A j ) =

Grundlagen der Wahrscheinlichkeitstheorie

Wahrscheinlichkeitsverteilungen

Statistik: Klassisch oder Bayes

Wahrscheinlichkeit und Statistik: Zusammenfassung

Wichtige Definitionen und Aussagen

SozialwissenschaftlerInnen II

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Frequentisten und Bayesianer. Volker Tresp

Die Maximum-Likelihood-Methode

Biostatistik, Winter 2011/12

Bayessche Lineare Regression

Bayessche Statistik-Denken in Wahrscheinlichkeit

Fit for Abi & Study Stochastik

Stochastik. 1. Wahrscheinlichkeitsräume

TU DORTMUND Sommersemester 2018

Vorlesung 13a. Schätzen von Parametern. Teil 2

Frequentistische Statistik und Bayessche Statistik. Volker Tresp

Mathematik für Biologen

Konzepte der Statistik für die Messdatenanalyse

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Numerische Methoden und Algorithmen in der Physik

Mathematische Grundlagen (Bayes sches Lernen)

Statistics, Data Analysis, and Simulation SS 2017

Wahrscheinlichkeitsrechnung und Statistik für Biologen 7. Konfidenzintervalle

Wahrscheinlichkeitstheorie und Statistik vom

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Bayesianische Modellwahl. Helga Wagner Bayes Statistik WS 2010/11 161

Statistics, Data Analysis, and Simulation SS 2017

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

7.5 Erwartungswert, Varianz

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Stochastik - Kapitel 2

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3

Wahrscheinlichkeitstheorie und Naive Bayes

Psychologische Methodenlehre und Statistik I

Statistics, Data Analysis, and Simulation SS 2017

Referenten: Gina Spieler, Beatrice Bressau, Laura Uhlmann Veranstaltung: Statistik für das Lehramt Dozent: Martin Tautenhahn

Statistik und Wahrscheinlichkeitsrechnung

Kapitel ML:IV. IV. Statistische Lernverfahren. Wahrscheinlichkeitsrechnung Bayes-Klassifikation Maximum-a-Posteriori-Hypothesen

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Institut für Statistik der LMU. FORMELSAMMLUNG 2003 zur STOCHASTIK FÜR BIOINFORMATIKER

1 Stochastische Konvergenz 2. 2 Das Gesetz der grossen Zahlen 4. 3 Der Satz von Bernoulli 6

Statistische Methoden der Datenanalyse Wintersemester 2011/2012 Albert-Ludwigs-Universität Freiburg

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Wahrscheinlichkeitstheorie 2

Zuverlässigkeitstheorie

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc.

Dr. Jürgen Senger INDUKTIVE STATISTIK. Wahrscheinlichkeitstheorie, Schätz- und Testverfahren

Mathematische Statistik Aufgaben zum Üben. Schätzer

Bereits seit Generationen kommt es immer wieder zu neuen Glaubenskriegen in der Wissenschaft... Heliozentrisches Weltbild Kopernikus. vs.

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

1 Stochastische Konvergenz 2

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Wahrscheinlichkeitstheorie Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen

Die Varianz (Streuung) Definition

Korrektur des Bias Feldes in MR Aufnahmen

SEMINAR KLASSIFIKATION & CLUSTERING STATISTISCHE GRUNDLAGEN. Stefan Langer WINTERSEMESTER 2014/15.

Vorlesung 9b. Bedingte Verteilungen und bedingte Wahrscheinlichkeiten

Population und Stichprobe: Wahrscheinlichkeitstheorie

Schätzung von Parametern

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Christoph Sawade/Niels Landwehr/Tobias Scheffer

WAHRSCHEINLICHKEITSRECHNUNG

Einführung in Quantitative Methoden

1. Grundbegri e der Stochastik

Stochastik für Ingenieure

Biostatistik, Sommer 2017

Kapitel X - Randverteilung, bedingte Verteilung und Unabhängigkeit von Zufallsvariablen

Stochastik Aufgaben zum Üben: Teil 2

Vorlesung 9b. Bedingte Verteilung, bedingte Wahrscheinlichkeiten

Wahrscheinlichkeitstheorie und Statistik vom

Sprechstunde zur Klausurvorbereitung

Vorlesung 12a. Schätzen von Parametern. Teil 2

Kombinatorik & Stochastik Übung im Sommersemester 2018

Vorlesung 5b. Zufallsvariable mit Dichten

Willkommen zur Vorlesung Statistik (Master)

Häufigkeitsverteilungen

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II. Prof. Dr.

Wahrscheinlichkeit und Statistik BSc D-INFK

Kapitel 5 Stochastische Unabhängigkeit

Statistik und Wahrscheinlichkeitsrechnung

13 Grenzwertsätze Das Gesetz der großen Zahlen

Seminar: Statistische Methoden in der Infektionsepidemiologie

BAYES SCHE STATISTIK

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Stochastik 04 Binomialverteilung

Mathematik für Biologen

Transkript:

19.07.2007

Gliederung 1 2 3

Wahrscheinlichkeitsbegriff In Bayesscher Statistik wird Wahrscheinlichkeit p im Sinne von unvollständigem Wissen über ein Ereignis verwendet. Bei gleichem Vorwissen über unterschiedliche Ereignisse werden diesen dementsprechend auch gleiche Wahrscheinlichkeiten zugeordnet.

Wahrscheinlichkeitsbegriff Im Gegensatz dazu wird Frequenz f abgegrenzt, welche die Häufigkeit des Auftretens eines Ereignisses bei repetitiven Zufallsexperimenten beschreibt.

Wahrscheinlichkeitsbegriff Beispiel Münzwurf: beide Ergebnisse haben p = 1/2 und f = 1/2 (Anzahl der Versuche gegen unendlich) p und f dürfen jedoch nicht verwechselt oder gleich gesetzt werden. Statt dessen soll die Wahrscheinlichkeit p(f)df, dass die Frequenz im Intervall df liegt, berechnet werden.

Bedingte Wahrscheinlichkeiten arbeitet mit bedingten Wahrscheinlichkeiten A ist wahr unter der Bedingung B: A B deren Wahrscheinlichkeit p(a B)

Bayessches Theorem aus klassischer Statistik gilt: p(a BC)p(B C) = p(a B C) p(b C) p(b C) p(c) = p(a B C) p(c) somit ist p(ab C) = p(a BC)p(B C) da AB und BA den gleichen Zustand beschreiben, lässt sich A und B auf rechter Seite austauschen, also p(a BC)p(B C) = p(b AC)p(A C) Durch umstellen folgt das Bayessche Theorem: p(a BC) = p(a C) p(b AC) p(b C)

Bayessches Theorem p(a BC) = p(a C) p(b AC) p(b C) p(a C) ist a priori-wahrscheinlichkeit, abhängig nur von A p(a BC) ist a posteriori-wahrscheinlichkeit, beeinflusst durch die zusätzliche Information B p(b AC) wird als Likelihood bezeichnet

Bayessches Theorem Bayessches Theorem als Lernprozess erstem Wissen, welches nur C beinhaltet, werden die veränderten Bedingungen unter B hinzugefuegt neue Informationen B 1, B 2,... können eingeschlossen werden. Umgekehrt wichtig zu fragen, was wussten wir über A bevor B gesehen zu haben.

Anwendungsbeispiel zum Bayesschen Theorem Berühmtes Beispiel von Laplace A: Masse von Saturn M S liegt in bestimmtem Intervall B: Daten von Observatorien ueber gegenseitige Störungen von Jupiter und Saturn C: common sense, dass M S weder so klein sein kann, dass er seine Ringe verliert, noch so gross, dass er das Sonnensystem zerstoert Daten aus dem 18. JH liessen mit BT eine Schätzung von M S und Vorhersage auf 1 Prozent Genauigkeit zu, bis heute Wert nur um 0,63 Prozent korrigiert.

Anwendungsbeispiel zum Bayesschen Theorem zwei Freunde in Pub, einer muss zahlen wie gross ist Wahrscheinlichkeit des Betrugs? p(c W n ) = p(c) p(wn C) p(w n) p(w n ) = p(w n C) p(c) + p(w n H) p(h) ferner seien p(w n C) = 1; p(w n H) = 2 n unter freundschaftlicher Annahme p(c) = 0,05:

Problematik der objektiven a priori-verteilung Subjektivität verschiedene Physiker verschiedene Ansichten verschiedene Resultate Objektivierbarkeit durch minimale Information maximale Ignoranz Skalenargumente

Minimale Information wichtig ist, nicht zuviel Wissen in a priori Verteilung zu integrieren von allen Verteilungen ist die zu nehmen, in welcher das a priori Wissen minimal ist anders formuliert, muss das Mass an Unsicherheit maximal sein

Shannon Entropie S I = p i lg p i ist in Mass für Unsicherheit S I = maximal wenn alle p(x i ) identisch S I = minimal wenn p(x 0 ) = 1 oder 0

Maximale Entropie Ergebnisraum X bestehend aus Elementarereignissen (x 1...x N ) aufgrund von physikalischen Restriktionen nicht alle in gleicher Weise realisierbar daher bestehen zusätzliche Einschränkungen auf p i = p(x i ) Problem: Suche p i auf erlaubten Konfigurationen, so dass möglichst viele Freiheitsgrade erhalten bleiben

Maximale Entropie Problem: S(p). = max unter NB f k (x i )p(x i ) = F k Lösung mit Lagrangesche Multiplikatoren: L(p; λ) = p i lg p i + λ k ( f k (x i ) F k ) = max δ pj = lg p(x j ) 1 + λ k f k (x j ) = 0 p j = 1 Z (λ) exp(λ 1f 1 (x i ) +... + λ m f m (x i )) mit Z (λ 1...λ m ) = exp(λ 1 f 1 (x i ) +... + λ m f m (x i )) F k = δ λk lg Z (λ 1...λ m )

Transinformation seien x,y Parameter mit gemeinsamer Dichte p(x,y) S(p) = p(x, y) lg p(x, y) Relative Entropie/Transinformation p(x, y) lg p(x,y) p(x)p(y) = = p(x, y) lg p(x, y) + p(x, y) lg p(x) + p(x, y) lg p(y) = S(x, y) S(x) S(y) = I(x, y) = Transinformation I(x,y) = 0 wenn x,y unabhängig

Reference Prior I(x,y) entspricht Verminderung (im Mittel) der Unsicherheit eines Parameters durch Beobachten des anderen Lerneffekt Reference Prior: wähle jene a priori Verteilung, welche Lerneffekt I maximiert

Skaleninvarianz Zuordnung der a priori Verteilung muss skaleninvariant sein gegeben sei p(x C)dx = p(y C)dy unter Ortstransformation y = x + b p(x C)dx = p(x + b C)dx p(x C) = const., ergibt also gleichen Prior unter Skalentransformation y = αx, dy = αdx p(x C)dx = αp(αx C)dx p(x C) = 1/x ist Jeffreys Prior

Skaleninvarianz beispielhaft zwei Beobachter die mit verschiedenen Uhren Experiment beobachten haben gleiches Vorwissen und sollten deshalb auch gleichen Prior verwenden Wahl eines anderen Priors würde ein unterschiedliches Vorwissen implizieren

sei x = x 1,..., x n N-Tupel von Observablen Likelihood unter Parameter µ x zu finden ist in diesem Fall f (x µ) BT f (µ x) = f 0 (µ) f (x µ) f (x) es kann gezeigt werden, dass der Einfluss des Priors auf die a posterior Verteilung für zunehmende Information (z.b. durch Iteration) asymptotisch abnimmt f (µ x) f (x µ) f (x) f (µ x) f (x µ) L(µ; x) asymptotisch nähert sich die a posteriori Wskt der normalisierten Likelihood

Beispiel Binomialverteilung p(x θ) = ( ) n k θ k (1 θ) n k BT f (θ x) = p(x θ)f (θ) p(x t)f (t)dt Mittelwert mit MaxLike Schätzer ˆp = arg max p(x θ) = k/n betrachten Standardisierte Gauss-Verteilung f (θ) = 1/ 2π exp θ 2 /2