Gauß-Prozess-Regression

Ähnliche Dokumente
3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Wahrscheinlichkeitstheorie und Statistik

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

DWT 1.4 Rechnen mit kontinuierlichen Zufallsvariablen 234/467 Ernst W. Mayr

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

1.3 Zufallsvariablen

BZQ II: Stochastikpraktikum

Einführung und Grundlagen

Unabhängige Zufallsvariablen

Die Normalverteilung. Mathematik W30. Mag. Rainer Sickinger LMM, BR. v 0 Mag. Rainer Sickinger Mathematik W30 1 / 51

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Mathematik für Naturwissenschaften, Teil 2

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

7. Übungsblatt - Lösungsskizzen

Wichtige Definitionen und Aussagen

ALMA II - ÜBERBLICK STOCHASTIK. Jochen Garcke

Stochastik Wiederholung von Teil 1

Wahrscheinlichkeit und Statistik: Zusammenfassung

Reelle Zufallsvariablen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

STOCHASTISCHE UNABHÄNGIGKEIT. Annika Pohlmann Philipp Oel Wilhelm Dück

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Prüfungsvorbereitungskurs Höhere Mathematik 3

Kapitel 3. Matrix Spiele. 3.1 Matrix-Spiele

70 Wichtige kontinuierliche Verteilungen

2 Zufallsvariable und Verteilungsfunktionen

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Frequentisten und Bayesianer. Volker Tresp

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Normalverteilung. 1 2πσ. Gauß. 2 e 1 2 ((x µ)2 σ 2 ) Werkzeuge der empirischen Forschung. W. Kössler. Einleitung. Datenbehandlung. Wkt.

Biostatistik, Sommer 2017

Methoden der Statistik Markov Chain Monte Carlo Methoden

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Überblick. Grundkonzepte des Bayes schen Lernens. Wahrscheinlichstes Modell gegeben Daten Münzwürfe Lineare Regression Logistische Regression

Prüfungsvorbereitungskurs Höhere Mathematik 3

Formelsammlung zur Vorlesung: Einführung in die Bayes-Statistik

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Wirtschaftsmathematik

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

Zufallsvariablen [random variable]

Varianzkomponentenschätzung

Kapitel 9:Erwartungswert, Varianz und Kovarianz von Zufallsvariablen

4. Verteilungen von Funktionen von Zufallsvariablen

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Punktschätzer Optimalitätskonzepte

Multivariate Verteilungen. Gerhard Tutz LMU München

Monte Carlo Finite Elemente Methode

Wahrscheinlichkeitstheorie und Statistik vom

Stochastik Praktikum Markov Chain Monte Carlo Methoden

Sprechstunde zur Klausurvorbereitung

Folie zur Vorlesung Wahrscheinlichkeitsrechnung und Stoch. Prozesse

1 Erwartungswert und Kovarianzmatrix von Zufallsvektoren

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Wahrscheinlichkeitstheorie und Statistik für Studierende des Maschinenbaus vom

7.5 Erwartungswert, Varianz

Wahrscheinlichkeitsrechnung und Statistik für Studierende der Informatik. PD Dr. U. Ludwig. Vorlesung 7 1 / 19

Stochastik. 1. Wahrscheinlichkeitsräume

2. Ein Zufallsvektor X IR d ist multivariat normal verteilt dann und nur dann wenn seine charakteristische Funktion folgendermaßen gegeben ist:

Wiederholung: Transformationsformel für Dichten

1 Multivariate Zufallsvariablen

Statistik für Informatiker, SS Verteilungen mit Dichte

Abhängigkeitsmaße Seien X 1 und X 2 zwei Zufallsvariablen. Es gibt einige skalare Maße für die Abhängigkeit zwischen X 1 und X 2.

Kapitel II Kontinuierliche Wahrscheinlichkeitsräume

Vorlesung 8a. Kovarianz und Korrelation

1.5 Mehrdimensionale Verteilungen

BZQ II: Stochastikpraktikum

Fit for Abi & Study Stochastik

Statistik für Ingenieure Vorlesung 5

Erwartungswert und Varianz von Zufallsvariablen

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Varianz und Kovarianz

Stochastik für die Naturwissenschaften

Transkript:

Bayessche Regression und Gaußprozesse Dr. rer. nat. Johannes Riesterer

Motivation Kriging Der südafrikanische Bergbauingenieur Danie Krige versuchte 1951, eine optimale Interpolationsmethode für den Bergbau zu entwickeln, basierend auf der räumlichen Abhängigkeit von Messpunkten.

Motivation SmartAQNet Projekt

Lineare Regression Daten Gegeben Daten S := {(x i, y i )} i mit Features x i R n und Werten y i R. Modell y i = x t i ω + ɛ mit Gewichten ω R n und Offset ɛ R. Training (ω, ɛ) = min L S (w, e) mit Verlustfunktion L S (w, e) := i (y i (x t i w + e)) 2. Bemerkung Optimierungsproblem. Für n = 1 Gauss sche Methode der kleinsten Fehlerquadrate.

Lineare Regression Vorhersage Für Feature x R n definiere Vorhersage durch ỹ = x t ω + ɛ

Lineare Bayessche Regression Stichproben Gegeben Stichproben S := {(x i, y i )} i der Zufallsvariablen (x (i), y (i) ) bzw. X = (x (i) ) i und Y = (y (i) ) i. Modell y (i) = (x (i) ) t ω + ɛ mit Gewichten ω N (0, Σ), ɛ N (0, σ 2 ). Hierbei wird x (i) x i als konstant angenommen und nicht als Zufallsvariable modelliert. (y i x i, ω) N (ω t x i, σ 2 ) (1) p(y i x i, ω) = 1 exp( (y i ω t x i ) 2 )(Dichte) (2) 2πσ 2σ y i u.i.v. p(y X, ω) = 1 exp( (y i ω t x i ) 2 ) (3) i 2πσ 2σ

Lineare Bayessche Regression Posterior distribution Satz von Bayes likelihood prior posterior = marginal likelihood p(s ω) p(ω) p(ω S) = p(s) mit der Marginalisierung p(s) = ω p(s, ω )dω = ω p(s ω ) p(ω )dω. Posterior distribution Einsetzten mit p(s ω) = p(y X, ω) da x (i) x i : p(ω S) = ( i p(y i x i, ω)) p(ω) ω ( i p(y i x i, ω )) p(ω )dω (4)

Lineare Bayessche Regression Posterior distribution Mit (3), ω N (0, τ 2 I ) und Rechenregeln für Normalverteilungen (längere Übungsaufgabe): ( ) 1 ω S N σ 2 A 1 X t Y, A 1 mit A = 1 σ 2 X t X + Σ 1.

Lineare Bayessche Regression Posterior predictive distribution Für Feature x erhalten wir durch Marginalisierung: p(ỹ x, S) = p(ỹ, ω x, S)dω = p(ỹ ω, x, S) p(ω S)dω ω ω }{{} =p(ỹ ω, x) (ỹ unabh. von S). Posterior predictive distribution Mit (2) und (4) und Rechenregeln für Normalverteilungen (wieder längere Übungsaufgabe): ( 1 ỹ x, S N σ 2 x t A 1 X t Y, x t A 1 x ) mit A = 1 σ 2 X t X + Σ 1

Lineare Bayessche Regression Vorhersage Für Feature x wird die Vorhersage durch ỹ := E((ỹ x, S)) = 1 σ 2 x t A 1 X t Y definiert. Die Varianz V((ỹ x, S)) = x t A 1 x dient als Mass der Güte der Vorhersage.

Lineare Bayessche Regression

Bayessche Regression Stichproben Stichproben S := {(x i, y i )} i der Zufallsvariablen (x (i), y (i) ). Modell y (i) = f (x (i) ) + ɛ. Vorhersage Im Allgemeinen sind die Integrale, welche in der posterior und posterior predictive distribution vorkommen, nicht geschlossen lösbar. In diesem Fall wird häufig Markov-Chain-Monte-Carlo Integration (MCMC) verwendet.

Bayessche Regression Kernel Trick Der Spezialfall f (x (i) ) = φ(x (i) ) t ω mit φ : R n R N (Bsp: φ(x 1, x 2 ) = (x 1, x1 2, x 2, x2 2 ) ) ist geschlossen lösbar, da linear. Mit nahezu analoger Rechnung erhält man ( ) 1 f x, S N σ 2 φ( x)t A 1 X t Y, φ( x) t A 1 φ( x) mit A = 1 σ 2 φ(x ) t φ(x ) + Σ 1

Stochastischer Prozess Ein stochastischer Prozess ist eine indizierte Menge von Zufallsvariablen {f x x X }. Gauß-Prozess Wir bezeichnen einen stochastischen Prozess als Gauß-Prozess f x GP (m(x), k(x, x )), falls f x1. f xn N m(x 1 ) k(x 1, x 1 )... k(x 1, x n ).,..... m(x n ) k(x n, x 1 )... k(x n, x n ) für jede endliche Teilmenge X = (x 1,, x n ) X. Man nennt k(x, x ) Kovarianz-Funktion oder auch Kernel. Zulässig sind nur Funktionen, bei denen die Matrix positiv definit und symmetrisch ist für jede endliche Teilmenge X.

Beispiel f x = φ(x) t ω mit ω N (0, Σ) ist ein GP (m(x), k(x, x )) mit E(f x ) = φ(x) t E(ω) = 0 }{{} =:m(x) E(f x f x ) = φ(x) t E(ωω t )φ(x ) = φ(x) t Σ φ(x ) }{{} :=k(x,x )

Prior distribution Sei f GP (0, k(x, x )) ein Gauß-Prozess. Angenommen man kennt f = ( f x1... f xn ) an den Punkten X = (x1,..., x n ) und möchte f = ( f x1... f xn ) and den Punkten X = ( x 1,..., x n ) vorhersagen. Aus der GP-Eigenschaft folgt ( fx f x ) N (( ) 0, 0 ( K(X, X ) )) K(X, X ) K( X, X ) K( X, X )

Posterior predictive distribution Mit den Rechenregeln für multivariate Normalverteilungen folgt: f X, X, f N ( µ f, ) Σ f µ f := K( X, X )K(X, X ) f Σ f := K( X, X ) K( X, X )K(X, X ) 1 K(X, X )

Lineare Bayessche Regression Vorhersage Für Prior f wird die Vorhersage durch R( f ) := E(( f X, X, f )) = K( X, X )K(X, X ) f definiert. Die Varianz V(( f X, X, f )) = K( X, X ) K( X, X )K(X, X ) 1 K(X, X ) dient als Mass der Güte der Vorhersage.

Kernel