Bayessche Regression und Gaußprozesse Dr. rer. nat. Johannes Riesterer
Motivation Kriging Der südafrikanische Bergbauingenieur Danie Krige versuchte 1951, eine optimale Interpolationsmethode für den Bergbau zu entwickeln, basierend auf der räumlichen Abhängigkeit von Messpunkten.
Motivation SmartAQNet Projekt
Lineare Regression Daten Gegeben Daten S := {(x i, y i )} i mit Features x i R n und Werten y i R. Modell y i = x t i ω + ɛ mit Gewichten ω R n und Offset ɛ R. Training (ω, ɛ) = min L S (w, e) mit Verlustfunktion L S (w, e) := i (y i (x t i w + e)) 2. Bemerkung Optimierungsproblem. Für n = 1 Gauss sche Methode der kleinsten Fehlerquadrate.
Lineare Regression Vorhersage Für Feature x R n definiere Vorhersage durch ỹ = x t ω + ɛ
Lineare Bayessche Regression Stichproben Gegeben Stichproben S := {(x i, y i )} i der Zufallsvariablen (x (i), y (i) ) bzw. X = (x (i) ) i und Y = (y (i) ) i. Modell y (i) = (x (i) ) t ω + ɛ mit Gewichten ω N (0, Σ), ɛ N (0, σ 2 ). Hierbei wird x (i) x i als konstant angenommen und nicht als Zufallsvariable modelliert. (y i x i, ω) N (ω t x i, σ 2 ) (1) p(y i x i, ω) = 1 exp( (y i ω t x i ) 2 )(Dichte) (2) 2πσ 2σ y i u.i.v. p(y X, ω) = 1 exp( (y i ω t x i ) 2 ) (3) i 2πσ 2σ
Lineare Bayessche Regression Posterior distribution Satz von Bayes likelihood prior posterior = marginal likelihood p(s ω) p(ω) p(ω S) = p(s) mit der Marginalisierung p(s) = ω p(s, ω )dω = ω p(s ω ) p(ω )dω. Posterior distribution Einsetzten mit p(s ω) = p(y X, ω) da x (i) x i : p(ω S) = ( i p(y i x i, ω)) p(ω) ω ( i p(y i x i, ω )) p(ω )dω (4)
Lineare Bayessche Regression Posterior distribution Mit (3), ω N (0, τ 2 I ) und Rechenregeln für Normalverteilungen (längere Übungsaufgabe): ( ) 1 ω S N σ 2 A 1 X t Y, A 1 mit A = 1 σ 2 X t X + Σ 1.
Lineare Bayessche Regression Posterior predictive distribution Für Feature x erhalten wir durch Marginalisierung: p(ỹ x, S) = p(ỹ, ω x, S)dω = p(ỹ ω, x, S) p(ω S)dω ω ω }{{} =p(ỹ ω, x) (ỹ unabh. von S). Posterior predictive distribution Mit (2) und (4) und Rechenregeln für Normalverteilungen (wieder längere Übungsaufgabe): ( 1 ỹ x, S N σ 2 x t A 1 X t Y, x t A 1 x ) mit A = 1 σ 2 X t X + Σ 1
Lineare Bayessche Regression Vorhersage Für Feature x wird die Vorhersage durch ỹ := E((ỹ x, S)) = 1 σ 2 x t A 1 X t Y definiert. Die Varianz V((ỹ x, S)) = x t A 1 x dient als Mass der Güte der Vorhersage.
Lineare Bayessche Regression
Bayessche Regression Stichproben Stichproben S := {(x i, y i )} i der Zufallsvariablen (x (i), y (i) ). Modell y (i) = f (x (i) ) + ɛ. Vorhersage Im Allgemeinen sind die Integrale, welche in der posterior und posterior predictive distribution vorkommen, nicht geschlossen lösbar. In diesem Fall wird häufig Markov-Chain-Monte-Carlo Integration (MCMC) verwendet.
Bayessche Regression Kernel Trick Der Spezialfall f (x (i) ) = φ(x (i) ) t ω mit φ : R n R N (Bsp: φ(x 1, x 2 ) = (x 1, x1 2, x 2, x2 2 ) ) ist geschlossen lösbar, da linear. Mit nahezu analoger Rechnung erhält man ( ) 1 f x, S N σ 2 φ( x)t A 1 X t Y, φ( x) t A 1 φ( x) mit A = 1 σ 2 φ(x ) t φ(x ) + Σ 1
Stochastischer Prozess Ein stochastischer Prozess ist eine indizierte Menge von Zufallsvariablen {f x x X }. Gauß-Prozess Wir bezeichnen einen stochastischen Prozess als Gauß-Prozess f x GP (m(x), k(x, x )), falls f x1. f xn N m(x 1 ) k(x 1, x 1 )... k(x 1, x n ).,..... m(x n ) k(x n, x 1 )... k(x n, x n ) für jede endliche Teilmenge X = (x 1,, x n ) X. Man nennt k(x, x ) Kovarianz-Funktion oder auch Kernel. Zulässig sind nur Funktionen, bei denen die Matrix positiv definit und symmetrisch ist für jede endliche Teilmenge X.
Beispiel f x = φ(x) t ω mit ω N (0, Σ) ist ein GP (m(x), k(x, x )) mit E(f x ) = φ(x) t E(ω) = 0 }{{} =:m(x) E(f x f x ) = φ(x) t E(ωω t )φ(x ) = φ(x) t Σ φ(x ) }{{} :=k(x,x )
Prior distribution Sei f GP (0, k(x, x )) ein Gauß-Prozess. Angenommen man kennt f = ( f x1... f xn ) an den Punkten X = (x1,..., x n ) und möchte f = ( f x1... f xn ) and den Punkten X = ( x 1,..., x n ) vorhersagen. Aus der GP-Eigenschaft folgt ( fx f x ) N (( ) 0, 0 ( K(X, X ) )) K(X, X ) K( X, X ) K( X, X )
Posterior predictive distribution Mit den Rechenregeln für multivariate Normalverteilungen folgt: f X, X, f N ( µ f, ) Σ f µ f := K( X, X )K(X, X ) f Σ f := K( X, X ) K( X, X )K(X, X ) 1 K(X, X )
Lineare Bayessche Regression Vorhersage Für Prior f wird die Vorhersage durch R( f ) := E(( f X, X, f )) = K( X, X )K(X, X ) f definiert. Die Varianz V(( f X, X, f )) = K( X, X ) K( X, X )K(X, X ) 1 K(X, X ) dient als Mass der Güte der Vorhersage.
Kernel