kleinsten mittleren Fehlerquadrats und die Maximum-a-posteriori-Schätzung. Die Bayes-Schätzung basiert auf dem Satz von Bayes:

Ähnliche Dokumente
Numerische Simulation von Differential-Gleichungen der Himmelsmechanik

Geometrisch ergibt sich deren Graph als Schnitt von G mit der senkrechten Ebene y = b bzw. x = a:

6. Die Exponentialfunktionen (und Logarithmen).

Das Mehrgitterverfahren

Geometrische Mehrgitterverfahren. Annabell Schlüter

Mathematik 1 für Studierende der Biologie Teil II: Limes & Konvergenz

3.2 Spline Interpolation

3.2 Polarkoordinaten und exponentielle Darstellung

7.2. Ableitungen und lineare Approximation

Zentrale schriftliche Abiturprüfungen im Fach Mathematik

Einführung in die Geostatistik (4) Fred Hattermann (Vorlesung), Michael Roers (Übung),

Skulptur. 0,25 m. 1,65 m 1,7 m Sockel. 0,6 m 0,6 m 10 m. Aufgabe 1: Die Skulptur

BSc: Waldmesslehre Waldinventur I

2 Ein Beispiel und der Haken an der Sache

Rudolphs Schlitten. Aufgabe. Autor: Jochen Ricker

Numerische Simulation in der Luft- und Raumfahrttechnik

122 KAPITEL 7. POTENZREIHEN

Ein Score-Test auf Messfehler in Ratingmigrationen

Musterlösung zu Übungsblatt 1

Linear. Halbkreis. Parabel

Á 4. Differenzierbarkeit, Stetigkeit

Einstiegsphase Analysis (Jg. 11)

Über Formen des konvektiven Terms in Finite-Elemente-Diskretisierungen der inkompressiblen Navier-Stokes-Gleichungen

Übungen zur Vorlesung Differential und Integralrechnung II (Unterrichtsfach) -Bearbeitungsvorschlag-

ANALYSIS Differenzialrechnung Kapitel 1 5

Das Delta-Potential. Gruppe PLANCK. Anton Hörl Thomas Kloiber Bernd Kollmann Miriam Mutici Jakob Schwarz. Quantenmechanik Projekt 2

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Übungsaufgaben zu Analysis 2 Lösungen von Blatt V vom f(x, y) = 2(x + y) + xy + 3x 2, g(x, y) = xy + e xy.

Einführung in die Differentialrechnung

3.3 Methoden zur Evaluierung von Schätzern

Produktregel (Ableitung von f g)

Manfred Burghardt. Allgemeine Hochschulreife und Fachhochschulreife in den Bereichen Erziehung, Gesundheit und Soziales

Clusteranalyse: Gauß sche Mischmodelle

Das Stichprobendesign. The Sample Design for the Register-Assisted Census registergestützten Zensus 2011

Was haben Beschleunigungs-Apps mit der Quadratur des Kreises zu tun?

Physik I Übung 7, Teil 2 - Lösungshinweise

Die n-dimensionale Normalverteilung

Teil 1. 2 Gleichungen mit 2 Unbekannten mit Textaufgaben. und 3 Gleichungen mit 2 Unbekannten. Datei Nr Friedrich Buckel. Stand 11.

Einführung in die Maximum Likelihood Methodik

Übersicht. Einführung Universelles Hashing Perfektes Hashing

Steuerliche Spendenanreize: Ein Reformvorschlag. Ludwig von Auer Andreas Kalusche. Research Papers in Economics No. 7/10

Höhere Mathematik II für die Fachrichtung Informatik. Lösungsvorschläge zum 3. Übungsblatt

2 Rastertunnelmikroskopie

Informationen zur Kennzahlenanalyse und Unternehmensbewertung

Einführung in die Stochastik für Informatiker Übungsaufgaben mit Lösungen

Das Goethe-Barometer Luftdruckmessungen mit einem historischen Gerät von Helmut Jena

Analysis: Klausur Analysis

Exponential Family, Maximum Likelihood, EM Algorithmus und Gaussian Mixture Models

Überholen mit konstanter Beschleunigung

Mathematik für Biologen

Skript für die Oberstufe und das Abitur 2011 Baden-Württemberg - allg. Gymnasium

Klassifikation von Daten Einleitung

Mathematische Grundlagen der Ökonomie Übungsblatt 13

Differenzieren kurz und bündig

e-funktion und natürlicher Logarithmus

Statistik. R. Frühwirth Teil 1: Deskriptive Statistik. Statistik. Einleitung Grundbegriffe Merkmal- und Skalentypen Aussagen und

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

RWTH Aachen, Lehrstuhl für Informatik IX Kapitel 3: Suchen in Mengen - Datenstrukturen und Algorithmen - 51

Übungsaufgaben zur Kursarbeit

PACKAGING DESIGN LIMBIC SCHMIDT SPIELE KNIFFEL MASTER

Differentialrechnung

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Einführung der Trigonometrischen Funktionen

Schriftliche Prüfung Schuljahr: 2008/2009 Schulform: Gymnasium. Mathematik

Sterbetafeln für die Schweiz 1998/2003

Mathematik für Molekulare Biologen

Lehrprobe im Fach Mathematik

Scheinklausur Stochastik 1 für Studierende des Lehramts und der Diplom-Pädagogik

Stetige Verteilungen Rechteckverteilung

Mathematik I. J. Hellmich

Heute schon gepoppt?

Kraft F in N Dehnung s in m

Fehler- und Ausgleichsrechnung

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

5. Spezielle stetige Verteilungen

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Übungen zum Mathematik-Abitur. Geometrie 1

GRUNDVORSTELLUNGEN BEI DER EINFÜHRUNG DER BEIDEN BEGRIFFE DIFFERENZENQUOTIENT UND DIFFERENTIALQUOTIENT

Steuerliche Spendenanreize in Deutschland Eine empirische Analyse ihrer fiskalischen Effekte

5.2 Von der durchschnittlichen zur momentanen Änderungsrate

Numerische Methoden und Algorithmen in der Physik

Kurze Rheologie-Tour

IDENTIFIKATION DER AEROELASTISCHEN EIGENSCHAFTEN DES MOTORSEGLERS STEMME S15 AN HAND VON FLUGVERSUCHDATEN

4 Statistik der Extremwertverteilungen

2 Aufgaben aus [Teschl, Band 2]

A = N gilt für das Inland : und für das Ausland :

Aufgaben zur Quantenphysik

2 Zufallsvariable, Verteilungen, Erwartungswert

Statistik und Wahrscheinlichkeitsrechnung

Tangentensteigung. Gegeben ist die Funktion f(x) = x 2.

! Was ist Bildverbesserung? ! Abgrenzung zu. ! Kalibrierung! Korrektur! Registrierung! Optimierung. ! Welche Methoden werden benutzt?

= 4. = 2 π. s t. Lösung: Aufgabe 1.a) Der Erdradius beträgt 6.371km. Aufgabe 1.b) Das Meer nimmt 71% der Erdoberfläche ein.

Charaktere. 1 Wiederholung. 2 Charaktere verschiedener Darstellungen. 1.1 Zerlegung von Darstellungen. 1.2 Schursches Lemma

Lösungshinweise zu den Hausaufgaben:

7.5 Erwartungswert, Varianz

7.2 Moment und Varianz

Heizung Pumpen-Auslegung Seite 1 von 5

4 Funktionen und Änderungsraten

5. Statistische Schätztheorie

Differenzierbare Funktionen

Transkript:

4 Bayes-Scätzung 4.1 Überblick Die Bayes-Scätzung geört zu den wictigsten Konzepten der Signalverarbeitung. Sie stellt die Verallgemeinerung und damit ein Ramenwerk für einen Großteil klassiscer und moderner Scätzalgoritmen dar, so unter anderem für die Maximum-Likeliood-Scätzung, die Scätzung nac dem Prinzip des kleinsten mittleren Felerquadrats und die Maximum-a-posteriori-Scätzung. Die Bayes-Scätzung basiert auf dem Satz von Bayes: Mit den Auftretenswarsceinlickeiten P (A) und P (B) für die Ereignisse A und B, den bedingten Warsceinlickeiten 1 P (A B) und P (B A) sowie der Warsceinlickeit P (A, B) des gemeinsamen Auftretens der Ereignisse A und B gilt P (A B)P (B) = P (B A)P (A) = P (A, B). (4.1) Direkt aus dem Satz von Bayes folgt P (A B) = P (B A)P (A). (4.2) P (B) Die Warsceinlickeit P (A) in Gleicung 4.2 wird als A-priori-Warsceinlickeit bezeicnet, da sie die Warsceinlickeit des Auftretens des Ereignisses A one Wissen um das Ereignis B wiedergibt. Die A-priori-Warsceinlickeit repräsentiert im Bayes scen Ansatz das Vorwissen. P (A B) ist die 1 Die bedingte Warsceinlickeit P (A B) ist die Auftretenswarsceinlickeit von Ereignis A, wenn das Ereignis B bei einem anderen Zufallsexperiment oder bei einer vorerigen Durcfürung des gleicen Zufallsexperimentes bereits eingetreten ist.

64 4 Bayes-Scätzung Abb. 4.1. Veranscaulicung des Satzes von Bayes (P (B A) = 1/4, P (A B) = 1/4, P (A, B) = 1/12) A-posteriori-Warsceinlickeit, die die Warsceinlickeit des Ereignisses A nac Eintreffen des Ereignisses B angibt. Analog zu den Auftretenswarsceinlickeiten in Gleicung 4.2 gilt für Verteilungsdicten der kontinuierlicen Zufallsvariablen X und Y f X Y (x y) = f Y X(y x)f X (x). (4.3) f Y (y) 4.2 Scätzteorie 4.2.1 Zielstellung Die Scätzteorie bescäftigt sic zum einen mit der Entwicklung von Scätzalgoritmen, zum anderen aber auc mit der Bewertung und dem Vergleic versciedener Scätzverfaren. Die Aufgabe von Scätzverfaren bestet in der Scätzung von Parametern von z.b. Verteilungsdictefunktionen 2 bzw. statistiscen Modellen 3, der Scätzung der Koeffizienten prädiktiver Modelle 4 oder auc der Scätzung von Signalen aus getätigten Beobactungen. 2 z.b. Mittelwert und Varianz 3 Ein statistisces bzw. probabilistisces Modell bescreibt die zufälligen Signalfluktuationen mit Verteilungsdictefunktionen und deren Parametern wie z.b. Mittelwert, Varianz, Kovarianz. Die Motivation für die Anwendung von Modellen in der Signalverarbeitung ergibt sic aus der Möglickeit der Verknüpfung von im Modell entaltenem Vorwissen mit den beobacteten Signalwerten. Auf diesem Wege ist zum Beispiel der Ausscluss abwegiger Messdaten möglic bzw. allgemein die Gewictung von Vorwissen und beobacteten Signalwerten entsprecend irer statistiscen Sicereit. Darüber inaus geben Modelle die Möglickeit, Struktur, Zusammensetzung und Entsteung von Signalen zu versteen und gezielt zu beeinflussen. 4 Ein prädiktives Modell bescreibt die Korrelationsstruktur eines Signals, siee z.b. lineare Prädiktion. Ebenso können auc konditionale probabilistisce Modelle die Korrelationsstruktur erfassen.

4.2 Scätzteorie 65 4.2.2 Bewertungskriterien für Scätzer Scätzalgoritmen 5 verarbeiten beobactete Signalwerte. Diese Signalwerte sind in gewissem Grade zufällig oder unterliegen zufälligen Scwankungen. Desalb sind die Ergebnisse eines Scätzers gleicfalls zufällig und können z.b. mit einer Verteilungsfunktion statistisc bescrieben werden. Mit Hilfe dieser statistiscen Bescreibung der Scätzergebnisse ist deren Bewertung möglic. Wictig für die Bewertung eines Scätzverfarens sind vor allem folgende Kennwerte: der Erwartungswert E[ˆ]: Mit im wird das mittlere Ergebnis eines Scätzalgoritmus angegeben 6. der systematisce Feler 7 E[ˆ ] = E[ˆ] : Mit im wird die durcscnittlice Abweicung des Scätzergebnisses vom waren Parameterwert bemessen. die Kovarianz der Scätzung Cov(ˆ) = E[(ˆ E[ˆ])(ˆ E[ˆ]) T ]: Sie ist ein Index für die Scwankung des Scätzergebnisses um den mittleren Scätzwert sowie Abängigkeiten der versciedenen Scätzwertscwankungen untereinander. Ein guter Scätzer weist keinen systematiscen Feler sowie eine möglicst kleine Kovarianz auf. Mit Bezug auf die Bewertungskriterien können folgende Eigenscaften von Scätzalgoritmen definiert werden: erwartungstreuer Scätzer 8 : E[ˆ] = (4.4) Der Scätzalgoritmus ermittelt den waren Parameterwert. asymptotisc erwartungstreuer Scätzer 9 : lim E[ˆ] = (4.5) N Das Ergebnis des Scätzalgoritmus näert sic mit größerer Datenanzal N an den waren Parameterwert an. 5 Scätzalgoritmen werden auc als Scätzer bezeicnet. 6 ˆ bezeicnet den Scätzwert für den zu scätzenden Parameter. 7 engl.: bias 8 engl.: unbiased estimator 9 engl.: asymptotically unbiased estimator

66 4 Bayes-Scätzung konsistenter Scätzer 10 : lim P [ ˆ > ε] = 0, (4.6) N mit ε > 0 und beliebig klein. Gleicung 4.6 bescreibt eine Konvergenz in Warsceinlickeit und definiert die einface bzw. scwace Konsistenz. Von starker Konsistenz sprict man bei Konvergenz mit Warsceinlickeit 1 [13] P [ lim ˆ = ] = 1 (4.7) N und von Konsistenz im quadratiscen Mittel bei lim E[(ˆ ) T (ˆ )] = 0. (4.8) N Starke Konsistenz und Konsistenz im quadratiscen Mittel scließen einface Konsistenz mit ein. wirksamer Scätzer 11 : Cov(ˆ wirksam ) Cov(ˆ) (4.9) Die Varianz des Scätzergebnisses besitzt im eindimensionalen Fall, d.. =, den kleinstmöglicen Wert. Im Falle merdimensionaler Parametervektoren berürt Cov(ˆ wirksam ) die Cramér-Rao-Scranke (siee Abscnitt 4.2.3). Beim Entwurf von Scätzalgoritmen ist man im Allgemeinen bemüt, wirksame Verfaren zu entwickeln. Dies ist mit den im Abscnitt 4.4 bescriebenen Maximum-Likeliood-Scätzern (ML-Scätzern) prinzipiell möglic. Allerdings sind ML-Scätzer oft scwierig zu berecnen, so dass in diesen Fällen auf einfacere, meist nict-wirksame Metoden, z.b. Momenten-Verfaren, zurückgegriffen werden muss. 4.2.3 Die Cramér-Rao-Scranke Das Kriterium der Wirksamkeit soll im Folgenden noc einmal näer betractet werden. Prinzipiell können Scätzalgoritmen einen Parameterwert nict beliebig genau bestimmen. Es gibt vielmer eine untere Scranke für die Varianz einer Scätzung. Die Varianz var(ˆ) = E[(ˆ ) 2 ] eines erwartungstreuen Scätzers ist von unten bescränkt durc die Cramér-Rao-Scranke (CR-Scranke), die sic aus der Verteilungsdicte des beobacteten Signals 12 f(y ) mit 10 engl.: consistent estimator 11 engl.: efficient estimator 12 Aus Übersictlickeitsgründen wird die bedingte Verteilungsdicte f Y Θ (y ) im Folgenden mit f(y ) notiert.

1 var(ˆ) E [( log f(y )/ ) 2 ] ergibt. I() ist die Fiser-Information. = warer Parameterwert 4.2 Scätzteorie 67 = I 1 () (4.10) Zur Herleitung von Gleicung 4.10 wendet man die Caucy-Scwarz sce Ungleicung 13 auf E[( log f(y )/ )(ˆ )] an und erält (E[( log f(y )/ )(ˆ )]) 2 E[( log f(y )/ ) 2 ]E[(ˆ ) 2 ]. (4.11) Ferner gilt bei vorausgesetzter Vertauscbarkeit von Differentiation und Integration sowie E[ˆ] = [ ] log f(y ) log f(y ) E (ˆ ) = (ˆ )f(y )dy (4.12) f(y ) = (ˆ )dy (4.13) f(y ) f(y ) = ˆdy dy (4.14) = f(y )ˆdy f(y )dy (4.15) = E[ˆ] 1 = 0 = 1. (4.16) Wird dieses Ergebnis in Gleicung 4.11 eingesetzt, ergibt sic sofort die Cramér-Rao-Scranke. Ein Scätzer, der die CR-Scranke erreict, ist wirksam. Soll eine differenzierbare Funktion g() gescätzt werden, ergibt sic die CR- Scranke mit ( g/ ) 2 var(ĝ) E [( log f(y )/ ) 2 ]. (4.17) Für Parameter-Vektoren ist die CR-Scranke für die Kovarianz-Matrix des Parametervektors Cˆ gegeben mit Cˆ I 1, (4.18) wobei I die Informations-Matrix bezeicnet und Gleicung 4.18 die positive Semidefiniteit von Cˆ I 1 bedeutet. Die Informations-Matrix ist definiert mit [ ( ) ( ) ] T log f(y ) log f(y ) I = E. (4.19) = warer Parameterwert 13 (E[x 1x 2]) 2 E[x 2 1]E[x 2 2]

68 4 Bayes-Scätzung Soll eine differenzierbare vektorwertige Funktion g() gescätzt werden, ergibt sic die CR-Scranke aus C(ĝ) JI 1 JT, (4.20) mit J als Jacobi-Matrix der Funktion g(). 4.3 Verfaren der Bayes-Scätzung 4.3.1 Die Berecnung der A-posteriori-Verteilungsdicte Das Bayes sce Konzept berut auf der folgenden Idee: Vorandenes Wissen über möglice Signal- oder Parameterwerte kann zur Bewertung beobacteter Signal- oder gescätzter Parameterwerte genutzt werden. Das Vorwissen 14 legt einen A-priori-Raum aller möglicen Werte des Signals bzw. des zu scätzenden Parameters fest. Nac erfolgter Beobactung, d.. mit Kenntnis des gemessenen Signals entstet ein A-posteriori-Raum, in dem alle sowol mit dem Vorwissen als auc mit der Beobactung konsistenten Werte entalten sind. Die Umsetzung dieser Idee erfolgt mit der Verknüpfung von A-priori- und A- posteriori-verteilungsdicte gemäß dem Bayes scen Satz. Zum Beispiel erält man für einen beobacteten Signalvektor y = [y 1, y 2,..., y N ] und den gesucten Parametervektor f Θ Y ( y) = f Y Θ(y )f Θ () f Y (y) = f Y Θ(y )f Θ (). (4.21) f Y Θ (y )f Θ ()d Die A-posteriori-Verteilungsdicte f Θ Y ( y) ist proportional zum Produkt von A-priori-Verteilungsdicte f Θ () und der aus der Beobactung resultierenden Likeliood-Funktion f Y Θ (y ). Der Prior wictet also die Beobactung und sorgt so für deren Konsistenz mit dem Vorwissen. Die Verteilungsdicte f Y (y) ist für eine konkrete Beobactung konstant und besitzt lediglic die Aufgabe der Normierung. Allerdings ist f Y (y) wegen des Integrals im Nenner des recten Terms von Gleicung 4.21 oft scwierig zu berecnen. Im Falle gaußscer Verteilungsdicten ist jedoc die analytisce Berecnung von f Y (y) und damit auc von f Θ Y ( y) relativ einfac, wie das folgende Beispiel zeigt. Beispiel 4.1. Gesuct ist die A-posteriori-Verteilungsdicte für den Mittelwert µ bei gaußscem Prior und N gaußverteilten, voneinander statistisc unabängigen Messdaten. Die Varianz der Messdaten wird als bekannt vorausgesetzt. 14 engl.: prior

4.3 Verfaren der Bayes-Scätzung 69 Der Prior für den Mittelwert ist gegeben mit 1 f(µ) = exp ( (µ µ 0) 2 ), (4.22) 2πσ 2 0 wobei die Vorinformation sowol in der gaußscen Verteilungsdicte als auc in den konkreten Werten für Varianz und Mittelwert, d.. σ0 2 bzw. µ 0 bestet. Da die N beobacteten Werte y i laut Aufgabenstellung einer gaußscen Verteilungsdicte mit bekannter Varianz σ 2 entstammen und darüber inaus untereinander statistisc unabängig sind, ergibt sic die Likeliood-Funktion mit N N ( 1 f Y µ (y µ) = f(y i µ) = exp (y i µ) 2 ) 2πσ 2 2σ 2 (4.23) ( ) N = (2πσ 2 ) N/2 exp (y i µ) 2 2σ 2. (4.24) Die Verteilungsdicte f(y) ergibt sic unter Berücksictigung der Gleicungen 4.22 und 4.24 zu 2σ 2 0 f(y) = f Y µ (y µ)f(µ)dµ = = (2πσ2 ) N/2 2πσ 2 0 = (2πσ2 ) N/2 2πσ 2 0 exp N f(y i µ)f(µ)dµ ( exp σ2 (µ µ 0 ) 2 + σ0 2 ) N (y i µ) 2 dµ ( σ2 µ 2 0 + σ 2 0 2σ 2 0 σ2 N y2 i 2σ 2 0 σ2 ( exp µ2 (σ 2 + Nσ0) 2 2σ0 2 + µ(µ 0σ 2 + σ 2 ) N 0 y i) σ2 σ0 2 dµ. (4.25) σ2 ) Mit [14] und ( exp 1 ) ( ) 2π 2 2 A µ2 + µ dµ = A exp 2A (4.26) A = σ2 + Nσ0 2 σ0 2 = σ2 µ 0 + σ 2 N 0 y i σ2 σ0 2 (4.27) σ2

70 4 Bayes-Scätzung erält man f(y) exp ( 1 2 σ 2 µ 2 0 + σ 2 0 N y2 i σ 2 0 σ2 + 1 2 (σ 2 µ 0 + σ0 2 ) N y i) 2 σ0 2σ2 (σ 2 + Nσ0 2). (4.28) Nac Einsetzen der Gleicungen 4.22, 4.24 und 4.28 in Gleicung 4.21 ergibt sic die gaußsce A-posteriori-Verteilungsdicte f µ Y (µ y) mit dem Mittelwert und der Varianz σ 2 µ N = µ 0 σ 2 + Nσ0 2 + 1 σ 2 N = N σ 2 + 1 σ 2 0 σ 2 0 σ 2 + Nσ 2 0 y i (4.29) bzw. σ 2 N = σ 2 0 Nσ 2 0 σ 2 + σ2. (4.30) Aus den Gleicungen 4.29 und 4.30 wird die Abängigkeit der Parameterscätzwerte von der Datenanzal deutlic. Wenn keine Messdaten voranden sind, gleicen die Parameterscätzwerte den Parameterwerten der A-priori-Verteilungsdicte. Für große N scrumpft jedoc der Einfluss des Vorwissens. Abbildung 4.2 zeigt dieses Prinzip qualitativ. Abb. 4.2. Bayes-Lernen: A-posteriori-Verteilungsdicte in Abängigkeit von der Datenanzal N (qualitative Darstellung) 4.3.2 Klassisce Scätzverfaren im Kontext der Bayes-Scätzung Die Bayes sce Risikofunktion Wärend im vorigen Abscnitt die A-posteriori-Verteilungsdicte mit iren Parametern direkt berecnet wurde, erfolgt die Parameterscätzung nun durc die Minimierung der Bayes scen Risikofunktion

4.3 Verfaren der Bayes-Scätzung 71 R(ˆ) = E[C(ˆ, )] (4.31) = C(ˆ, )f Y,Θ (y, )dyd (4.32) y = C(ˆ, )f Θ Y ( y)f Y (y)dyd, (4.33) y mit C(ˆ, ) als gewictete Felerfunktion, die die um einen Gewictsfaktor ergänzten Scätzfeler entält. 15 Da bei gegebenem Beobactungsvektor die Verteilungsdicte f Y (y) konstant, d.. one Einfluss auf die Optimierung ist, kann die Risikofunktion reduziert werden auf (bedingte Risikofunktion) R(ˆ y) = C(ˆ, )f Θ Y ( y)d. (4.34) Die Minimierung der bedingten Risikofunktion fürt zum Bayes-Scätzwert des Parameters ˆ Bayes = argmin ˆ = argmin ˆ = argmin ˆ R(ˆ y) (4.35) C(ˆ, )f Θ Y ( y)d (4.36) C(ˆ, )f Y Θ (y )f Θ ()d. (4.37) In Abängigkeit von gewicteter Felerfunktion C(ˆ, ) und Prior f Θ () ergeben sic versciedene Scätzungen, unter anderem die im Folgenden besprocene Maximum-a-posteriori-Scätzung (MAP), die Maximum-Likeliood-Scätzung (ML), die Scätzung nac dem kleinsten mittleren Felerquadrat (minimum mean square error, MMSE) und die Scätzung nac dem kleinsten mittleren Absolutfeler (minimum mean absolute value of error, MAVE). 15 Die Berecnung der Risikofunktion kann als dreistufiges Verfaren interpretiert werden: Zunäcst werden für alle denkbaren Kombinationen von y und die Scätzwerte ˆ berecnet. Anscließend bewertet die gewictete Felerfunktion C(ˆ, ) die entstandenen Scätzfeler. Zum Beispiel können größere Feler stärker gewictet werden als kleine. Die Mittelung der bewerteten Scätzfeler im dritten Scritt liefert scließlic einen einzigen Kennwert für die Güte der Scätzung. Scätzverfaren können nun so entworfen werden, dass sie diesen Kennwert minimieren.

72 4 Bayes-Scätzung Maximum-a-posteriori-Scätzung Die gewictete Felerfunktion der MAP-Scätzung ist gegeben mit C MAP (ˆ, ) = 1 δ(ˆ, ). (4.38) Aus Gleicung 4.34 folgt somit für die bedingte Risikofunktion 16 R MAP (ˆ y) = [1 δ(ˆ, )]f Θ Y ( y)d (4.39) = 1 f Θ Y (ˆ y). (4.40) Das Minimum der bedingten Risikofunktion R MAP (ˆ y) ist genau dort, wo die bedingte Verteilungsdicte f Θ Y (ˆ y) maximal wird. Für den optimalen MAP-Scätzwert ˆ MAP folgt desalb ˆ MAP = argmax f Θ Y ( y) = argmax f Y Θ (y )f Θ (). (4.41) Maximum-Likeliood-Scätzung Die ML-Scätzung besitzt die gleice gewictete Felerfunktion wie die MAP- Scätzung C ML (ˆ, ) = 1 δ(ˆ, ). (4.42) Folglic erält man die gleice bedingte Risikofunktion R ML (ˆ y) = [1 δ(ˆ, )]f Θ Y ( y)d (4.43) = 1 f Θ Y (ˆ y). (4.44) Analog zur MAP-Scätzung liegt das Minimum der bedingten Risikofunktion R ML (ˆ y) beim Maximum der bedingten Verteilungsdicte f Θ Y (ˆ y), d.. ˆ ML = argmax f Θ Y ( y) = argmax f Y Θ (y )f Θ (). (4.45) 16 unter Berücksictigung der Ausblendeigenscaft der Deltafunktion f(ˆ) = f()δ(ˆ, )d und der Fläceneigenscaft der Verteilungsdicte f()d = 1

4.3 Verfaren der Bayes-Scätzung 73 Der Unterscied zur MAP-Scätzung resultiert aus einem anderen Prior. Bei der ML-Scätzung wird eine konstante A-priori-Verteilungsdicte f Θ () = const. angenommen. Alle Werte von sind aufgrund dieser A-priori- Verteilungsdicte zunäcst gleicwarsceinlic. Es fließt demnac kein Vorwissen über den Parameter in die Scätzung ein. Der ML-Scätzer ist demnac gegeben mit ˆ ML = argmax f Y Θ (y ). (4.46) Die Maximum-Likeliood-Scätzung wird im Abscnitt 4.4 vertieft. Scätzung nac dem kleinsten mittleren Felerquadrat Die gewictete Felerfunktion ergibt sic bei diesem Scätzverfaren aus der quadrierten Differenz zwiscen Scätzwert ˆ und warem Parameter Daraus folgt die bedingte Risikofunktion mit C MSE (ˆ, ) = (ˆ ) 2. (4.47) R MSE (ˆ y) = E[(ˆ ) 2 y] (4.48) = (ˆ ) 2 f Θ Y ( y)d. (4.49) Das Minimum der bedingten Risikofunktion erält man mit R MSE (ˆ y) ˆ = 2ˆ f Θ Y ( y)d 2 f Θ Y ( y)d (4.50) } {{ } =1 = 2ˆ 2 f Θ Y ( y)d =! 0. (4.51) Somit entsprict die MMSE-Scätzung dem bedingten Erwartungswert ˆ MMSE = f Θ Y ( y)d = E[ y]. (4.52) Scätzung nac dem kleinsten mittleren Absolutfeler Als gewictete Felerfunktion wird der Absolutwert der Abweicung zwiscen Scätzwert ˆ und warem Parameter genutzt C MAV E (ˆ, ) = ˆ. (4.53)

74 4 Bayes-Scätzung Die daraus resultierende bedingte Risikofunktion ist R MAV E (ˆ y) = E[ ˆ ] (4.54) = ˆ f Θ Y ( y)d (4.55) ˆ(y) Die Minimierung erfolgt mit = [ˆ ]f Θ Y ( y)d + ˆ(y) ˆ(y) R MAV E (ˆ y) ˆ = Durc Umstellen ergibt sic unmittelbar ˆ(y) [ ˆ]f Θ Y ( y)d. (4.56) f Y ( y)d f Y ( y)d =! 0. (4.57) ˆ(y) ˆ(y) f Y ( y)d = f Y ( y)d. (4.58) Die MAVE-Scätzung ˆ MAV E ergibt somit den Median 17 der A-posteriori- Verteilungsdicte für den Parameter. Die Abbildungen 4.3 und 4.4 fassen die versciedenen gewicteten Felerfunktionen und die daraus resultierenden Scätzwerte am Beispiel einer bimodalen Verteilungsdicte noc einmal zusammen. 4.4 Die Maximum-Likeliood-Scätzung Aufgrund irer ervorragenden Eigenscaften ist die ML-Scätzung ein ser beliebtes Scätzverfaren. Sie ist asymptotisc erwartungstreu und gleicfalls wirksam. Die Scätzergebnisse sind gaußverteilt. Die ML-Scätzung liefert in der Regel auc bei kurzen Datensätzen gute Ergebnisse, obwol die asymptotiscen Eigenscaften dann keine Gültigkeit besitzen. Die ML-Scätzung besitzt die Eigenscaft der Invarianz [57]. Dies bedeutet, dass die ML-Scätzung einer Funktion g() auc durc die Transformation des gescätzten Parametervektors ˆ berecnet werden kann, d.. 17 Der Median ist der Punkt einer Verteilung, für den größere Werte und kleinere Werte gleicwarsceinlic sind, also P (x < x Median ) = P (x > x Median ).

4.4 Die Maximum-Likeliood-Scätzung 75 Abb. 4.3. Klassisce gewictete Felerfunktionen im Kontext der Bayes-Scätzung Abb. 4.4. Beispielafte Resultate der klassiscen Scätzverfaren im Kontext der Bayes-Scätzung (MAP für den Fall felender Vorinformation) ĝ = g(ˆ). (4.59) Gemäß Gleicung 4.46 muss im Ramen der ML-Scätzung der Parametervektor ˆ gefunden werden, der die Likeliood-Funktion maximiert. Die vorliegenden Messwerte repräsentieren dann den warsceinlicsten Messwertvektor, der mit diesem gefundenen Parametervektor ˆ und der angenommenen Verteilungsdictefunktion gemessen werden kann. 18 Insbesondere bei Verteilungsdicten der exponentiellen Familie wird anstelle der Likeliood-Funktion L die Log-Likeliood-Funktion log L verwendet. Wegen der strengen Monotonie der Logaritmusfunktion ergeben sic für Likeliood- und Log-Likeliood-Funktion gleice Optimalstellen. Der Grund für die Nutzung der Log-Likeliood-Funktion bestet in der sic vereinfacenden Recnung, da zumindest bei exponentiellen Verteilungsdicten die Exponentialfunktion entfällt. Durc Produktbildung entstandene Verbund- 18 Die der ML-Scätzung zugrunde liegende Idee ist: Der Messwertvektor y wurde gemessen; desalb muss sein Auftreten ser warsceinlic sein. Die ML- Scätzung gibt den Parametervektor, der den Messwertvektor zum Warsceinlicsten aller möglicen Messwertvektoren werden lässt.

76 4 Bayes-Scätzung verteilungsdicten geen bei der Logaritmierung in einface Summen über. Ferner wird durc die Logaritmierung der Dynamikbereic der Verteilungsdicten eingescränkt, womit eine öere Recengenauigkeit erzielt werden kann. Nacteilig an der Log-Likeliood-Funktion ist die mitunter, im Vergleic zur Likeliood-Funktion, weniger deutlice Ausprägung der Optima. Die Durcfürung einer ML-Scätzung ist nict immer praktikabel. Im Allgemeinen ergeben sic im Verlaufe der Scätzung nictlineare Gleicungen, die gegebenenfalls aufwändig mit nummeriscen Verfaren gelöst werden müssen. In einigen Fällen ist eine analytisce Recnung jedoc möglic. Dazu nutzt man äufig die Anname, dass N voneinander statistisc unabängige Messwerte y 1, y 2,..., y N der kontinuierlicen Zufallsvariable Y beobactet werden können 19. Aufgrund der angenommenen statistiscen Unabängigkeit der Messwerte y i resultiert die Likeliood-Funktion L = f Y Θ (y ) aus der Multiplikation der Werte der Verteilungsdictefunktion f Y Θ (y i ) für die beobacteten y i N L(y ) = f Y Θ (y ) = f Y Θ (y i ). (4.60) Beispiel 4.2. Aus N Messwerten y i ist der warsceinlicste Mittelwert zu berecnen. Als Voraussetzung wird angenommen, dass alle Messwerte die gleice gaußsce Verteilungsdictefunktion mit gleicer unbekannter Varianz und gleicem unbekannten Mittelwert besitzen. Die Likeliood-Funktion erält man mit L = = N 1 2πσ exp [ (y i ˆµ) 2 /(2σ 2 ) ] (4.61) ( ) [ N 1 exp 1/(2σ 2 ) 2πσ Daraus ergibt sic die Log-Likeliood-Funktion ] (y i ˆµ) 2. (4.62) log L = N 2 ln(2π) N ln σ 1 2σ 2 (y i ˆµ) 2. (4.63) Aus der Ableitung der Log-Likeliood-Funktion log L ˆµ = 0 = (y i ˆµ) (4.64) entstet die bekannte Gleicung für den Mittelwert 19 Die Messwerte können zu einem Messwertvektor zusammengestellt werden, d.. y = [y 1, y 2,..., y N ] T.

4.5 Der Expectation-Maximization-Algoritmus 77 ˆµ = 1 N y i. (4.65) 4.5 Der Expectation-Maximization-Algoritmus 4.5.1 Überblick Der Expectation-Maximization-Algoritmus (EM-Algoritmus) geört zu den wictigsten Scätzalgoritmen der Signalverarbeitung. Er ist ein iteratives Verfaren und wird zur Maximum-Likeliood-Scätzung aus unvollständigen Daten verwendet [69]. Die Konvergenz des EM-Algoritmus wird unter anderem in [28] gezeigt. 4.5.2 Maximum-Likeliood-Scätzung mit unvollständigen Daten Der EM-Algoritmus ermöglict eine Parameter- oder Signalscätzung auf der Basis unvollständiger Daten. Unvollständig bedeutet in diesem Zusammenang, dass nict alle zur Scätzung notwendigen Informationen vorliegen. Der EM-Algoritmus versuct, diese felenden Informationen aus den vorandenen Daten und vorandenen Scätzwerten für die gesucten Parameter zu gewinnen. Anscließend wird auf der Grundlage der beobacteten Daten und den Scätzwerten für die felenden Informationen eine Maximierung der Likeliood-Funktion bezüglic der gesucten Parameter durcgefürt. Dies fürt zu verbesserten Scätzwerten für die gesucten Parameter. Da im Allgemeinen die Scätzung für die gesucten Parameter zu diesem Zeitpunkt noc nict ausreicend gut ist, wird diese Prozedur merfac wiederolt, wobei die verbesserten Parameterscätzwerte jeweils im näcsten Durclauf zur Scätzung der felenden Information genutzt werden. Diese Vorgeensweise fürt zu der in Abbildung 4.5 dargestellten Iteration. Der E-Scritt Die Scätzung der felenden Informationen erfolgt indirekt, indem der Erwartungswert der Log-Likeliood-Funktion 20 bezüglic der Verteilungsdicte der felenden Daten berecnet wird. Dieser Scritt wird desalb als E-Scritt 21 bezeicnet. Dies wird im Folgenden vertieft. 20 Die Log-Likeliood-Funktion ängt sowol von den beobacteten Daten als auc von den felenden Informationen ab. 21 Expectation (Erwartungswertbildung)

78 4 Bayes-Scätzung Abb. 4.5. Ablaufscema des EM-Algoritmus Die unvollständigen 22 Daten werden mit y bezeicnet, die felenden Informationen bzw. felenden Daten mit. Unvollständige und felende Daten vereinigen sic zu den vollständigen Daten z. Die Log-Likeliood-Funktion der vollständigen Daten ist gegeben mit log L = log f Z (z ) = log f Z (y, ). (4.66) Durc das Felen der Daten ist die Maximum-Likeliood-Scätzung meist ereblic erscwert. Desalb wird zunäcst eine Hilfsfunktion Q eingefürt, mit der der Erwartungswert der Log-Likeliood-Funktion der vollständigen Daten bezüglic der Verteilungsdicte der felenden Daten berecnet wird Q = E[log f Z (y, )]. (4.67) Die Verteilungsdicte der felenden Daten f H ( y, ˆ p ) wird ierbei unter Nutzung der bereits aus der Iteration p vorandenen Scätzwerte ˆ p der gesucten Parameter berecnet. Damit ergibt sic Q = [log f Z (y, )]f H ( y, ˆ p )d. (4.68) 22 d.. die beobacteten Daten

4.5 Der Expectation-Maximization-Algoritmus 79 Der M-Scritt Die Hilfsfunktion Q ist der Erwartungswert der Log-Likeliood-Funktion. Das eißt, sie ist die Log-Likeliood-Funktion, die man im Mittel für die versciedenen Werte der felenden Daten erwarten kann. Desalb ist es sinnvoll, mit ir die Maximum-Likeliood-Scätzung für die gesucten Parameter durczufüren ˆ neu = argmax Q. (4.69) Die neu berecnete ML-Scätzung der gesucten Parameter kann in der näcsten Iteration p + 1 zur Berecnung der Verteilungsdicte f H ( y, ˆ p+1 ) genutzt werden. 4.5.3 Die matematiscen Grundlagen des EM-Algoritmus Der EM-Algoritmus kann als Maximierung einer unteren Scranke der Likeliood-Funktion angeseen werden. Die untere Scranke wird so gewält, dass sie im Punkt der aktuellen Parameterscätzung die Likeliood-Funktion berürt. Die Maximierung dieser unteren Scranke fürt automatisc zu einem Punkt im Parameterraum, bei dem die Likeliood-Funktion einen Abb. 4.6. Maximierung der Likeliood-Funktion mit einer unteren Scranke (nac [67]) größeren Wert einnimmt 23. Dies veranscaulict Abbildung 4.6. Der EM- Algoritmus entsprict der iterativen Durcfürung dieses Zweiscritt-Verfarens aus Berecnung und anscließender Maximierung der unteren Scranke. Dies wird im Folgenden vertieft. Die Likeliood-Funktion f(y ) = k() ist die zu maximierende Kostenfunktion. Sie ist gleiczeitig die Randdicte von f Z (y, ) 23 vorausgesetzt, dass der Gradient an der aktuellen Stelle ungleic Null ist

80 4 Bayes-Scätzung k() = f(y ) = f Z (y, )d. (4.70) Nac der Erweiterung um die weiter unten definierte Verteilungsdicte q() kann die Jensen-Ungleicung 24 auf die Kostenfunktion angewendet werden [67] k() = mit f Z (y, ) q()d g(, q()) = q() ( ) q()d fz (y, ), (4.71) q() q()d = 1. (4.72) Mit g(, q()) ist man im Besitz einer unteren Scranke für die Kostenfunktion. Die Verteilungsdicte q() muss nun so bestimmt werden, dass die untere Scranke die Kostenfunktion im Punkt der aktuellen Parameterscätzung ˆ p berürt. Dazu wird die Funktion g(, q()) zunäcst logaritmiert G(, q) = log g(, q) = [q() log f Z (y, ) q() log q()]d. (4.73) Die Maximierung von G bezüglic q() erfolgt unter zusätzlicer Berücksictigung der Normierungsnebenbedingung für q() 25 G(, q) = λ(1 q()d) + [q() log f Z (y, ) q() log q()]d. (4.74) Die Ableitung nac q() für ein beliebiges, aber festes [67] 26 sowie an der Stelle ˆ p ergibt scließlic die Optimalitätsbedingung G q() = λ 1 + log f Z(y, ˆ p ) log q() = 0. (4.75) Durc Umstellen der letzten Gleicung erält man bzw. λ + 1 = log( f Z(y, ˆ p ) ) (4.76) q() 24 Jensen-Ungleicung: j g(j)aj j ga j (j) mit j aj = 1, aj 0 und g(j) 0 (Das aritmetisce Mittel ist nie kleiner als das geometrisce Mittel [67].) 25 Zur Optimierung mit Gleicungsnebenbedingungen (Lagrangesce Multiplikatormetode): siee Abscnitt 3.5. 26 Aufgrund beliebig, aber fest entfällt das Integral beim Differenzieren.

4.5 Der Expectation-Maximization-Algoritmus 81 exp(λ + 1)q() = f Z (y, ˆ p ). (4.77) Die Integration beider Seiten bezüglic fürt zu exp(λ + 1) = f Z (y, ˆ p )d. (4.78) Substituiert man in dieser letzten Gleicung exp(λ + 1) = f Z (y, ˆ p )/q(), erält man für q() q() = f Z(y, ˆ p ) f Z (y, ˆ p )d = f H( y, ˆ p ). (4.79) Für dieses q() ergibt sic für den Wert der unteren Scranke g(, q()) an der Stelle ˆ p g(ˆ p, q) = ( ) q()d f Z (y, ˆ p ) = ( ) q()d f Z (y, ˆ p ) q() f H ( y, ˆ (4.80) p ) = ( q()d f(y ˆ p )) (4.81) = [f(y ˆ p )] q()d = f(y ˆ p ). (4.82) Das Ergebnis 27 in Gleicung 4.82 bedeutet, dass die untere Scranke g(, q()) die Kostenfunktion f(y ) im Punkt ˆ p berürt. Um das Maximum der untere Scranke zu finden, muss in G(, q) lediglic der Term q() log f Z (y, )d = f H ( y, ˆ p ) log f Z (y, )d (4.83) bezüglic maximiert werden. Dies aber entsprict exakt dem EM-Algoritmus in den Gleicungen 4.68 und 4.69. 4.5.4 Der EM-Algoritmus am Beispiel von MOG-Modellen MOG-Modelle Kompliziert strukturierte Verteilungsdicten werden äufig mit einer Summe gewicteter Gaußverteilungsdicten, sogenannten MOG 28 -Modelle approximiert. Diese Modelle sind einfac andabbar und ermöglicen die statistisce Erfassung ser komplexer Prozesse. 27 Beim Scritt von Gleicung 4.81 zu Gleicung 4.82 wurde die Bezieung N ab i = a N b i genutzt. 28 MOG: Mixture of Gaussians (Miscung gaußscer Verteilungsdicten)

82 4 Bayes-Scätzung MOG-Modelle besitzen die Form f(y) = f(y m)p (m), (4.84) m=1 mit P (m) als Gewictungsfaktoren für die Gaußverteilungsdicten f(y m). Die Gewictungsfaktoren P (m) erfüllen die Randbedingung P (m) = 1, 0 P (m) 1. (4.85) m=1 Sie können als Warsceinlickeiten interpretiert werden, mit der ein Signalsample y i von der Komponente m des MOG-Modells generiert wurde. Die Verteilungsdicten f(y m) sind im Allgemeinen multivariat und besitzen als Parameter jeweils den Mittelwertvektor µ m und die Kovarianzmatrix R m. Die Gaußverteilungsdicten bzw. Komponenten des MOG-Modells sind somit ( 1 f(y m) = exp 1 ) (2π) d/2 R m 1/2 2 (y µ m) T R 1 m (y µ m ), (4.86) wobei d die Dimension von y angibt. In der Nomenklatur des EM-Algoritmus repräsentieren die jeweils zum Zeitpunkt i beobacteten Signalsamples y i die unvollständigen Daten, wärend die vollständigen Daten aus den Wertepaaren {y i, m i } besteen. Die Komponenten-Label m i können nict direkt beobactet werden. Der EM-Algoritmus für MOG-Modelle Die Log-Likeliood-Funktion der vollständigen Daten Die Verbundverteilungsdicte aller beobacteten Daten bei gegebenem Parametervektor und angenommener statistiscer Unabängigkeit zwiscen den Signalsamples ist N f(y ) = f(y i ). (4.87) Die Kombination der Gleicungen 4.84 und 4.87 sowie die anscließende Logaritmierung ergeben die Log-Likeliood-Funktion der unvollständigen Daten { L u = log f(y ) M } = log f(y i ) = log f(y i m, m )P (m). m=1 (4.88)

4.5 Der Expectation-Maximization-Algoritmus 83 Mit dem EM-Algoritmus sollen nun die Parameter der einzelnen Normalverteilungen m = {µ m, R m } sowie die Warsceinlickeiten P (m) gescätzt werden. 29 Aufgrund der Summe inneralb des Logaritmus ist dieses Scätzproblem scwierig zu lösen. Wenn die felenden Daten, d.. das Komponenten-Label m für jeden Zeitpunkt i, bekannt wären, würde sic Gleicung 4.88 ereblic vereinfacen, da so die Summe inneralb des Logaritmus entfällt. Die Log- Likeliood-Funktion der dann vollständigen Daten wäre [11] L v = log [f(y i, m i )] = log [f(y i m i, )P (m i )]. (4.89) Der E-Scritt Im E-Scritt des EM-Algoritmus wird zunäcst die diskrete Warsceinlickeitsverteilung der felenden Daten f(m y, ˆ p ) für die aktuelle Iteration p des EM-Algoritmus gescätzt 30 f(m y, ˆ p ) = N f(m i y i, ˆ p ), (4.90) wobei die diskreten Warsceinlickeitsverteilungen f(m i y i, ˆ p ) unter Verwendung des Bayes scen Satzes sowie der Scätzwerte ˆP p (m i ) und ˆ p mit f(m i y i, ˆ p ) = f(y i m i, ˆ p ) ˆP p (m i ) f(y i ˆ p ) ermittelt werden. Der Erwartungswert folgt mit = f(y i m i, ˆ p ) ˆP p (m i ) M m=1 f m(y i m i, ˆ p ) ˆP p (m i ). (4.91) Q = L v f(m y, ˆ p ) (4.92) m = [ N ] [ N ] log f(y i m i, )P (m i ) f(m k y k, ˆ p ) (4.93) m k=1 = m 1=1 m 2=1 m N =1 [ N ] log [f(y i m i, )P (m i )] f(m k y k, ˆ p ). (4.94) 29 Aus Übersictlickeitsgründen wird der Index von m im Folgenden nict weiter mitgescrieben. symbolisiert den im jeweiligen Kontext zu bestimmenden Parametervektor. 30 Zu beacten ist, dass f(m y, ˆ p) eine multivariate diskrete Warsceinlickeitsverteilung der vektoriellen Zufallsvariable m = [m 1, m 2,..., m N ] ist. Dies muss unter anderem bei der Bildung des Erwartungswertes berücksictigt werden, in dem über jedes einzelne Element von m summiert wird. k=1

84 4 Bayes-Scätzung Die Struktur dieses Ausdrucks soll anand eines Beispiels veranscaulict werden. Beispiel 4.3. Gleicung 4.94 wird für den Fall N = 3 untersuct. Die diskrete Warsceinlickeitsverteilung der felenden Daten ist f(m y, ˆ p ) = f(m 1 y 1, ˆ p ) f(m 2 y 2, ˆ p ) f(m 3 y 3, ˆ p ). (4.95) Als Log-Likeliood-Funktion der vollständigen Daten bekommt man L v = log [f(y 1 m 1, )P (m 1 )] + log [f(y 2 m 2, )P (m 2 )] + log [f(y 3 m 3, )P (m 3 )]. (4.96) Zur Berecnung des Erwartungswertes Q werden nun f(m y, ˆ p ) und L v in Gleicung 4.92 eingesetzt Q = = m 1=1 m 2=1 m 3=1 m 1=1 m 2=1 m 3=1 + + m 1=1 m 2=1 m 3=1 m 1=1 m 2=1 m 3=1 L v f(m y, ˆ p ) (4.97) log [f(y 1 m 1, )P (m 1 )] f(m y, ˆ p ) log [f(y 2 m 2, )P (m 2 )] f(m y, ˆ p ) (4.98) log [f(y 3 m 3, )P (m 3 )] f(m y, ˆ p ). Bei genauer Betractung der drei Terme in Gleicung 4.98 können Vereinfacungen vorgenommen werden. Dies soll zunäcst am Beispiel des ersten Terms gezeigt werden. Es gilt = m 1=1 m 2=1 m 3=1 m 1=1 m 2=1 m 3=1 log [f(y 1 m 1, )P (m 1 )] f(m y, ˆ p ) log [f(y 1 m 1, )P (m 1 )] f(m 1 y 1, ˆ p )f(m 2 y 2, ˆ p ) f(m 3 y 3, ˆ p ) (4.99) = log [f(y 1 m 1, )P (m 1 )] f(m 1 y 1, ˆ p ) m 1=1 m 2=1 f(m 2 y 2, ˆ p ) f(m 3 y 3, ˆ p ). (4.100) m 3=1

Da jedoc auc m 2=1 4.5 Der Expectation-Maximization-Algoritmus 85 f(m 2 y 2, ˆ p ) = m 3=1 f(m 3 y 3, ˆ p ) = 1 (4.101) gilt, erält man für den ersten Term von Gleicung 4.98 log [f(y 1 m 1, )P (m 1 )] f(m y, ˆ p ) = m 1=1 m 2=1 m 3=1 m 1=1 log [f(y 1 m 1, )P (m 1 )] f(m 1 y 1, ˆ p ). (4.102) Überträgt man dieses Ergebnis auf die anderen Terme in Gleicung 4.98, ergibt sic für den Erwartungswert Q = log [f(y 1 m 1, )P (m 1 )] f(m 1 y 1, ˆ p ) m 1=1 + + m 2=1 m 3=1 log [f(y 2 m 2, )P (m 2 )] f(m 2 y 2, ˆ p ) log [f(y 3 m 3, )P (m 3 )] f(m 3 y 3, ˆ p ). (4.103) Durc die Umbenennung m = m i bekommt man scließlic 3 Q = log [f(y i m, )P (m)] f(m y i, ˆ p ). (4.104) m=1 Das Ergebnis aus Gleicung 4.104 kann auf einen beliebigen Wert N verallgemeinert werden und man erält für den E-Scritt Q = log(f(y i m, )P (m))f(m y i, ˆ p ) (4.105) = m=1 m=1 + log[f(y i m, )]f(m y i, ˆ p ) m=1 log[p (m)]f(m y i, ˆ p ). (4.106) Die Maximierung von Gleicung 4.106 kann nac P (m) und getrennt erfolgen, da beide unabängig voneinander in versciedenen Termen von Gleicung 4.106 existieren.

86 4 Bayes-Scätzung Der M-Scritt Zunäcst wird Gleicung 4.106 bezüglic P (m) maximiert. Dabei ist die Gleicungsnebenbedingung P (m) = 1 zu berücksictigen. Zusammen mit der Nebenbedingung erält man für die Ableitung bezüglic P (m) P (m) Daraus folgen und weiter [ M m=1 ( )] log[p (m)]f(m y i, ˆ! p ) + λ ( P (m)) 1 = 0. m=1 (4.107) 1 P (m) f(m y i, ˆ p ) + λ = 0 (4.108) λp (m) = f(m y i, ˆ p ). (4.109) Wird die letzte Gleicung über m summiert, ergibt sic wegen m P (m) = 1 für λ der Wert λ = N und somit 31 P (m) = 1 N f(m y i, ˆ p ) =! ˆP p+1 (m). (4.110) Bei der Maximierung des verbleibenden Terms von Gleicung 4.106 gilt zunäcst für die gaußscen Verteilungsdicten = m=1 m=1 log[f(y i m, )]f(m y i, ˆ p ) ( d 2 log(2π) 1 2 log R m 1 ) 2 (y i µ m ) T R 1 m (y i µ m ) f(m y i, ˆ p ). (4.111) Das Nullsetzen der Ableitung nac µ m fürt auf und R 1 m (y i µ m )f(m y i, ˆ p ) = 0 (4.112) N µ m = y if(m y i, ˆ p )! N f(m y i, ˆ = ˆµ m,p+1. (4.113) p ) 31 Die diskreten Warsceinlickeitsverteilungen f(m y i, ˆ p) ergeben sic aus Gleicung 4.91, wobei auc dort die Substitution m = m i vorgenommen werden muss.

4.5 Der Expectation-Maximization-Algoritmus 87 Die Bestimmung der Kovarianzmatrix R m erfolgt aus Gleicung 4.111 unter Nutzung von i yt i R 1 y i = tr(r 1 i y iy T i ) = = m=1 m=1 1 2 log[f(y i m, )]f(m y i, ˆ p ) m=1 m=1 1 2 [ d 2 log(2π) + 1 ] 2 log( R 1 m ) f(m y i, ˆ p ) (y i µ m ) T R 1 m (y i µ m )f(m y i, ˆ p ) (4.114) [ d 2 log(2π) + 1 2 log( R 1 m ) [ tr m=1 R 1 m ] f(m y i, ˆ p ) ] (y i µ m )(y i µ m ) T f(m y i, ˆ p ). (4.115) Die Ableitung von Gleicung 4.115 nac R 1 m der Bezieungen log det(a) A = A T und erfolgt unter Berücksictigung tr(ab) A = BT (4.116) sowie mit Hilfe der Symmetrie-Eigenscaft der Kovarianzmatrix R m = R T m. Damit bekommt man N f(m y i, ˆ p ) (y i µ m )(y i µ m ) T f(m y i, ˆ p ) = 0 (4.117) R m und scließlic N R m = f(m y i, ˆ p )(y i µ m )(y i µ m ) T N f(m y i, ˆ p )! = ˆR m,p+1. (4.118) Die Adaptionsgleicungen in jeder Iteration sind somit ˆP p+1 (m) = 1 N f(m y i, ˆ p ) (4.119) ˆµ m,p+1 = N y if(m y i, ˆ p ) N f(m y i, ˆ p ) (4.120) ˆR m,p+1 = N f(m y i, ˆ p )(y i µ m,p+1 )(y i µ m,p+1 ) T N f(m y. (4.121) i, ˆ p )

88 4 Bayes-Scätzung Beispiel 4.4. Ein Beispiel-Datensatz wurde mit folgenden Parametern generiert: P (1) = 0.7, µ 1 = 1, σ 2 1 = 0.1; P (2) = 0.3, µ 2 = 1, σ 2 2 = 0.5. Die Anzal der generierten Daten beträgt N = 10000. Die Iteration erfolgt mit den Gleicungen 4.119 bis 4.121. Die diskreten Warsceinlickeitsverteilungen f(m y i, ˆ p ) werden mit Gleicung 4.91 berecnet. Tabelle 4.1 und die folgenden Abbildungen zeigen den Verlauf der Iteration. Iteration P (1) µ 1 σ 2 1 P (2) µ 2 σ 2 2 Startwert 0.1 0.0 0.1 0.9 10.0 1.0 1 0.990996565-0.430898603 0.986740580 0.009003435 2.668559073 0.076061023 10 0.883977031-0.670766489 0.556306624 0.116022969 1.637170064 0.225741481 20 0.709794409-0.993638696 0.103459381 0.290205591 1.041628295 0.474012113 30 0.706746846-0.996091761 0.102033667 0.293253154 1.026389209 0.492333730 40 0.706686218-0.996138296 0.102007413 0.293313782 1.026083285 0.492708181 50 0.706684955-0.996139265 0.102006866 0.293315045 1.026076907 0.492715989 60 0.706684928-0.996139286 0.102006855 0.293315072 1.026076774 0.492716152 Tabelle 4.1. Konvergenz des Verfarens Abb. 4.7. Konvergenz der Komponentenwarsceinlickeiten (links), der Mittelwerte (mitte) und der Varianzen (rects) Abb. 4.8. Histogramm der beobacteten Daten (links) sowie die teoretisce und die berecnete Verteilungsdicte (beide sind naezu überlappend) der beobacteten Daten (rects). Die Konvergenz des Verfarens ist in diesem Falle unproblematisc. Dies liegt vor allem an der Gültigkeit des Modells, der geringen Parameterzal, der einfacen Struktur der zu approximierenden Verteilungsdicte sowie an der oen Anzal von Datensamples.

ttp://www.springer.com/978-3-540-23491-3