Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Mustererkennung Bayes-Klassifikator R. Neubecker, WS 2016 / 2017 Bayes-Klassifikator 2 Kontext Ziel: Optimaler Klassifikator ( = minimaler Klassifikationsfehler), basierend auf Wahrscheinlichkeitsverteilungen Merkmale und Klassen werden als Zufallsgrößen betrachtet, die statistisch beschrieben werden Voraussetzung: Wahrscheinlichkeitsverteilungen der Klassen sind bekannt Merkmale sind voneinander statistisch unabhängig: Die Auswirkung eines Merkmales auf die Klassifizierung ist unabhängig von den Ausprägungen anderer Merkmale Naiv Praxisbezug Besondere Bedeutung: Referenz zur Beurteilung der Qualität anderer Klassifikatoren Die Voraussetzungen sind in der Praxis oft verletzt, dennoch de facto oft gute Performance Wahrscheinlichkeitsverteilungen müssen ggf. erst anhand von Stichproben geschätzt werden 1

Übersicht 3 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes` Theorem Bayes` Theorem Bedingte Wahrscheinlichkeiten: wie ändert sich die Wahrscheinlichkeit durch das Eintreten von einzelnen Ereignissen? A B 4 Die Wahrscheinlichkeit, dass zwei Ereignisse A und B zusammen eintreten ist P A B = P A B P B = P B A P A P A, P B sind die a-priori Wahrscheinlichkeiten für jedes Ereignis für sich P A B ist die bedingte Wahrscheinlichkeit für A, wenn B bereits eingetreten, bzw. bekannt ist. Bayes sagt: P A B = P(B A) P(A) P(B) Das heißt, dass sich die Wahrscheinlichkeit für das Eintreten von A - unter der Bedingung, dass B schon eingetreten ist - durch die Wahrscheinlichkeit beschreiben lässt, dass B unter der Bedingung von A eingetreten ist. 2

Bayes` Theorem: Bedeutung für Klassifikation 5 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für Bayes` Theorem: Bedeutung für Klassifikation 6 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen 3

Bayes` Theorem: Bedeutung für Klassifikation 7 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen ich muss beide Klassen als gleich wahrscheinlich annehmen Birne c) Ich kenne beides Entscheidung für Bayes` Theorem: Bedeutung für Klassifikation 8 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen ich muss beide Klassen als gleich wahrscheinlich annehmen Birne c) Ich kenne beides Entscheidung für Apfel! Das Merkmal x spricht zwar (knapp) für die Birne (wenn ich jede Klasse einzeln betrachte), aber Äpfel kommen viel häufiger vor. 4

Bayes` Theorem: Bedeutung für Klassifikation 9 Intuitives Beispiel a) Ohne Wissen über konkretes Merkmal x Apfel (weil P ω j = P Apfel = 90%) b) Mit Merkmal x und Wissen über Wahrscheinlichkeit innerhalb Klassen p(x ω j ), aber ohne Wissen über Klassenhäufigkeit P(ω j ) Birne c) Alles bekannt: x, p x ω j und P(ω j ) Apfel b) Ungewichtet, p i =1 p x Apfel < p x Birne c) Gewichtet, p i = P(ω i ) Bayes` Theorem: Bedeutung für Klassifikation 10 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen ich muss beide Klassen als gleich wahrscheinlich annehmen Birne c) Ich kenne beides Entscheidung für Apfel! Das Merkmal x spricht zwar (knapp) für die Birne (wenn ich jede Klasse einzeln betrachte), aber Äpfel kommen viel häufiger vor. Zugrunde liegende Entscheidungskriterien: a) Größte a-priori -Wahrscheinlichkeit b) Klassengrenze = Schnittpunkt der ungewichteten Verteilungsfunktionen p(x ω i ) c) Klassengrenze = Schnittpkt. der gewichteten Verteilungsfkt. p x ω i P(ω i ) 5

Übersicht 11 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes-Klassifikator: Mathematische Formulierung 12 Anwendung des Bayes Theorem auf Klassifikationen "Ereignisse" = Klassen & Merkmale Verwendete Wahrscheinlichkeiten P(ω i ): Wahrscheinlichkeit für das Auftreten der Klasse ω i, (a-priori Wahrsch.) p( x): Wahrscheinlichkeit für das Auftreten der Merkmalvektors x, wenn unbekannt ist, zu welcher Klasse es gehört p( x ω i ): Wahrscheinlichkeit für das Auftreten des Merkmalvektors x, wenn er zur Klasse ω i gehört (sog. klassenbedingte Wahrscheinlichkeit) P(ω i x): Wahrscheinlichkeit, dass ein gegebener Merkmalsvektor x zur Klasse ω i gehört ( a- posteriori Wahrscheinlichkeit) hier gesucht Dabei gilt Hier liegen kontinuierliche Merkmale vor p( x) und p( x ω i ) sind Wahrscheinlichkeitsdichten mit p x dx = 1 und p x ω i dx = 1 Wahrscheinlichkeitsdichte für den Merkmalsvektor = gewichtete Summe über die Verteilungen in den einzelnen Klassen p x = j p( x ω j ) P(ω j ) 6

Bayes-Klassifikator: Mathematische Formulierung 13 Bayes sche Entscheidungsregel Das Objekt mit dem Merkmalen x wird der Klasse ω i zugeordnet, für die es die größere a-posteriori Wahrscheinlichkeit hat: x ω i wenn P ω i x > P ω j x i j Wenn ich weiß, wie häufig jede Klasse ω i vorkommt und wie sich die Merkmale x innerhalb jeder Klasse verteilen, kann ich darauf schließen, wie wahrscheinlich es ist, dass ein bestimmter Merkmalsektor x zu einer Klasse gehört Bayes-Klassifikator: Mathematische Formulierung 14 Bayes sche Entscheidungsregel Das Objekt mit dem Merkmalen x wird der Klasse ω i zugeordnet, für die es die größere a-posteriori Wahrscheinlichkeit hat: x ω i wenn P ω i x > P ω j x i j Beispielsweise für 2 Klassen: x ω 1 ω 2 wenn P ω 1 x > P ω 2 x wenn P ω 1 x < P ω 2 x bzw. P ω 1 x P ω 2 x bzw. p( x ω 1 ) P(ω 1 ) p( x) p( x ω 2) P(ω 2 ) p( x) 7

Bayes-Klassifikator: Mathematische Formulierung 15 Zähler / Nenner Nenner p x = Wahrsch.verteilung der Merkmale, sorgt für Normierung auf 1 in p( x ω i ) P ω i x = p( x ω i) P(ω i ) p( x) Für einen festen Merkmalsvektor x ist der Nenner für jede Klasse gleich, d.h. für die Entscheidung reicht der Vergleich der Zähler P(ω i x) p x ω 1 P ω 1 p( x ω 2 ) P(ω 2 ) Bildquelle: Duda, Hart, Stork, Pattern Classification Bayes-Klassifikator: Optimale Klassifikation 16 Minimaler Klassifikationsfehler? Hier beispielhaft für 2 Klassen und ein Merkmal (x= skalar) Bei gegebenem Merkmal x wird die Klasse ω 1 gewählt, wenn die Wahrscheinlichkeit P ω 1 x) > P ω 2 x) ist. Dennoch verbleibt eine Wahrscheinlichkeit, dass x zu ω 2 gehört P ω 2 x) > 0 = Wahrscheinlichkeit für eine Fehlentscheidung ε(x). Für jeden möglichen Merkmalswert ist die Fehlerwahrscheinlichkeit hier jedoch die kleinst-mögliche: ε x = min P i = min P ω 1 x)), P ω 2 x)) Damit ist auch immer die mittlere Fehlerwahrscheinlichkeit (für alle Merkmalswerte) E ε = ε x p x dx min Anschaulich Fehler bei Bayes: A+B+D Fehler bei verschobener Entscheidungsgrenze: A+B+C+D 8

Übersicht 17 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes-Klassifikator: Varianten 18 Varianten der Entscheidungsregel Bei der Entscheidung wird nur nach dem größeren Wert geschaut. p x ω 1 P ω 1 p( x ω 2 ) P(ω 2 ) Addition einer Konstanten, Multiplikation mit einem (positiven) Faktor auf beiden Seiten ändert nichts a p x ω 1 P ω 1 + b a p x ω 2 P ω 2 + b Genauso jede monotone Funktion, auf beide Seiten angewandt ln p x ω 1 P ω 1 ln p x ω 2 P ω 2 Der natürliche Logarithmus ist nützlich bei Normalverteilungen 9

Bayes-Klassifikator: Varianten 19 Likelihood-Quotient Entscheidungsregel umstellen als Quotient der a-posteriori Wahrscheinlichkeiten Für 2 Klassen p x ω 1 P ω 1 p x ω 2 P ω 2 L x = p( x ω 1) p x ω 2 P ω 2 P(ω 1 ) = Likelihood-Quotient der Bayes-Entscheidungsregel, mit ihrem Schwellwert P(ω 2 ) P(ω 1 ) Bildquelle: Duda, Hart, Stork, Pattern Classification Bayes-Klassifikator: Verallgemeinerung Risiko 21 Risikoorientierter Bayes-Klassifikator Bisher reine Wahrscheinlichkeitsbetrachtung. Alle Fehlklassifikationen werden gleich gewichtet. Es kommt aber vor, dass Fehlentscheidungen unterschiedlich schwerwiegende Folgen haben (z.b. Kosten), also unterschiedlich riskant sind Risiko- bzw. Kostenfaktoren einführen. Jede Entscheidung für eine bestimmte Klasse verursacht Kosten λ ij 0. Fehlentscheidungen (Entscheidung für ω i / wahre Klasse ω j ) können mit hohen Werten von λ ij, i j belegt werden. Bei einer Entscheidung für die Klasse ω i treten also in Summe das Risiko / die Kosten r i ( x) = k λ ik P ω k x auf Ziel: Minimierung des Gesamtrisikos (der Gesamtkosten) 10

Bayes-Klassifikator: Verallgemeinerung Risiko 22 Risikobasierte Regel Neue Vorgabe: Minimierung der Gesamtkosten (des Gesamtrisikos) Entsprechend neue Forderung für Entscheidungsregel: Das Ereignis mit dem Merkmalen x soll der Klasse ω i zugeordnet werden, für die das kleinste Risiko auftritt vorliegt:! x ω i wenn r i x < r j x i j Z.B.: 2-Klassenfall und Darstellung über Likelihood-Quotient p x ω 1 p x ω 2 λ 12 λ 22 P ω 2 λ 21 λ 11 P ω 1 Einführung von Risikofaktoren verschiebt den Entscheidungs-Schwellwert Bayes-Klassifikator: Verallgemeinerung Rückweisung 25 Bayes-Klassifikator mit Rückweisung Darstellung als Likelihood-Quotient: Entscheidung hängt von Schwellwert ab L x = p x ω 1 p x ω 2 λ 12 λ 22 P ω 2 λ 21 λ 11 P ω 1 = θ Wenn L x knapp an der Schwelle θ liegt Entscheidung unsicher Mögliche Zusatzforderung: nur sichere Entscheidungen treffen ω 1 : L x < θ θ oder ω 2 : L x > θ + θ, ansonsten: zurückweisen (reject option). 11

Übersicht 26 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes-Klassifikator bei Normalverteilungen 27 Bayes-Klassifikation & Normalverteilungen 12

Reminder: Normalverteilungen 28 Einschub: Normalverteilung Gaußsche Glockenkurve, sehr weit verbreitet, auch aus theoretischen Erwägungen bedeutsam (Zentraler Grenzwertsatz: Summe einer großen Anzahl von Zufallsvariablen ist annähernd normalverteilt). Univariate Normalverteilung N μ, σ 2 = 1 2π σ exp [ 1 x μ 2 ] 2 σ ist vollständig definiert durch Mittelwert μ = E(x) und Varianz σ 2 = E x μ 2 Reminder: Normalverteilungen 29 Multivariate Normalverteilung Normalverteilung im N-dimensionalen Raum 1 N μ, K = 2π N K exp [ 1 2 x μ t K 1 x μ ] Mittelwert μ = N-dimensionaler Vektor μ = E( x) Kovarianzmatrix K = NxN Matrix der (Ko-) Varianzen K = mit σ ij 2 = E x i μ i x j μ j Eigenschaften der Kovarianzmatrix 2 σ 11 2 σ 12 2 σ 21 2 σ 22 K ist symmetrisch, d.h. σ ij 2 = σ ji 2 Diagonalelement σ ii 2 ist die Varianz des i-ten Merkmals σ ij 2, i j ist die Kovarianz zwischen i-ten und j-tem Merkmal ( Korrelation) Wenn die Zufallsvariablen / Merkmale x i und x j statistisch unabhängig sind: Kovarianzen verschwinden σ ij 2 = 0 für i j N μ, K = Produkt der n 1D Normalverteilungen Notation: K = Determinante, K 1 = Inverse 13

Reminder: Normalverteilungen 30 Eigenschaften der (multivariaten) Normalverteilung Der größte Wert von N liegt bei x = μ (Zentrum, Schwerpunkt) Die Form der Verteilung wird von der Kovarianzmatrix K bestimmt: Punkte mit gleichem Wert N μ, K = const formen (Hyper-) Ellipsoide, die Hauptachsen der Ellipsoide liegen parallel zu den Eigenvektoren von K, Länge der Halbachsen = zugehörigen Eigenwerte von K. K = σ 0 0 σ K = σ 1 0 0 σ 2 K = σ 11 σ 12 σ 21 σ 22 Bayes-Klassifikator bei Normalverteilungen 31 Bayes-Klassifikation & Normalverteilungen Annahme Für jede Klasse werden die Merkmale werden durch eine (multivariate) Normalverteilung beschrieben. Mittelwerte und Kovarianzmatrix sind bekannt p x ω i = N i μ i, K i Als Diskriminanzfunktion sinnvollerweise g i = ln p x ω i P ω i 14

Bayes-Klassifikator bei Normalverteilungen 32 Bayes-Klassifikation & Normalverteilungen Annahme Für jede Klasse werden die Merkmale werden durch eine (multivariate) Normalverteilung beschrieben. Mittelwerte und Kovarianzmatrix sind bekannt p x ω i = N i μ i, K i Als Diskriminanzfunktion sinnvollerweise = ln g i = ln p x ω i P ω i = ln N i μ i, K i + ln[p ω i ] 1 2π N K i exp 1 2 x μ t i K 1 2 i x μ i + ln[p ω i ] = N 2 ln 2π ln K i 1 2 x μ i t K i 1 x μ i + ln[p ω i ] Diskriminanzfunktion ist quadratisch in x Klassengrenzen sind quadratische Funktionen (Hyperquadrics). D.h. die Trennflächen zwischen den Klassen müssen nie komplexer sein, höhere Potenzen (in x ) sind nicht notwendig. Bayes-Klassifikator bei Normalverteilungen 33 Bayes-Klassifikation bei Normalverteilungen: Spezialfall Annahmen Alle Kovarianzmatrizen der verschiedenen Klassen seien gleich K i = K j, für alle i, j Alle Varianzen sind gleich, die Kovarianzen verschwinden K = σ 2 1 K 1 = 1/σ 2 D.h. alle Klassen werden durch gleiche, hyperkugelige Wahrscheinlichkeitsverteilung beschrieben Diskriminanzfunktion g i = ln K i 1 2 x μ i t K i 1 x μ i + ln P ω i g i = x μ i 2 2σ 2 + ln P ω i dabei ist x μ i 2 das Abstandsquadrat zwischen dem betrachteten Merkmalspunkt und dem Mittelpunkt der Klasse ω i (Euklid sche Norm). 15

Bayes-Klassifikator bei Normalverteilungen 34 Bayes-Klassifikation bei Normalverteilungen: Spezialfall ff Wegen x μ i 2 = x μ i t x μ i = x t x 2 μ i t x + μ i t μ i und x t x unabh. von i g i = v i t x + v i0, mit v i = 1 σ 2 μ i und v i0 = 1 2σ 2 μ i t μ i + ln(p ω i ) Diskriminanzfunktion linear in x Klassengrenze g i = g j ist eine Hyperebene: w t x + w 0 = w t x x 0 = 0 mit w = μ i μ j und x 0 = 1 2 μ i + μ j σ 2 (μ i μ j ) μ i μ j 2 ln P ω i P ω j Hyperebene steht senkrecht auf der Verbindungslinie zwischen beiden Klassenzentren, Lage auf Verbindungslinie (x 0 ) hängt von a-priori-wahrscheinlichkeit ab. Zusatzannahme: alle Klassen sind gleich wahrscheinlich P ω i x 0 = 1 2 μ i + μ j = Mitte zwischen den beiden Klassenzentren = Minimum Distance Klassifikator = P ω j, für alle i, j Bayes-Klassifikator bei Normalverteilungen 35 Bayes-Klassifikation bei Normalverteilungen: Beispiele für Klassengrenzen Einfache Beispiel in 1, 2 und 3 Dimensionen. Dargestellt sind nur die klassenbedingten Wahrscheinlichkeiten der Merkmale p( x ω i ) Bildquelle: Duda, Hart, Stork, Pattern Classification 16

Bayes-Klassifikator bei Normalverteilungen 36 Bayes-Klassifikation bei Normalverteilungen: Beispiele für Klassengrenzen Trennfläche (Entscheidungsgrenze) verschiebt sich mit der a-priori Wahrscheinlichkeit P(ω i ) Bildquelle: Duda, Hart, Stork, Pattern Classification Bayes-Klassifikator bei Normalverteilungen 37 Bayes-Klassifikation bei Normalverteilungen: Beispiele für Klassengrenzen Beispiele für quadratische Funktionen (Hyperquadrics, Flächen 2.Ordnung) als Klassifikationsgrenzen im 3-dim. Merkmalsraum Bildquelle: Duda, Hart, Stork, Pattern Classification 17

Bayes-Klassifikator 38 Fazit Der theoretisch optimale Klassifikator lässt sich über bedingte Wahrscheinlichkeiten nach Bayes bestimmen Referenz für alle anderen Verfahren Entscheidung nach der größeren (a-posteriori) Wahrscheinlichkeit, dass ein beobachteter Merkmalsvektor x zu einer bestimmten Klasse ω i gehört: g 1 g 2 P ω 1 x P ω 2 x p x ω 1 P ω 1 p( x ω 2 ) P(ω 2 ) Anwendung setzt voraus, dass Wahrscheinlichkeitsverteilungen der Merkmale (a-priori) bekannt sind oder diese werden empirisch geschätzt (mit entsprechender Unsicherheit) Merkmale müssen voneinander (statistisch) unabhängig sein Einfachste Rechnung mit Normalverteilungen Trennflächen sind (höchstens) quadratische Funktionen Erweiterung zur Einbeziehung des Entscheidungsrisikos ist einfach möglich 18