Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Ähnliche Dokumente
Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Wichtige Definitionen und Aussagen

7. Grenzwertsätze. Dr. Antje Kiesel Institut für Angewandte Mathematik WS 2011/2012

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Wahrscheinlichkeitsrechnung und Statistik

Die n-dimensionale Normalverteilung

Wahrscheinlichkeitstheorie 2

Signalverarbeitung 2. Volker Stahl - 1 -

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Wahrscheinlichkeitsverteilungen

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

Kapitel 5. Bayes Klassifikator

Klassifikation von Daten Einleitung

Übungsscheinklausur,

Fit for Abi & Study Stochastik

Chi-Quadrat-Verteilung

1 Multivariate Zufallsvariablen

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

6.6 Poisson-Verteilung

Prof. Dr. Fred Böker

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Statistik - Fehlerrechnung - Auswertung von Messungen

Statistische Methoden in den Umweltwissenschaften

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Wahrscheinlichkeit und Statistik: Zusammenfassung

1 Diskriminanzanalyse

Korrelationsmatrix. Statistische Bindungen zwischen den N Zufallsgrößen werden durch die Korrelationsmatrix vollständig beschrieben:

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Statistik und Wahrscheinlichkeitsrechnung

SBP Mathe Aufbaukurs 1 # 0 by Clifford Wolf. SBP Mathe Aufbaukurs 1

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

Numerische Methoden und Algorithmen in der Physik

Mathematische Statistik Aufgaben zum Üben. Schätzer

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

SozialwissenschaftlerInnen II

Wahrscheinlichkeiten. Verteilungen

Heute. Die Binomialverteilung. Poissonverteilung. Approximation der Binomialverteilung durch die Normalverteilung

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Mathematik für Naturwissenschaften, Teil 2

Zufallsvariablen [random variable]

Multivariate Verteilungen

Die Varianz (Streuung) Definition

4. Verteilungen von Funktionen von Zufallsvariablen

Übungsblätter zu Methoden der Empirischen Sozialforschung III: Inferenzstatistik. Lösungsblatt zu Nr. 2

7.5 Erwartungswert, Varianz

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Punktschätzer Optimalitätskonzepte

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

Der Erwartungswert E[g(X)] von g(x) ist definiert. g(x k )w(x = x k ),

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Unabhängige Zufallsvariablen

DWT 2.1 Maximum-Likelihood-Prinzip zur Konstruktion von Schätzvariablen 330/467 Ernst W. Mayr

Verteilungen mehrerer Variablen

2 Zufallsvariable und Verteilungsfunktionen

Klassifikation von Signifikanztests

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Forschungsstatistik I

Zuverlässigkeitstheorie

Übungen mit dem Applet Zentraler Grenzwertsatz

Aufgabe Punkte

Biostatistik, Sommer 2017

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

1 Erwartungswert und Kovarianzmatrix von Zufallsvektoren

Statistik, Datenanalyse und Simulation

Statistics, Data Analysis, and Simulation SS 2017

Prüfungsvorbereitungskurs Höhere Mathematik 3

Prüfungsvorbereitungskurs Höhere Mathematik 3

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik

BZQ II: Stochastikpraktikum

Reelle Zufallsvariablen

Biomathematik für Mediziner, Klausur WS 1999/2000 Seite 1

Statistik. Sommersemester Prof. Dr. Stefan Etschberger HSA. für Betriebswirtschaft und International Management

Einführung in die Maximum Likelihood Methodik

Mehrdimensionale Verteilungen und Korrelation

2.1 Gemeinsame-, Rand- und bedingte Verteilungen

Einführung in die Wahrscheinlichkeitstheorie Lösungsvorschläge zu Übungsblatt 4

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s

k-nächste-nachbarn-schätzung

Satz von Borel-Cantelli. Limes inferior von Mengen. Limes superior von Mengen. Stetigkeit. Konvergenz von Zufallsvariablen. Kolmogorow-Ungleichung

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation

Woche 2: Zufallsvariablen

2.Tutorium Multivariate Verfahren

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Schätzung von Parametern

1. Einführung in die induktive Statistik

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Übungsblatt 11 zur Vorlesung Statistische Methoden - freiwilliger Teil

Rechnernutzung in der Physik

Statistik II für Wirtschaftswissenschaftler

Kapitel VII. Einige spezielle stetige Verteilungen

Einführung und Grundlagen

2. Ein Zufallsvektor X IR d ist multivariat normal verteilt dann und nur dann wenn seine charakteristische Funktion folgendermaßen gegeben ist:

Forschungsstatistik I

Transkript:

Mustererkennung Bayes-Klassifikator R. Neubecker, WS 2016 / 2017 Bayes-Klassifikator 2 Kontext Ziel: Optimaler Klassifikator ( = minimaler Klassifikationsfehler), basierend auf Wahrscheinlichkeitsverteilungen Merkmale und Klassen werden als Zufallsgrößen betrachtet, die statistisch beschrieben werden Voraussetzung: Wahrscheinlichkeitsverteilungen der Klassen sind bekannt Merkmale sind voneinander statistisch unabhängig: Die Auswirkung eines Merkmales auf die Klassifizierung ist unabhängig von den Ausprägungen anderer Merkmale Naiv Praxisbezug Besondere Bedeutung: Referenz zur Beurteilung der Qualität anderer Klassifikatoren Die Voraussetzungen sind in der Praxis oft verletzt, dennoch de facto oft gute Performance Wahrscheinlichkeitsverteilungen müssen ggf. erst anhand von Stichproben geschätzt werden 1

Übersicht 3 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes` Theorem Bayes` Theorem Bedingte Wahrscheinlichkeiten: wie ändert sich die Wahrscheinlichkeit durch das Eintreten von einzelnen Ereignissen? A B 4 Die Wahrscheinlichkeit, dass zwei Ereignisse A und B zusammen eintreten ist P A B = P A B P B = P B A P A P A, P B sind die a-priori Wahrscheinlichkeiten für jedes Ereignis für sich P A B ist die bedingte Wahrscheinlichkeit für A, wenn B bereits eingetreten, bzw. bekannt ist. Bayes sagt: P A B = P(B A) P(A) P(B) Das heißt, dass sich die Wahrscheinlichkeit für das Eintreten von A - unter der Bedingung, dass B schon eingetreten ist - durch die Wahrscheinlichkeit beschreiben lässt, dass B unter der Bedingung von A eingetreten ist. 2

Bayes` Theorem: Bedeutung für Klassifikation 5 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für Bayes` Theorem: Bedeutung für Klassifikation 6 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen 3

Bayes` Theorem: Bedeutung für Klassifikation 7 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen ich muss beide Klassen als gleich wahrscheinlich annehmen Birne c) Ich kenne beides Entscheidung für Bayes` Theorem: Bedeutung für Klassifikation 8 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen ich muss beide Klassen als gleich wahrscheinlich annehmen Birne c) Ich kenne beides Entscheidung für Apfel! Das Merkmal x spricht zwar (knapp) für die Birne (wenn ich jede Klasse einzeln betrachte), aber Äpfel kommen viel häufiger vor. 4

Bayes` Theorem: Bedeutung für Klassifikation 9 Intuitives Beispiel a) Ohne Wissen über konkretes Merkmal x Apfel (weil P ω j = P Apfel = 90%) b) Mit Merkmal x und Wissen über Wahrscheinlichkeit innerhalb Klassen p(x ω j ), aber ohne Wissen über Klassenhäufigkeit P(ω j ) Birne c) Alles bekannt: x, p x ω j und P(ω j ) Apfel b) Ungewichtet, p i =1 p x Apfel < p x Birne c) Gewichtet, p i = P(ω i ) Bayes` Theorem: Bedeutung für Klassifikation 10 Intuitives Beispiel Die Ernte besteht zu 90% aus Äpfeln. Auf einer Merkmalsskala x (bspw. Rundheit ) liegen Äpfel bei 0.8 ± 0.1, Birnen bei 0.3 ± 0.2 (Intuitive) Klassifikation einer Frucht: a) Blind: Ich kenne das Merkmal nicht Entscheidung für die wahrscheinlichste Klasse = Apfel b) Ich kenne das Merkmal: x = 0.6, aber nicht die Häufigkeit der Klassen ich muss beide Klassen als gleich wahrscheinlich annehmen Birne c) Ich kenne beides Entscheidung für Apfel! Das Merkmal x spricht zwar (knapp) für die Birne (wenn ich jede Klasse einzeln betrachte), aber Äpfel kommen viel häufiger vor. Zugrunde liegende Entscheidungskriterien: a) Größte a-priori -Wahrscheinlichkeit b) Klassengrenze = Schnittpunkt der ungewichteten Verteilungsfunktionen p(x ω i ) c) Klassengrenze = Schnittpkt. der gewichteten Verteilungsfkt. p x ω i P(ω i ) 5

Übersicht 11 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes-Klassifikator: Mathematische Formulierung 12 Anwendung des Bayes Theorem auf Klassifikationen "Ereignisse" = Klassen & Merkmale Verwendete Wahrscheinlichkeiten P(ω i ): Wahrscheinlichkeit für das Auftreten der Klasse ω i, (a-priori Wahrsch.) p( x): Wahrscheinlichkeit für das Auftreten der Merkmalvektors x, wenn unbekannt ist, zu welcher Klasse es gehört p( x ω i ): Wahrscheinlichkeit für das Auftreten des Merkmalvektors x, wenn er zur Klasse ω i gehört (sog. klassenbedingte Wahrscheinlichkeit) P(ω i x): Wahrscheinlichkeit, dass ein gegebener Merkmalsvektor x zur Klasse ω i gehört ( a- posteriori Wahrscheinlichkeit) hier gesucht Dabei gilt Hier liegen kontinuierliche Merkmale vor p( x) und p( x ω i ) sind Wahrscheinlichkeitsdichten mit p x dx = 1 und p x ω i dx = 1 Wahrscheinlichkeitsdichte für den Merkmalsvektor = gewichtete Summe über die Verteilungen in den einzelnen Klassen p x = j p( x ω j ) P(ω j ) 6

Bayes-Klassifikator: Mathematische Formulierung 13 Bayes sche Entscheidungsregel Das Objekt mit dem Merkmalen x wird der Klasse ω i zugeordnet, für die es die größere a-posteriori Wahrscheinlichkeit hat: x ω i wenn P ω i x > P ω j x i j Wenn ich weiß, wie häufig jede Klasse ω i vorkommt und wie sich die Merkmale x innerhalb jeder Klasse verteilen, kann ich darauf schließen, wie wahrscheinlich es ist, dass ein bestimmter Merkmalsektor x zu einer Klasse gehört Bayes-Klassifikator: Mathematische Formulierung 14 Bayes sche Entscheidungsregel Das Objekt mit dem Merkmalen x wird der Klasse ω i zugeordnet, für die es die größere a-posteriori Wahrscheinlichkeit hat: x ω i wenn P ω i x > P ω j x i j Beispielsweise für 2 Klassen: x ω 1 ω 2 wenn P ω 1 x > P ω 2 x wenn P ω 1 x < P ω 2 x bzw. P ω 1 x P ω 2 x bzw. p( x ω 1 ) P(ω 1 ) p( x) p( x ω 2) P(ω 2 ) p( x) 7

Bayes-Klassifikator: Mathematische Formulierung 15 Zähler / Nenner Nenner p x = Wahrsch.verteilung der Merkmale, sorgt für Normierung auf 1 in p( x ω i ) P ω i x = p( x ω i) P(ω i ) p( x) Für einen festen Merkmalsvektor x ist der Nenner für jede Klasse gleich, d.h. für die Entscheidung reicht der Vergleich der Zähler P(ω i x) p x ω 1 P ω 1 p( x ω 2 ) P(ω 2 ) Bildquelle: Duda, Hart, Stork, Pattern Classification Bayes-Klassifikator: Optimale Klassifikation 16 Minimaler Klassifikationsfehler? Hier beispielhaft für 2 Klassen und ein Merkmal (x= skalar) Bei gegebenem Merkmal x wird die Klasse ω 1 gewählt, wenn die Wahrscheinlichkeit P ω 1 x) > P ω 2 x) ist. Dennoch verbleibt eine Wahrscheinlichkeit, dass x zu ω 2 gehört P ω 2 x) > 0 = Wahrscheinlichkeit für eine Fehlentscheidung ε(x). Für jeden möglichen Merkmalswert ist die Fehlerwahrscheinlichkeit hier jedoch die kleinst-mögliche: ε x = min P i = min P ω 1 x)), P ω 2 x)) Damit ist auch immer die mittlere Fehlerwahrscheinlichkeit (für alle Merkmalswerte) E ε = ε x p x dx min Anschaulich Fehler bei Bayes: A+B+D Fehler bei verschobener Entscheidungsgrenze: A+B+C+D 8

Übersicht 17 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes-Klassifikator: Varianten 18 Varianten der Entscheidungsregel Bei der Entscheidung wird nur nach dem größeren Wert geschaut. p x ω 1 P ω 1 p( x ω 2 ) P(ω 2 ) Addition einer Konstanten, Multiplikation mit einem (positiven) Faktor auf beiden Seiten ändert nichts a p x ω 1 P ω 1 + b a p x ω 2 P ω 2 + b Genauso jede monotone Funktion, auf beide Seiten angewandt ln p x ω 1 P ω 1 ln p x ω 2 P ω 2 Der natürliche Logarithmus ist nützlich bei Normalverteilungen 9

Bayes-Klassifikator: Varianten 19 Likelihood-Quotient Entscheidungsregel umstellen als Quotient der a-posteriori Wahrscheinlichkeiten Für 2 Klassen p x ω 1 P ω 1 p x ω 2 P ω 2 L x = p( x ω 1) p x ω 2 P ω 2 P(ω 1 ) = Likelihood-Quotient der Bayes-Entscheidungsregel, mit ihrem Schwellwert P(ω 2 ) P(ω 1 ) Bildquelle: Duda, Hart, Stork, Pattern Classification Bayes-Klassifikator: Verallgemeinerung Risiko 21 Risikoorientierter Bayes-Klassifikator Bisher reine Wahrscheinlichkeitsbetrachtung. Alle Fehlklassifikationen werden gleich gewichtet. Es kommt aber vor, dass Fehlentscheidungen unterschiedlich schwerwiegende Folgen haben (z.b. Kosten), also unterschiedlich riskant sind Risiko- bzw. Kostenfaktoren einführen. Jede Entscheidung für eine bestimmte Klasse verursacht Kosten λ ij 0. Fehlentscheidungen (Entscheidung für ω i / wahre Klasse ω j ) können mit hohen Werten von λ ij, i j belegt werden. Bei einer Entscheidung für die Klasse ω i treten also in Summe das Risiko / die Kosten r i ( x) = k λ ik P ω k x auf Ziel: Minimierung des Gesamtrisikos (der Gesamtkosten) 10

Bayes-Klassifikator: Verallgemeinerung Risiko 22 Risikobasierte Regel Neue Vorgabe: Minimierung der Gesamtkosten (des Gesamtrisikos) Entsprechend neue Forderung für Entscheidungsregel: Das Ereignis mit dem Merkmalen x soll der Klasse ω i zugeordnet werden, für die das kleinste Risiko auftritt vorliegt:! x ω i wenn r i x < r j x i j Z.B.: 2-Klassenfall und Darstellung über Likelihood-Quotient p x ω 1 p x ω 2 λ 12 λ 22 P ω 2 λ 21 λ 11 P ω 1 Einführung von Risikofaktoren verschiebt den Entscheidungs-Schwellwert Bayes-Klassifikator: Verallgemeinerung Rückweisung 25 Bayes-Klassifikator mit Rückweisung Darstellung als Likelihood-Quotient: Entscheidung hängt von Schwellwert ab L x = p x ω 1 p x ω 2 λ 12 λ 22 P ω 2 λ 21 λ 11 P ω 1 = θ Wenn L x knapp an der Schwelle θ liegt Entscheidung unsicher Mögliche Zusatzforderung: nur sichere Entscheidungen treffen ω 1 : L x < θ θ oder ω 2 : L x > θ + θ, ansonsten: zurückweisen (reject option). 11

Übersicht 26 Bedingte Wahrscheinlichkeiten: Bayes' Theorem Der Bayes-Klassifikator Varianten und Verallgemeinerungen Bayes-Klassifikation bei Normalverteilungen Bayes-Klassifikator bei Normalverteilungen 27 Bayes-Klassifikation & Normalverteilungen 12

Reminder: Normalverteilungen 28 Einschub: Normalverteilung Gaußsche Glockenkurve, sehr weit verbreitet, auch aus theoretischen Erwägungen bedeutsam (Zentraler Grenzwertsatz: Summe einer großen Anzahl von Zufallsvariablen ist annähernd normalverteilt). Univariate Normalverteilung N μ, σ 2 = 1 2π σ exp [ 1 x μ 2 ] 2 σ ist vollständig definiert durch Mittelwert μ = E(x) und Varianz σ 2 = E x μ 2 Reminder: Normalverteilungen 29 Multivariate Normalverteilung Normalverteilung im N-dimensionalen Raum 1 N μ, K = 2π N K exp [ 1 2 x μ t K 1 x μ ] Mittelwert μ = N-dimensionaler Vektor μ = E( x) Kovarianzmatrix K = NxN Matrix der (Ko-) Varianzen K = mit σ ij 2 = E x i μ i x j μ j Eigenschaften der Kovarianzmatrix 2 σ 11 2 σ 12 2 σ 21 2 σ 22 K ist symmetrisch, d.h. σ ij 2 = σ ji 2 Diagonalelement σ ii 2 ist die Varianz des i-ten Merkmals σ ij 2, i j ist die Kovarianz zwischen i-ten und j-tem Merkmal ( Korrelation) Wenn die Zufallsvariablen / Merkmale x i und x j statistisch unabhängig sind: Kovarianzen verschwinden σ ij 2 = 0 für i j N μ, K = Produkt der n 1D Normalverteilungen Notation: K = Determinante, K 1 = Inverse 13

Reminder: Normalverteilungen 30 Eigenschaften der (multivariaten) Normalverteilung Der größte Wert von N liegt bei x = μ (Zentrum, Schwerpunkt) Die Form der Verteilung wird von der Kovarianzmatrix K bestimmt: Punkte mit gleichem Wert N μ, K = const formen (Hyper-) Ellipsoide, die Hauptachsen der Ellipsoide liegen parallel zu den Eigenvektoren von K, Länge der Halbachsen = zugehörigen Eigenwerte von K. K = σ 0 0 σ K = σ 1 0 0 σ 2 K = σ 11 σ 12 σ 21 σ 22 Bayes-Klassifikator bei Normalverteilungen 31 Bayes-Klassifikation & Normalverteilungen Annahme Für jede Klasse werden die Merkmale werden durch eine (multivariate) Normalverteilung beschrieben. Mittelwerte und Kovarianzmatrix sind bekannt p x ω i = N i μ i, K i Als Diskriminanzfunktion sinnvollerweise g i = ln p x ω i P ω i 14

Bayes-Klassifikator bei Normalverteilungen 32 Bayes-Klassifikation & Normalverteilungen Annahme Für jede Klasse werden die Merkmale werden durch eine (multivariate) Normalverteilung beschrieben. Mittelwerte und Kovarianzmatrix sind bekannt p x ω i = N i μ i, K i Als Diskriminanzfunktion sinnvollerweise = ln g i = ln p x ω i P ω i = ln N i μ i, K i + ln[p ω i ] 1 2π N K i exp 1 2 x μ t i K 1 2 i x μ i + ln[p ω i ] = N 2 ln 2π ln K i 1 2 x μ i t K i 1 x μ i + ln[p ω i ] Diskriminanzfunktion ist quadratisch in x Klassengrenzen sind quadratische Funktionen (Hyperquadrics). D.h. die Trennflächen zwischen den Klassen müssen nie komplexer sein, höhere Potenzen (in x ) sind nicht notwendig. Bayes-Klassifikator bei Normalverteilungen 33 Bayes-Klassifikation bei Normalverteilungen: Spezialfall Annahmen Alle Kovarianzmatrizen der verschiedenen Klassen seien gleich K i = K j, für alle i, j Alle Varianzen sind gleich, die Kovarianzen verschwinden K = σ 2 1 K 1 = 1/σ 2 D.h. alle Klassen werden durch gleiche, hyperkugelige Wahrscheinlichkeitsverteilung beschrieben Diskriminanzfunktion g i = ln K i 1 2 x μ i t K i 1 x μ i + ln P ω i g i = x μ i 2 2σ 2 + ln P ω i dabei ist x μ i 2 das Abstandsquadrat zwischen dem betrachteten Merkmalspunkt und dem Mittelpunkt der Klasse ω i (Euklid sche Norm). 15

Bayes-Klassifikator bei Normalverteilungen 34 Bayes-Klassifikation bei Normalverteilungen: Spezialfall ff Wegen x μ i 2 = x μ i t x μ i = x t x 2 μ i t x + μ i t μ i und x t x unabh. von i g i = v i t x + v i0, mit v i = 1 σ 2 μ i und v i0 = 1 2σ 2 μ i t μ i + ln(p ω i ) Diskriminanzfunktion linear in x Klassengrenze g i = g j ist eine Hyperebene: w t x + w 0 = w t x x 0 = 0 mit w = μ i μ j und x 0 = 1 2 μ i + μ j σ 2 (μ i μ j ) μ i μ j 2 ln P ω i P ω j Hyperebene steht senkrecht auf der Verbindungslinie zwischen beiden Klassenzentren, Lage auf Verbindungslinie (x 0 ) hängt von a-priori-wahrscheinlichkeit ab. Zusatzannahme: alle Klassen sind gleich wahrscheinlich P ω i x 0 = 1 2 μ i + μ j = Mitte zwischen den beiden Klassenzentren = Minimum Distance Klassifikator = P ω j, für alle i, j Bayes-Klassifikator bei Normalverteilungen 35 Bayes-Klassifikation bei Normalverteilungen: Beispiele für Klassengrenzen Einfache Beispiel in 1, 2 und 3 Dimensionen. Dargestellt sind nur die klassenbedingten Wahrscheinlichkeiten der Merkmale p( x ω i ) Bildquelle: Duda, Hart, Stork, Pattern Classification 16

Bayes-Klassifikator bei Normalverteilungen 36 Bayes-Klassifikation bei Normalverteilungen: Beispiele für Klassengrenzen Trennfläche (Entscheidungsgrenze) verschiebt sich mit der a-priori Wahrscheinlichkeit P(ω i ) Bildquelle: Duda, Hart, Stork, Pattern Classification Bayes-Klassifikator bei Normalverteilungen 37 Bayes-Klassifikation bei Normalverteilungen: Beispiele für Klassengrenzen Beispiele für quadratische Funktionen (Hyperquadrics, Flächen 2.Ordnung) als Klassifikationsgrenzen im 3-dim. Merkmalsraum Bildquelle: Duda, Hart, Stork, Pattern Classification 17

Bayes-Klassifikator 38 Fazit Der theoretisch optimale Klassifikator lässt sich über bedingte Wahrscheinlichkeiten nach Bayes bestimmen Referenz für alle anderen Verfahren Entscheidung nach der größeren (a-posteriori) Wahrscheinlichkeit, dass ein beobachteter Merkmalsvektor x zu einer bestimmten Klasse ω i gehört: g 1 g 2 P ω 1 x P ω 2 x p x ω 1 P ω 1 p( x ω 2 ) P(ω 2 ) Anwendung setzt voraus, dass Wahrscheinlichkeitsverteilungen der Merkmale (a-priori) bekannt sind oder diese werden empirisch geschätzt (mit entsprechender Unsicherheit) Merkmale müssen voneinander (statistisch) unabhängig sein Einfachste Rechnung mit Normalverteilungen Trennflächen sind (höchstens) quadratische Funktionen Erweiterung zur Einbeziehung des Entscheidungsrisikos ist einfach möglich 18