Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Ähnliche Dokumente
Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Lineare Klassifikatoren

Signalentdeckungstheorie, Dichteschätzung

Mustererkennung und Klassifikation

Signalverarbeitung 2. Volker Stahl - 1 -

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

Multivariate Verteilungen. Gerhard Tutz LMU München

Statistics, Data Analysis, and Simulation SS 2017

Statistik I für Betriebswirte Vorlesung 3

x p 2 (x )dx, Hinweis: es ist nicht erforderlich, zu integrieren!

70 Wichtige kontinuierliche Verteilungen

Wichtige Definitionen und Aussagen

Nichtlineare Klassifikatoren

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

1 Multivariate Zufallsvariablen

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Wahrscheinlichkeit und Statistik: Zusammenfassung

Musterlösung der Klausur vom 29. Juli 2003

Mathematische Werkzeuge R. Neubecker, WS 2018 / 2019 Optimierung Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

4. Verteilungen von Funktionen von Zufallsvariablen

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Statistik I für Betriebswirte Vorlesung 4

Grundbegriffe der Stochastik II

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Clusteranalyse: Gauß sche Mischmodelle

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Wenn PCA in der Gesichtserkennung eingesetzt wird heißen die Eigenvektoren oft: Eigenfaces

Was Aktuare über Abhängigkeit wissen sollten

2.1 Gemeinsame-, Rand- und bedingte Verteilungen

Grundlagen der Objektmodellierung

i =1 i =2 i =3 x i y i 4 0 1

5. Spezielle stetige Verteilungen

Fakultät Verkehrswissenschaften Friedrich List Professur für Ökonometrie und Statistik, insb. im Verkehrswesen. Statistik II

Gegenbeispiele in der Wahrscheinlichkeitstheorie

Übung Zeigen Sie, dass dies als Grenzwert der Wahrscheinlichkeitsfunktion der Binomialverteilung mit

Verteilungen mehrerer Variablen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

0 für t < für 1 t < für 2 t < für 3 t < für 4 t < 5 1 für t 5

Wahrscheinlichkeitstheorie und Statistik

Mathematik für Biologen

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Statistik und Wahrscheinlichkeitsrechnung

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Zusammenfassung: diskrete und stetige Verteilungen. Woche 4: Gemeinsame Verteilungen. Zusammenfassung: diskrete und stetige Verteilungen

TU DORTMUND Sommersemester 2018

Übungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 05/06. Musterlösung 11

Wahrscheinlichkeiten. Verteilungen

4 MEHRDIMENSIONALE VERTEILUNGEN

Übung 1: Wiederholung Wahrscheinlichkeitstheorie

k-nächste-nachbarn-schätzung

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

2.Tutorium Multivariate Verfahren

Mathematica: u=5;s=1;plot[exp[-0.5((x-u)/s)^2],{x,0,10}] 76

Zufallsvariablen [random variable]

Bestimmte Zufallsvariablen sind von Natur aus normalverteilt. - naturwissenschaftliche Variablen: originär z.b. Intelligenz, Körpergröße, Messfehler

Verfahren zur Datenanalyse gemessener Signale

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Stochastik Wiederholung von Teil 1

Vorlesung: Statistik II für Wirtschaftswissenschaft

Klassifikation von Daten Einleitung

Statistik und Wahrscheinlichkeitsrechnung

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Beispiel 6 (Multivariate Normalverteilung)

Woche 2: Zufallsvariablen

Numerische Methoden und Algorithmen in der Physik

Varianz und Kovarianz

Der Erwartungswert E[g(X)] von g(x) ist definiert. g(x k )w(x = x k ),

Vorlesung 5a. Zufallsvariable mit Dichten

Chi-Quadrat-Verteilung

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Lineare Klassifikationsmethoden

Kapitel 5. Bayes Klassifikator

Wahrscheinlichkeitstheorie und Statistik vom

Einführung in die angewandte Stochastik

Prof. Dr. Fred Böker

Forschungsstatistik I

Linear nichtseparable Probleme

Lineare Methoden zur Klassifizierung

Mathematik für Naturwissenschaften, Teil 2

Wahrscheinlichkeitsverteilungen

Anhang aus Statistik-III-Skript: p-dimensionale Zufallsvariablen

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Wiederh.)

Einführung in die Hauptkomponentenanalyse

Statistik, Datenanalyse und Simulation

Anpassungsrechnungen mit kleinsten Quadraten und Maximum Likelihood

Marcel Dettling. GdM 2: LinAlg & Statistik FS 2017 Woche 11. Winterthur, 10. Mai Institut für Datenanalyse und Prozessdesign

Teil VI. Gemeinsame Verteilungen. Lernziele. Beispiel: Zwei Würfel. Gemeinsame Verteilung

Unüberwachtes Lernen

Zufallsgröße X : Ω R X : ω Anzahl der geworfenen K`s

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Lösungen zur Klausur WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK (STOCHASTIK)

1 Diskriminanzanalyse

Transkript:

Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator Entscheidungsfunktionen bei gaußverteilten Daten Überwachtes Lernen bei unbekannter Verteilung der Daten Nichtparametrische Klassifikation Probleme bei hochdimensionalen Daten Lineare Klassifikation, Perzeptron Nicht linear trennbare Systeme Nichtlineare Klassifikatoren Vergleich von Klassifikatoren Unüberwachtes Lernen Hauptkomponentenanalyse K-Means-Clustering Agglomeratives Clustern M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 1

Überblick Wiederholung: Diskriminantenfunktionen Kontinuierliche Zufallsvariablen Gaußverteilung Diskriminantenfunktionen bei gaußverteilten Daten M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 2

Diskriminantenfunktionen Diskriminantenfunktionen sind die häufigste Art, einen Klassifikator zu beschreiben. Vorgehensweise: Zu jeder Klasse i wird eine Diskriminantenfunktion g i (x) definiert. Der Klassifikator klassifiziert den Inputvektor x als zur Klasse i zugehörig, wenn g i (x) > g j (x) für alle j i Beispiel Bayes-Klassifikator: Wähle immer die Aktion i, die das bedingte Risiko für die gegebene Beobachtung x minimiert., d.h. entscheide für Klasse i, wenn gilt R( i x) < R( j x) bzw. p( i x) > p( j x) für alle j i d.h. die Diskriminantenfunktion ist hier g i (x) = R( i x) bzw. g i (x) = p( i x) M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 3

Allgemeiner Aufbau eines statistischen Klassifikators [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 4

Entscheidungsgrenzen und Entscheidungsregionen Die Entscheidungsregel unterteilt den Inputraum in Entscheidungsregionen. Die Entscheidungsregionen sind durch Entscheidungsgrenzen voneinander getrennt. [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 5

Überblick Wiederholung: Diskriminantenfunktionen Kontinuierliche Zufallsvariablen Gaußverteilung Diskriminantenfunktionen bei gaußverteilten Daten M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 6

Kontinuierliche Zufallsvariablen (1) Bisher: Zufallsvariablen, bei denen ein diskreter Wert a i aus einem Alphabet mit einer Wahrscheinlichkeit p i angenommen wird. Jetzt: Erweiterung auf Zufallsvariablen mit kontinuierlichen Werten Die Wahrscheinlichkeit für einen bestimmten Wert a i ist bei kontinuierlichen Zufallsvariablen 0! Es macht mehr Sinn, davon zu sprechen, daß die ZV einen bestimmten Wert im Intervall [a,b] annimmt. Bisher: Jetzt: p(x [a,b]) = p(x [a,b]) = x i [a,b ] b a p(x) p(x) dx (kontinuierliche Wahrscheinlichkeitssdichte) M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 7

Kontinuierliche Zufallsvariablen (2) Die bisher benutzten Formeln für diskrete ZV können direkt übernommen werden, indem die Summierung durch ein Integral ersetzt wird: Positivität und Normierung: Erwartungswert: Mittelwert: Varianz: Bayes-Formel: p(x) 0 und p(x) dx =1 E[ f (x)] = f (x) p(x) dx μ = E[x] = xp(x) dx 2 = E[(x μ) 2 ] = p(x y) = p(y x)p(x) p(y x)p(x) dx (x μ) 2 p(x) dx M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 8

Häufig benutzte Verteilungen (1) Da im Normalfall die genaue Verteilung der Daten nicht bekannt sind, benutzt man bestimmte Verteilungsfunktionen als Modell der Daten, um damit Vorwissen oder Vorannahmen zu beschreiben. Beispiel: Verteilungen für ZV, deren Werte unbeschränkt sind: Gaußverteilung Student-t-Verteilung (fällt langsamer ab) [aus McKay, 2003] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 9

Häufig benutzte Verteilungen (2) Verteilungen für ZV mit positiven Werten: Gammaverteilung (x >= 0) Log-Normalverteilung (x > 0) Auswahl nach: - Art der Daten (positiv, diskret,...) - unimodal, bimodal - einfache Berechenbarkeit [aus McKay, 2003] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 10

Überblick Wiederholung: Diskriminantenfunktionen Kontinuierliche Zufallsvariablen Gaußverteilung Diskriminantenfunktionen bei gaußverteilten Daten M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 11

Univariate Gaußverteilung (1) Zentraler Grenzwertsatz der Wahrscheinlichkeitsrechnung: die Summe einer großen Zahl von (beinahe) beliebig verteilten Zufallsvariablen nähert sich der Gaußverteilung. p(x) = 1 (xμ) 1 2 2 2 e 2 wird durch 2 Parameter beschrieben: Mittelwert μ Varianz 2 Schreibweise: N(μ, 2 ) M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 12

Gaußverteilung (2) 2 = E[(x μ) 2 ] = μ = E[x] = p(x) dx =1 xp(x) dx (x μ) 2 p(x) dx 68 % 95 % 99.7 % Aufgrund des zentralen Grenzwertsatzes ist die Gaußverteilung oft ein gutes Modell. Viele Integrale lassen sich geschlossen lösen => häufig in probabilistischen Modellen. M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 13

Multivariate Gaußverteilung p(x) = 1 ( 2 ) N det exp 1 2 (x μ)t 1 (x μ x ) mit μ: Mittelwertvektor mit μ i = E[x i ] : Kovarianzmatrix mit ij = E[(x i - μ i ) (x j - μ j )] Die Diagonalelemente von sind die Varianzen der x i. Die nichtdiagonalen Elemente von sind die Kovarianzen von x i und x j. Die d-dimensionale Gaußverteilung ist durch d + d(d + 1)/2 Größen bestimmt. M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 14

Beispiel: von einer bivariaten Gaußverteilung erzeugt Daten Linien gleicher Wahrscheinlichkeitsdichte sind Ellipsen. p(x) = = const. 1 ( 2 ) N det exp 1 2 (x μ)t 1 (x μ ) x (x μ) T 1 (x μ x ) = const. = r 2 r 2 heißt Mahalanobis-Distanz [aus Duda et al., 2001] d.h. die Ellipsen haben konstante Mahalanobis- Distanz zum Mittelwert μ. M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 15

2D-Beispiele für Kovarianzmatrizen 0 0 11 0 0 22 11 12 21 22 Diagonalelemente gleich, nichtdiagonale Elemente 0: - Linien konstanter Dichte sind Kreise - Verteilung isotrop - beide Variablen sind statistisch unabhängig (es gilt p(x 1,x 2 ) = p(x 1 ) p(x 2 ) ). Diagonalelemente ungleich, nichtdiagonale Elemente 0: - Linien konstanter Dichte sind Ellipsen, die an den Koordinatenachsen ausgerichtet sind - beide Variablen sind immer noch statistisch unabhängig. Alle Einträge von sind ungleich 0, 12 = 21 : - Linien konstanter Dichte sind beliebig ausgerichtete Ellipsen - die Variablen sind statistisch abhängig. M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 16

Eigenwerte der Kovarianzmatrix e 1 (x μ) T 1 (x μ x ) = const. Mit der Kovarianzmatrix läßt sich die Varianz der Verteilung in einer beliebigen Richtung berechnen: e 2 Sei e ein Einheitsvektor in der gewünschten Richtung, dann ist die Varianz in dieser Richtung e T e. Die Ausrichtung der Ellipsen wird durch die Eigenvektoren beschrieben. Für einen Eigenvektor gilt: e = e bzw. ( - I) e = 0 mit dem Eigenwert. Die Eigenwerte 1 und 2 geben die Varianz der Gaußverteilung entlang der Richtungen der Eigenvektoren e 1 und e 2 an. M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 17

Überblick Wiederholung: Diskriminantenfunktionen Kontinuierliche Zufallsvariablen Gaußverteilung Diskriminantenfunktionen bei gaußverteilten Daten M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 18

Diskriminantenfunktionen für gaußverteilte Daten Der Bayesklassifikator hat im Falle der Minimierung der Fehlerwahrscheinlichkeit die Diskriminantenfunktion: g j (x) = p( j x) = p(x j)p( j ) p(x) bzw. g j (x) = p(x j )p( j ) Besonders einfach für gaußverteilte Daten ist die log-transformierte Diskriminantenfunktion: g j (x) = ln p(x j ) + ln p( j ) Für ergibt sich p(x j ) = 1 exp 1 ( 2 ) d det 2 (x μ j ) T 1 j (x μ j ) j g j (x) = 1 (x μ 2 j )T 1 j (x μ j ) d ln2 1 lndet + ln p( ) 2 2 j j M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 19

Spezialfall: j = 2 I g j (x) = 1 (x μ 2 j )T 1 j (x μ j ) d ln2 1 lndet + ln p( ) 2 2 j j = 2 0 0 2 g j (x) = 1 2 2 x μ j 2 + ln p( j ) Die Diskriminantenfunktion ist also einfach der quadratische Abstand zum Mittelwert der Klasse (gewichtet durch 2 ) und einem Offset abhängig von der A-priori-Wahrscheinlichkeit der Klasse. Noch einfachere Form: mit x μ j 2 = (x μ) T (x μ) = x T x 2μ T x + μ T μ ergibt sich g j (x) = w j T x + w j 0 mit w j = 1 2 μ j und w j 0 = 1 2 μ j T μ j + ln p( j ) d.h. eine einfache lineare Diskriminantenfunktion. Der daraus konstruierte Klassifikator ist eine lineare Maschine. M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 20

Spezialfall: j = 2 I in 1 und 2 Dimensionen bei gleichen A-priori-Wahrscheinlichkeiten beider Klassen Minimaldistanz-Klassifikator, Template Matching mit Mittelwert als Klassenprototyp [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 21

Spezialfall: j = 2 I in 3 Dimensionen [aus Duda et al., 2001] bei gleichen A-priori-Wahrscheinlichkeiten beider Klassen M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 22

Spezialfall: j = 2 I in einer Dimension [aus Duda et al., 2001] bei ungleichen A-priori-Wahrscheinlichkeiten beider Klassen M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 23

Spezialfall: j = 2 I in zwei Dimensionen [aus Duda et al., 2001] bei ungleichen A-priori-Wahrscheinlichkeiten beider Klassen M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 24

Spezialfall: j = 2 I in drei Dimensionen [aus Duda et al., 2001] bei ungleichen A-priori-Wahrscheinlichkeiten beider Klassen M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 25

Spezialfall: beliebige, aber gleiche Kovarianzen g j (x) = 1 (x μ 2 j )T 1 j (x μ j ) d ln2 1 lndet + ln p( ) 2 2 j j g j (x) = 1 2 2 (x μ j ) T 1 (x μ j ) + ln p( j ) Läßt sich ebenfalls in eine lineare Form bringen: g j (x) = w j T x + w j 0 [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 26

Spezialfall: beliebige, aber gleiche Kovarianzen (3D) [aus Duda et al., 2001] Trennflächen müssen nicht mehr senkrecht auf der Verbindungslinie der Klassenmittelwerte liegen M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 27

Beliebige, unterschiedliche Kovarianzen in allen Klassen g j (x) = 1 (x μ 2 j )T 1 j (x μ j ) d ln2 1 lndet + ln p( ) 2 2 j j g j (x) = 1 (x μ 2 j )T 1 j (x μ j ) 1 lndet + ln p( ) 2 j j In 1 Dimension: [aus Duda et al., 2001] Entscheidungsregionen können aus unverbundenen Teilgebieten bestehen. M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 28

Bei 2 Kategorien: Quadriken als Trennflächen (2D) [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 29

Bei 2 Kategorien: Quadriken als Trennflächen (3D) [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 30

Bei 2 Kategorien: Quadriken als Trennflächen (3D) - 2 [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 31

Bei mehr als 2 Kategorien... [aus Duda et al., 2001] M.O.Franz, Oktober 2007 MuK - Klassifikation bei gaußverteilten Daten 32