Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Ähnliche Dokumente
Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Mustererkennung und Klassifikation

Signalentdeckungstheorie, Dichteschätzung

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Lineare Klassifikatoren

Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

k-nächste-nachbarn-schätzung

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Bayes sches Lernen. Niels Landwehr

Entscheidungs- und Spieltheorie

Wie liest man Konfidenzintervalle? Teil II. Premiu m

Mustererkennung. Übersicht. Unüberwachtes Lernen. (Un-) Überwachtes Lernen Clustering im Allgemeinen k-means-verfahren Gaussian-Mixture Modelle

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

10.5 Maximum-Likelihood Klassifikation (I)

1 Diskriminanzanalyse

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Signalverarbeitung 2. Volker Stahl - 1 -

Vorlesung: Statistik II für Wirtschaftswissenschaft

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Niels Landwehr

Vorlesung Wissensentdeckung

Linear nichtseparable Probleme

BZQ II: Stochastikpraktikum

Klassifikation von Daten Einleitung

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Bayessche Lineare Regression

Gibbs sampling. Sebastian Pado. October 30, Seien X die Trainingdaten, y ein Testdatenpunkt, π die Parameter des Modells

Multiplizitätskorrektur bei Variablenselektion

Clusteranalyse: Gauß sche Mischmodelle

Nichtlineare Klassifikatoren

Einführung in das Maschinelle Lernen I

Statistik, Datenanalyse und Simulation

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Folien zu Data Mining von I. H. Witten und E. Frank. übersetzt von N. Fuhr

Wahrscheinlichkeitsrechnung

Das Bayes'sche Prinzip

Wahrscheinlichkeitstheorie 2

Signalverarbeitung 2. Volker Stahl - 1 -

Punktschätzer Optimalitätskonzepte

Planung von Handlungen bei unsicherer Information

EFME Aufsätze ( Wörter) Der Aufbau von Entscheidungsbäumen...1

Bayes sches Lernen: Übersicht

Stochastisches Matchen Schätzung der Eingabefehlerraten. Klaus Pommerening IMBEI Oberseminar Medizin-Informatik

Bayes Klassifikatoren M E T H O D E N D E S D A T A M I N I N G F A B I A N G R E U E L

Inhalt. 6.1 Motivation. 6.2 Klassifikation. 6.3 Clusteranalyse. 6.4 Asszoziationsanalyse. Datenbanken & Informationssysteme / Kapitel 6: Data Mining

Bayes-Netze (1) Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

BZQ II: Stochastikpraktikum

Kapitel 4.3 Testen von Verteilungshypothesen. Stochastik SS

Wichtige Definitionen und Aussagen

Statistik: Klassisch oder Bayes

Unüberwachtes Lernen

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen

Numerische Methoden und Algorithmen in der Physik

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.19 (allgemeines Theorem von Bayes)

Lineare Methoden zur Klassifizierung

3.4 Bayes-Verfahren Begrifflicher Hintergrund. Satz 3.22 (allgemeines Theorem von Bayes)

Statistics, Data Analysis, and Simulation SS 2017

Aufgabe 1 Probabilistische Inferenz

Aufgabe 1 Probabilistische Inferenz

Bayes sche Klassifikatoren. Uwe Reichel IPS, LMU München 16. Juli 2008

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Graphische Modelle. Niels Landwehr

STATISTISCHE METHODEN UND IHRE ANWENDUNGEN

Kapitel 17. Unabhängigkeit und Homogenität Unabhängigkeit

Aufgabe 1 Probabilistische Inferenz

Kapitel 5. Bayes Klassifikator

Behandelte Themen. 0. Motivation : Lernen in Statistik und Biologie. 1. Überblick über statistische Datenmodellierungs-Verfahren

Schriftlicher Test Teilklausur 2

Bayes sches Lernen: Übersicht

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Simulationsmethoden in der Bayes-Statistik

Schriftlicher Test Teilklausur 2

Schriftlicher Test Teilklausur 2

Nachgefragte Aufgaben über spezifische Themen

Wahrscheinlichkeitsrechnung und Statistik. 8. Vorlesung

Mathematische Statistik Aufgaben zum Üben. Schätzer

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Beispiel für Gütefunktionen Rechtsseitiger Test (µ 0 = 500) zum Signifikanzniveau α = 0.10

Elementare Wahrscheinlichkeitslehre

(Reine) Bayes-Punktschätzung

Bereiche der Statistik

Frequentisten und Bayesianer. Volker Tresp

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Wahrscheinlichkeitsrechnung und Statistik für Biologen 7. Konfidenzintervalle

Parametrische und nichtparametrische Tests

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester Lösungsblatt 3 Maschinelles Lernen und Klassifikation

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Institut für Biometrie und klinische Forschung. WiSe 2012/2013

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Syntaktische und Statistische Mustererkennung. Bernhard Jung

Kapitel 12: Markov-Ketten

Vorlesung Statistik, WING, ASW Wahrscheinlichkeit in Laplace Versuchen. Kombinatorische Formeln. Bedingte Wahrscheinlichkeit

Semester-Fahrplan 1 / 17

Bayes-Netze. Claudio Fischer Text- und Datamining (AG Digital Humanities)

Kapitel XIV - Anpassungstests

Vorlesung 2. Maschinenlernen: Klassische Ansätze I

Vorlesung 1: Einleitung

Transkript:

Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes- Entscheidungsfunktionen bei gaußverteilten Daten Überwachtes Lernen bei unbekannter Verteilung der Daten Nichtparametrische Klassifikation Probleme bei hochdimensionalen Daten Lineare Klassifikation, Perzeptron Nicht linear trennbare Systeme Nichtlineare en Vergleich von en Unüberwachtes Lernen Hauptkomponentenanalyse K-Means-Clustering Agglomeratives Clustern 1

Entscheidungstheorie Die Entscheidungstheorie bewertet die Kosten einer Klassifikationsentscheidung mit Hilfe von Wahrscheinlichkeitsaussagen. Grundannahme: Alle Wahrscheinlichkeiten seien im vornhinein bekannt. bildet die formale Grundlage der Mustererkennung formalisiert den gesunden Menschenverstand. 2

Beispiel für eine Mustererkennungsaufgabe [aus Duda et al., 2001] 3

Beispiel für eine Mustererkennungsaufgabe [aus Duda et al., 2001] 4

Beispiel für entscheidungstheoretischen Ansatz Annahme: Reihenfolge der Fische auf dem Band sei zufällig, d.h. nicht vorhersagbar. In der Entscheidungstheorie heißt das: Die Natur ist in einer von zwei möglichen Zuständen ( state of nature ): Lachs: = 1 Wolfsbarsch: = 2 Weil unvorhersagbar ist, muß als Zufallsvariable beschrieben werden. Annahme: Es gebe eine A-priori-Wahrscheinlichkeit p( 1 ) für Lachs und p( 2 ) für Wolfsbarsch. Bei 2 Zuständen gilt p( 1 ) + p( 2 ) = 1. Die A-priori-Wahrscheinlichkeit beschreibt das Vorwissen über das Entscheidungsproblem. 5

Klassenbedingte Wahrscheinlichkeit Wenn jeder Fehler gleich viel kostet, und wenn Band nicht beobachtet werden kann, ist die beste Entscheidungsregel: Entscheide für 1 falls p( 1 ) > p( 2 ), sonst für 2 Gibt es (fehlerbehaftete) Messungen eines diskriminativen Merkmals x, dann hängt die Messung vom Naturzustand ab. Beschreibung durch bedingte Wahrscheinlichkeit p(x 1 ) (klassenbedingte Wahrscheinlichkeit) 6

Satz von Bayes Wie beeinflußt die Messung x die Schätzung des tatsächlichen Naturzustandes? Gemeinsame Verteilung von j und x: Satz von Bayes: mit p( j,x) = p(x j ) p(x j ) = p( 1 x) p(x) (Kettenregel) 2 p(x) = p(x j )p( j ) j=1 p( j x) = p(x j )p( j ) p(x) In Worten: A posteriori Wahrscheinlichkeit = Likelihood A priori Wahrscheinlichkeit Evidenz 7

A-posteriori-Wahrscheinlichkeit (Beispiel) p( 1 ) = 2/3 p( 2 ) = 1/3 8

Bayessche Entscheidungsregel Nach einer Messung x ist die Fehlerwahrscheinlichkeit p(fehler x) = p( 1 x) bei Entscheidung für 1 p( 2 x) bei Entscheidung für 2 Die Fehlerwahrscheinlichkeit für gegebenes x wird minimiert durch die Bayessche Entscheidungsregel: Entscheide für 1 wenn p( 1 x) > p( 2 x), sonst für 2 bzw. Entscheide für 1 wenn p(x 1 ) p( 1 ) > p(x 2 ) p( 2 ), sonst für 2 Die Bayessche Entscheidungsregel minimiert auch die durchschnittliche Fehlerwahrscheinlichkeit über alle x: p(fehler) = 1 X x X p(fehler, x) = 1 X x X p(fehler x)p(x) 9

Aufgabe 1. Sie kommen auf eine Insel, von der Sie wissen, daß die Einwohner in 2/3 aller Fälle lügen. An einer Weggabelung angekommen, wissen Sie nicht mehr weiter. Sie schätzen, daß Ihr Ziel mit 60% Wahrscheinlichkeit links liegt und fragen sicherheitshalber einen Einheimischen. Dieser sagt rechts. Wie entscheiden Sie sich? 2. Nun fragen Sie einen weiteren Einheimischen, ober der Erste gelogen hat. Dieser antwortet mit Nein. Wie wahrscheinlich ist es, daß der Erste tatsächlich gelogen hat? Ändern Sie Ihre Entscheidung nach dieser Auskunft? 10

Bayessche Entscheidungstheorie Bisherige Betrachtungen werden verallgemeinert: mehr als ein Merkmal mehr als zwei Zustände mehr als zwei Entscheidungsoptionen allgemeinere Kostenfunktionen als die Fehlerwahrscheinlichkeit 11

Erweiterung auf mehr als eine Merkmal [aus Duda et al., 2001] Erweiterung auf d Messungen ist einfach: Ersetze die einzelne Messung x durch einen Merkmalsvektor x aus einem d-dimensionalen euklidischen Raum, dem Merkmalsraum X. Alle Formeln und Methoden bleiben gleich! 12

Verallgemeinerung der Entscheidungssituation 2. Es kann sinnvoll, sich für mehr als nur 2 Optionen zu entscheiden, z.b bei unklarer Situation sich für keine der Alternativen zu entscheiden bei mehr als 2 Klassen Allgemein erlauben wir eine Menge von a möglichen Aktionen. { } 1, 2,..., a 3. Bei vielen Mustererkennungsproblemen gibt es mehr als 2 Klassen, d.h. wir erlauben eine Menge von c möglichen Naturzuständen (Mehrklassenproblem). { } 1, 2,..., a 4. Die Kostenfunktion ( i j ) bemißt die Kosten der Aktion i, wenn die Natur in Zustand j ist. 13

Verallgemeinerte Bayessche Entscheidungsregel Bayes-Formel: p( j x) = p(x j )p( j ) p(x) c p(x) = p(x j )p( j ) mit der Evidenz j=1 Die erwarteten Kosten für Aktion i (das bedingte Risiko von i ): c j=1 R( i x) = ( i j )p( j x) Verallgemeinerte Entscheidungsregel (minimiert das erwartete Gesamtrisiko): Wähle immer die Aktion i, die das bedingte Risiko für die gegebene Beobachtung x minimiert. 14

Spezialfall: 2 Klassen, 2 Aktionen Vereinfachte Kostenfunktion: ij = ( i j ) Bedingtes Risiko: R( 1 x) = 11 p( 1 x) + 12 p( 2 x) R( 2 x) = 21 p( 1 x) + 22 p( 2 x) Entscheidungsregel: Entscheide für, wenn bzw. ( 21 11 )p( 1 x) > ( 12 22 )p( 2 x) ( 21 11 )p(x 1 ) p( 1 ) > ( 12 22 )p(x 2 )p( 2 ) Unter der Annahme, daß 21 > 11, ergibt sich p(x 1 ) p(x 2 ) > 12 22 p( 2 ) 21 11 p( 1 ) (likelihood ratio) 15

Klassifikation mit minimaler Fehlerrate Klassifikation: Jeder Zustand entspricht einer Klasse Jede Aktion entspricht der Entscheidung, daß eine bestimmte Klasse vorliegt Entscheidung ist richtig, wenn die angenommene Klasse mit der tatsächlichen übereinstimmt, sonst ist sie falsch Zugehörige Kostenfunktion: (symmetrische ( Kostenfunktion oder i j ) = 0 i = j i, j =1,...,c zero-one-loss) Bedingtes Risiko: 1 i j Damit ergibt sich die schon bekannte Entscheidungsregel zur Fehlerminimierung: Entscheide für 1 wenn p( 1 x) > p( 2 x), sonst für 2 c R( i x) = ( i j )p( j x) =1 p( j x) j=1 16

Likelihood ratio (Beispiel) [aus Duda et al., 2001] 17