10.5 Maximum-Likelihood Klassifikation (I)

Ähnliche Dokumente
Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Wichtige Definitionen und Aussagen

Mehrdimensionale Zufallsvariablen

oder A = (a ij ), A =

D-CHAB Frühlingssemester 2017 T =

Bayes sches Lernen: Übersicht

Stichproben Parameterschätzung Konfidenzintervalle:

Philipp Sibbertsen Hartmut Lehne. Statistik. Einführung für Wirtschafts- und. Sozialwissenschaftler. 2., überarbeitete Auflage. 4^ Springer Gabler

Bayes sches Lernen: Übersicht

Signalentdeckungstheorie, Dichteschätzung

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

7. Übung: Aufgabe 1. b), c), e) Aufgabe 2. a), c), e) Aufgabe 3. c), e) Aufgabe 4. Aufgabe 5. Aufgabe 6. Aufgabe 7. Aufgabe 8. Aufgabe 9.

Kapitel 8: Operationen auf Rasterdaten

Stochastik für Ingenieure

Biostatistik, WS 2015/2016 Exkurs: Ein Beispiel zur Diskriminanzanalyse

ELEMENTARE EINFÜHRUNG IN DIE MATHEMATISCHE STATISTIK

6. Vorlesung. Rechnen mit Matrizen.

Statistik in Geodäsie, Geoinformation und Bauwesen

Klausur zur Vorlesung Analyse mehrdimensionaler Daten, Lösungen WS 2010/2011; 6 Kreditpunkte, 90 min

Pareto optimale lineare Klassifikation

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

4 MEHRDIMENSIONALE VERTEILUNGEN

Klassifikation von Daten Einleitung

5. Spezielle stetige Verteilungen

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Theorie-Teil: Aufgaben 1-3: 30 Punkte Programmier-Teil: Aufgaben 4-9: 60 Punkte

b) Bestimmen Sie die Varianz der beiden Schätzer. c) Ist ein oder sind beide Schätzer konsistent? Begründen Sie!

Rückblick auf die letzte Vorlesung

1 Diskriminanzanalyse

Bayessche Lineare Regression

Kapitel 4: Data Mining DATABASE SYSTEMS GROUP. Überblick. 4.1 Einleitung. 4.2 Clustering. 4.3 Klassifikation

Auswertung und Lösung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Grundbegriffe der Wahrscheinlichkeitsrechnung

Statistisches Testen

Mathematik 2 Probeprüfung 1

i =1 i =2 i =3 x i y i 4 0 1

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Statistik K urs SS 2004

Wahrscheinlichkeitstheorie und Statistik vom

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

Zusammenfassung: Kapitel 5, Zusammenhangsmaße

Wahrscheinlichkeitstheorie und Statistik vom

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Einige Konzepte aus der Wahrscheinlichkeitstheorie (Review)

Varianzkomponentenschätzung

2.Tutorium Multivariate Verfahren

Musterlösung der Klausur vom 29. Juli 2003

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Wirtschaftsstatistik-Klausur am

Dr. L. Meier Statistik und Wahrscheinlichkeitsrechnung Sommer Musterlösung

Wahrscheinlichkeitsrechnung und Statistik für Biologen Diskriminanzanalyse

Die n-dimensionale Normalverteilung

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Wie kann ich überprüfen, welche Verteilung meinen Daten zu Grunde liegt? Chi-Quadrat-Test auf Normalverteilung

Lösungen der Aufgaben zur Vorbereitung auf die Klausur Mathematik für Informatiker II

EFME Aufsätze ( Wörter) Der Aufbau von Entscheidungsbäumen...1

Studienberechtigungsprüfung Mathematik VHS Floridsdorf

Mathematische Statistik Aufgaben zum Üben. Schätzer

Statistik. Prof. em. Dr. Dr. h.c. Günter Bamberg PD Dr. Franz Baur Prof. Dr.Michael Krapp. 17., überarbeitete Auflage. Oldenbourg Verlag München.

Berechnung von W für die Elementarereignisse einer Zufallsgröße

Statistik, Datenanalyse und Simulation

Statistische Methoden

D-ITET Wahrscheinlichkeitstheorie und Statistik FS 2017 Prof. P. Nolin. Serie 11

INGENIEUR-STATISTIK DR. JOSEF HEINHOLD DR. KARL-WALTER GAEDE R. OLDENBOURG VERLAG MÜNCHEN WIEN 1979

Dr. Maike M. Burda. Welchen Einfluss hat die Körperhöhe auf das Körpergewicht? Eine Regressionsanalyse. HU Berlin, Econ Bootcamp

Einführung in die Stochastik

SBWL Tourismusanalyse und Freizeitmarketing

Kapitel 9: Lineare Gleichungssysteme

Dynamische Systeme und Zeitreihenanalyse // Zustandsraummodelle und Kalman Filter 15 p.2/??

SBWL Tourismusanalyse und Freizeitmarketing

Lineare Algebra 1. Roger Burkhardt

5. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

Modellierung- und Simulation Mathis Plewa ( )

Wie liest man Konfidenzintervalle? Teil I. Premiu m

8 Extremwerte reellwertiger Funktionen

6. Schätzverfahren für Parameter

Vorkurs Mathematik für Ingenieure WS 2015/2016 Übung 4. (iii) = 33. (iv)

Statistik und Wahrscheinlichkeitsrechnung

Statistik I für Betriebswirte Vorlesung 4

Prüfung aus Wahrscheinlichkeitstheorie und Statistik MASCHINENBAU 2002

Nützliches Hilfsmittel (um Schreiberei zu reduzieren): 'Erweiterte Matrix': Gauß- Verfahren

Auswahl von Schätzfunktionen

Fehler- und Ausgleichsrechnung

Vorlesung: Statistik II für Wirtschaftswissenschaft

Einführung in das Maschinelle Lernen I

1 Inhaltsverzeichnis. 1 Einführung...1

1 Multivariate Zufallsvariablen

6. Normale Abbildungen

Transkript:

Klassifikation (I) Idee Für die Klassifikation sind wir interessiert an den bedingten Wahrscheinlichkeiten p(c i (x,y) D(x,y)). y Wenn man diese bedingten Wahrscheinlichkeiten kennt, dann ordnet man einem Pixel (x,y) mit Grauwertvektor D(x,y) die Klasse C j mit dem maximalen Wert für diese Wahrscheinlichkeit h hk i zu: Bayes sche Entscheidungsregel Maximum Likelihood Entscheidungsregel Die obigen bedingten Wahrscheinlichkeiten sind meist a priori unbekannt. Die umgekehrten bedingten Wahrscheinlichkeiten p(d(x,y) C i (x,y)). lassen sich jedoch aus den Trainingsdaten schätzen. Geo-Informationssysteme 35 Klassifikation (II) Maximum Likelihood Entscheidungsregel (Fortsetzung) Die gesuchten Wahrscheinlichkeiten lassen sich daraus mit Hilfe des Bayes schen Theorems folgendermassen berechnen: (2) p (C i (x,y) D (x,y)) = p (D (x,y) C i (x,y) C i (x,y) p (C i (x,y))/p (D (x,y)) wobei p(c i (x,y)) die unbedingte Wahrscheinlichkeit bzw. die Häufigkeit der Klasse C i im Bild ist und p(d(x,y)) die Häufigkeit des Grauwertvektors D(x,y). Einsetzen von (2) in (1) liefert die Maximum Likelihood Entscheidungsregel: (3) i j [p(d(x,y) C j (x,y)) y)) p(c j (x,y))>p(d(x,y) C y) C i /x,y)) y)) p (C i (x,y))] C j (x,y) Die p(d(x,y)), die schwer zu bestimmen sind, kürzen sich dabei heraus. (3) lässt sich mit der Definition Geo-Informationssysteme 36

10.5 Normalverteilungen (I) Schätzung der bedingten Wahrscheinlichkeiten Frage: Wie kann man aus den beobachteten p(d(x,y) C i (x,y)) die bedingten Wahrscheinlichkeiten für alle D(x,y) und für alle C i bestimmen? Methode: nehme an, dass die bedingten Wahrscheinlichkeiten p(d(x,y) C i (x,y)) normalverteilt sind. Geo-Informationssysteme 37 10.5 Normalverteilungen (II) Eindimensionaler Fall Eindimensionaler Fall: m = 1, d.h. nur ein Grauwert pro Pixel. Dann gilt mit m i als Mittelwert t und σ i als Standardabweichung d von D(x,y) für die Klasse C i Annahme: es ist eine hinreichend große Menge von D(x,y) y)-werten gegeben. Dann wird m i geschätzt als Mittelwert der D(x,y), σ i ² als Durchschnitt der Quadrate der Differenz der D(x,y) zu m i. Geo-Informationssysteme 38

10.5 Normalverteilungen (III) Beispiel Geo-Informationssysteme 39 10.5 Normalverteilungen (IV) Mehrdimensionaler Fall m > 1, d.h. mehrere Grauwerte pro Pixel. Dann ist mi ein m-dimensionaler Vektor und σi 2einemxmMatrixΣi. Die Kovarianz-Matrix Σi für die Klasse Ci beschreibt die Korrelation zwischen den verschiedenen Spektralbereichen und ist definiert als: Sie wird geschätzt als: Es gilt: Geo-Informationssysteme 40

10.5 Normalverteilungen (V) Beispiel Geo-Informationssysteme 41 Klassifikation (III) Endgültige Maximum-Likelihood Entscheidungsregel Durch Einsetzen von (5) erhalten wir Falls die p(c j (x,y)) unbekannt sind, wird die Gleichverteilung aller Klassen C i angenommen. Dann vereinfacht sich die Funktion g i zu: Anzahl der Trainingspixel Es werden mindestens m + 1 Trainingpixel pro Klasse C i benötigt, damit die Kovarianz-Matrix nicht singulär wird. Experimentelle Untersuchungen zeigen jedoch, dass in praktischen Anwendungen mindestens 10 m und für gute Ergebnisse etwa 100 m Trainingspixel i i pro Klasse nötig sind. Geo-Informationssysteme 42

Klassifikation (IV) Problem Nach der bisherigen Entscheidungsregel wird jedes Pixel einer Klasse zugeordnet, auch wenn die bedingte Wahrscheinlichkeit für diese Klasse sehr klein ist. Dieser Fall kann z.b. auftreten, wenn für eine Klasse nicht genügend Trainingsdaten i vorhanden sind. Er führt leicht zu Fehlern in der Klassifikation (a). Einführung von Grenzwerten Wähle einen Grenzwert (Threshold) p min. Pixel, deren Maximum-Likelihood-Wert nicht grösser als p min ist, werden keiner Klasse zugeordnet (b). Geo-Informationssysteme 43 Klassifikation (V) Beispiel Landsat Rasterbild 256 x 276 Pixel Vier Klassen: water, fire burn, vegetation, urban für jede Klasse ein Trainingsfeld (Menge räumlich benachbarter Trainingspixel Geo-Informationssysteme 44

Klassifikation (VI) Beispiel (Fortsetzung) Mittelwerte und Kovarianz-Matrizen für die vier Klassen Tabellarisches Ergebnis der Klassifikation Geo-Informationssysteme 45 10.6 Nearest-Neighbor Klassifikation (I) Motivation Die Maximum-Likelihood Klassifikation benötigt eine zuverlässige Schätzung der Mittelwerte und der Kovarianz-Matrizen für jede Klasse. Bei gleicher Menge von Trainingspixeln können die Mittelwerte zuverlässiger geschätzt werden als die Kovarianz-Matrizen. entwickle Klassifikator, der nur Mittelwerte benutzt Idee Bestimme die Mittelwerte m i für jede Klasse C i. i j i Ordne jedes Pixel D(x,y) der Klasse C j mit dem nächstgelegen m j (Nearest Neighbor) zu. Geo-Informationssysteme 46

10.6 Nearest-Neighbor Klassifikation (II) Nearest-Neighbor Neighbor Entscheidungsregel Wir definieren Die Nearest-Neighbor Entscheidungsregel g lautet wie folgt: mit Geo-Informationssysteme 47 10.6 Nearest-Neighbor Klassifikation (III) Vergleich Nearest-Neighbor Klassifikation benötigt weniger Trainingspixel Die Trennflächen zwischen den D(x,y) verschiedener Klassen sind linear (Nearest-Neighbor) bzw. quadratisch (Maximum-Likelihood), so dass die Maximum-Likelihood Klassifikation bei Klassen mit konkaver Form eine wesentlich bessere Klassifikationsgüte i liefert. Effizienz Maximum-Likelihood Klassifikation: wird für jede Klasse vorberechnet für jedes Pixel und für jede Klasse bleiben m² + m Multiplikationen und m² + 2 m + 1 Additionen auszuführen Nearest-Neighbor Klassifikation 2m i und m i * m i werden für jede Klasse vorberechnet für jedes Pixel und für jede Klasse m Multiplikationen und m Additionen Nearest-Neighbor Klassifikation ist wesentlich effizienter Geo-Informationssysteme 48