Signalentdeckungstheorie, Dichteschätzung

Ähnliche Dokumente
k-nächste-nachbarn-schätzung

Überblick. Überblick. Bayessche Entscheidungsregel. A-posteriori-Wahrscheinlichkeit (Beispiel) Wiederholung: Bayes-Klassifikator

Lineare Klassifikatoren

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Klassifikation von Daten Einleitung

Wichtige Definitionen und Aussagen

Nichtlineare Klassifikatoren

Wahrscheinlichkeitstheorie 2

70 Wichtige kontinuierliche Verteilungen

Mustererkennung. Bayes-Klassifikator. R. Neubecker, WS 2016 / Bayes-Klassifikator

Statistik und Wahrscheinlichkeitsrechnung

Vorlesung: Statistik II für Wirtschaftswissenschaft

Statistik und Wahrscheinlichkeitsrechnung

4 Absolutstetige Verteilungen und Zufallsvariablen 215/1

Lösungen zu Übungsblatt 9 Höhere Mathematik2/Stochastik 2 Master KI/PI

Statistik I für Betriebswirte Vorlesung 13

EFME Aufsätze ( Wörter) Der Aufbau von Entscheidungsbäumen...1

Mehrdimensionale Zufallsvariablen

Wahrscheinlichkeitstheorie und Statistik

Einführung in Quantitative Methoden

Dynamische Systeme und Zeitreihenanalyse // Multivariate Normalverteilung und ML Schätzung 11 p.2/38

Theorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"

1 Grundlagen der Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsräume. Ein erster mathematischer Blick auf Zufallsexperimente...

Linear nichtseparable Probleme

Grundlagen der Wahrscheinlichkeitstheorie

Klassifikation von Signifikanztests

13 Grenzwertsätze Das Gesetz der großen Zahlen

Modellanpassung und Parameterschätzung. A: Übungsaufgaben

UE Statistische Mustererkennung WS 2018 Angaben zur 2ten Aufgabengruppe

Statistik I für Betriebswirte Vorlesung 14

5 Binomial- und Poissonverteilung

Kapitel IX - Mehrdimensionale Zufallsvariablen

Statistik III. Walter Zucchini Fred Böker Andreas Stadie

Kapitel VII. Einige spezielle stetige Verteilungen

10.5 Maximum-Likelihood Klassifikation (I)

Zufallsvariablen [random variable]

Wahrscheinlichkeitsverteilungen

Prüfungsvorbereitungskurs Höhere Mathematik 3

Mathematik für Biologen

Wirtschaftsmathematik

Wahrscheinlichkeit und Statistik: Zusammenfassung

Das Histogramm ist glockenförmig. Es würde bei mehr als vier Fehlerquellen sich der Glockenform noch besser annähern.

13 Mehrdimensionale Zufallsvariablen Zufallsvektoren

Stochastik für Ingenieure

Computergestützte Datenanalyse in der Kern- und Teilchenphysik

Modellierung- und Simulation Mathis Plewa ( )

Vorlesung 7b. Unabhängigkeit bei Dichten. und die mehrdimensionale Standardnormalverteilung

Klassifikation von Signifikanztests

1. Was ist eine Wahrscheinlichkeit P(A)?

Statistik I für Betriebswirte Vorlesung 13

Klassifikation von Signifikanztests

STETIGE VERTEILUNGEN

Wichtige Begriffe und Sätze aus der Wahrscheinlichkeitsrechnung

Prüfungsvorbereitungskurs Höhere Mathematik 3

Numerische Methoden und Algorithmen in der Physik

Fakultät für Informatik Übung zu Kognitive Systeme Sommersemester 2016

Statistische Analyseverfahren Abschnitt 2: Zufallsvektoren und mehrdimensionale Verteilungen

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Zufallsvariablen. Diskret. Stetig. Verteilung der Stichprobenkennzahlen. Binomial Hypergeometrisch Poisson. Normal Lognormal Exponential

Musterlösung der Klausur vom 29. Juli 2003

Mathematische Statistik Aufgaben zum Üben. Schätzer

Zusammenfassung Mathe II. Themenschwerpunkt 2: Stochastik (ean) 1. Ein- und mehrstufige Zufallsexperimente; Ergebnismengen

f(x) = P (X = x) = 0, sonst heißt Poisson-verteilt mit Parameter (oder Rate) λ > 0, kurz X P o(λ). Es gilt x x! 1 Wahrscheinlichkeitsrechnung 212

Verfahren zur Datenanalyse gemessener Signale

Punktetabelle (wird von den Korrektoren beschriftet)

1 Diskriminanzanalyse

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Mathematica: u=5;s=1;plot[exp[-0.5((x-u)/s)^2],{x,0,10}] 76

Stochastik Wiederholung von Teil 1

2.2 Binomialverteilung, Hypergeometrische Verteilung, Poissonverteilung

Fit for Abi & Study Stochastik

Stochastik (BSc D-MAVT / BSc D-MATH / BSc D-MATL)

Hypothesenbewertungen: Übersicht

How To Find Out If A Ball Is In An Urn

Statistik für Bachelorund Masterstudenten

Auswertung und Lösung

Numerische Methoden und Algorithmen in der Physik

I Grundbegriffe 1 1 Wahrscheinlichkeitsräume Bedingte Wahrscheinlichkeiten und Unabhängigkeit Reellwertige Zufallsvariablen...

Binomialverteilung. Häufigkeit, mit der Ereignis A bei n unabhängigen Versuchen eintritt. Träger von X : X = {0, 1, 2,..., n}.

3. Gemeinsame und bedingte Verteilung, stochastische Unabhängigkeit

i =1 i =2 i =3 x i y i 4 0 1

Kapitel VII - Funktion und Transformation von Zufallsvariablen

Biostatistik, Sommer 2017

Wahrscheinlichkeitsfunktion. Binomialverteilung. Binomialverteilung. Wahrscheinlichkeitshistogramme

Einführung in die Maximum Likelihood Methodik

Klassifikation von Signifikanztests

Definition Sei X eine stetige Z.V. mit Verteilungsfunktion F und Dichte f. Dann heißt E(X) :=

Vorlesung Donnerstag, 10:00-11:30 Uhr M629 Freitag, 8:15-9:45 Uhr R513

Abiturvorbereitung Stochastik. neue friedländer gesamtschule Klasse 12 GB Holger Wuschke B.Sc.

4.2 Moment und Varianz

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Sprachtechnologie. Tobias Scheffer Thomas Vanck

73 Hypothesentests Motivation Parametertest am Beispiel eines Münzexperiments

Mathematik für Biologen

Biostatistik, Winter 2011/12

Statistische Methoden in den Umweltwissenschaften

Transkript:

Signalentdeckungstheorie, Dichteschätzung Mustererkennung und Klassifikation, Vorlesung No. 6 1 M. O. Franz 15.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001.

Übersicht 1 Signalentdeckungstheorie 2 Dichteschätzung 3 Kerndichteschätzer

Übersicht 1 Signalentdeckungstheorie 2 Dichteschätzung 3 Kerndichteschätzer

Klassifikationsfehler Es gibt zwei Möglichkeiten für Fehler: Beobachtung x fällt in in R 2, der wahre Naturzustand ist ω 1. Beobachtung x fällt in in R 1, der wahre Naturzustand ist ω 2.

Bayesfehler Fehlerwahrscheinlichkeit: p(fehler) = p(x R 2, ω 1 ) + p(x R 1, ω 2 ) = p(x R 2 ω 1 )p(ω 1 ) + p(x R 1 ω 2 )p(ω 2 ) = p(x ω 1 )p(ω 1 ) dx + p(x ω 2 )p(ω 2 ) dx R 1 R 2 Der minimale Fehler wird erreicht, wenn die Entscheidungsgrenze auf dem Punkt liegt, an dem beide A-posteriori-Wahrscheinlichkeiten gleich groß sind ( Bayessche Entscheidungsregel). Der dadurch erreichbare minimale Fehler heißt Bayesfehler.

4 mögliche Ausgänge eines Detektionsexperimentes 2 Zustände in der Signaldetektion (Dichotomie): ω 1 - zu detektierendes Signal ist tatsächlich da, ω 2 - Signal nicht vorhanden. Hit: Vorhandenes Signal wurde detektiert (auch richtig positiv). Detektionswahrscheinlichkeit (Sensitivität, Richtig-Positiv-Rate): p(x R 1 ω 1 ). Korrekte Rückweisung: Signal ist nicht vorhanden und wurde auch nicht detektiert (auch richtig negativ). Richtig-Negativ-Rate (Spezifität): p(x R 2 ω 2 ). Fehlalarm: Detektion trotz nicht vorhandenem Signal (auch falsch positiv, Fehler 1. Art). Fehlalarmrate (Falsch-Positiv-Rate): p(x R 1 ω 2 ). Miss: Vorhandenes Signal wurde nicht detektiert (auch falsch negativ, Fehler 2. Art). Falsch-Negativ-Rate: p(x R 2 ω 1 ).

Beispiel: Signaldetektion bei gaußverteiltem Rauschen Maß für Unterscheidbarkeit (unabhängig vom Klassifikator): d = µ 2 µ 1 σ

ROC-Kurve ROC: Receiver Operating Characteristic Darstellung der Detektionsvs. Fehlalarmrate für alle Schwellwerte

ROC-Kurven bei mehrdimensionalen Problemen Bei mehrdimensionalen Problemen gibt es i.a. zu jeder Hit-Rate viele mögliche Entscheidungsflächen mit unterschiedlichen Fehlalarmraten. ROC-Kurven werden ebenfalls über einen Parameter gewonnen, der in beiden Extremen durch den Ursprung und durch (1,1) geht. Fläche unter ROC-Kurve (AUC - area under curve) ist ein häufiges Maß für die Qualität eines Klassifikators.

Aufgabe 5 (Signalentdeckungstheorie) In einer Sortiermaschine sollen Kaffeebohnen von irrtümlich beigemischten Steinen getrennt werden. Kaffee kommt in 60 % aller Fälle vor. Die Wahrscheinlichkeiten der Längen für beide Kategorien sind in folgender Tabelle aufgetragen: Länge l (mm) 5 6 7 8 9 10 11 12 p(l Kaffee) 0.074 0.221 0.368 0.221 0.074 0.037 0.005 0.000 p(l Stein) 0.000 0.005 0.037 0.074 0.221 0.368 0.221 0.074 1. Tragen Sie beide A-posteriori-Wahrscheinlichkeiten in einem Histogramm auf. 2. Ab welcher Länge würden Sie dasc Objekt wegwerfen? 3. Für den von Ihnen gewählten Schwellwert: was ist die zugehörige Detektionswahrscheinlichkeit für Steine? Was ist die Fehlalarmrate? Wie wahrscheinlich sind korrekte Identifikationen von Steinen? Wie häufig kommen Steine durch? 4. Tragen Sie die zugehörige ROC-Kurve auf. Was ist der AUC-Wert? In einer zweiten Charge befinden sich etwas kleinere Kaffebohnen mit gleicher Häufigkeit: Länge l (mm) 5 6 7 8 9 10 11 12 p(l Kaffee) 0.221 0.368 0.221 0.100 0.070 0.010 0.005 0.000 p(l Stein) 0.000 0.005 0.037 0.074 0.221 0.368 0.221 0.074 5. Wie ist hier der AUC-Wert? Welches Klassifikationsproblem ist leichter?

Übersicht 1 Signalentdeckungstheorie 2 Dichteschätzung 3 Kerndichteschätzer

Parametrische Klassifikation Die bisher vorgestellten Techniken waren parametrisch, d.h. die Form der zugrundeliegenden Verteilungen wurde als bekannt vorausgesetzt: Bayes-Klassifikator: A-posteriori-Wahrscheinlichkeit p(ω i x) muß analytisch oder als Histogramm gegeben sein. Spezialfall Gaußverteilung: p(ω i x) = N (µ, σ 2 ) Es gibt eine Vielzahl weiterer parametrischer Techniken, bei denen einzelne Parameter von Verteilungen geschätzt werden (z.b. µ, σ in N (µ, σ 2 )): Maximum-Likelihood- oder Bayessche Parameterschätzung. Problem: Die meisten parametrisierten Verteilungsmodelle passen nicht auf die tatsächlich vorkommenden Dichten.

Nichtparametrische Klassifikation Nichtparametrische Klassifikationstechniken können bei beliebigen Verteilungen, da sie (fast) keine Annahmen über die vorkommenden Verteilungen machen. Ansätze: Schätzung der Wahrscheinlichkeit mit Histogrammen bei Zufallsvariablen mit diskreten Werten Dichteschätzung bei kontinuierlichen Zufallsvariablen Nächste-Nachbar-Techniken: direkte Schätzung der Entscheidungsfunktion aus den Daten

Schätzung von Wahrscheinlichkeiten (kont. ZV) Wahrscheinlichkeit p, daß ein Vektor x in die Region R fällt: p = p(x) dx Bei n unabhängigen, identisch verteilten (i.i.d.) Versuchen mit k Treffern: ( n p(k p) = p k) k (1 p) n k (Binomialverteilung) mit Erwartungswert E[k] = np. R Schätzung von p: p = k/n Die Verteilung von k/n hat bei großem n eine scharfe Spitze bei p, d.h. k/n ist ein guter Schätzer für p.

Dichteschätzung Wahrscheinlichkeitsdichte einer kontinuierlichen Variablen ist definiert als Wahrscheinlichkeit pro Volumen. Für hinreichend kleine Regionen mit Volumen V gilt für stetiges p(x) p = p(x) dx p(x)v. Mit dem vorherigen Schätzer p = k/n ergibt sich R p(x) k/n V Problem: Wenn man keine räumlich geglättete Schätzung will, muß V 0 laufen. Bei endlich vielen Daten fällt aber irgendwann kein x i mehr in R, oder womöglich fällt ein x i genau auf x. Beide Schätzungen sind nutzlos Für reale Schätzung ist Glättung und Streuung der k/n unvermeidbar!

Ideale Dichteschätzung Volumen nimmt in Abhängigkeit von n ab, z.b. mit V n = 1/ n (oben) oder umschließt einen Teil der Daten, z.b. k n = n (unten). In beiden Fällen konvergiert die Schätzung gegen die korrekte Dichte (bei unendlich vielen Daten!).

Übersicht 1 Signalentdeckungstheorie 2 Dichteschätzung 3 Kerndichteschätzer

Dichteschätzung mit einem Kern Beispiel: d-dimensionaler Hyperwürfel mit Kantenlänge h um x: V = h d Schreibweise mit einem Kern (oder Fensterfunktion): { 1 uj < 1/2 ϕ(u) = 0 sonst d.h. ϕ((x x i )/h) ist 1, wenn x i in den Hyperwürfel fällt, sonst 0. Anzahl der x i im Hyperwürfel: k = n ( ) x xi ϕ h i=1 Dichteschätzung mit p(x) (k/n)/v: p(x) 1 n ( ) x xi ϕ nv h i=1

Kerne zur Dichteschätzung Die Würfelfunktion ist ein Beispiel für einen Kern zur Dichteschätzung. Andere Kerne sind ebenfalls erlaubt (z.b. Gaußfunktionen, Exponentialfunktionen usw.). Voraussetzung: Die Schätzung muß eine legitime Dichtefunktion ergeben. Das läßt sich garantieren, wenn ϕ(x) ebenfalls eine Dichtefunktion ist, d.h. ϕ(x) 0 und ϕ(u) du = 1 Verhalten von 1/Vϕ(x/h) für verschiedene Breiten h (mit V = h d ):

Effekt der Kernbreite auf Dichteschätzung Je breiter, desto glatter und gröber die Schätzung (Interpolationseffekt) Je schmaler, desto höher die Auflösung, aber auch der Rauscheffekt der einzelnen Beispiele Für unendlich viele Beispiele, vernünftige Kerne und langsam schrumpfende Breite (< 1/n) läßt sich zeigen, daß der Schätzer gegen die wahre Dichte konvergiert (s. Duda et al., 2001).

Beispiel: Dichteschätzung einer eindimensionalen Normalverteilung mit Gaußkern

Beispiel: Dichteschätzung einer zweidimensionalen Normalverteilung mit Gaußkern (1)

Beispiel: Dichteschätzung einer zweidimensionalen Normalverteilung mit Gaußkern (2)

Beispiel: Dichteschätzung einer bimodalen Verteilung mit Gaußkern

Klassifikation mit Kerndichteschätzern 1 Schätzung der A-priori-Wahrscheinlichkeiten p(ω i ) der Kategorien über ihre relativen Häufigkeiten 2 Wahl eines geeigneten Kerns und einer geeigneten Breite (Vorsicht: mit einer zu kleinen Breite lassen sich die Trainingsdaten perfekt modellieren, aber bei der Klassifikation von bisher unbekannten Beispielen ist eine schlechte Leistung zu erwarten!) 3 Schätzung der Likelihood p(x ω i ) für jede Kategorie mit Kerndichteschätzer. 4 Klassifikation mit Bayes-Klassifikator Vorteil: Allgemeingültigkeit - funktioniert im Prinzip für beliebige Verteilung. Nachteil: braucht riesige Trainingssets, funktioniert nur bei niedrigdimensionalen Daten ( Fluch der Dimensionalität )

Beispiel: Klassifikation mit Kerndichteschätzern