1 Diskriminanzanalyse

Ähnliche Dokumente
Einführung in die Maximum Likelihood Methodik

Überblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung

Konfidenzintervalle Grundlegendes Prinzip Erwartungswert Bekannte Varianz Unbekannte Varianz Anteilswert Differenzen von Erwartungswert Anteilswert

Einführung in die statistische Testtheorie II

Ü b u n g s b l a t t 13

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Clusteranalyse. Tobias Scheffer Thomas Vanck

Statistische Tests. Kapitel Grundbegriffe. Wir betrachten wieder ein parametrisches Modell {P θ : θ Θ} und eine zugehörige Zufallsstichprobe

1.1.1 Ergebnismengen Wahrscheinlichkeiten Formale Definition der Wahrscheinlichkeit Laplace-Experimente...

Wahrscheinlichkeitstheorie und Statistik vom

Nachhol-Klausur - Schätzen und Testen - Wintersemester 2013/14

Die Varianz (Streuung) Definition

3.3 Methoden zur Evaluierung von Schätzern

1 Gemischte Lineare Modelle

3.4 Asymptotische Evaluierung von Sch atzer Konsistenz Konsistenz Definition 3.4.1: konsistente Folge von Sch atzer

Signalverarbeitung 2. Volker Stahl - 1 -

die wir als Realisationen von unabhängig und identisch verteilten Zufallsvariablen

Lineare Klassifikationsmethoden

Statistik Testverfahren. Heinz Holling Günther Gediga. Bachelorstudium Psychologie. hogrefe.de

Schätzer und Konfidenzintervalle

Kapitel 4: Binäre Regression

Zufallsvariablen [random variable]

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Formelsammlung zu Multivariate Verfahren

ETWR Teil B. Spezielle Wahrscheinlichkeitsverteilungen (stetig)

Einführung in die (induktive) Statistik

9 Diskriminanzanalyse

Klausur Stochastik und Statistik 31. Juli 2012

Seminar im Wintersemester 2010/2011: Quantitative und implementierte Methoden der Marktrisikobewertung

ANALYSIS I FÜR TPH WS 2016/17 1. Übung Übersicht

Stochastische Eingangsprüfung,

3.2 Lineare Optimierung (Entscheidungen unter Sicherheit)

Mathematik für Biologen

Einführung in die Induktive Statistik: Testen von Hypothesen

Varianz und Kovarianz

Multiplizitätskorrektur bei Variablenselektion

Tests einzelner linearer Hypothesen I

2 Zufallsvariable, Verteilungen, Erwartungswert

Informatik II Grundbegriffe der Wahrscheinlichkeitsrechnung

Lösungen ausgewählter Übungsaufgaben zum Buch. Elementare Stochastik (Springer Spektrum, 2012) Teil 3: Aufgaben zu den Kapiteln 5 und 6

Bayes sches Lernen: Übersicht

Computer Vision: Kalman Filter

Grundlagen der Mathematik, der Statistik und des Operations Research für Wirtschaftswissenschaftler

Kapitel 2.1: Die stochastische Sicht auf Signale Georg Dorffner 67

6. Multivariate Verfahren Zufallszahlen

6. Statistische Schätzung von ARIMA Modellen

Kapitel XII - Kennzahlen mehrdimensionaler Zufallsvariablen

Kapitel 5. Univariate Zufallsvariablen. 5.1 Diskrete Zufallsvariablen

10. Vorlesung. Grundlagen in Statistik. Seite 291. Martin-Luther-Universität Halle/Wittenberg

Kapitel 12 Stetige Zufallsvariablen Dichtefunktion und Verteilungsfunktion. stetig. Verteilungsfunktion

Multivariate Statistik

Ein- und Zweistichprobentests

Schätzverfahren ML vs. REML & Modellbeurteilung mittels Devianz, AIC und BIC. Referenten: Linda Gräfe & Konstantin Falk

5.8 Anpassungstests. W. Kössler (IfI HU Berlin) Werkzeuge der empirischen Forschung 389 / 419

Lösungen zur Klausur GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK

Einführung in die Statistik Kapitel 6: Crash-Course in Statistik: Testtheorie

4. Schließende Statistik (Inferenzstatistik, konfirmatorische Verfahren)

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Eigenwerte und Diagonalisierung

Kenngrößen von Zufallsvariablen

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.

Seminar zur Energiewirtschaft:

Übung zu Empirische Ökonomie für Fortgeschrittene SS 2009

Grundgesamtheit und Stichprobe

Grundbegriffe der Wahrscheinlichkeitsrechnung

Mathematik für Biologen

Statistik. Sommersemester Prof. Dr. Stefan Etschberger Hochschule Augsburg. für Betriebswirtschaft und internationales Management

Vorlesung 8b. Bedingte Erwartung, bedingte Varianz, bedingte Verteilung, bedingte Wahrscheinlichkeiten

Quantitatives Risikomanagement

Eingangsprüfung Stochastik,

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.

Klausur zur Vorlesung Statistik III für Studenten mit Wahlfach Statistik. 7. Februar 2008

Kapitel VIII - Tests zum Niveau α

Vorlesung 8a. Kovarianz und Korrelation

4. Woche Decodierung; Maximale, Perfekte und Optimale Codes. 4. Woche: Decodierung; Maximale, Perfekte und Optimale Codes 69/ 140

Kapitel 2 Wahrscheinlichkeitsrechnung

Statistische Tests für unbekannte Parameter

+ 2 F2 (u) X 1 F1 (u)) Der Koeffizient der unteren Tail-Abhängigkeit von (X 1,X 2 ) T wird folgendermaßen definiert:

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Statistik II für Betriebswirte Vorlesung 12

Klausur zum Fach GRUNDLAGEN DER WAHRSCHEINLICHKEITSTHEORIE UND STATISTIK. für Studierende der INFORMATIK

Mathematik II Frühlingsemester 2015 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren

2. Spezielle anwendungsrelevante Funktionen

Rückblick auf die letzte Vorlesung. Bemerkung

Elementare Begriffe der Wahrscheinlichkeitstheorie für die Sprachverarbeitung

STATISTIK Teil 2 Wahrscheinlichkeitsrechnung und schließende Statistik

Clusteranalyse: Gauß sche Mischmodelle

Copula Funktionen. Eine Einführung. Nils Friewald

Auswahl von Schätzfunktionen

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Datenanalyse. (PHY231) Herbstsemester Olaf Steinkamp

4 Unabhängige Zufallsvariablen. Gemeinsame Verteilung

Kapitel 1: Elemente der Statistik

Wahrscheinlichkeitsrechnung und Quantentheorie

Überblick über multivariate Verfahren in der Statistik/Datenanalyse

Logistische Regression I. Odds, Logits, Odds Ratios, Log Odds Ratios

Statistik II: Signifikanztests /1

Statistik, Datenanalyse und Simulation

Kapitel 5. Bayes Klassifikator

3 Bedingte Wahrscheinlichkeit, Unabhängigkeit

Eine zweidimensionale Stichprobe

Transkript:

Multivariate Lineare Modelle SS 2008 1 Diskriminanzanalyse 1. Entscheidungstheorie 2. DA für normalverteilte Merkmale 3. DA nach Fisher 1

Problemstellungen Jedes Subjekt kann einer von g Gruppen angehören für jedes Subjekt p Variablen gemessen x Diskriminanzanalyse (DA): Von allen Beobachtungseinheiten Gruppenzugehörigkeit bekannt. Suche Funktionen d k (x) um mittels x zwischen Gruppen möglichst gut zu unterscheiden (Diskriminanz) Klassifikation: Neue Beobachtungseinheiten, möchte anhand von x die Gruppenzugehörigkeit bestimmen Diskriminanzanalyse mit Lernstichprobe oft Basis für Klassifikation Variablenselektion weitere wichtige Aufgabe, aber hier nicht besprochen 2

1.1 Entscheidungstheorie Setting: Ω bestehend aus g 2 disjunkten Klassen Ω 1,..., Ω g p - dimensionaler Vektor x S, dem Stichprobenraum. Suche Funktion die anhand von x Objekte einer Klasse k {1,..., g} zuteilt Abstrakte Entscheidungsfunktion: e : S {1,..., g}, x ˆk = e(x) Falls ˆk = k dann richtige Entscheidung, sonst Misklassifikation Klassische Diskriminanzanalyse ist ein mögliches Verfahren Speziell für g = 2 auch logistische Regression, Machine Learning, etc. 3

Wahrscheinlichkeitstheoretisches Setting Seien x und k Zufallsvariablen k diskret... p(k) = P (ω Ω k ) > 0 x kann im Prinzip sowohl diskret als auch kontinuierlich, oder auch allgemeiner verteilt sein. Wir beschränken uns hier auf stetig Bedingte Dichte: f(x k), k {1,..., g} Unbedingte Dichte: f(x) = k p(k)f(x k)... Mischverteilung Satz von Bayes liefert posteriori - Wahrscheinlichkeit p(k x) = p(k)f(x k) f(x) p(k) und f(x k) normalerweise unbekannt Lernstichprobe 4

Entscheidungsregeln Fehlerklassifikationswahrscheinlichkeiten sollen minimiert werden Individuelle Fehlerrate: Bedingte Fehlerrate: ε kˆk(e) := P (e(x) = ˆk k). ε(e x) := P (e(x) k x). Gesamtfehlerrate: ε(e) = P (e(x) k) = S ε(e x)f(x)dx. Bayes-Regel: e(x) = ˆk mit p(ˆk x) p(l x), l = 1... g d.h. wähle jene Klasse, welche posteriori Wahrsch. maximiert ML-Regel: e(x) = ˆk mit f(x ˆk) f(x l), l = 1... g d.h. wähle jene Klasse, welche Likelihood maximiert ML-Regel ist Spezialfall von Bayes-Regel mit gleichverteiltem Prior 5

Optimalitätseigenschaften Bayes-Regel besitzt unter allen Regeln die kleinste bedingte Fehlerrate Beweis: Für beliebige Regel e(x) gilt: ε(e x) = P (e(x) k x) = 1 p(e(x) x) Per definitionem gilt aber für ˆk von Bayes-Regel : 1 p(ˆk x) 1 p(l x) QED Bayes-Regel b(x) für jedes x bedingt optimal ε(b) = ε(b x)f(x)dx ε(e x)f(x)dx = ε(e) S S 6

Kostenoptimale Regeln Kostenfunktion C(k, ˆk) falls Misklassifikationen nicht gleich teuer Korrekte Entscheidung: ˆk = k C(k, ˆk) = 0 Bedingte erwartete Kosten: C(ˆk x) = k C(k, ˆk)p(k x) Kostenoptimale Regel: Minimiere C(ˆk x)f(x)dx S Beispiele: Einfache symmetrische Kostenfunktion C e (k, ˆk) = C > 0 für ˆk k Bayes - Regel Indirekt proportionale Kostenfunktion C p (k, ˆk) = C/p(k) für ˆk k ML - Regel 7

Diskriminanzfunktion Formal basiert Entscheidung auf Maximum von g Funktionen Diskriminanzfunktionen d 1 (x),..., d g (x) Bayes-Regel: d k (x) = p(k x), ML-Regel: d k (x) = f(x k) Monotone Transformationen f(d k (x)) führen zu equivalenten Entscheidungsregeln Beispiel: ln(p(k x)) = ln(p(k)) + ln(f(x k)) Klassifikationsregel zerlegt S in g Klassengebiete D 0 k = {x S : d k (x) > d j (x), j k} Ränder dieser Gebiete werden speziell behandelt um eindeutige Zuordnung von ganz S in Klassen zu erhalten (Beachte, x R p und typischerweise p > 1) 8

Normalfall: Stichprobenerhebung p(k) und f(x k) nicht bekannt Lernstichprobe um Verteilungen zu schätzen Gesamtstichprobe: (x n, k n ), n = 1,..., N unabhängige Beobachtungen von der gemeinsamen Verteilung von x und k kann sowohl p(k) als auch f(x k) schätzen (e.g. ML) Geschichtet nach Klasse: N k unabhängige Beobachtungen aus Klasse k kann nur f(x k) schätzen (ML-Methode), p(k) muss als bekannt vorausgesetzt werden Geschichtet nach x: Für vorgegebene Werte x n wird Klasse k n erhoben (eher selten) 9

Parametrische Modelle Arten der geschätzten DA Verteilungsannahme an x (e.g. Normalverteilung) Verteilungsannahme an p(k x) (e.g. logistisches Modell) Verteilungsannahme an d k (x) Verteilungsfreie Verfahren nichtparametrische Schätzung von f(x k), Nearest neighbor Wir beschränken uns in dieser LVA auf die erste Kategorie von Modellen sowie auf Fishers Ansatz 10

Fehlerraten für geschätzte Regeln Hier für g = 2 theoretische Zerlegung D =< D 1, D 2 > aus Daten geschätzte Zerlegung ˆD =< ˆD 1, ˆD 2 > Theoretische Fehlerrate: ε(d, f) = p(1) f(x 1) dx + p(2) f(x 2) dx D 2 Tatsächliche Fehlerrate: ε( ˆD, f) = p(1) D 1 f(x 1) dx + p(2) f(x 2) dx ˆD 2 ˆD 1 Diese muss selbst geschätzt werden, da f ja nicht bekannt 11

Schätzen der Fehlerrate Plug in-schätzung: ε( ˆD, ˆf) = ˆp(1) ˆf(x 1) dx + ˆp(2) ˆf(x 2) dx ˆD 2 ˆD 1 nur in Spezialfällen explizit berechenbar Resubstitutionsfehlerrate: Anteil der Misklassifikationen der Lernstichprobe, kein guter Schätzer da klarerweise zu optimistisch (positiver Bias) Teststichprobe: Bilde Lernstichprobe und Teststichprobe (großer Datensatz!) Zyklische Verfahren, Cross validation: Bilde mehrfach Lernstichprobe und Teststichprobe Extremfall: Teststichprobe ein Element Jackknife 12

1.2 DA für normalverteilte Merkmale Annahme: x multivariat normalverteilt Theoretischer Fall: f(x k) N p (µ k, Σ k ), µ k, Σ k bekannt Bayes-Regel in logarithmierter Form: Maximiere ln(p(k x)) = ln(p(k)) + ln(f(x k)) Vernachlässige konstanten Term mit Dimension: d k (x) = (x µ k ) Σ 1 k (x µ k)/2 ln(det Σ k )/2 + ln(p(k)) ML-Regel: ln(p(k)) konstant kann ebenfalls ignoriert werden Im allgemeinen Fall d k quadratische Funktion in x Σ k unterschiedlich in verschidenen Gruppen bereits im eindimensionalen problematisch (zeichne Beispiel) 13

Lineare Diskriminanzanalyse (LDA) Annahme: Σ 1 = = Σ g = Σ ln(det Σ k )/2 konstant d k (x) = (x µ k ) Σ 1 (x µ k )/2 + ln(p(k)) Man nennt (x µ k ) Σ 1 (x µ k ) Mahalanobis-Distanz Quadratischer Term von d k (x) ebenfalls unabhängig von k Lineare Diskriminanzfunktion µ k Σ 1 x µ k Σ 1 µ k /2 + ln(p(k)), k = 1,..., g Klassengrenzen Abschnittsweise Hyperebenen: d k (x) = d j (x) Einfachster Spezialfall: Σ = σ 2 I Geometrische Interpretation straight forward (vgl. F.H. S.318) 14

LDA bei unbekannten Parametern Schätze aus Lernstichprobe ˆµ k und ˆΣ k wie üblich ˆµ k = x k, ˆΣk = S k, k = 1,..., g In vielen Programmpaketen LDA implementiert: Verwende gepoolte empirische Kovarianzmatrix S = 1 N g g (N k 1)S k k=1 unverzerrter Schätzer von Σ = Σ 1 = = Σ g Geschätzte Diskriminanzfunktion: ˆd k (x) = x ks 1 x 1 2 x ks 1 x k + ln(p(k)) wobei p(k) durch N k /N geschätzt werden kann (bei Gesamtstichprobe) 15

1.3 DA nach Fisher Braucht keine Annahme an die Verteilung von x 2 Klassen: Beobachtungen (x 11,..., x 1N1 ) und (x 21,..., x 2N1 ) Suche Linearkombination derart, dass Diskriminanz optimal y 11 = a x 11, y 12 = a x 12, etc., o.b.d.a. a = 1 Kriterium um optimales a zu wählen: Q(a) = (ȳ 1 ȳ 2 ) 2 s 2 1 + s2 2, mit ȳ 1 = a x 1., s 2 1 = N 1 n=1 (y 1n ȳ 1 ) Vergleiche mit Konzept von MANOVA. Es gilt: s 2 1 + s 2 2 = (N 1 + N 2 2)a Sa =: a W a W... Inner-Klasse SSP Matrix 16

Maximiere Allgemeine LDA nach Fisher Q(a) = a Ba a W a, B... Zwischen Klassen SSP Optimierung unter Annahme a W a = 1: W 1 Ba = λa Eigenwertproblem ganz analog zur kanonische Korrelation Für g = 2 zeigt man leicht B = N 1N 2 N 1 +N 2 ( x 1. x 2. )( x 1. x 2. ) und weiters a = KW 1 ( x 1. x 2. ) Daher für zwei Faktoren ML - LDA und Fisher äquivalent Für g > 2 unterschiedliche Konzepte 17

Beispiel LDA mit SAS Datensatz maus.sas7bdat und auch mausneu.sas7bdat SAS-Programm Bsp9.sas PROC CANDISC (Fisher) PROC DISCRIM (ML - LDA) 18