Multivariate Lineare Modelle SS 2008 1 Diskriminanzanalyse 1. Entscheidungstheorie 2. DA für normalverteilte Merkmale 3. DA nach Fisher 1
Problemstellungen Jedes Subjekt kann einer von g Gruppen angehören für jedes Subjekt p Variablen gemessen x Diskriminanzanalyse (DA): Von allen Beobachtungseinheiten Gruppenzugehörigkeit bekannt. Suche Funktionen d k (x) um mittels x zwischen Gruppen möglichst gut zu unterscheiden (Diskriminanz) Klassifikation: Neue Beobachtungseinheiten, möchte anhand von x die Gruppenzugehörigkeit bestimmen Diskriminanzanalyse mit Lernstichprobe oft Basis für Klassifikation Variablenselektion weitere wichtige Aufgabe, aber hier nicht besprochen 2
1.1 Entscheidungstheorie Setting: Ω bestehend aus g 2 disjunkten Klassen Ω 1,..., Ω g p - dimensionaler Vektor x S, dem Stichprobenraum. Suche Funktion die anhand von x Objekte einer Klasse k {1,..., g} zuteilt Abstrakte Entscheidungsfunktion: e : S {1,..., g}, x ˆk = e(x) Falls ˆk = k dann richtige Entscheidung, sonst Misklassifikation Klassische Diskriminanzanalyse ist ein mögliches Verfahren Speziell für g = 2 auch logistische Regression, Machine Learning, etc. 3
Wahrscheinlichkeitstheoretisches Setting Seien x und k Zufallsvariablen k diskret... p(k) = P (ω Ω k ) > 0 x kann im Prinzip sowohl diskret als auch kontinuierlich, oder auch allgemeiner verteilt sein. Wir beschränken uns hier auf stetig Bedingte Dichte: f(x k), k {1,..., g} Unbedingte Dichte: f(x) = k p(k)f(x k)... Mischverteilung Satz von Bayes liefert posteriori - Wahrscheinlichkeit p(k x) = p(k)f(x k) f(x) p(k) und f(x k) normalerweise unbekannt Lernstichprobe 4
Entscheidungsregeln Fehlerklassifikationswahrscheinlichkeiten sollen minimiert werden Individuelle Fehlerrate: Bedingte Fehlerrate: ε kˆk(e) := P (e(x) = ˆk k). ε(e x) := P (e(x) k x). Gesamtfehlerrate: ε(e) = P (e(x) k) = S ε(e x)f(x)dx. Bayes-Regel: e(x) = ˆk mit p(ˆk x) p(l x), l = 1... g d.h. wähle jene Klasse, welche posteriori Wahrsch. maximiert ML-Regel: e(x) = ˆk mit f(x ˆk) f(x l), l = 1... g d.h. wähle jene Klasse, welche Likelihood maximiert ML-Regel ist Spezialfall von Bayes-Regel mit gleichverteiltem Prior 5
Optimalitätseigenschaften Bayes-Regel besitzt unter allen Regeln die kleinste bedingte Fehlerrate Beweis: Für beliebige Regel e(x) gilt: ε(e x) = P (e(x) k x) = 1 p(e(x) x) Per definitionem gilt aber für ˆk von Bayes-Regel : 1 p(ˆk x) 1 p(l x) QED Bayes-Regel b(x) für jedes x bedingt optimal ε(b) = ε(b x)f(x)dx ε(e x)f(x)dx = ε(e) S S 6
Kostenoptimale Regeln Kostenfunktion C(k, ˆk) falls Misklassifikationen nicht gleich teuer Korrekte Entscheidung: ˆk = k C(k, ˆk) = 0 Bedingte erwartete Kosten: C(ˆk x) = k C(k, ˆk)p(k x) Kostenoptimale Regel: Minimiere C(ˆk x)f(x)dx S Beispiele: Einfache symmetrische Kostenfunktion C e (k, ˆk) = C > 0 für ˆk k Bayes - Regel Indirekt proportionale Kostenfunktion C p (k, ˆk) = C/p(k) für ˆk k ML - Regel 7
Diskriminanzfunktion Formal basiert Entscheidung auf Maximum von g Funktionen Diskriminanzfunktionen d 1 (x),..., d g (x) Bayes-Regel: d k (x) = p(k x), ML-Regel: d k (x) = f(x k) Monotone Transformationen f(d k (x)) führen zu equivalenten Entscheidungsregeln Beispiel: ln(p(k x)) = ln(p(k)) + ln(f(x k)) Klassifikationsregel zerlegt S in g Klassengebiete D 0 k = {x S : d k (x) > d j (x), j k} Ränder dieser Gebiete werden speziell behandelt um eindeutige Zuordnung von ganz S in Klassen zu erhalten (Beachte, x R p und typischerweise p > 1) 8
Normalfall: Stichprobenerhebung p(k) und f(x k) nicht bekannt Lernstichprobe um Verteilungen zu schätzen Gesamtstichprobe: (x n, k n ), n = 1,..., N unabhängige Beobachtungen von der gemeinsamen Verteilung von x und k kann sowohl p(k) als auch f(x k) schätzen (e.g. ML) Geschichtet nach Klasse: N k unabhängige Beobachtungen aus Klasse k kann nur f(x k) schätzen (ML-Methode), p(k) muss als bekannt vorausgesetzt werden Geschichtet nach x: Für vorgegebene Werte x n wird Klasse k n erhoben (eher selten) 9
Parametrische Modelle Arten der geschätzten DA Verteilungsannahme an x (e.g. Normalverteilung) Verteilungsannahme an p(k x) (e.g. logistisches Modell) Verteilungsannahme an d k (x) Verteilungsfreie Verfahren nichtparametrische Schätzung von f(x k), Nearest neighbor Wir beschränken uns in dieser LVA auf die erste Kategorie von Modellen sowie auf Fishers Ansatz 10
Fehlerraten für geschätzte Regeln Hier für g = 2 theoretische Zerlegung D =< D 1, D 2 > aus Daten geschätzte Zerlegung ˆD =< ˆD 1, ˆD 2 > Theoretische Fehlerrate: ε(d, f) = p(1) f(x 1) dx + p(2) f(x 2) dx D 2 Tatsächliche Fehlerrate: ε( ˆD, f) = p(1) D 1 f(x 1) dx + p(2) f(x 2) dx ˆD 2 ˆD 1 Diese muss selbst geschätzt werden, da f ja nicht bekannt 11
Schätzen der Fehlerrate Plug in-schätzung: ε( ˆD, ˆf) = ˆp(1) ˆf(x 1) dx + ˆp(2) ˆf(x 2) dx ˆD 2 ˆD 1 nur in Spezialfällen explizit berechenbar Resubstitutionsfehlerrate: Anteil der Misklassifikationen der Lernstichprobe, kein guter Schätzer da klarerweise zu optimistisch (positiver Bias) Teststichprobe: Bilde Lernstichprobe und Teststichprobe (großer Datensatz!) Zyklische Verfahren, Cross validation: Bilde mehrfach Lernstichprobe und Teststichprobe Extremfall: Teststichprobe ein Element Jackknife 12
1.2 DA für normalverteilte Merkmale Annahme: x multivariat normalverteilt Theoretischer Fall: f(x k) N p (µ k, Σ k ), µ k, Σ k bekannt Bayes-Regel in logarithmierter Form: Maximiere ln(p(k x)) = ln(p(k)) + ln(f(x k)) Vernachlässige konstanten Term mit Dimension: d k (x) = (x µ k ) Σ 1 k (x µ k)/2 ln(det Σ k )/2 + ln(p(k)) ML-Regel: ln(p(k)) konstant kann ebenfalls ignoriert werden Im allgemeinen Fall d k quadratische Funktion in x Σ k unterschiedlich in verschidenen Gruppen bereits im eindimensionalen problematisch (zeichne Beispiel) 13
Lineare Diskriminanzanalyse (LDA) Annahme: Σ 1 = = Σ g = Σ ln(det Σ k )/2 konstant d k (x) = (x µ k ) Σ 1 (x µ k )/2 + ln(p(k)) Man nennt (x µ k ) Σ 1 (x µ k ) Mahalanobis-Distanz Quadratischer Term von d k (x) ebenfalls unabhängig von k Lineare Diskriminanzfunktion µ k Σ 1 x µ k Σ 1 µ k /2 + ln(p(k)), k = 1,..., g Klassengrenzen Abschnittsweise Hyperebenen: d k (x) = d j (x) Einfachster Spezialfall: Σ = σ 2 I Geometrische Interpretation straight forward (vgl. F.H. S.318) 14
LDA bei unbekannten Parametern Schätze aus Lernstichprobe ˆµ k und ˆΣ k wie üblich ˆµ k = x k, ˆΣk = S k, k = 1,..., g In vielen Programmpaketen LDA implementiert: Verwende gepoolte empirische Kovarianzmatrix S = 1 N g g (N k 1)S k k=1 unverzerrter Schätzer von Σ = Σ 1 = = Σ g Geschätzte Diskriminanzfunktion: ˆd k (x) = x ks 1 x 1 2 x ks 1 x k + ln(p(k)) wobei p(k) durch N k /N geschätzt werden kann (bei Gesamtstichprobe) 15
1.3 DA nach Fisher Braucht keine Annahme an die Verteilung von x 2 Klassen: Beobachtungen (x 11,..., x 1N1 ) und (x 21,..., x 2N1 ) Suche Linearkombination derart, dass Diskriminanz optimal y 11 = a x 11, y 12 = a x 12, etc., o.b.d.a. a = 1 Kriterium um optimales a zu wählen: Q(a) = (ȳ 1 ȳ 2 ) 2 s 2 1 + s2 2, mit ȳ 1 = a x 1., s 2 1 = N 1 n=1 (y 1n ȳ 1 ) Vergleiche mit Konzept von MANOVA. Es gilt: s 2 1 + s 2 2 = (N 1 + N 2 2)a Sa =: a W a W... Inner-Klasse SSP Matrix 16
Maximiere Allgemeine LDA nach Fisher Q(a) = a Ba a W a, B... Zwischen Klassen SSP Optimierung unter Annahme a W a = 1: W 1 Ba = λa Eigenwertproblem ganz analog zur kanonische Korrelation Für g = 2 zeigt man leicht B = N 1N 2 N 1 +N 2 ( x 1. x 2. )( x 1. x 2. ) und weiters a = KW 1 ( x 1. x 2. ) Daher für zwei Faktoren ML - LDA und Fisher äquivalent Für g > 2 unterschiedliche Konzepte 17
Beispiel LDA mit SAS Datensatz maus.sas7bdat und auch mausneu.sas7bdat SAS-Programm Bsp9.sas PROC CANDISC (Fisher) PROC DISCRIM (ML - LDA) 18