Multivariate Analysemethoden Günter Meinhardt Johannes Gutenberg Universität Mainz
(DFA) Discriminant Function Analysis (DFA) Klassifikation Ziele Maximale Trennung von Gruppen auf einem gegebenem Set von p Meßvariablen. Auffinden von latenten Diskriminanzfunktionen, die sukzessive maximale Gruppentrennung gewährleisten. In der Regel: Auffinden eines niedrig dimensionierten Diskriminanzraumes, in dem die Gruppen separierbar sind. Case-Classification in optimalen, niedrig dimensionierten Räumen. Bestimmung von Klassifikationsfunktionen für Case-Classification. Voraussetzung Gleiche (homogene) Varianz-Kovarianz Matrizen in allen Gruppen. Testungen der Gruppenunterschiede (Centroide), sowie der Homogenität der S j - Matrizen erfordern die Gültigkeit der multivariaten Normalverteilung.
(DFA) Klassifikation Ansatz Anwendung Nachteile Optimierung des Verhältnisses der Quadratsummen für between und within Group Varianz. Lösung über Eigenwertzerlegung einer aus B und W Komponenten zusammengesetzten Matrix. Diagnostische Trennung schwierig zu trennender Gruppen. Bestimmung kritischer diagnostischer Variablen / Reduktion auf relevante diagnostische Variablen in multivariaten Klassifikationen. Konstruktion von Algorithmen zur Mustertrennung (Pattern recognition machines) und Bildklassifikation (bildgebende Verf.). Qualitätskontrolle und Evaluation von Versuchs- und Kontrollgruppen in multivariaten Designs. Restriktion gleicher Varianz-Kovarianz Matrizen in allen Gruppen. Case-Classification: Klassifikation im Diskriminanzraum hat gegenüber MDC und Baysian Classifier keine wesentlichen Vorteile (außer Sparsamkeit) und läuft auf dasselbe hinaus.
Flügellänge: X Methoden der D Beispiel D-Beispiel 1.40 1.0 1.00 0.80 Bestes Kriterium auf x 0.60 0.40 0.0 Bestes Kriterium auf x 1 0.00 0.00 0.10 0.0 0.30 0.40 0.50 0.60 0.70 Fühlerlänge: X1 Blindmücke Stechmücke Kriterium Problem Klassifiziere anhand von Fühlerlänge (X 1 ) und Flügellänge (X ) möglichst eindeutig in Stechmücke (c 1 ) und Blindmücke (c ). Das geht mit einem Kriteriumswert auf jeder einzelnen Variable X 1 und X offenbar nicht.
Flügellänge: X Methoden der D Beispiel D-Beispiel 1.40 1.0 1.00 Kriteriumsfunktion 0.80 0.60 0.40 0.0 0.00 0.00 0.10 0.0 0.30 0.40 0.50 0.60 0.70 Fühlerlänge: X1 Blindmücke Stechmücke Kriterium Lösung: Eine lineare Kriteriumsfunktion teilt den Variablenraum in Gebiete: Oberhalb Stechmücke (c 1 ), unterhalb Blindmücke (c ). x b ax 1 Somit folgt die Klassifikationsfunktion g x, x 1 c1, wenn x ax1 b c, wenn x ax1 b
D Beispiel Einfache Lösung: Zuerst die Daten im Nullpunkt zentrieren und dann um den optimalen Winkel a drehen! x x Zentrierung & Rotation a a x 1 x 1 Die Varianz zwischen den Gruppen wird auf der Achse x 1 maximiert, und x steht senkrecht x 1. Eine Parallele zu x liefert das optimale Trennkriterium.
D Beispiel z-standard standardisiert Koordinaten rotiert um a = 46 (clockwise) 3.00 3.00.00.00 1.00 1.00 z 0.00 z' 0.00-1.00-1.00 -.00 -.00-3.00-3.00 -.00-1.00 0.00 1.00.00 3.00-3.00-3.00 -.00-1.00 0.00 1.00.00 3.00 z1 z1' Diskriminanzfunktion Die neue x- Achse z 1 ist die Diskriminanzfunktion y. Auf ihr läßt sich ein Kriterium zur optimalen Trennung beider Gruppen finden. Da eine Drehoperation auf die Diskriminanzfunktion geführt hat, ist sie darstellbar als eine Linearkombination der alten Koordinaten: y b x b x 1 1
D Beispiel y: Linearkombination y (Diskriminanzfunktion) Kriterium y 0 cosa sina z1 z 1 sina cosa z z z cosa z sina z 1 1 z sina z cosa z 1 Da y z 1 gilt y b z b z 1 1 mit b1 cosa und b sina Koeffizienten von y Das Auffinden der Koeffizienten b 1 und b ist also identisch mit dem Problem, den optimalen Drehwinkel a zu bestimmen. Hierfür braucht man ein Kriterium der gewünschten maximalen Trennung, und die Lösung des dahinter stehenden Maximierungsproblems. [Excel-Beispiel]
D Beispiel Rotation zur y - Funktion z z 1 y (Diskriminanzfunktion) Kriterium y 0 y (Diskriminanzfunktion) Klassifikation Case-Classification durch einfachen Vergleich mit dem Kriterium y 0. Prüfung des Gruppenunterschieds mit einem einfachen t - Test auf y. Voraussetzung: homogene Varianz-Kovarianz Matrizen.
Güte-Kriterium Kriterium der Maximierung Maximiert wird das Verhältnis der Quadratsummen für die Variation auf y zwischen Gruppen QS B und der Variation innerhalb Gruppen QS w. b QSBetween erklärte Variation max QS nicht erklärte Variation Within (Wähle die Koeffizienten b so, daß (b) maximal wird) Quadratsummenzerlegung Wie in der Varianzanalyse gilt die Quadratsummenzerlegung QS QS QS Total Between Within l mit QS y y Total K l1 i1 QS n y y K Between l l l1 K n l QS y y Within il l l1 i1 n il K = Anzahl Gruppen n l = Umfang Gruppe l
Kennwerte Kenngrößen der Güte g: (Eigenwert der Maximierung) g erklärte Var nicht erklärte Var g QSB erklärte Var 1g QS QS Gesamt Var B W g erklärte Var c, c "Kanonische Korrelation" 1g Gesamt Var 1 nicht erklärte Var, "Wilk's Lambda" 1g Gesamt Var Offenbar gilt c QSB QSW 1 QS QS QS QS B W B W
Test & Normierung c - Test der Trennleistung c m K N 1ln K = Anzahl Gruppen N = Sn l = n 1 + n + n K m = Anzahl Variablen ist c verteilt mit m(k-1) Freiheitsgraden Die Trennleistung wird mit einem c Test auf Signifikanz getestet Gepoolte Varianz der y - Funktion Normierte y - Funktion Die Varianz innerhalb der Gruppen wird zu einer gepoolt: sˆ y QS n s l W () l l l QSW (1) QSW () QSW ( K ) l 1 1 1 1 df n n n n l 1 K l l Damit wird die Varianz der Diskriminanzfunktion auf 1 normiert: y y s y y ˆy 1 sˆ y var var 1 sˆ ˆ y sy
B und W Matrix der x-variablen MANOVA Additivität der Variation Es gilt: Totale QS und Kreuzprodukte Within Group QS M B W Between Group QS und Kreuzprodukte und Kreuzprodukte Kompakte Darstellung x xx x n x xx x x x x x t t t il il l l l il l il l l i l l i Hierin sind die x Vektoren mit m Komponenten (Variablen): x il x x x il1 il ilm x l x x x l1 l lm x x x x 1 m Regel Die Matrizen B und W werden als inneres Produkt (Zeilen- mal Spalten) der Variablen-Vektoren aufgebaut und dann über Fälle und Gruppen summiert.
B und W Matrix der x-variablen B-Matrix (p= Vars) Treatment (Group) Quadratsummen & Kreuzprodukte x 1 x TQS1 TQS1 x 1 B TQS1 TQS x Komponenten TQS n x x n x x 1 1 11 1 1 1 Group Var TQS n x x n x x 1 1 TQS n x x x x n x x x x 1 1 11 1 1 1 1
B und W Matrix der x-variablen W-Matrix (p= Vars) Komponenten W aus gepoolten S - Matrizen Within group Quadratsummen & Kreuzprodukte (gepoolt) n x 1 x WQS1 WQS1 W x 1 WQS 1 WQS x 1 n WQS x x x x 1 i11 11 i1 1 i1 i1 Group Var n1 n WQS x x x x i1 1 i i1 i1 n 1 WQS x x x x x x x x 1 i11 11 i1 1 i1 1 i i1 i1 W n1s 1 ns nksk n mit S l der Varianz-Kovarianz Matrix in Gruppe l.
Gang der Lösung (DFA) Max-Bedingung QS QS B W t v Bv t v Wv mit v b b 1 ist die Darstellung der Quadratsummen der Diskriminanzfunktion y über die quadratische Form mit dem Vektor der b - Koeffizienten Maximierung Eigenwertbedingung v ist Eigenvektor von A max führt auf v 0 v und dies auf B g W v 0 nach Vormultiplizieren mit -1 W B g I v 0 was eine Eigenwertbedingung für die Matrix -1 W auf -1 A W B ist. A ist eine m x m Matrix, also ist v allgemein m- stellig. Zu jedem Eigenwert g ungleich 0 existiert ein Eigenvektor v. Die Stellen des v Vektors sind die gesuchten Diskriminanzkoeffizienten jeder Diskriminanzfunktion.
Lösung (DFA) Eigenvektoren v Anzahl von v Normierung der Diskriminanzfunktion y Nicht standardisiert v t b b b v b b b t 1 11 1 m1 m 1k k mk mit k min K 1, m Es gibt so viele Eigenvektoren v, und damit auch so viele Diskriminanzfunktionen, wie die kleinere Zahl aus der Anzahl der Gruppen-1 und der Anzahl der Variablen, m. Die gepoolte Varianz einer Diskriminanzfunktion erhält man direkt aus der quadratischen Form 1 sˆy N K t v Wv Damit kann y direkt nach der Bestimmung normiert werden, indem man v 1 sˆy v als Koeffizientenvektor der normierten Diskriminanzfunktion verwendet: y 1 sˆ y m j1 b x Sind die Variablen x nicht standardisiert worden, kommt eine additive Konstante hinzu: m m y b0 bjx j mit b0 bjxj j1 j1 j j
Diskriminanzraum Mehrere DFs (Diskriminanzraum) Sukzessive extrahierte Diskriminanzfunktionen klären absteigend geordnet Diskriminationsvarianz auf. Es gilt für die anteilige Varianzaufklärung durch Funktion y i QSBi i QS QS W B 1 i k Alle Diskriminanzfunktionen können auf signifikante Diskriminationsleistung getestet werden (s. z.b. Bortz, 005, S. 610) Alle sukzessiven Diskriminanzfunktionen sind orthogonal. Das Prinzip der Aufteilung der Diskriminationsvarianz auf sukzessiv nach Beitrag geordnete und orthogonale Diskriminanzfaktoren ist mit der PCA gut vergleichbar. Daraus ergibt sich auch ein vergleichbarer Anwendungszusammenhang (s.n.)
Diskriminanzraum Anwendung Ermittlung relevanter Diskriminationsvariablen. Wenn man an einer Reduktion der kritischen Varablen interessiert ist. Wenn der Vergleich / die Trennung von Populationen im Vordergrund steht: Benutzt man k -Diskriminanzfunktionen als Eingabedaten für MANOVA oder T Kontraste, wird eine maximale Trennschärfe erreicht, die größer ist als die der k einzelnen Variablen des Sets für k < m. Einzelfall- Klassifikation Kann im Diskriminanzraum mit denselben Verfahren (MDC, QCR, Baysian Classifier) wie üblich gemacht werden. Die Einzelfall-Klassifikation wird im vollständigen Diskriminanznicht besser als im Variablenraum mit allen Variablen. Vorteile ergeben sich nur, wenn weniger Variablen verwendet werden sollen. Die DFA gestattet die Herleitung einfacher Klassifikationsfunktionen mit denen die Fallklassifikation besonders ökonomisch ist.