Sparse Hauptkomponentenanalyse

Ähnliche Dokumente
Sparse PCA und Robust PCA - PCA-Erweiterungen für die Bildund Videobearbeitung

Statistisches Lernen

BZQ II: Stochastikpraktikum

Übungsblatt

Singulärwertzerlegung

Hauptachsentransformation: Eigenwerte und Eigenvektoren

Elastic Net und Lasso: Lassen Sie in unübersichtlichen Situationen Software statistische Modelle finden.

Quadratische Formen. und. Symmetrische Matrizen

9. Vorlesung Lineare Algebra, SVD und LSI

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 27

Reduced-Rank Least Squares Modelle

Multivariate Verfahren

5.7 Lineare Abhängigkeit, Basis und Dimension

Kapitel 8. Einfache Regression. Anpassen des linearen Regressionsmodells, OLS. Eigenschaften der Schätzer für das Modell

Statistik II. II. Univariates lineares Regressionsmodell. Martin Huber 1 / 20

47 Singulärwertzerlegung

Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang. Institut für Geometrie und Praktische Mathematik RWTH Aachen

Musterlösungen Blatt Mathematischer Vorkurs. Sommersemester Dr. O. Zobay. Matrizen

1 Singulärwertzerlegung und Pseudoinverse

6. Übungsblatt zur Mathematik II für Inf, WInf

2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen

9. Übungsblatt zur Mathematik I für Maschinenbau

Lineare Algebra I (WS 12/13)

9 Eigenwerte und Eigenvektoren

9 Eigenwerte und Eigenvektoren

EXKURS: MATRIZEN UND LINEARE GLEICHUNGSSYSTEME

4.6 Berechnung von Eigenwerten

6 Lineare Gleichungssysteme

Matrizen. a12 a1. a11. a1n a 21. a 2 j. a 22. a 2n. A = (a i j ) (m, n) = i te Zeile. a i 1. a i 2. a i n. a i j. a m1 a m 2 a m j a m n] j te Spalte

Vektoren und Matrizen

Definitionen. Merkblatt lineare Algebra. affiner Teilraum Menge, die durch Addition eines Vektors v 0 zu allen Vektoren eines Vektorraumes V entsteht

3.1 Sukzessive Minima und reduzierte Basen: Resultate

7.2 Die adjungierte Abbildung

3 Optimierung mehrdimensionaler Funktionen f : R n R

Lineare Algebra: Determinanten und Eigenwerte

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

1 Gemischte Lineare Modelle

Methode der kleinsten Quadrate

Lineare Differenzengleichungen

Teil XII. Einfache Lineare Regression. Woche 10: Lineare Regression. Lernziele. Zusammenfassung. Patric Müller

Kapitel 13. Lineare Gleichungssysteme und Basen

Eigenwerte und Eigenvektoren

Skalarprodukt. Das gewöhnliche Skalarprodukt ist für reelle n-tupel folgendermaßen erklärt: Sind. und v := reelle n-tupel, dann ist

Inhalt. Mathematik für Chemiker II Lineare Algebra. Vorlesung im Sommersemester Kurt Frischmuth. Rostock, April Juli 2015

Singulärwert-Zerlegung

Überbestimmte Gleichungssysteme

TECHNISCHE UNIVERSITÄT MÜNCHEN FERIENKURS. Lineare Algebra FLORIAN NIEDERREITER & AILEEN WOLF

Blockmatrizen. Beispiel 1 Wir berechnen das Produkt von A R 4 6 mit B R 6 4 :

Kategorielle Zielgrössen

Lineare Algebra II 11. Übungsblatt

und Unterdeterminante

und Unterdeterminante

Orthogonale Matrix. Definition 4.19

Lösungsvorschlag zur Modulprüfung Numerische Methoden Sommersemester 2016

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018

Ausgewählte Lösungen zu den Übungsblättern 9-10

Höhere Mathematik für die Fachrichtung Physik

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

5 Lineare Gleichungssysteme und Determinanten

Lösungsskizzen zur Klausur

7. Wie lautet die Inverse der Verkettung zweier linearer Abbildungen? 9. Wie kann die Matrixdarstellung einer linearen Abbildung aufgestellt werden?

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Mathematik II Frühlingsemester 2015 Kapitel 8: Lineare Algebra 8.5 Eigenwerte und Eigenvektoren

9 Faktorenanalyse. Wir gehen zunächst von dem folgenden Modell aus (Modell der Hauptkomponentenanalyse): Z = F L T

D-MATH Numerische Methoden FS 2016 Dr. Vasile Gradinaru Alexander Dabrowski. Serie 9

Statistische Methoden in der Wirtschaftsund Sozialgeographie

Teil I. Lineare Optimierung

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

Lineare Hülle. span(a) := λ i v i : so dass k N, λ i R und v i A.

Mathematik für Naturwissenschaftler, Pruscha & Rost Kap 7 Lösungen

Iterative Verfahren, Splittingmethoden

51 Numerische Berechnung von Eigenwerten und Eigenvektoren

4.1. Verteilungsannahmen des Fehlers. 4. Statistik im multiplen Regressionsmodell Verteilungsannahmen des Fehlers

Singular Value Decomposition

1 Der Simplex Algorithmus I

5 Lineare Algebra (Teil 3): Skalarprodukt

Lineare Algebra II. Prof. Dr. M. Rost. Übungen Blatt 7 (SS 2011) Abgabetermin: Donnerstag, 2. Juni.

Pr[X t+1 = k] = Pr[X t+1 = k X t = i] Pr[X t = i], also. (q t+1 ) k = p ik (q t ) i, bzw. in Matrixschreibweise. q t+1 = q t P.

Spezielle Matrixformen

Principal Component Analysis (PCA)

Lineare Algebra. Mathematik II für Chemiker. Daniel Gerth

6.5 Lineare Abhängigkeit, Basis und Dimension

5 Eigenwerte und die Jordansche Normalform

Mathematik II Frühjahrssemester 2013

7.1 Matrizen und Vektore

Ausgewählte Lösungen zu den Übungsblättern 4-5

Serie 12: Eigenwerte und Eigenvektoren

2. Lineare Gleichungssysteme: direkte und iterative Lösungsverfahren

4.2 Die adjungierte Abbildung

Zusammenfassung: Einfache lineare Regression I

Euklidische und unitäre Vektorräume

Transkript:

Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36

1 Einführung 2 3 4 5 2 / 36

Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es sich um eine spezielle Form der gewöhnlichen (PCA) mittels SPCA einen besseren Überblick über die Daten verschaffen Interpretierbarkeit soll gegenüber PCA gesteigert werden 3 / 36

sgebiete Segmentierung z.b Industrie (Kunden- oder Marktsegmentierung) oder der Bildsegmentierung Genomforschung Sämtliche Gebiete, in denen große Datenmengen vorkommen 4 / 36

1 Einführung 2 3 4 5 5 / 36

Allgemeines Ziel: Dimension der Daten zu verringern ohne zu großen Informationsverlust Bilden von Linearkombinationen: Z j = a 1j X 1 + a 2j X 2 +... + a pj X p = a T j X Z j : Hauptkomponenten X T = (X 1,..., X p ): n p -Datenmatrix aj T = (a 1j,..., a pj ): Ladungen Es gilt: aj T a j = p k=1 a kj = 1 und (für j 2) ah T a j = 0, h < j Hauptkomponenten sind unabhängig voneinander 6 / 36

Herleitung der Hauptkomponenten maximiere Var(aj T X ) (bzw. äquivalent hierzu; maximiere X X T a j, wobei X die zentrierte Datenmatrix darstellt) a T j erste Hauptkomponente Z 1 wird gefunden, indem a 1 so bestimmt wird, dass Z 1 die größtmögliche Varianz erklärt entspricht dem zum größten Eigenwert von Cov(X ) = 1 n 1 X T X gehörendem Eigenvektor 7 / 36

Herleitung der Hauptkomponenten Definition (Singulärwertzerlegung): Ohne Beschränkung der Allgemeinheit sei der Erwartungswert aller Spalten von X gleich 0. Die Singulärwertzerlegung von X sei nun X = UDV T. (1) Z = UD beschreibt nun die Hauptkomponenten. Äquivalent dazu ist Z = XV mit V als die dazugehörigen Ladungen der Hauptkomponenten. Die Stichprobenvarianz der i-ten Hauptkomponente wird durch Dii 2 /n beschrieben. Bei U und V handelt es sich um orthogonale Matrizen, d.h. es gilt UU T = I bzw. VV T = I. Die Spaltenvektoren von V und U, v i und u i, nennt man Singulärvektoren (Eigenvektoren), die Elemente D ii der Diagonalmatrix D sind die Singulärwerte (Eigenwerte). 8 / 36

Anzahl der Hauptkomponenten Bestimme Anteil der erklärenden Varianz der ersten q Hauptkomponenten durch q Dii 2 i=1 p Dii 2 i=1 α Übliche Werte für α liegen zwischen 0.7 und 0.9 9 / 36

Probleme der Interpretation der Hauptkomponenten Linearkombinationen besitzen für gewöhnlich keine, bis sehr wenige 0-Einträge für die Ladungen alle p Variablen sind Bestandteil einer Hauptkomponente 10 / 36

1 Einführung 2 3 4 5 11 / 36

Allgemeines Bei sparse Hauptkomponenten handelt es sich um Hauptkomponenten, die bei mehreren Variablen eine Ladung von exakt Null aufweisen Interpretierbarkeit soll gegenüber PCA gesteigert werden Regressionsansatz, welcher auf der Idee des LASSOs und des Elastic Nets basiert 12 / 36

LASSO (Least Absolute Shrinkage and Selection Operator) Betrachte ein lineares Regressionsmodell mit n Beobachtungen und p Variablen Y = (y 1,..., y n ) sei der Responsevektor und X = [X 1,..., X p ] mit X j = (x 1j,..., x nj ) die Prädiktoren, j = 1,..., p Nach Transformation können wir annehmen, dass alle X j und Y zentriert sind 13 / 36

LASSO (Least Absolute Shrinkage and Selection Operator) Der LASSO-Schätzer (Least Absolute Shrinkage and Selection Operator) ist derart konstruiert, dass er die Koeffizienten schrumpft Abschätzung für ˆβ LASSO durch Minimieren von ˆβ LASSO = arg min β wobei λ positiv ist Y p X j β j 2 2 + λ j=1 p β j, LASSO-Verfahren verkleinert die Koeffizienten kontinuierlich gegen Null und erreicht die gewünschte Genauigkeit gegen einen Varianzverlust j=1 14 / 36

Elastic Net Elastic Net ist Spezialfall des LASSO-Verfahrens Für positive λ 1 und λ 2 ist das Elastic Net definiert als ˆβ EN = (1+λ 2 ){arg min β Y p X j β j 2 2+λ 2 j=1 p p β j 2 +λ 1 β j } j=1 Für ein fixes λ 2 löst der sogenannte LARS-EN Algorithmus das Problem für alle λ 1 j=1 15 / 36

SCoTLASS (Simplified Component Technique-LASSO) Vorgestellt von Jolliffe, Trendafilov und Uddin (2003) SCoTLASS ist ein Verfahren, welches durch direkte der L1-Norm auf die PCA sparse Ladungen erzielt (basierend auf LASSO-Verfahren) SCoTLASS-Methode maximiert schrittweise die Varianz wobei a T k (X T X )a k, a T k a k = 1 und (für k 2) a T h a k = 0, h < k, mit der Einschränkung, dass p j=1 a kj t für einen Parameter t Hoher Rechenaufwand, da keine Vorgaben für die Wahl von t vorhanden sind erstellt höchstens n Ladungen > 0 16 / 36

Sparse Regressionsansatz von Zou, Hastie und Tibshirani (2006) Da jede Hauptkomponente eine Linearkombination der p Variablen ist, können wir die Ladungen durch Zurückführen der Hauptkomponenten auf die Variablen erhalten 17 / 36

Herleitung der sparse Hauptkomponenten Theorem 1 Für jedes i sei Z i = U i D ii die i-te Hauptkomponente. Betrachte ein positives λ und die Randabschätzung β Ridge gegeben durch ˆβ Ridge = arg min β Z i X β 2 2 + λ β 2 2. Sei nun ˆv = ˆβ Ridge ˆβ Ridge 2, dann gilt: ˆv = V i 18 / 36

Herleitung der sparse Hauptkomponenten Das Theorem zeigt den Zusammenhang zwischen PCA und Regression Durch Hinzufügen des L1-Fehlerterm erhalten wir: ˆβ = arg min Z i X β 2 2 + λ β 2 2 + λ 1 β 1 β ˆV i = ˆβ ˆβ Approximation für die Ladungen der i-ten sparse 2 Hauptkomponente hängt von den Ergebnissen der gewöhnlichen PCA ab und stellt somit keine optimalen Lösungsweg dar 19 / 36

Herleitung der sparse Hauptkomponenten Theorem 2 Für jedes λ > 0 sei (ˆα, ˆβ) = arg min α,β n x i αβ T x i 2 2 + λ β 2 2, (2) i=1 wobei α 2 2 = 1 gilt. Dann gilt ˆβ V 1 20 / 36

Herleitung der sparse Hauptkomponenten Theorem 3 Angenommen wir betrachten die ersten k Hauptkomponenten. Sei A p k = [α 1,..., α k ] und B p k = [β 1,..., β k ]. Für jedes λ > 0 sei (Â, ˆB) = arg min A,B n k x i AB T x i 2 2 + λ β j 2 2, (3) i=1 j=1 mit A T A = I k k. Dann gilt ˆβ j V j, für j = 1,..., k. 21 / 36

Herleitung der sparse Hauptkomponenten Theoreme 2 und 3 wandeln das PCA Problem zu einem Regressionsproblem um Indem wir einen LASSO-Fehlerterm hinzufügen, wird der Zusammenhang zwischen PCA und Regression weiter verstärkt, womit wir auf folgendes Optimierungsproblem kommen: (Â, ˆB) = arg min A,B n k x i AB T x i 2 2+λ β j 2 2+λ 1,j i=1 j=1 k β j 1, j=1 wobei A T A = I k k gilt Um die Gleichung zu lösen, wird ein Algorithmus benötigt, welcher eine numerische Lösung liefert 22 / 36

SPCA Algorithmus Für ein festes A: Für jedes j, sei Y j ˆβ j = arg min β j = X α j. So gilt: Y j X β j 2 2 + λ β j 2 2 + λ 1,j β j 1, mit ˆB = [ ˆβ 1,..., ˆβ k ]. Dies entspricht eine Abschätzung des Elastic Nets 23 / 36

SPCA Algorithmus Für ein festes B: Falls B gegeben ist, kann der Bestrafungsterm aus Gleichung (3) ignoriert werden, womit wir lediglich versuchen müssen den Term n i=1 x i AB T x i 2 2 = X XBAT 2 2 zu minimieren, wobei A T A = I k k. Die Lösung ist dann gegeben durch eine Reduced Rank-Form der Procrustes Rotation, welche im folgendem Theorem 4 gezeigt wird. Wir berechnen die Singulärwertzerlegung durch: und setzen  = UV T (X T X )B = UDV T (4) 24 / 36

Herleitung der sparse Hauptkomponenten Theorem 4 (Reduced Rank Procrustes Rotation) Seien M n p und N n k zwei Matrizen. Betrachte das eingeschränkte Minimierungsproblem  = arg min A M NA T 2 2, (5) mit A T A = I k k. Sei weiter die Singulärwertzerlegung von M T N gleich UDV T. Dann gilt  = UV T 25 / 36

SPCA Algorithmus 1. Setze A = [v 1,..., v k ], also die ersten k Ladungen der gewöhnlichen PCA 2. Für ein festes A = [α 1,...α k ], löse das folgende Elastic Net Problem für alle j = 1,..., k: ˆβ j = arg min β (α j β) T X T X (α j β) + λ β 2 2 + λ 1,j β 1, 3. Für ein festes B = [β 1,..., β k ], berechne die Singulärwertzerlegung von X T XB = UDV T und setze A = UV T 4. Wiederhole die Schritte 2 und 3 solange bis Konvergenz zu einem lokalen Optimum erreicht wird 5. Normiere ˆV j = β β 2, j = 1,..., k 26 / 36

1 Einführung 2 3 4 5 27 / 36

Allgemeines Vergleich der gewöhnlichen PCA mit SPCA Untersuchung an simuliertem und an realem Datensatz R-package: elasticnet 28 / 36

Simulation Betrachte Datensatz mit 10 Variablen und 100000 Beobachtungen Variablen werden generiert durch drei zugrundeliegende Faktoren von der Form: V 1 N(0, 20), V 2 N(0, 30) V 3 = 0.5V 1 + 0.8V 2 + ɛ, ɛ N(0, 1) Die Variablen werden nun generiert durch: X i = V 1 + ɛ i, ɛ i N(0, 1), i = 1, 2, 3, 4 X i = V 2 + ɛ i, ɛ i N(0, 1), i = 5, 6, 7, 8 X i = V 3 + ɛ i, ɛ i N(0, 1), i = 9, 10 29 / 36

Simulation PCA SPCA PC1 PC2 PC1 PC2 x1 0.046-0.476 0-0.506 x2 0.046-0.475 0-0.474 x3 0.046-0.476 0-0.501 x4 0.046-0.476 0-0.518 x5-0.426-0.114 0.502 0 x6-0.426-0.114 0.482 0 x7-0.426-0.114 0.506 0 x8-0.426-0.114 0.510 0 x9-0.364 0.147 0 0 x10-0.364 0.146 0 0 adjustierte Varianz (in %) 73.3 26.2 54.6 24.3 Tabelle: Ladungen der Hauptkomponenten der PCA und SPCA 30 / 36

Zahlenerkennung Datensatz, welcher 60000 per Hand geschriebene Zahlen 0-9 enthält 6131 Beobachtungen für die Zahl 3 Jedes Bild enthält 28 28 Pixel Datenmatrix der Dimension 6131 784 31 / 36

Zahlenerkennung Abbildung: Unterschiedliche Ausführungen der Zahl 3 32 / 36

Zahlenerkennung Abbildung: Vergleich der PCA (obere Reihe) mit der SPCA (untere Reihe) auf einen Datensatz mit handgeschriebenen Dreien 33 / 36

Zahlenerkennung Ergebnisse der SPCA lassen sich visuell besser interpretieren Die ersten 4 Hauptkomponenten der PCA erklären eine Varianz von 35.1%, die ersten 4 Hauptkomponenten der SPCA erklären nur eine Varianz von 10.6% 34 / 36

ist eine relativ einfache Methode, um Datensätze zu verkleinern Sparse steigert die Interpretierbarkeit gegen einen Varianzverlust SPCA hängt stark von der Wahl von λ ab 35 / 36

Vielen Dank für die Aufmerksamkeit! 36 / 36