Sparse Hauptkomponentenanalyse

Sparse Referent: Thomas Klein-Heßling LMU München 20. Januar 2017 1 / 36

1 Einführung 2 3 4 5 2 / 36

Einführung Ziel: vorhandene Datenmenge verstehen Daten komprimieren Bei der Sparse (SPCA) handelt es sich um eine spezielle Form der gewöhnlichen (PCA) mittels SPCA einen besseren Überblick über die Daten verschaffen Interpretierbarkeit soll gegenüber PCA gesteigert werden 3 / 36

sgebiete Segmentierung z.b Industrie (Kunden- oder Marktsegmentierung) oder der Bildsegmentierung Genomforschung Sämtliche Gebiete, in denen große Datenmengen vorkommen 4 / 36

1 Einführung 2 3 4 5 5 / 36

Allgemeines Ziel: Dimension der Daten zu verringern ohne zu großen Informationsverlust Bilden von Linearkombinationen: Z j = a 1j X 1 + a 2j X 2 +... + a pj X p = a T j X Z j : Hauptkomponenten X T = (X 1,..., X p ): n p -Datenmatrix aj T = (a 1j,..., a pj ): Ladungen Es gilt: aj T a j = p k=1 a kj = 1 und (für j 2) ah T a j = 0, h < j Hauptkomponenten sind unabhängig voneinander 6 / 36

Herleitung der Hauptkomponenten maximiere Var(aj T X ) (bzw. äquivalent hierzu; maximiere X X T a j, wobei X die zentrierte Datenmatrix darstellt) a T j erste Hauptkomponente Z 1 wird gefunden, indem a 1 so bestimmt wird, dass Z 1 die größtmögliche Varianz erklärt entspricht dem zum größten Eigenwert von Cov(X ) = 1 n 1 X T X gehörendem Eigenvektor 7 / 36

Herleitung der Hauptkomponenten Definition (Singulärwertzerlegung): Ohne Beschränkung der Allgemeinheit sei der Erwartungswert aller Spalten von X gleich 0. Die Singulärwertzerlegung von X sei nun X = UDV T. (1) Z = UD beschreibt nun die Hauptkomponenten. Äquivalent dazu ist Z = XV mit V als die dazugehörigen Ladungen der Hauptkomponenten. Die Stichprobenvarianz der i-ten Hauptkomponente wird durch Dii 2 /n beschrieben. Bei U und V handelt es sich um orthogonale Matrizen, d.h. es gilt UU T = I bzw. VV T = I. Die Spaltenvektoren von V und U, v i und u i, nennt man Singulärvektoren (Eigenvektoren), die Elemente D ii der Diagonalmatrix D sind die Singulärwerte (Eigenwerte). 8 / 36

Anzahl der Hauptkomponenten Bestimme Anteil der erklärenden Varianz der ersten q Hauptkomponenten durch q Dii 2 i=1 p Dii 2 i=1 α Übliche Werte für α liegen zwischen 0.7 und 0.9 9 / 36

Probleme der Interpretation der Hauptkomponenten Linearkombinationen besitzen für gewöhnlich keine, bis sehr wenige 0-Einträge für die Ladungen alle p Variablen sind Bestandteil einer Hauptkomponente 10 / 36

1 Einführung 2 3 4 5 11 / 36

Allgemeines Bei sparse Hauptkomponenten handelt es sich um Hauptkomponenten, die bei mehreren Variablen eine Ladung von exakt Null aufweisen Interpretierbarkeit soll gegenüber PCA gesteigert werden Regressionsansatz, welcher auf der Idee des LASSOs und des Elastic Nets basiert 12 / 36

LASSO (Least Absolute Shrinkage and Selection Operator) Betrachte ein lineares Regressionsmodell mit n Beobachtungen und p Variablen Y = (y 1,..., y n ) sei der Responsevektor und X = [X 1,..., X p ] mit X j = (x 1j,..., x nj ) die Prädiktoren, j = 1,..., p Nach Transformation können wir annehmen, dass alle X j und Y zentriert sind 13 / 36

LASSO (Least Absolute Shrinkage and Selection Operator) Der LASSO-Schätzer (Least Absolute Shrinkage and Selection Operator) ist derart konstruiert, dass er die Koeffizienten schrumpft Abschätzung für ˆβ LASSO durch Minimieren von ˆβ LASSO = arg min β wobei λ positiv ist Y p X j β j 2 2 + λ j=1 p β j, LASSO-Verfahren verkleinert die Koeffizienten kontinuierlich gegen Null und erreicht die gewünschte Genauigkeit gegen einen Varianzverlust j=1 14 / 36

Elastic Net Elastic Net ist Spezialfall des LASSO-Verfahrens Für positive λ 1 und λ 2 ist das Elastic Net definiert als ˆβ EN = (1+λ 2 ){arg min β Y p X j β j 2 2+λ 2 j=1 p p β j 2 +λ 1 β j } j=1 Für ein fixes λ 2 löst der sogenannte LARS-EN Algorithmus das Problem für alle λ 1 j=1 15 / 36

SCoTLASS (Simplified Component Technique-LASSO) Vorgestellt von Jolliffe, Trendafilov und Uddin (2003) SCoTLASS ist ein Verfahren, welches durch direkte der L1-Norm auf die PCA sparse Ladungen erzielt (basierend auf LASSO-Verfahren) SCoTLASS-Methode maximiert schrittweise die Varianz wobei a T k (X T X )a k, a T k a k = 1 und (für k 2) a T h a k = 0, h < k, mit der Einschränkung, dass p j=1 a kj t für einen Parameter t Hoher Rechenaufwand, da keine Vorgaben für die Wahl von t vorhanden sind erstellt höchstens n Ladungen > 0 16 / 36

Sparse Regressionsansatz von Zou, Hastie und Tibshirani (2006) Da jede Hauptkomponente eine Linearkombination der p Variablen ist, können wir die Ladungen durch Zurückführen der Hauptkomponenten auf die Variablen erhalten 17 / 36

Herleitung der sparse Hauptkomponenten Theorem 1 Für jedes i sei Z i = U i D ii die i-te Hauptkomponente. Betrachte ein positives λ und die Randabschätzung β Ridge gegeben durch ˆβ Ridge = arg min β Z i X β 2 2 + λ β 2 2. Sei nun ˆv = ˆβ Ridge ˆβ Ridge 2, dann gilt: ˆv = V i 18 / 36

Herleitung der sparse Hauptkomponenten Das Theorem zeigt den Zusammenhang zwischen PCA und Regression Durch Hinzufügen des L1-Fehlerterm erhalten wir: ˆβ = arg min Z i X β 2 2 + λ β 2 2 + λ 1 β 1 β ˆV i = ˆβ ˆβ Approximation für die Ladungen der i-ten sparse 2 Hauptkomponente hängt von den Ergebnissen der gewöhnlichen PCA ab und stellt somit keine optimalen Lösungsweg dar 19 / 36

Herleitung der sparse Hauptkomponenten Theorem 2 Für jedes λ > 0 sei (ˆα, ˆβ) = arg min α,β n x i αβ T x i 2 2 + λ β 2 2, (2) i=1 wobei α 2 2 = 1 gilt. Dann gilt ˆβ V 1 20 / 36

Herleitung der sparse Hauptkomponenten Theorem 3 Angenommen wir betrachten die ersten k Hauptkomponenten. Sei A p k = [α 1,..., α k ] und B p k = [β 1,..., β k ]. Für jedes λ > 0 sei (Â, ˆB) = arg min A,B n k x i AB T x i 2 2 + λ β j 2 2, (3) i=1 j=1 mit A T A = I k k. Dann gilt ˆβ j V j, für j = 1,..., k. 21 / 36

Herleitung der sparse Hauptkomponenten Theoreme 2 und 3 wandeln das PCA Problem zu einem Regressionsproblem um Indem wir einen LASSO-Fehlerterm hinzufügen, wird der Zusammenhang zwischen PCA und Regression weiter verstärkt, womit wir auf folgendes Optimierungsproblem kommen: (Â, ˆB) = arg min A,B n k x i AB T x i 2 2+λ β j 2 2+λ 1,j i=1 j=1 k β j 1, j=1 wobei A T A = I k k gilt Um die Gleichung zu lösen, wird ein Algorithmus benötigt, welcher eine numerische Lösung liefert 22 / 36

SPCA Algorithmus Für ein festes A: Für jedes j, sei Y j ˆβ j = arg min β j = X α j. So gilt: Y j X β j 2 2 + λ β j 2 2 + λ 1,j β j 1, mit ˆB = [ ˆβ 1,..., ˆβ k ]. Dies entspricht eine Abschätzung des Elastic Nets 23 / 36

SPCA Algorithmus Für ein festes B: Falls B gegeben ist, kann der Bestrafungsterm aus Gleichung (3) ignoriert werden, womit wir lediglich versuchen müssen den Term n i=1 x i AB T x i 2 2 = X XBAT 2 2 zu minimieren, wobei A T A = I k k. Die Lösung ist dann gegeben durch eine Reduced Rank-Form der Procrustes Rotation, welche im folgendem Theorem 4 gezeigt wird. Wir berechnen die Singulärwertzerlegung durch: und setzen Â = UV T (X T X )B = UDV T (4) 24 / 36

Herleitung der sparse Hauptkomponenten Theorem 4 (Reduced Rank Procrustes Rotation) Seien M n p und N n k zwei Matrizen. Betrachte das eingeschränkte Minimierungsproblem Â = arg min A M NA T 2 2, (5) mit A T A = I k k. Sei weiter die Singulärwertzerlegung von M T N gleich UDV T. Dann gilt Â = UV T 25 / 36

SPCA Algorithmus 1. Setze A = [v 1,..., v k ], also die ersten k Ladungen der gewöhnlichen PCA 2. Für ein festes A = [α 1,...α k ], löse das folgende Elastic Net Problem für alle j = 1,..., k: ˆβ j = arg min β (α j β) T X T X (α j β) + λ β 2 2 + λ 1,j β 1, 3. Für ein festes B = [β 1,..., β k ], berechne die Singulärwertzerlegung von X T XB = UDV T und setze A = UV T 4. Wiederhole die Schritte 2 und 3 solange bis Konvergenz zu einem lokalen Optimum erreicht wird 5. Normiere ˆV j = β β 2, j = 1,..., k 26 / 36

1 Einführung 2 3 4 5 27 / 36

Allgemeines Vergleich der gewöhnlichen PCA mit SPCA Untersuchung an simuliertem und an realem Datensatz R-package: elasticnet 28 / 36

Simulation Betrachte Datensatz mit 10 Variablen und 100000 Beobachtungen Variablen werden generiert durch drei zugrundeliegende Faktoren von der Form: V 1 N(0, 20), V 2 N(0, 30) V 3 = 0.5V 1 + 0.8V 2 + ɛ, ɛ N(0, 1) Die Variablen werden nun generiert durch: X i = V 1 + ɛ i, ɛ i N(0, 1), i = 1, 2, 3, 4 X i = V 2 + ɛ i, ɛ i N(0, 1), i = 5, 6, 7, 8 X i = V 3 + ɛ i, ɛ i N(0, 1), i = 9, 10 29 / 36

Simulation PCA SPCA PC1 PC2 PC1 PC2 x1 0.046-0.476 0-0.506 x2 0.046-0.475 0-0.474 x3 0.046-0.476 0-0.501 x4 0.046-0.476 0-0.518 x5-0.426-0.114 0.502 0 x6-0.426-0.114 0.482 0 x7-0.426-0.114 0.506 0 x8-0.426-0.114 0.510 0 x9-0.364 0.147 0 0 x10-0.364 0.146 0 0 adjustierte Varianz (in %) 73.3 26.2 54.6 24.3 Tabelle: Ladungen der Hauptkomponenten der PCA und SPCA 30 / 36

Zahlenerkennung Datensatz, welcher 60000 per Hand geschriebene Zahlen 0-9 enthält 6131 Beobachtungen für die Zahl 3 Jedes Bild enthält 28 28 Pixel Datenmatrix der Dimension 6131 784 31 / 36

Zahlenerkennung Abbildung: Unterschiedliche Ausführungen der Zahl 3 32 / 36

Zahlenerkennung Abbildung: Vergleich der PCA (obere Reihe) mit der SPCA (untere Reihe) auf einen Datensatz mit handgeschriebenen Dreien 33 / 36

Zahlenerkennung Ergebnisse der SPCA lassen sich visuell besser interpretieren Die ersten 4 Hauptkomponenten der PCA erklären eine Varianz von 35.1%, die ersten 4 Hauptkomponenten der SPCA erklären nur eine Varianz von 10.6% 34 / 36

ist eine relativ einfache Methode, um Datensätze zu verkleinern Sparse steigert die Interpretierbarkeit gegen einen Varianzverlust SPCA hängt stark von der Wahl von λ ab 35 / 36

Vielen Dank für die Aufmerksamkeit! 36 / 36