Einführung in die Hauptkomponentenanalyse

Größe: px

Ab Seite anzeigen:

Download "Einführung in die Hauptkomponentenanalyse"

Eleonora Raske
vor 5 Jahren
Abrufe

1 Einführung in die Hauptkomponentenanalyse Florian Steinke 6. Juni 009 Vorbereitung: Einige Aspekte der multivariaten Gaußverteilung Definition.. Die -D Gaußverteilung für x R ist ( p(x exp (x µ σ. ( Notation: x N(x; µ, σ. Eigenschaften: Mittelwert E(x = µ, Varianz E((x E(x = σ. Beipiel.. Sei x R und p(x = N(x ; µ, σn(x ; µ, σ ( ( σ (x µt exp ( Beipiel.3. Sei x R, U =, und p(x exp ( ( σ (U(x µt σ Also Σ = U( σ U T. exp (x µt U T ( σ σ σ σ } {{ } Σ (x µ U(x µ U(x µ Definition.4. Die M-D Gaußverteilung für x R M ist ( p(x exp (x µt Σ (x µ. ( Notation: x N(x; µ, Σ. Eigenschaften: Mittelwert Kovarianz E(x = µ (3 E((x E(x(x E(x T = Σ. (4

2 Σ muss symmetrisch positiv definit (spd sein. Proof. Symmetrisch ist klar nach (4. Zum Beweis, dass Σ positiv definit ist, wähle a 0 R M. Sei o.b.d.a. µ = 0. Dann ist nach (4 a T Σa = E(a T xx T a = E((a T x 0. Falls E((a T x = 0, dann ist mit Wahrscheinlichkeit eins x = 0 in Richtung a, d.h. der Ellipsoid der Gaußverteilung ist entartet in Richtung a. Jede Gaußverteilung läßt sich wie in Beispiel.3 darstellen. Proof. Da Σ spd, hat es eine Eigenwertdarstellung mit orthogonalen Matrizen, d.h. man kann schreiben Σ = UDU T, wobei U orthogonal, d.h. UU T = U T U =, und D = diag(λ,..λ M diagonal. Da Σ positiv definit, sind die Eigenwerte λ i > 0 und σ i = λ i. Bemerkung: U, D sind bis auf Permutationen eindeutig bestimmt (falls alle Eigenwerte verschieden. Wir wählen typischerweise die Darstellung λ > λ >... > λ M. Alle -D Schnitte einer M-D Gaußverteilung sind -D Gaußverteilt, d.h. für x = a + tb ist t immer -D Gaußverteilt. Proof. (für den Fall a = µ = 0. Es ist p(xdx = p(x t dx dt dt exp ( bt Σ bt dt = N(t; 0, (b T Σ b dt. Für lineare Funktionen y = Ax gilt: Aus x N(x; µ, Σ folgt y N(y; Aµ, AΣA T. Mit Rauschen ɛ N(ɛ; 0, Σ und x N(x; µ, Σ gilt für y = x + ɛ, dass y N(y; µ, Σ + Σ. Kleiner Ausblick auf weitere wichtige Eigenschaften der Gaußverteilung: ( ( ( x µ Σ Σ Konditionierung und Marginalisierung: Sei x =, µ =, Σ = und x x µ Σ Σ N(x; µ, Σ. Dann ist p(x = p(x, x dx = N(x ; µ, Σ (5 p(x x = N(x ; µ + Σ Σ (x µ, Σ Σ Σ Σ (6 Die Familie der Gaußverteilungen ist geschlossen unter Multiplikation (Division, Faltung, Marginalisierung und Conditionierung. N(x; µ, Σ ist die Verteilung, die gegeben den Mittelwert µ und die Kovarianz Σ, die maximale Entropie hat! Keine unnötigen Annahmen! Die Gaußveteilungen sind Teil der exponential family oder der log-linear models, d.h. man kann schreiben ( p(x exp θ T φ(x. Zum Beispiel im -D Fall θ = ( σ µ und φ(x = σ Die Tatsache, dass sich diese Verteilungen linear parameterisieren lassen, ist in vielen Anwendungen in der Statistik/im Machine Learning extrem wichtig und hilfreich. All diese Eigenschaften machen die Gaußverteilungen zu einer flexiblen, ausdrucksstarken und leicht handhabbaren Klasse von Verteilungen. Sie werden daher sehr gerne im Machine Learning verwendet. (Häretiker könnten sagen, dass derjenige, der die Gaußverteilungen vollständig verstanden hat, auch das Machine Learning komplett beherrscht ; ( x x.

3 Grundzüge des Unüberwachten Lernens Englisch: Unsupervised Learning Problem.. Gegeben seien Datenpunkte x i R M, i =,.., N (z.b. digitalisierte Bilder. Wie kann ich diese Daten effizient und intuitiv beschreiben? Ein paar einfache Modelle: Mittelwert + Noise/Rauschen: mehrere Mittelwerte + Noise/Rauschen x i = x i = µ + ɛ i (7 r δ zj,jµ j + ɛ i, z j {,.., r} (8 j= Dieses Modell entspricht Clustering und wäre genügend Stoff für eine eigene Vorlesung. Einige Stichworte sind k-means, Bayesian k-means, spectral clustering, hierarchical clustering,... linear Modelle r x i = µ + u j w ji + ɛ i (9 j= Dies führt zur heutigen Vorlesung, der Hauptkomponentenanalyse (Englisch: Principal Component Analysis = PCA. nicht lineare Modelle. Ein sehr aktives Forschungsgebiet, bekannt als manifold learning. Stichworte sind z.b. kernelpca, locally linear maps (LLE, ISOMAP, bi-directional GP,... 3 Hauptkomponentenanalyse - PCA Beobachtung 3.. Das PCA-Problem, d.h. die Rekonstruktion von u j und µ gegeben nur die Datenpunkte x i, ist stark unterbestimmt. Die Anzahl der Unbekannten ist M + Mr + rn + MN, die Zahl der Gleichungen nur M N. Dies bedeutet, dass wir starke Annnahmen machen müssen, um eine eindeutige Lösung zu erhalten! Annahmen zur Herleitung der PCA: ɛ i Gaußverteilt: ɛ i N(ɛ i ; 0, σ 0 Außerdem nehmen wir an, dass ɛ i klein ist. D.h. σ 0 klein. w ji Gaußverteilt, w ji N(w ji ; 0, σ j Dies bedeutet dass w ji unabhängig (unkorreliert von w j i für j j! Annahme zur Notation: σ > σ >.. > σ r. Sei U = [u..u r ]. Wir nehmen an, dass U orthogonal, d.h. u i u j für j i und u j = für j =,.., r. Herleitung der PCA: 3

4 Neue, äquivalente Notation: x = µ + Uw + ɛ Hier ist U R M r, µ R M konstant, und w zufällig verteilt wie w N(w; 0, D mit D = diag(σ,.., σ r. Außerdem ist ɛ R M verteilt nach ɛ N(ɛ; 0, σ 0. Damit ist x N(x; µ, UDU T + σ 0. Nun ergänze U zu einer orthonormal Basis Ū RM M, d.h. Ū T Ū = ŪŪT = und wobei D = diag(σ + σ 0,.., σ r + σ 0, σ 0,.., σ 0. x N(x; µ, UDU T + σ 0 N(x; µ, UDU T + σ 0ŪŪT N(x; µ, } Ū DŪ {{ T }, =Σ Idee PCA: Schätze empirische Kovarianz ˆΣ aus den gegeben Daten und berechne Eigenwert Zerlegung. Die Eigenvektoren entsprechen den gesuchten Basisvektoren! Kochrezept PCA:. Schätze Mittelwert und normalisiere Daten auf Mittelwert 0. ˆµ = x i, x i = x i ˆµ N (Manchmal, z.b. bei LSA, wird dieser Schritt weggelassen. i. Schätze Kovarianzmatrix ˆΣ 3. Berechne Eigenwertzerlegung von ˆΣ ˆΣ = x i x T i N i ˆΣ = ˆŪ ˆ D ˆŪ T wobei ˆ D = diag(ˆλ,..., ˆλ M. Permutiere die Eigenwertzerlegung so, dass ˆλ >... > ˆλ M. 4. Bestimme ˆr aus dem Abfall des Eigenwertspektrum (Zur Erinnerung: σ 0 < σ,.., σ ˆr Die ersten ˆr Spalten von ˆŪ sind dann die gesuchten Basisvektoren Û = [û,.., ûˆr ]. Die Eigenwerte ˆλ j sind Schätzungen der Varianz in der jeweiligen Richtung ˆσ j = ˆλ j. Das Abschneiden des Eigenwertspektrums durch ein geeignete Wahl von ˆr begründet dann auch den Namen Hauptkomponentenanalyse. Beweisskizze PCA: Die Eigenwertzerlegung ist eindeutig, falls alle Eigenwerte verschieden und richtig sortiert. Bemerkungen zur PCA: Für einen neuen Datenpunkt z R M erhalten wir die Hauptkomponenten w einfach durch w = Û T (z ˆµ. Effiziente Berechnung der PCA: Die oben vorgestellte Methode skaliert O(M 3 wegen der Eigenwertzerlegung. Für große M ist dies unpraktisch. Man kann die Eigenwertzerlegung aber mit Hilfe einer Singulärwertzerlegung umgehen. Falls N M ist dies viel effizienter, skaliert nämlich mit O(MN. Sei X = [ x.. x N ]. Die Schätzung der Kovarianz kann dann auch geschrieben werden als ˆΣ = N XXT. Jetzt besitzt aber jede Matrix eine Singulärwertzerlegung. D.h. für X können wir schreiben X = U SV, 4

5 wobei U R N N und V R M M unitär/orthogonal und S R M N diagonal ist, d.h. S = diag(σ,.., σ min(n,m. Bisher haben wir berechnet ˆΣ = N XXT = ˆŪ ˆ D ˆŪ T, mit der Singulärwertzerlegung erhalten wir N XXT = N U SV V T S T V T = N U SS T }{{} =D V T, wobei D = diag(σ,.., σmin(n,m, 0,..., 0 diagonal ist. Zusammen bedeutet dies, dass wir bei der PCA aus einer kostengünstig berechenbaren Singulärwertzerlegung dieselben Ergebnisse wie aus einer Eigenwertzerlegung erhalten können. (Mann kann sogar M gehen lassen, siehe kernelpca! Wir haben die PCA unter der Annahme eines Gaußverteilten linearen Modells hergeleitet. Oft wird PCA aber auch dann verwandt, wenn die Modellannahmen verletzt sind oder gar kein Modell bekannt ist. Oft liefert dies trotzdem gute Ergebnisse, siehe der experimentelle Teil der Vorlesung. Der wichtige Grundgedanke bei der PCA ist, dass die Datenpunkte auf einer Linie/Fläche (einem linearen Unterraum des R M liegen und dass wir diesen aus der Kovarianz der Daten schätzen können. 5

Ähnliche Dokumente

Multivariate Verteilungen. Gerhard Tutz LMU München

Multivariate Verteilungen. Gerhard Tutz LMU München Multivariate Verteilungen Gerhard Tutz LMU München INHALTSVERZEICHNIS 1 Inhaltsverzeichnis 1 Multivariate Normalverteilung 3 Wishart Verteilung 7 3 Hotellings T Verteilung 11 4 Wilks Λ 14 INHALTSVERZEICHNIS