Hauptkomponentenanalyse. Principal Component Analysis (PCA)

Hauptkomponentenanalyse Principal Component Analysis (PCA)

Principal Component Analysis (PCA) Welche Ziele verfolgt man bei der Verwendung einer PCA? Repräsentation multidimensionaler Daten mit einer geringeren Anzahl an Variablen (unter Beibehaltung der Hauptmuster des Datensatzes) Unvermeidlich: ein gewisser Verlust an Information (die jedoch nur noch Rauschen beschreiben soll) Projektion multidimensionaler Daten in einen niederdimensionalen Raum (unter bestmöglicher Beibehaltung der Variabilität der Daten); Interpretation und Visualisierung in einem niederdimensionalen Raum ist im Allgemeinen einfacher (insbesondere bei Reduktion auf 2 oder 3 Dimensionen) Identifikation versteckter Muster in einem Datensatz, und deren Klassifikation hinsichtlich der Frage, wie viel diese Muster in den Daten versteckte Information erklären (beschreiben) können Hauptkomponenten können wiederum als Input für weitere Analysen verwendet werden 2

Hauptkomponentenanalyse / Principal Component Analysis Zerlegung eines gemessenen Signals (d.h. üblicherweise einer Mischung vieler unterschiedlicher Signalkomponenten) in einen Satz zu Grunde liegender Variablen (in eine neue Basis) Identifizierung einiger (weniger) Haupt-Quellensignale aus einer großen Anzahl von vermischten Signalen Datenreduktion Das Ziel einer PCA liegt darin, einen verrauschten Datensatz in einer neuen Basis auszudrücken, in der Erwartung, dass diese neue Darstellung das Rauschen herausfiltert und in den Daten versteckte Strukturen zum Vorschein bringt. Was sind die wichtigen Dynamiken, die einem Datensatz zu Grunde liegen, und welche Dynamiken sind von geringerer Bedeutung? Wie lassen sich diese mittels einer PCA herausfiltern? 3

PCA Annahme Richtung mit größter Varianz beschreibt die interessierende Dynamik des Systems. PCA bedeutet die Suche nach einer neuen Basis, in der die ursprünglichen Daten maximale Varianz besitzen. y A x A Im Beispiel führt die Rotation der beiden Achsen zu einem optimalen Wert p*, bei dem die Varianz und das SNR maximal sind. Im 2D-Fall, SNR ist definiert als das Verhältnis der Varianz entlang p* und der Varianz senkrecht dazu. SNR Varianz entlang p 4 Winkel der Rotation

Schrittweise Durchführung einer PCA 2D Beispiel-Datensatz 3,0 2,5 2,0 Y 1,5 1,0 0,5 0,0 0,0 0,5 1,0 1,5 Problem: Wie findet man den Einheitsvektor mit maximaler Varianz? X 5 Lösung Eigenwertproblem: Berechne den größten Eigenwert λ und den entsprechenden Eigenvektor x zur Kovarianzmatrix C Cx = λx

Schritt 1: Subtraktion der Mittelwerte Subtraktion der Mittelwerte X µ,y µ (d.h. für jede Datendimension) erzeugt einen Datensatz, dessen Mittelwerte in allen Dimensionen null sind 1 n 1 n ( X ) = i= 1 i X µ n n i= 1 X i, corr = 0 Y corr 1,5 1,0 0,5 0,0-0,5-1,0 1 n 1 n ( Y ) = i= 1 i Yµ Y n n i= 1 i, corr = 0-1,5-1,5-1,0-0,5 0,0 0,5 1,0 1,5 X corr Im Beispiel: X µ = 0.587 Y µ = 1.413 6

Schritt 2: Berechnung der Kovarianz-Matrix Berechnung der Kovarianz-Matrix (der Mittelwert-korrigierten Daten) n-dimensionaler Datensatz Kovarianz-Matrix besitzt n Reihen und n Spalten; quadratische Matrix Hauptdiagonale = Varianz symmetrische Matrix: cov(x,y) = cov(y,x) ( X i= 1 var ( X, X ) = n i X µ n 1 )( X i X µ ) ( X i= 1 cov ( X, Y ) = n i X µ n 1 )( Y i Y µ ) Für n = 2: var( x, x) C = cov( y, x) cov( x, y) var( y, y) 1,5 1,0 0,5 Im Beispiel: 0.0862 C = 0.2175 0.2175 0.6440 Y corr 0,0-0,5-1,0-1,5-1,5-1,0-0,5 0,0 0,5 1,0 1,5 7 X corr

Allgemeine Bemerkungen zu Eigenvektoren Eigenvektoren existieren nur zu quadratischen Matrizen, aber nicht jede quadratische Matrix besitzt Eigenvektoren. Besitzt eine n x n Matrix Eigenvektoren, dann besitzt sie n Eigenvektoren. Eigenvektoren sind zueinander orthogonal. Eigenvektoren werden üblicherweise auf die Länge Eins skaliert (normiert). Bestimmung der Eigenvektoren ist einfach für kleine Matrizen (bis zu n = 3); bei größeren Matrizen werden komplexe iterative Methoden eingesetzt. 8

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Was sind die Eigenwerte und die Eigenvektoren der Kovarianz-Matrix? C sei eine (n x n) - Matrix. Jeder Vektor x (x 0), für den mit einer geeigneten Zahl λ gilt: heißt Eigenvektor von C. Cx = λx λ heißt der zu diesem Eigenvektor gehörende Eigenwert von C. Cx = λx ist äquivalent zu ( C λe n ) x = 0 (= homogenes lineares Gleichungssystem, dessen nichttriviale Lösungen die gesuchten Eigenvektoren sind). E n = Einheitsmatrix. 9

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Was sind die Eigenwerte und die Eigenvektoren der Kovarianz-Matrix? ( n C λe ) x = 0 Triviale Lösung: x = 0 Nichttriviale Lösung: x 0, d.h. det ( C λe ) = n 0 Ein Vektor x 0 ist folglich genau dann ein Eigenvektor von C zum Eigenwert λ, wenn er eine Lösung des (obigen) homogenen Gleichungssystems ist. det ( C λe ) = 0 Es existieren unendlich viele Lösungen (wegen n ), d.h. die Menge der Eigenvektoren bildet einen Unterraum der reellen Zahlen (Eigenraum von C zum Eigenwert λ). 10

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Allgemeine Beschreibung des Problems Berechne die Eigenvektor-Matrix X, die die Kovarianz-Matrix C diagonalisiert: X 1 CX = wobei D die Diagonalmatrix der Eigenwerte von C ist. D Eine symmetrische Matrix (in unserem Fall ist das die Kovarianz-Matrix) ist durch eine Matrix ihrer orthonormalen Eigenvektoren diagonalisierbar. Dieses Theorem ist eine Erweiterung von Theorem 3. Es liefert eine Vorgehensweise, wie eine Matrix gefunden werden kann, die eine symmetrische Matrix diagonalisiert. Die diagonalisierende Matrix ist eine Matrix, die aus den Eigenvektoren der Ausgangsmatrix besteht. 11

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Allgemeine Beschreibung des Problems Berechne die Eigenvektor-Matrix X, die die Kovarianz-Matrix C diagonalisiert: X 1 CX = wobei D die Diagonalmatrix der Eigenwerte von C ist. Die Matrix D ist eine (m,m) Matrix, deren Hauptdiagonalelemente (p = q) durch den i-ten Eigenvektor der Kovarianz-Matrix C gegeben ist, und für deren Nicht-Hauptdiagonalelemente (p q) gilt: D D[ p, q] = λ m D[ p, q] = 0 12

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Im Beispiel: Eigenwerte der Kovarianz-Matrix 0.0862 λ 0.2175 det ( C λe) = 0 = 0 0.2175 0.6440 λ Das charakteristische Polynom lautet: allgemein: a λ 2 + b λ + c = 0 im Beispiel: λ 2 1.333 λ + 0.063 = 0 und hat die beiden Lösungen 13 allgemein: im Beispiel: λ 1/ 2 λ = 0.7188; 1 b ± = 2 b 4ac 2 λ = 0.0114 2 λ 1 und λ 2 sind die beiden Eigenwerte der Kovarianz-Matrix.

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Die zu den beiden Eigenwerten gehörenden Eigenvektoren ergeben sich aus der Lösung von ( C λe) x = 0 var( cov( x, x) y, x) cov( x, var( y, y) y) λ 1 0 0 1 1,2 x = 0 0 Im Beispiel: 0.0862 0.2175 0.2175 0.6440 1 0 λ 1,2 x 0 1 = 0 0 Eigenvektor zu λ 1 = 0.7188: Eigenvektor zu λ 2 = 0.0114: x 1 ( 0.3251, 0.9456); x = 1 = 1 x 2 ( 0.9456, 0.3251); x = 1 = 2 14

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Datensatz mit dem Eigenvektor zu λ 1 = 0.7188: 1,5 1,0 x 1 = (0.3251, 0.9456) 0,5 Y corr 0,0-0,5-1,0-1,5-1,5-1,0-0,5 0,0 0,5 1,0 1,5 X corr 15

Schritt 3: Eigenwerte und Eigenvektoren der Kovarianz-Matrix Datensatz mit den Eigenvektoren zu λ 1 = 0.7188: 1,5 1,0 x 1 = (0.3251, 0.9456) 0,5 und zu λ 2 = 0.0114: Y corr 0,0-0,5 x 2 = ( 0.9456, 0.3251) -1,0-1,5-1,5-1,0-0,5 0,0 0,5 1,0 1,5 X corr Die beiden Eigenvektoren bilden eine Orthonormalbasis (normiert und orthogonal) Skalarprodukt x 1 x 2 = 0 16

Schritt 4: Berechnung des neuen Datensatzes Berechnung des neuen Datensatzes Y (berechnet mit beiden Komponenten) Y = PX = p11 = p21 p11 x = p21 x 11 11 p12 x p22 x + p x + p 12 22 x 21 21 11 21 Eigenvektoren x x L L 12 22 p p L L 11 21 x x 1n 1n x1n = x2 n + p12 x + p x 22 2 n 2 n Rotation des Koordinatensystems Kovarianz-Matrix des neuen (transformierten) Datensatzes: YY T 1,0 0,5 0,0-0,5-1,0-2 -1 0 1 2 Im Beispiel: 17 T YY 0.7188 = 0 0 0.0114 d.h. die Kovarianz-Matrix des transformierten Datensatzes ist eine Diagonalmatrix mit den Eigenwerten in der Hauptdiagonalen!!

Schritt 4: Berechnung des neuen Datensatzes 1,0 0,5 Neuer Datensatz Y mit einer Komponente zwei Komponenten 0,0-0,5-1,0-2 -1 0 1 2 18

PCA Der Eigenvektor mit dem höchsten Eigenwert ist die Hauptkomponente (Principal Component) des Datensatzes. Er reflektiert die signifikanteste Beziehung zwischen den verschiedenen Dimensionen der Daten. Im Allgemeinen gilt: Nachdem die Eigenvektoren der Kovarianz-Matrix gefunden sind, werden sie vom höchsten Wert abwärts sortiert (Scree-Plot) Reihenfolge der Bedeutung/Signifikanz der Komponenten Je nach Anwendung kann man entscheiden, Komponenten mit geringerer Signifikanz zu ignorieren Dadurch geht zwar Information verloren (der endgültige Datensatz hat dann eine niedrigere Dimension als der ursprüngliche), aber wenn der Eigenwert klein ist, verliert man nicht viel an Information (die zudem meist Rauschen repräsentiert). 19

Verallgemeinerte PCA-Problemstellung Ausgangsdatensatz mit m Messungen zu n verschiedenen Zeitpunkten (z.b. m MEG Kanäle, n = Anzahl der Abtastpunkte (inverse Samplingrate)) x x X = : xm 11 21 1 x x x 12 22 : m2...... :... x x x 1n 2n : mn Finde eine orthonormale Matrix P, für die gilt (X = Datensatz, P = Transformationsmatrix, Y = neue Repräsentation der Daten) Y = P T X unter der Bedingung, dass die Kovarianz-Matrix 1 C y = YY n 1 T eine Diagonalmatrix und P eine orthogonale Matrix (P - 1 = P T ) ist. 20

Wichtige Theoreme der linearen Algebra zur PCA 1. Die inverse Matrix einer orthogonalen Matrix ist ihre Transponierte. A orthogonal A -1 = 2. Sei A eine beliebige Matrix. Dann sind die Matrizen A T A und AA T symmetrisch. Wenn A eine m x n Matrix ist, dann ist A T eine n x m Matrix. Daraus folgt, dass A T A eine n x n und AA T eine m x m Matrix ist. T A 3. Eine Matrix A ist dann und nur dann symmetrisch (z.b. unsere Kovarianz-Matrix), wenn sie orthogonal diagonalisierbar ist. Orthogonal diagonalisierbar bedeutet: es existiert eine Matrix E, für die gilt: T A = EDE wobei D eine Diagonalmatrix ist. Berechnung von A T liefert: T T T A = ( EDE ) = E D E = EDE = TT d.h. falls A orthogonal diagonalisierbar ist, muss A symmetrisch sein. T T T A 21

Wichtige Theoreme der linearen Algebra zur PCA 4. Eine symmetrische Matrix (in unserem Fall ist das die Kovarianz-Matrix) ist durch eine Matrix ihrer orthonormalen Eigenvektoren diagonalisierbar. Dieses Theorem ist eine Erweiterung von Theorem 3. Es liefert eine Vorgehensweise, wie eine Matrix gefunden werden kann, die eine symmetrische Matrix diagonalisiert. Die diagonalisierende Matrix ist eine Matrix, die aus den Eigenvektoren der Ausgangsmatrix besteht. Lineare Unabhängigkeit zweier Vektoren: Zwei Vektoren sind orthogonal zueinander, wenn sie aufeinander senkrecht stehen. Derartige Vektoren sind im Falle a,b o linear unabhängig. Ebenso sind drei Vektoren, die paarweise orthogonal und o sind, linear unabhängig. 22

Qualitative Zusammenfassung der PCA Zusammenfassung der wichtigsten Annahmen und Grenzen einer PCA 1. Linearität des Problems: Datensatz ist eine Linearkombination einer bestimmten Basis Problemlösung mittels linearer Algebra (siehe auch 4.) 2. PCA verwendet die Eigenvektoren der Kovarianzmatrix und findet nur unabhängige Basisvektoren unter der Annahme einer Gaußschen Wahrscheinlichkeitsverteilung. 3. Annahme, dass große Varianzen wichtige Dynamik reflektieren. PCA führt im Wesentlichen nur eine Rotation des Koordinatensystems in die Richtung maximaler Varianz durch. Hauptkomponenten mit großer Varianz repräsentieren interessante Dynamik; Komponenten mit geringer Varianz repräsentiert Rauschen. Rolle des SNR (Signal-Rausch-Verhältnis) 4. Hauptkomponenten sind orthogonal. Vereinfachung, die PCA mit Mitteln der linearen Algebra lösbar macht. 23

Transformationen Allgemeine Bemerkungen zu Transformationen 24

Allgemeine Bemerkungen zu Transformationen Ziel einer Transformation Daten in eine andere Repräsentation überzuführen, die Vorteile für anschließende Operationen bringt (z.b. Filterung der Daten) Darstellung innerer Zusammenhänge oder verbesserte Robustheit gegenüber Störungen Grundprinzip Zerlegung eines Signals x(t) in eine Summe von Basisfunktionen mit dazugehörenden Koeffizienten a n(t) z.b.: Basisfunktionen von Fourier-Transformation: Sinus und Kosinus Wavelet-Transformation: Mother-Wavelet Adaptive Approximation (z.b. Matching Pursuit): z.b. Gabor-Funktion 25

Repräsentation im Amplituden-Zeit-Raum Amplitude [z.b. B, V] Zeit [s] 26

Spektrale Darstellung: Amplituden-Frequenz-Raum Fourier Amplitude Frequenz 27

28 Spektrale Darstellung: Amplituden-Frequenz-Raum

Repräsentation im Frequenz-Zeit-Raum Spectrogram (Short-Time Fourier- Transform, STFT) f (Hz) Frequenzbereich: 1 31 Hz Zeitbereich: 0 4.6 s Scalogram (Continuous Wavelet- Transform, CWT) f (Hz) t (s) Frequenzbereich: 1 31 Hz Zeitbereich: 0 4.6 s 29 t (s)

Das Sampling-Theorem Nyquist-Shannon sampling theorem Exact reconstruction of a continuous-time baseband signal from its samples is possible if the signal is bandlimited and the sampling frequency is greater than twice the signal bandwidth. Was bedeutet das in der Praxis? Die größtmögliche Frequenz, die man in einem abgetasteten Signal beobachten kann, ist gleich der halben Abtastrate (Samplingrate), mit der das Originalsignal abgetastet wurde. Es ist bei der Durchführung eines Experiments immer besser, eine Samplingrate zu verwenden, die klar größer ist als das Zweifache der höchsten Frequenz, die wir verarbeiten wollen (die für unsere Untersuchung von Interesse ist). 30

Nyquist-Frequenz / Aliasing Signalfrequenz: Sampling Rate: 10 Hz 22 Hz 1s Signalfrequenz: Sampling Rate: 10 Hz 14 Hz 1s 31 Aliasing: Effekt, der verursacht, dass verschiedene kontinuierliche Signale ununterscheidbar werden, wenn sie abgetastet werden.

Allgemeine Bemerkungen zu Transformationen Fourier-Transformation FT Short-time Fourier-Transformation STFT oder Windowed Fourier-Transformation WFT Wavelet-Transformation WT Kontinuierliche Wavelet-Transformation CWT Discrete wavelet transform DWT Adaptive Approximationen Matching pursuit Basis pursuit 32

Spektrum Elektromagnetisches Spektrum des sichtbaren Lichts Das sichtbare Licht setzt sich aus vielen Farben zusammen. Ihre Superposition (Summe) resultiert in weißem Licht. Wie können wir dieses Wissen in der Signalverarbeitung verwenden? 33

Spektrum Üblicherweise sehen wir dem zusammengesetzten Signal nicht dessen einzelne Komponenten an. 34 Eine Rechteck-Funktion kann sehr gut durch Sinusfunktionen beschrieben werden. Sind unendliche Sinus- und Kosinusfunktionen ausreichend, um jedes Signal darzustellen?

Stationäre Signale Beispiele Wenn ein Signal ein zeit-invariantes Spektrum besitzt, wird es stationär genannt, und es kann als eine gewichtete Summe von Sinus- und Kosinusfunktionen dargestellt werden. Ein stationärer Prozess ist ein Prozess, dessen Wahrscheinlichkeitsverteilung für alle Zeiten und Positionen gleich ist. Als Folge davon ändern sich Parameter wie Mittelwert oder Varianz nicht mit der Zeit oder Position. 35

Nicht-stationäre Signale Beispiele Wenn ein Signal ein zeitlich variierendes Spektrum besitzt, wird es nicht-stationär genannt, und es kann nicht wirklich gut als gewichtete Summe von zeitlich unbegrenzten Sinus- und Kosinusfunktionen beschrieben werden. Natürlich sind zeit-variant und zeitinvariant relative Begriffe, die von der Länge des Zeitfensters abhängen. 36