Methoden der Biosignalverarbeitung

Transkript

1 Vorlesung SS 2012 Methoden der Biosignalverarbeitung Common Spatial Patterns Dipl. Math. Michael Wand Prof. Dr. Tanja Schultz 1

2 Einführung In dieser Vorlesung behandeln wir Common Spatial Patterns (CSPs), eine Methode der Rohdatenvorverarbeitung, die besonders in der EEG- Klassifikation eingesetzt wird Übliche Aufgabenstellung Multidimensionale Zeitreihe (viele Kanäle) Ziel: Diskriminierung von zwei verschiedene Bedingungen (z.b. Vorstellung der Bewegung der linken Hand gegen rechte Handbewegungen) Common Spatial Patterns sind eine Variante der PCA (Hauptkomponentenanalyse) Standardmethode, die in aktuellen Brain Computer Interfaces eingesetzt wird Die gewöhnliche PCA berücksichtigt die Klassenstruktur der Trainingsdaten nicht (komplett unüberwachtes Verfahren) Common Spatial Patterns erzeugen Merkmale, die besonders die Unterscheidbarkeit von zwei Klassen erhöhen sollen. 2

3 Literatur Die Vorlesung basiert auf folgenden Veröffentlichungen: Müller-Gerking et al.: Designing optimal spatial filters for single-trial EEG classification in a movement task. Clinical Neurophysiology 110 (1999), Seiten Ramoser et al.: Optimal spatial filtering of single trial EEG during imagined hand movement. IEEE Transactions on Rehabilitation Engineering 8 (2000), Seiten Blankertz et al.: Optimizing Spatial Filters for Robust EEG Single-Trial Analysis. IEEE Signal Processing Magazine 41 (2008), Seiten Vielen Dank für Folien und Überarbeitung an Dominic Heger! 3

4 Überblick Einführung Der Algorithmus Wiederholung PCA Common Spatial Patterns als Erweiterung der PCA Anwendungen in der Elektroenzephalographie (EEG) Weitere Anwendungen 4

5 Taxonomie: Unser Biosignal für heute Biosignale Mechanische Biosignale Thermische Biosignale Elektrische Biosignale Chemische Biosignale Akustische Biosignale Gestik Mimik Bewegung Wärme Hirn EEG Augen EOG Muskeln EMG MEG/PET fmri Herz EKG Nichtsprachl. Artikulation Körpergeräusche Sprache 5

6 EEG: Erfassung Wir beschäftigen uns heute mit einer Methode, EEG-Signale zu klassifizieren. Dazu wird eine spezielle Vorverarbeitung verwendet, um die Signale auf einen Unterraum zu projizieren, der möglichst gute Diskriminanz ermöglicht Den grundsätzlichen Arbeitsablauf haben wir in der Vorlesung "Biosignale und Benutzerschnittstellen" kennengelernt: Signalerfassung durch Elektroden Sampling, A/D-Wandlung Feature Extraction Klassifikation 16-Kanal-Verstärker Recorder Varioport 6

7 Anwendungen Unser Anwendungsfall sind BCIs: Mensch-Maschine-Schnittstellen zur Steuerung eines Computers durch Gehirnaktivität Typische Anwendungen von EEG/Brain-Computer-Interfaces: Hilfe für schwer behinderte Personen (z.b. Cursorsteuerung, Rollstuhlsteuerung, ) Forschungsinstrument,um neurologische Vorgänge zu untersuchen Gaming (zb. Epoc Emotiv neuroheadset) Common Spatial Patterns sind eine der Methoden, die in state-of-the-art EEG/Brain Computer Interfaces (BCIs) verwendet werden 7 Wolpaw,et. al (2002) TU Berlin (2009)

8 EEG: Feature Extraction BCI Systeme können auf einer Reihe verschiedener neurophysiologischen Effekte basieren: Slow cortical potentials (SCPs): Benutzer kann lernen, langsame Potentialänderungen (zwischen 300ms und zu mehrere Sekunden Länge), bewusst zu kontrollieren Ereigniskorrelierte Potentiale (EKP): Benutzer setzt sich einem Stimulus (meist akustisch oder visuell) aus, daraufhin erzeugt das Gehirn ein messbares Potential (zb. P300: positives Potential ca. 300ms nach dem Reiz) Steady-state evoked potentials (SSEPs): Benutzer betrachtet mit unterschiedlicher Frequenz blinkende Lichtquellen -> Aktivität im visuellen Kortex bei der Frequenz und ihren Oberschwingungen steigt Mentale Aufgaben: z.b. Vorstellung der 3D Rotationion eines Objekts erzeugt eine spezielle (aufgabenspezifische) Freuqenzverteilung der EEG-Signale Sensor-motorische Rhythmen (SMR) 8

9 Motor Imagery basierte BCIs Sensor-motorische Rhythmen (SMR): μ Rhythmus (Aktivität bei ca. 8-12Hz) und beta Band Aktivität (bis 30Hz) Im Bereich des sensor-motorischen Kortex vorne SMRs desynchronisieren bei Bewegungen, d.h. sie werden stark abgeschwächt, aber dies geschieht auch schon bei der reiner Vorstellung von Bewegungen (motor imagery) Kontralateralität: rechte Handbewegung Beispiel: linke Hand -> Aktivierung im Motorkortex rechts rechte Hand -> Aktivierung im Motorkortex links CSPs werden in BCIs auf Basis von Motor Imagery sehr häufig eingesetzt 9

10 Überblick Einführung Der Algorithmus Wiederholung PCA Common Spatial Patterns als Erweiterung der PCA Anwendungen in der Elektroenzephalographie (EEG) Weitere Anwendungen 10

11 PCA und Common Spatial Patterns (CSP) In diesem Abschnitt wiederholen wir kurz die PCA. Danach stellen wir Common Spatial Patterns (die wir CSP abkürzen wollen) als eine Erweiterung dieser Methode vor. Wer in der Vorlesung "Biosignale und Benutzerschnittstellen" aufgepasst hat, sollte diese Folien (teilweise) wiedererkennen 11

12 Principal Component Analysis (PCA) PCA: Principal Component Analysis, Hauptkomponentenanalyse Eingabe: Eine Menge von Eingabesamples (N-dimensionale Spalten-Vektoren): x 1,..., x M, o.b.d.a. mit Mittelwert 0. Das Ziel ist es, die Dimensionalität der Samples zu reduzieren, d.h. für ein festes K suchen wir eine K-dimensionale Basis des R N, so dass die Darstellung der Samples in dieser Basis "optimal" ist. Diese Basis soll eine Orthogonalbasis des Raumes R N sein, d.h. die Basisvektoren sind senkrecht zueinander. Eine Basistransformation ist eine lineare Transformation, d.h. wir werden aus den x M transformierte y M erhalten mit y M W x M, W R KN 12

13 Principal Component Analysis (PCA) Als Kriterium verwenden wir, dass die Varianz der transformierten Samples maximal sein soll, und zwar je Basisvektor, d.h. der erste Basisvektor ist die Richtung mit größter Varianz die weiteren Basisvektoren haben jeweils größte Varianz im noch verbleibenden Raum aller möglichen Basisvektoren (die ja zu allen bisher gefundenen Dimensionen orthogonal sein sollen) Wird PCA zur Feature Extraction verwendet, ist die Annahme: Richtungen mit größter Varianz sind auch von größtem Interesse Dann kann man die ersten der von der PCA gelieferten Komponenten verwenden, die restlichen weglassen, und hat somit das Signal komprimiert, d.h. seine Dimensionalität reduziert Eine weitere wichtige Beobachtung, die wir später noch genauer behandeln: Das mit der PCA transformierte Signal ist dekorreliert, die Korrelation der einzelnen Komponenten ist Null! 13

14 PCA: Beispiel Pendeluhr (1673). Quelle: Wikipedia, Pendulum Betrachte die gemessene Positionen eines Pendels. Offensichtlich kann sein Schwingungsverhalten mit einer einzigen Variablen beschrieben werden, aber: Unglücklicherweise hat ein unbegabter Experimentator die Messapparatur so aufgebaut, dass die Schwingrichtung zu keiner der völlig willkürlich gewählten Achsen parallel ist Das Laborfenster war geöffnet, und der Luftzug hat der Pendelschwingung eine Rausch komponente hinzugefügt Offensichtlich ist die grün eingezeichnete Richtung die Richtung größter Varianz. Wenn diese der eigentlich gesuchten Schwingung entspricht (also das Rauschen nicht allzu groß ist), sollte uns die PCA diese Richtung als Hauptkomponente zurückliefern. Die Rauschkomponente kann man dann vernachlässigen. 14

15 PCA: Durchführung der Transformation Sind die orthogonalen Hauptkomponenten gefunden, werden die Samples mit der Matrix multipliziert, die die einzelnen Komponenten enthält. Dies ist also ein Basiswechsel im Merkmalsraum. Wir nehmen an, die "Wolke" von Messwerten sei in etwa so verteilt wie unten links. Die PCA wird uns die unten eingezeichneten Faktoren zurückliefern. Ein Basiswechsel im Merkmalsraum wird uns dann die Situation unten rechts liefern. Basiswechsel Interessant wird die PCA natürlich besonders dann, wenn es viele Dimensionen gibt. 15

16 PCA: Berechnung Wie berechnet man die PCA? Zunächst einige Definitionen: Seien die x m xm : ( xm (1) N ) (m=1,..., M) unsere Eingabesamples. Dann definieren wir: den (empirischen) Mittelwert x : 1 M M m1 x m die (empirische) Kovarianzmatrix C X : 1 M M m1 ( x m x)( x m x) T Der Mittelwert ist ein N-dimensionaler Vektor, ebenso wie die x m. Die Kovarianzmatrix ist eine symmetrische NxN-Matrix, deren Komponente (i,j) die Kovarianz der i-ten und der j-ten Komponenten der x m enthält. Die Diagonalelemente sind die Varianzen der entsprechenden Komponenten. Wir wollen der Einfachheit halber x 0 annehmen. 16

17 PCA: Berechnung Seien x 1,..., x M die N-dimensionalen Eingabevektoren. 1. Wir wollen zunächst nur eine Richtung (nämlich die mit größter Varianz) suchen. D.h. wir suchen den Vektor p=(p 1,...,p N ), der die x m in Skalare y m =px m transformiert, so dass Var(y 1,...,y M ) maximal ist. 2. Von p fordern wir als Nebenbedingung eine Länge von 1: p 2 T pp 1 3. Rechnen wir s aus! Sei o.b.d.a. der Mittelwert der x m gleich Null (!). Dann ist auch der Mittelwert der y m gleich Null, und Var ( y 1,..., y M ) 1 M m ( px m )( px m ) T 1 p M x m x T m p T pc X p T Die Richtung größter Varianz muss also den Ausdruck pc X p T unter der Nebenbedingung (NB) pp T =1 maximieren. 17

18 PCA: Berechnung 4. Zu maximieren ist also der Ausdruck pc X p T unter der Nebenbedingung (NB) pp T =1. Wir führen einen Lagrange-Multiplikator ein und erhalten als Zielfunktion (ZF) T T h( p, ) pc p ( pp 1) X Lagrange Multiplikatorenregel: maximiere unter NB => ZF: f (x) g( x) c h( x, ) f ( x) ( g( x) c) Ableiten und Null setzen liefert kritische Punkte der Lagrangefunktion (Notwendige Bedingungen zur Lösung des Optimierungsproblems) 18

19 PCA: Berechnung Ableiten von (ZF) führt zu h p T T 2C X p 2p und Nullsetzen dieser Ableitung ergibt schließlich die Forderung C X p T p T Daher ist eine notwendige Bedingung für die Maximalität von pc X p T, dass λ ein Eigenwert von C X ist! Nach der Transformation y m =px m gilt: var(y 1,...,y M )=λ d.h. wenn wir den größten Eigenwert von C X gefunden haben, haben wir mit dem zugehörigen Eigenvektor auch wirklich die Richtung größter Varianz gefunden. Ähnlich suchen wir nun nach den weiteren Richtungen mit nächstniedriger Varianz, die zusätzlich zu allen bisher gefundenen Richtungen orthogonal sein sollen (sonst würden wir bei der Maximierung der Varianz immer wieder bei derselben Richtung landen). 19

20 PCA: Berechnung Frage: Geht diese Transformation immer? Ja, denn die Matrix C X ist symmetrisch, daher lässt sie sich in der Tat durch eine orthogonale Transformation P diagonalisieren, und alle Eigenwerte sind reell. Da darüber hinaus die Eigenwerte Varianzen unabhängiger Messreihen im transformierten Featureraum sind, sind die Eigenwerte auch alle positiv und nicht Null. Die Bestimmung der Eigenwerte von C X kann mit einem beliebigen Verfahren durchgeführt werden. Damit haben wir den PCA-Algorithmus vollständig beschrieben und seine Korrektheit bewiesen! 20

21 PCA: Dekorrelation und Unabhängigkeit Der entscheidende Schritt bei der PCA ist die Dekorrelation der ursprünglichen Dimensionen. Das bedeutet, dass die Kovarianzen zweier verschiedener Dimensionen durch die Transformation zu Null gemacht werden. Dies ist optimal für normalverteilte Datensätze, denn in diesem Fall sind nach der Transformation die einzelnen Dimensionen nicht nur unkorreliert, sondern auch statistisch unabhängig. Wenn die Daten anders verteilt sind, können die Dimensionen nach der Transformation immer noch voneinander abhängig sein. (Weitere) Vorteile der PCA: Die PCA ist parameterlos und unüberwacht: sie lässt sich gut anwenden, wenn über die Struktur der zugrundeliegenden Daten nichts bekannt ist. Die PCA ist recht einfach zu berechnen, auch die mathematische Theorie ist gut erforscht. Das Grundprinzip lässt sich vielfältig erweitern, um gewisse Schwächen des Basisalgorithmus zu lindern (s. nächste Folien). 21

22 PCA: Minimierung des quad. Fehlers Nehmen wir wieder eine Menge von N-dimensionalen Eingabesamples x 1,..., x M. Wir suchen wieder eine K-dimensionale Darstellung der x m : y m = W x m + b, W eine KxN-Matrix, die den mittleren quadratischen Fehler, d.h. die Summe minimiert. h( W, b) y m x m Es ist eine schöne Übungsaufgabe, zu zeigen, dass mit dem obigen Kriterium die optimale Darstellung durch einen einzigen Punkt (d.h. W=0) durch den Mittelwert gegeben ist. Man kann nun zeigen, dass die obige Funktion durch b x und durch die PCA-Matrix W, die wir wie auf den letzten Folien berechnen können, minimiert wird. Für K=N (also volle Dimensionalität) ist der Fehler selbstverständlich 0. m 2 22

23 PCA: Beispiel Eine gängige Anwendung der PCA ist die Beschreibung und Erkennung von Gesichtern. Sehr hochdimensionaler Featureraum (100x100 Pixel sind schon einzelne Features). Aber typische Gesichtseigenschaften, die bei verschiedenen Personen ähnlich sein können. Normalisierung der Gesichter (Zentrierung, gleiche Größe) ist nötig. In der Grafik sieht man ein typisches Mittelwertsgesicht und die sieben ersten Hauptkomponenten, die in einem Experiment berechnet wurden. Ein beliebiges Gesicht wird dann mit einer gewichteten Summe der Eigenfaces unten approximiert. Quelle: Shakhnarovich & Moghaddam, Face Recognition in Subspaces Mitsubishi Electric Research Laboratories, Technical Report,

24 Überblick Einführung Der Algorithmus Wiederholung PCA Common Spatial Patterns als Erweiterung der PCA Anwendungen in der Elektroenzephalographie (EEG) Weitere Anwendungsbeispiele 24

25 CSP: Die Idee Nehmen wir nun an, wir haben einen Datensatz (mit Trainingsdaten), der in zwei Klassen geteilt ist, die wir unterscheiden wollen Wollen wir PCA darauf anwenden? PCA ignoriert die Klassenstruktur völlig Vielleicht verlieren wir beim Kompressionsschritt sogar die Informationen, die zur Unterscheidung der Klassen am wichtigsten wären! (Weil sie sozusagen im Grundrauschen untergehen.) Bei den Common Spatial Patterns ist die Idee, nicht eine Kovarianzmatrix zu betrachten, sondern zwei, nämlich die Kovarianzen der zu unterscheidenden Klassen! 25

26 CSP: Algorithmus Wir machen die Voraussetzungen: Wir haben Samples x 1,1,..., x K,1 der ersten Klasse und x 1,2,..., x M,2 der zweiten Klasse (Vorsicht, wenn M und K sehr unterschiedlich sind!) Die Samples sind alle wieder N-dimensional. Seien C 1, C 2 die Kovarianzmatrizen der beiden Klassen. Außerdem setzen wir C C C 1 C 2 Dieses C C wollen wir nun diagonalisieren. Das ist möglich, da C 1 und C 2 symmetrisch positiv definit sind (sind Kovarianzmatrizen immer, nach Definition), und somit auch C C. Also existiert eine Drehmatrix U, so dass U T C C U =: D eine Diagonalmatrix ist. 26

27 CSP: Whitening U T C C U =: D ist eine Diagonalmatrix. d1 D d N Setzen wir noch P = UD -1/2, wobei D 1/ 2 d 1/ / 2 d N so ist die Matrix P T C C P sogar die Einheitsmatrix (nachrechnen!). Diese Transformation ist für jede Kovarianzmatrix möglich. Sie heißt whitening transformation, weil die transformierten Samples Px... räumlich weiß (spatially white) sind: Ihre Kovarianzmatrix ist die Identitätsmatrix. Diese Transformation kommt sehr häufig vor, und wir brauchen sie auch später noch (z.b. für die Quellenseparation)! 27

28 CSP: Gemeinsame Eigenvektoren Wir gehen von der Gleichung C C C 1 C 2 aus und multiplizieren beide Seiten von links mit P T und von rechts mit P. Es ergibt sich T I ~ Die wichtige Beobachtung ist nun: Wenn v ein Eigenvektor von C1 ~ ist, dann ist er auch einer von C (und umgekehrt): Außerdem ist die Summe der beiden Eigenwerte 1. P C C P 2 ~ C v v 1 ~ ~ v Iv ( C C 1 ~ C v (1 ) v 2 P T C P ~ ~ : C C P T 2 C P ) v 2 v ~ C v 2

29 CSP: Gemeinsame Eigenvektoren ~ ~ Es folgt dann noch, dass sich und C gemeinsam diagonalisieren lassen: D 1 B T ~ C B 1 C1 2 und mit Diagonalmatrizen D 1 und D 2. Dabei ist, wie gesagt, D 1 + D 2 =I. Die Eigenvektoren in den Spalten von B heißen Common Spatial Patterns. Jetzt transformieren wir unsere Samples mit der Kombination aus B und der whitening transformation P von vorhin: D 2 B T ~ C 2 B BPxi, c Mxi, c yi, c, i 1,...,M,c 1,2 Damit haben die Komponenten der Vektoren y i,c folgende Eigenschaften: Die ersten Komponenten haben eine hohe Varianz, wenn die Klasse c=1, und eine niedrige Varianz, wenn die Klasse c=2 ist. Für die letzten Komponenten gilt genau das Gegenteil. Die mittleren Komponenten wird man bei der Klassifikation weglassen (kommt gleich). 29

30 CSP: Algorithmus Der CSP-Algorithmus geht also folgendermaßen: 1. Schätze die Kovarianzmatrizen der beiden Klassen C 1, C 2 und die gemeinsame Kovarianzmatrix C c anhand der Samples ab. 2. Berechne für C C die whitening transformation P, wende diese auf C 1 und ~ ~ C 2 an (d.h. wir erhalten C1 und C2) ~ ~ 3. C und sind gemeinsam diagonalisierbar mittels einer 1 C2 Orthogonalmatrix B, die nun berechnet wird. 4. Setze M=BP. Dieses M ist die gesuchte Transformationsmatrix. 5. Die mittleren Zeilen der Matrix M werden weggelassen, so dass nur noch eine gewisse Zahl der ersten und letzten Zeilen übrigbleibt. 30

31 CSP: Zwischenzusammenfassung Also: Wir haben eine Transformation des Featureraums gefunden, die die Samples x i,c des EEG-Signals so transformiert, dass die sich ergebenden Samples y i,c folgende Eigenschaft haben: Die Komponenten sind so sortiert, dass die Varianz in den einzelnen Komponenten absteigend ist für Klasse c=1, und aufsteigend für Klasse c=2. Unten sieht man ein Beispiel in zwei Dimensionen. 31 Quelle: Blankertz et al.

32 CSP: Zwischenzusammenfassung Je nach der Wahl von M haben die y i,c eine kleinere Dimension als die x i,c. Damit lässt sich die Varianz der einzelnen Komponenten als Feature für die EEG-Klassifikation verwenden! Aber wie genau geht die Klassifikation nun vor sich? In der praktischen Anwendung haben wir wie üblich zwei Schritte: Training eines Systems: Das bedeutet in diesem Fall das Training der CSP- Transformationsmatrix M und das Training eines Klassifikators, der auf Basis der transformierten Samples trainiert wird. Test (Laufzeit)des Systems: Hierzu müssen wieder Featurevektoren extrahiert und klassifiziert werden. 32

33 CSP: Klassifikation 1. Schritt: Training Wir nehmen nun an, dass wir mehrere Aufnahmen x i,c (t) von Zeitreihen aus den beiden Klassen haben. (t steht für die Zeit.) Zunächst muss die CSP-Projektionsmatrix M auf Basis der annotierten Trainingsdaten berechnet werden. Wie dies geht, haben wir oben gesehen. Dann wird jedes Sample x i,c (t) mit M multipliziert, wodurch sich y i,c (t) ergibt. Für jede Zeitreihe y i,c (t) berechnen wir nun die Varianzen v i,c der einzelnen Komponenten. v i,c ist damit ein Vektor, dessen Größe die Zeilenzahl von M, also die Zahl der behaltenen Komponenten, ist. Mit den v i,1 bzw. v i,2 wird nun ein gewöhnlicher binärer (z.b. linearer) Klassifikator trainiert. 33

34 CSP: Klassifikation 2. Schritt: Test Sei nun x (1),..., x (T) ein zu klassifizierendes Signal. Wir führen folgende Schritte aus: Multipliziere die x (1),..., x (T) mit der Transformationsmatrix M. Das Ergebnis heißt y (1),..., y (T). Aus den y (1),..., y (T) berechnen wir die Varianzen der einzelnen Komponenten, wodurch sich ein Vektor v mit derselben Dimension wie jedes y (T) ergibt. Dieses v ist nun unser Featurevektor, den wir mit dem vorher trainierten Klassifikator als zur Klasse 1 oder 2 zugehörig erkennen. Beispiel (aus Blankertz): Vier CSPs aus echten EEG-Signalen. Oben rechte Hand, unten linke Hand. Die Varianzen unterscheiden sich in den Blöcken deutlich! 34

35 Filter und Patterns Man kann die CSP-Transformation auch visualisieren. Betrachten wir zunächst die Spalten der Transformationsmatrix M, die die einzelnen Komponenten erzeugen. Diese Spalten werden als Filter bezeichnet. Ein typischer Filter (also eine Spalte von M), auf die EEG-Elektroden rückprojiziert, sieht so aus (die Spitze oben soll die Nase sein): Quelle: Blankertz et al. Dieses Bild ist nicht sehr aussagekräftig. 35

36 Filter und Patterns Nützlicher ist die Darstellung der Inversen der Matrix M. Definieren wir also A=(M -1 ) T. A hat die Spalten a j, j=1...n. Dann gilt x ( t) N j1 a j s ( t) j mit geeigneten s j (t). Diese s j (t) sind zugrundeliegende Aktivitäten, und jedes a j beschreibt die räumliche Verteilung dieser Aktivität. Unten sieht man den Zusammenhang zwischen Filtern und Patterns, auf einem echten EEG-Datensatz. 36 Quelle: Blankertz et al.

37 Überblick Einführung Der Algorithmus Wiederholung PCA Common Spatial Patterns als Erweiterung der PCA Anwendungen in der Elektroenzephalographie (EEG) Weitere Anwendungsbeispiele 37

38 Anwendung: Klassifikation von Bewegungs-EEG Diese Anwendung stammt aus (Müller-Gerking et al.). Weitere Beispiele finden sich in dem Übersichtsartikel von Blankertz. 3 Probanden sollten drei gewisse Bewegungen (linker/rechter Zeigefinger, rechter Fuß) durchführen. Versuchsablauf war der folgende: 1. Dem Proband wird ein visuelles Prompt gezeigt, welche Bewegung auszuführen ist 2. Nach 2 Sekunden wird der Proband dann durch ein akustisches Signal aufgefordert, die eigentliche Bewegung auszuführen. 3. Dieser Vorgang wird 600mal durchgeführt, also 150mal pro Bewegung. Das EEG wird zwischen Punkt 1 und Punkt 2 aufgenommen und ausgewertet, d.h. es wurde die Vorbereitung der Bewegung klassifiziert, nicht die tatsächliche Bewegung. Finden sich Artefakte in einer Aufnahme, so wird die gesamte Aufnahme entfernt. Insgesamt wurden so weniger als 50% aller Aufnahmen verwendet. Verschiedene Frequenzbänder des EEGs werden betrachtet. 38

39 Anwendung: Klassifikation von Bewegungs-EEG Die berechneten CSPs kann man wieder visualieren. Die obere Grafik zeigt die Verteilung der berechneten Komponenten für die Unterscheidung der Bewegungen von linkem und rechtem Zeigefinger. Dargestellt sind jeweils die ersten beiden CSPs (also die ersten beiden und letzten beiden Zeilen der Transformationsmatrix). Man sieht eine gewisse Symmetrie, die aufgrund der Symmetrie des Motorkortex auch keine Überraschung ist. Die untere Grafik zeigt die CSPs für die Unterscheidung der Bewegungen von rechtem Zeigefinger und rechtem Fuß. 39

40 Anwendung: Klassifikation von Bewegungs-EEG Die Klassifikation wird mit einem "one-against-one"-verfahren durchgeführt. Das heißt, für jedes Paar von Klassen wird ein Klassifikator (und eine Transformationsmatrix) trainiert. Eine Aufnahme wird als der Klasse C zugehörig klassifiziert, wenn der Vergleich zwischen C und allen anderen Klassen die Klasse C bevorzugt, ansonsten ist das Ergebnis "unentschieden". Die Erkennungsraten variieren je nach Proband zwischen 80% und 94%, wobei die besten Ergebnisse typischerweise im Frequenzband zwischen 8 Hz und 30 Hz erzielt werden (Sensor motorische Rhythmen). 40

41 Anwendung: Erkennung von Herzvorhofflimmern Quelle: Legarreta et al, Common Spatial Pattern: An Improved Method for Atrial Fibrillation Wave Extraction. Computers in Cardiology, 2007 Begriffsbestimmung: Atrial Fibrillation (deutsch: Herzvorhofflimmern) gilt als die häufigste Rhythmusstörung des Herzens. Allein in Deutschland etwa Betroffene. Typischerweise unspezifische Beschwerden wie Müdigkeit, Herzrasen oder Schlafstörungen Außerdem erhöhtes Schlaganfallrisiko 41

42 Anwendung: Erkennung von Herzvorhofflimmern Vorhofflimmern zeichnet sich besonders dadurch aus, dass die P-Wellen, die sonst im EKG erkennbar sind, fehlen. Unten: Zwei Beispiele von EKG-Signalen, oben: bei Vorhofflimmern unten: normal Aufgabe in dieser Arbeit: EKG-Anteile mit Vorhofflimmern sollen vom Hauptsignal des EKG separiert werden 42

43 Anwendung: Erkennung von Herzvorhofflimmern Experimentablauf: 420 Testsignale, teilweise simuliert durch Überlagerung von gewöhnlichem EKG und echten Beispielsignalen 12 Kanäle, abgetastet (gesampled) mit 400 Hz bis 10 khz, alle auf 100 Hz heruntergesampled Auf diese Signale wird die CSP-Methode angewendet. Kovarianzmatrizen werden abgeschätzt von Signal um die R-Zacke (-100ms bis 300 ms) restlichem Signal Von den 12 Zeilen der Projektionsmatrix werden 4 behalten Auswertung: Klassifikation der Signalabschnitte mit CSP ergab die besten Ergebnisse Klassifikation mit Vergleichsalgorithmen: Template matching, PCA, INFOMAX, SOBI, JADE (die letzten beiden sind Methoden der Blind Source Separation, kommt demnächst) 43

44 Ende Fragen? 44