Transformation und Darstellung funktionaler Daten Seminar - Statistik funktionaler Daten Jakob Bossek Fakultät für Statistik 7. Mai 2012
Übersicht Einleitung Einordnung im Seminar Motivation am Beispiel Registrierung funktionaler Daten Shift Registrierung Landmark Registrierung Kontinuierliche Registrierung Registrierungsarten im Vergleich Darstellung funktionaler Daten Zusammenfassung Literatur J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 2 / 35
Einleitung Einordnung im Seminar Einordnung Bis jetzt nur Preprocessing Glättung mittels Kleinste-Quadrate Methode Glättung mit Straftermen Glättung unter Nebenbedingungen Transformation funktionaler Daten Demnächst verschiedene Formen der Hauptkomponentenanalyse (PCA) Diskriminanzanalyse und Korrelation... J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 3 / 35
Einleitung Motivation am Beispiel Motivation Warum wollen wir überhaupt funktionale Daten transformieren? Beispiel Berkeley Growth Study (Tuddenham und Snyder, 1954) Erfassung der Körpergrößen von 54 Mädchen und 31 Jungen vom Säuglingsalter bis zum 18-ten Lebensjahr Messungen in nicht äquidistanten Zeitabständen Hier nur Betrachtung von 7 Beobachtungen der Mädchen (aus Gründen der Übersicht) J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 4 / 35
Einleitung Motivation am Beispiel Motivation (Forts.) 1 0 Beschleunigung 1 2 3 5 10 15 Alter Abbildung: Wachstumskurven der Mädchen vor der Transformation J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 5 / 35
Einleitung Motivation am Beispiel Motivation (Forts.) Beobachtung Wachstumskurven unterscheiden sich stark von Mädchen zu Mädchen. Wachstum hängt maßgebend von biologischer Uhr ab Problem Durchschnittskurve ähnelt keiner der Wachstumskurven. Wir brauchen eine Lösung! J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 6 / 35
Einleitung Motivation am Beispiel Motivation (Forts.) Warum ist das so? Es liegen zwei Arten von Variation vor: 1) Amplitudenvariation (Intensität des Wachstums) 2) Phasenvariation (Schwankung in den Timings) f(x) f(x) x x (a) Amplitudenvariation (b) Phasenvariation J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 7 / 35
Shift Registrierung Shift Registrierung Simple lineare Transformation der Zeitskala. Gesucht sind registrierte Kurven x i (t) = x i (t + δ i ), i = 1,..., n. f(x) δ i x i (t) x i (t+δ i ) x Abbildung: Veranschaulichung des Shift-Alignments J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 8 / 35
Shift Registrierung Shift Registrierung (Forts.) Problem Wie lassen sich die Shifts δ i, i = 1,..., n (effizient) berechnen? Wie können wir die Shifts bewerten? Wann sind diese "gut"? Lösung Wir brauchen ein globales Transformationskriterium, welches ein Maß für die Ähnlichkeit von Kurven darstellt. Damit haben wir implizit eine Aussage darüber wie gut die Shifts sind. J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 9 / 35
Shift Registrierung Shift Registrierung (Forts.) Kleinste-Quadrate-Kriterium REGSSE = n i=1 T (x i (t + δ i ) x 0 (t)) 2 ds } {{ } = x i (t) Maß für die Ähnlichkeit von Kurven basierend auf totalem quadrierten Fehler Falls x i, i = 1,..., n geglättet, so setzt man üblicherweise: x 0 (t) = ˆµ(t) = 1 n x i (t) n i=1 J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 10 / 35
Shift Registrierung Shift Registrierung (Forts.) Auf dem Weg zum Algorithmus Wir haben nun ein Kriterium für die Ähnlichkeit von Kurven. REGSSE = n i=1 T (x i (t + δ i ) x 0 (t)) 2 ds min! Damit implizit ein Bewertungskriterium für die Shifts. Algorithmus basiert auf modifizierten Newton-Rhapson-Verfahren. Hierzu ein kleiner Exkurs in die numerische Mathematik. J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 11 / 35
Shift Registrierung Shift Registrierung Messungen oft nur in einem bestimmten Intervall T = [T 1, T 2 ] interessant Funktionale Beobachtungen jedoch nicht ausgerichtet J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 12 / 35
Shift Registrierung Newton 1 -Raphson 2 -Verfahren Numerisches Verfahren zur Lösung nichtlinearer Gleichungen. Standardverfahren zur approximativen Nullstellenberechnung. 1 Sir Isaac Newton, 1643-1727, englischer Naturforscher und Philosoph 2 Joseph Raphson, 1648-1715, englischer Mathematiker J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 13 / 35
Shift Registrierung Newton-Raphson-Verfahren (Forts.) Problemstellung Sei f : R R eine stetig differenzierbare Funktion. Gesucht ist eine Nullstelle x R von f, d.h. f( x) = 0. Idee Linearisierung der Funktion durch ihre Tangente im Startpunkt. f(x) x 1 x 0 x J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 14 / 35
Shift Registrierung Newton-Rhaphson-Verfahren (Forts.) Herleitung der Iterationsvorschrift Die Tangente im Punkt (x n, f(x n )) hat die Form Damit erhält man durch Umformung t(x) = f(x n ) + f (x n )(x x n ). f(x n ) + f (x n )(x n+1 x n )! = 0 f(x n ) + f (x n )x n+1 f (x n )x n = 0 f (x n )x n+1 = f (x n )x n f(x n ) x n+1 = x n f(x n) f (x n ) J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 15 / 35
Shift Registrierung Newton-Rhaphson-Verfahren (Forts.) Algorithmus Wähle einen Punkt x n (nahe der unbekannten Nullstelle). Bestimme die Tangente im Punkt (x n, f(x n )) Wähle als bessere Näherung x n+1 die Nullstelle der Tangente durch x n+1 = x n f(x n) f (x n ) Fahre solange fort bis Abbruchkriterium erfüllt ist. J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 16 / 35
Shift Registrierung Berechnung der Shifts mit mod. Newton-Verfahren Erinnerung Folgende Größe ist zu minimieren REGSSE = n i=1 T (x i (t + δ i ) x 0 (t)) 2 ds min! Vorgehen Setze x 0 (t) = ˆµ(t) = 1 n ni=1 x i (t) Bestimmte Startwerte δ (0) i, i = 1,..., n Bestimme iterativ neue Werte J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 17 / 35
Shift Registrierung Berechnung der Shifts mit mod. Newton-Verfahren (Forts.) Bestimme Startwerte δ (0) i Setze ˆµ(t) = 1 n ni=1 x i (t) Kriterium erfüllt? ja Return δ (k) i nein Setze ˆµ(t) = 1 ni=1 n x i (t + δ (k) i ) δ (k) i = δ (k 1) i α ( / δi)regsse ( 2 / δi 2 )REGSSE Abbildung: Flowchart des Algorithmus zur Berechnung eines Shift Alignments J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 18 / 35
Landmark Registrierung Landmark Registrierung Definition Landmark Landmarks sind spezielle Charakteristika von Kurven. Kandidaten sind also insbesondere Extrema und Nullstellen. Idee Richte Kurven an Landmarks aus. Sei F die Anzahl der Landmarks, die in jeder Beobachtung x i (t) vorkommen Seien t if [0, T i ], i = 1,..., n, f = 1,..., F die Argumentwerte an denen diese Landmarks angenommen werden Registrierte Kurven sollen an den Landmarks übereinstimmen, d.h. h i (t if ) = h j (t jf ) für i j, f = 1,..., F J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 19 / 35
Landmark Registrierung Landmark Registrierung (Forts.) Anwendung auf Berkeley Growth Study Idee Maximum der Wachstumsbeschleunigung in der Pubertät im Durchschnitt mit 10 Jahren Bezeichne t 01 den Zeitpunkt zu dem dieses Landmark im Durchschnitt angenommen wird Seien t i1, i = 1,..., n die individuellen Zeitpunkte des Landmarks Warping-Funktionen müssen (0, 0), (t 01, t i1 ), (18, 18), i = 1,..., n interpolieren Einfachste Möglichkeit: lineare Interpolation Besser: allgemeine monotone warping Funktionen der Form h(t) = C 0 + C 1 t 0 exp(w (u)) du J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 20 / 35
Landmark Registrierung Landmark Registrierung (Forts.) 1 15 0 Beschleunigung 1 Beobachtung Beob. 1 Beob. 2 transformierte Zeit h(t) 10 as.factor(series) Beob. 1 Beob. 2 2 5 3 5 10 15 Alter 5 10 15 Zeit t Abbildung: Wachstumskurven der beiden Mädchen mit dem frühsten und dem spätesten Wachstumsspurt in der Pubertät (links), sowie die warping Funktionen (rechts) J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 21 / 35
Landmark Registrierung Landmark Registrierung (Forts.) 1 1 0 0 Beschleunigung 1 Beschleunigung 1 2 2 3 3 5 10 15 Alter 5 10 15 Alter Abbildung: Unregistrierte Kurven (links) und Kurven nach Landmark Registrierung (rechts) mit zwei Landmarks J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 22 / 35
Kontinuierliche Registrierung Kontinuierliche Registrierung (Forts.) Idee Nutze die Form der ganzen Kurven Verallgemeinertes KQ-Kriterium REGSSE(h) = {x i (h i (t)) x 0 (t)} 2 dt. T Problem Nicht geeignet, wenn sich Kurven starke Amplitudenvariation aufweisen. Neuer Ansatz J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 23 / 35
Kontinuierliche Registrierung Kontinuierliche Registrierung (Forts.) 2.0 1.5 1 x(t) 1.0 Funktion 2 * sin(t 1) sin(t) 2 * sin(t 1) 0 0.5 1 0.0 0 1 2 3 4 t 0.0 0.2 0.4 0.6 0.8 sin(t) Abbildung: Unterschied in Phase und Amplitude J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 24 / 35
Kontinuierliche Registrierung Kontinuierliche Registrierung (Forts.) 2.0 1.5 1.5 x(t) 1.0 Funktion 2 * sin(t) sin(t) 2 * sin(t) 1.0 0.5 0.5 0.0 0.0 0 1 2 3 4 t 0.0 0.2 0.4 0.6 0.8 sin(t) Abbildung: Unterschied nur in Amplitude J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 25 / 35
Kontinuierliche Registrierung Kontinuierliche Registrierung (Forts.) Beobachtung Registrierung erreicht, wenn Verteilung der Punkte (x 0 (t), x 1 (t)) durch eine Dimension erklärbar Betrachte die n 2 Matrix der Koordinaten für n Zeitpunkte t i : x 0 (t 1 ) x 1 (h(t 1 )) x 0 (t 2 ) x 1 (h(t 2 )) X =.. R(n 2) x 0 (t n ) x 1 (h(t n )) Untersuche X T X im Rahmen einer Hauptkomponentenanalyse (PCA) J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 26 / 35
Kontinuierliche Registrierung Kontinuierliche Registrierung (Forts.) Kontinuierliches Ähnlichkeitskriterium Betrachte ( T (h) := X T (x0 (t)) 2 dt X = x0 (t)x 1 (h(t)) dt ) x0 (t)x 1 (h(t)) dt (x1 (h(t))) 2 dt Zweite Eigenwert µ 2 der Matrix gleich 0 100% der Variabilität durch erste Hauptkomponente erklärt. Minimiere MINEIG(h) = µ 2 (T (h)) = µ 2 (X T X). J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 27 / 35
Kontinuierliche Registrierung Kontinuierliche Registrierung (Forts.) 1 1 0 0 Beschleunigung 1 Beschleunigung 1 2 2 3 3 5 10 15 Alter 5 10 15 Alter Abbildung: Unregistrierte Kurven (links) und Kurven nach kontinuierlicher Registrierung (rechts) J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 28 / 35
Registrierungsarten im Vergleich Vergleich der Registrierungsarten am Beispiel 1 1 0 0 Beschleunigung 1 Registrierungstyp Unregistriert Nach LM Registrierung Nach kont. Registierung Beschleunigung 1 2 2 3 3 5 10 15 Alter 5 10 15 Alter Abbildung: Durchschnittskurven vor und nach Registrierung mit der Landmark Methode und kontinuierlicher Registrierung J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 29 / 35
Darstellung funktionaler Daten Darstellung funktionaler Daten Beispiel Berkeley Growth Study 160 1 140 0 Größe 120 Beschleunigung 1 100 2 80 3 5 10 15 Alter 5 10 15 Alter Abbildung: Größe gegen Zeit (links) und Wachstumsbeschleunigung gegen Zeit (rechts) J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 30 / 35
Darstellung funktionaler Daten Darstellung funktionaler Daten (Forts.) Beispiel Berkeley Growth Study Beobachtung Offensichtlichste Darstellung von x i (t) gegen t vermittelt den Eindruck Wachstum sei ein simpler Prozess Plot der zweiten Ableitung 2 t 2 x i (t) gegen t liefert ganz neue Erkenntnisse Fazit Keine allgemeinen Empfehlungen für die Darstellung funktionaler Daten Fantasie des Analysten ist gefragt J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 31 / 35
Zusammenfassung Zusammenfassung Was sollte man sich merken? Transformation Registrierung der funktionalen Beobachtungen notwendig um sinnhafte Analyse zu ermöglichen Shift-Registrierung (einfache lineare Transformation) Landmark-Registrierung (Ausrichtung an Landmarks) Kontinuierliche Registrierung Darstellung Darstellung funktionaler Daten abhängig von konkreten Daten Keine allgemeinen Empfehlungen aussprechbar Fantasie des Analysten ist gefragt J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 32 / 35
Literatur Literatur I Ethem Alpaydin. Maschinelles Lernen. Oldenbourg, 2008. Knorrenschild M. Numerische Mathematik - Eine beispielorientierte Einführung. Hanser Verlag München, 4., aktualisierte Auflage edition, 2010. KP. The registration of functional data. http://www.psych.mcgill.ca/misc/fda/downloads/fdatalks/ regist_talk.pdf. zuletzt abgerufen am 20.04.2012. J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 33 / 35
Literatur Literatur II R Development Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2012. URL http://www.r-project.org/. ISBN 3-900051-07-0. Ramsay J.O., Hooker G., Graves S. Functional Data Analysis with R and MATLAB. Springer Verlag, 2009. Ramsay J.O., Silverman B.W. Applied Functional Data Analysis: Methods and Case Studies. Springer Verlag, 2002. Ramsay J.O., Silverman B.W. Functional Data Analysis. Springer Verlag, zweite auflage edition, 2005. J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 34 / 35
Literatur Literatur III Ramsay J.O., Wickham H., Graves S., Hooker G. fda: Functional Data Analysis, 2011. URL http://cran.r-project.org/package=fda. R package version 2.2.7. J.Bossek (Fakultät für Statistik) Transformation funktionaler Daten Mai 2012 35 / 35