9. Mai 26
Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben
Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben
Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben
Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben
Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben
Dichteschätzung Gegeben: Ein Datensatz x i, i = 1... N. Gesucht: Die Wahrscheinlichkeitsdichte p(x), nach der die Daten verteilt sind. Zwei Klassen von Verfahren Parametrische Verfahren legen eine bestimmte Form der Verteilung zugrunde und optimieren dann deren Parameter z.b. Annahme x ist normalverteilt bestimme passenden Mittelwert und Standardabweichung. Nicht parametrische Verfahren machen keine Annahmen über die Verteilung. Ihre Form wird von den Daten selbst bestimmt. Dabei gibt es meistens nur eine Stellschraube. Beispiel: Histogramm (Datamining I)
Dichteschätzung Gegeben: Ein Datensatz x i, i = 1... N. Gesucht: Die Wahrscheinlichkeitsdichte p(x), nach der die Daten verteilt sind. Zwei Klassen von Verfahren Parametrische Verfahren legen eine bestimmte Form der Verteilung zugrunde und optimieren dann deren Parameter z.b. Annahme x ist normalverteilt bestimme passenden Mittelwert und Standardabweichung. Nicht parametrische Verfahren machen keine Annahmen über die Verteilung. Ihre Form wird von den Daten selbst bestimmt. Dabei gibt es meistens nur eine Stellschraube. Beispiel: Histogramm (Datamining I)
Dichteschätzung Gegeben: Ein Datensatz x i, i = 1... N. Gesucht: Die Wahrscheinlichkeitsdichte p(x), nach der die Daten verteilt sind. Zwei Klassen von Verfahren Parametrische Verfahren legen eine bestimmte Form der Verteilung zugrunde und optimieren dann deren Parameter z.b. Annahme x ist normalverteilt bestimme passenden Mittelwert und Standardabweichung. Nicht parametrische Verfahren machen keine Annahmen über die Verteilung. Ihre Form wird von den Daten selbst bestimmt. Dabei gibt es meistens nur eine Stellschraube. Beispiel: Histogramm (Datamining I)
Dichteschätzung Beispiel: 2 Datenpunkte gemäß dieser Verteilung.25.2.15.1.5 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 6 Balken 6 5 4 3 2 1 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 7 Balken 7 6 5 4 3 2 1 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 8 Balken 5 4 3 2 1 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 9 Balken 5 4 3 2 1 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 1 Balken 5 4 3 2 1 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 12 Balken 4 35 3 25 2 15 1 5 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 13 Balken 35 3 25 2 15 1 5 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 15 Balken 35 3 25 2 15 1 5 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 2 Balken 25 2 15 1 5 2 4 6 8 1
Dichteschätzung: Histogramm Histogramm mit 3 Balken 2 15 1 5 2 4 6 8 1
Dichteschätzung Beim Histogramm zählt man, wieviele Daten in einen bestimmten Bereich ( Bin ) fallen. Modifikation: Zähle an jeder x-koordinate, wie viele Daten in der Nachbarschaft liegen. Alternatives Bild: Schiebe ein Fenster der Breite h über die x-achse und zähle, wieviele Daten das Fenster freilegt. Dies lässt sich wie folgt formalisieren: { falls v > h K U (v) = sonst 1 2h Rosenblatt (1956), Parzen (1962) (1) p(x) = 1 K U (x x i ) (2) N i
Dichteschätzung Beim Histogramm zählt man, wieviele Daten in einen bestimmten Bereich ( Bin ) fallen. Modifikation: Zähle an jeder x-koordinate, wie viele Daten in der Nachbarschaft liegen. Alternatives Bild: Schiebe ein Fenster der Breite h über die x-achse und zähle, wieviele Daten das Fenster freilegt. Dies lässt sich wie folgt formalisieren: { falls v > h K U (v) = sonst 1 2h Rosenblatt (1956), Parzen (1962) (1) p(x) = 1 K U (x x i ) (2) N i
Dichteschätzung Beim Histogramm zählt man, wieviele Daten in einen bestimmten Bereich ( Bin ) fallen. Modifikation: Zähle an jeder x-koordinate, wie viele Daten in der Nachbarschaft liegen. Alternatives Bild: Schiebe ein Fenster der Breite h über die x-achse und zähle, wieviele Daten das Fenster freilegt. Dies lässt sich wie folgt formalisieren: { falls v > h K U (v) = sonst 1 2h Rosenblatt (1956), Parzen (1962) (1) p(x) = 1 K U (x x i ) (2) N i
Kerndichteschätzung K U (v) ist die sog. uniforme Kernfunktion Lässt sich verallgemeinern, z.b. Gausskern: K G (v) = 1 v2 e 2h 2 (3) 2πh 2.5.4.3.2.1 5 3 1 1 3 5 Oft Bedingungen K(v)dv = 1 vk(v)dv =
Kerndichteschätzung: uniformer Kern Bandbreite h=2.25.2.15.1.5 2 4 6 8 1
Kerndichteschätzung: uniformer Kern Bandbreite h=1.25.2.15.1.5 2 4 6 8 1
Kerndichteschätzung: uniformer Kern Bandbreite h=.5.16.14.12.1.8.6.4.2 2 4 6 8 1
Kerndichteschätzung: uniformer Kern Bandbreite h=.3.12.1.8.6.4.2 2 4 6 8 1
Kerndichteschätzung: uniformer Kern Bandbreite h=.1.1.8.6.4.2 2 4 6 8 1
Kerndichteschätzung: Gausskern Bandbreite h=2.16.14.12.1.8.6.4.2 2 4 6 8 1
Kerndichteschätzung: Gausskern Bandbreite h=1.2.15.1.5 2 4 6 8 1
Kerndichteschätzung: Gausskern Bandbreite h=.5.25.2.15.1.5 2 4 6 8 1
Kerndichteschätzung: Gausskern Bandbreite h=.3.35.3.25.2.15.1.5 2 4 6 8 1
Kerndichteschätzung: Gausskern Bandbreite h=.1.35.3.25.2.15.1.5 2 4 6 8 1
Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i
Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i
Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i
Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i
Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i
Kerndichteschätzung kreuzvalidierte Likelihood als Funktion der Bandbreite 35 4 45 5 55 6 65 log Likelihood (CV) 7 1 2 1 1 1 1 1
Kerndichteschätzung Maximum bei h=.4192 (Gausskern).25.2.15.1.5 2 4 6 8 1
Kernregression Gegeben: Ein Satz von Ein-/Ausgabedaten (x i, y i ), i = 1... N Gesucht: Eine glatte Funktion y = f (x). Fasse die Daten x i und y i als Realisationen von Zufallsvariablen X und Y auf. Dann ist die Regressionsfunktion gegeben durch den bedingten Erwartungswert f (x) = E(Y X = x) Kennt man die gemeinsame Verteilung p(x, y) der beiden Zufallsvariablen, so kann man f (x) angeben als f (x) = yp(y x)dy (6) p(x, y) = y dy (7) p(x) p(x, y) = y p(x, y dy (8) )dy
Kernregression Gegeben: Ein Satz von Ein-/Ausgabedaten (x i, y i ), i = 1... N Gesucht: Eine glatte Funktion y = f (x). Fasse die Daten x i und y i als Realisationen von Zufallsvariablen X und Y auf. Dann ist die Regressionsfunktion gegeben durch den bedingten Erwartungswert f (x) = E(Y X = x) Kennt man die gemeinsame Verteilung p(x, y) der beiden Zufallsvariablen, so kann man f (x) angeben als f (x) = yp(y x)dy (6) p(x, y) = y dy (7) p(x) p(x, y) = y p(x, y dy (8) )dy
Kernregression Gegeben: Ein Satz von Ein-/Ausgabedaten (x i, y i ), i = 1... N Gesucht: Eine glatte Funktion y = f (x). Fasse die Daten x i und y i als Realisationen von Zufallsvariablen X und Y auf. Dann ist die Regressionsfunktion gegeben durch den bedingten Erwartungswert f (x) = E(Y X = x) Kennt man die gemeinsame Verteilung p(x, y) der beiden Zufallsvariablen, so kann man f (x) angeben als f (x) = yp(y x)dy (6) p(x, y) = y dy (7) p(x) p(x, y) = y p(x, y dy (8) )dy
Kernregression Im Allgemeinen ist die Verteilung nicht bekannt, muss also geschätzt werden. Benutze Produkt aus zwei Kernen: p(x, y) = 1 K X (x x i )K Y (y y i ) (9) N i Man erhält damit durch Marginalisierung zusätzlich 1 p(x) = K X (x x i )K Y (y y i )dy (1) N i = 1 K X (x x i ) K Y (y y i )dy (11) N i = 1 K X (x x i ) (12) N i
Kernregression Im Allgemeinen ist die Verteilung nicht bekannt, muss also geschätzt werden. Benutze Produkt aus zwei Kernen: p(x, y) = 1 K X (x x i )K Y (y y i ) (9) N i Man erhält damit durch Marginalisierung zusätzlich 1 p(x) = K X (x x i )K Y (y y i )dy (1) N i = 1 K X (x x i ) K Y (y y i )dy (11) N i = 1 K X (x x i ) (12) N i
Kernregression Einsetzen in (7) ergibt f (x) = = i y 1 N i K X (x x i )K Y (y y i ) 1 N j K dy X (x x j ) (13) yk Y (y y i )dy (14) K X (x x i ) j K X (x x j ) Um das Integral zu lösen, substituiere z = y y i und benutze K(z)dz = 1, zk(z) = yk Y (y y i )dy = (z + y i )K Y (z)dz = y i (15)
Kernregression Einsetzen in (7) ergibt f (x) = = i y 1 N i K X (x x i )K Y (y y i ) 1 N j K dy X (x x j ) (13) yk Y (y y i )dy (14) K X (x x i ) j K X (x x j ) Um das Integral zu lösen, substituiere z = y y i und benutze K(z)dz = 1, zk(z) = yk Y (y y i )dy = (z + y i )K Y (z)dz = y i (15)
Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.
Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.
Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.
Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.
Kernregression 1.9 Gaussian Kernel, h=2. data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9
Kernregression 1.9 Gaussian Kernel, h=1. data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9
Kernregression 1.9 Gaussian Kernel, h=.8 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9
Kernregression 1.9 Gaussian Kernel, h=.5 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9
Kernregression 1.9 Gaussian Kernel, h=.4 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9
Kernregression 1.9 Gaussian Kernel, h=.25 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9
Kernregression Je größer die Bandbreite, desto glatter die Funktion Der Nadaraya-Watson-Schätzer funktioniert natürlich auch mehrdimensional (sowohl x als auch y).
Kernregression 1D 2D 4 Noisy "S", Y and X known 1 3 2 1.8.6.4.2 y 2 1 2 3.2.4.6.8 4 2 1.5 1.5.5 1 1.5 2 y 1 x 1
Kernregression 4 3 Gaussian kernel h=1 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Kernregression 4 3 Gaussian kernel h=.5 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Kernregression 4 3 Gaussian kernel h=.2 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Kernregression 4 3 Gaussian kernel h=.1 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Kernregression 4 3 Gaussian kernel h=.5 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Kernregression 4 3 Gaussian kernel h=.2 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Kernregression 4 3 Gaussian kernel h=.1 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Kernregression Welche Bandbreite ist richtig? Naives Fehlermaß: Mittlerer quadr. Abstand zw. y i und f(x i ), geht für kleine Bandbreite h gegen. Besser: Leave-One-Out Cross-Validation E CV = 1 y i f i (x i ) 2 N f i (x) = k i i K(x x k ) y k j K(x x j)
Kernregression Welche Bandbreite ist richtig? Naives Fehlermaß: Mittlerer quadr. Abstand zw. y i und f(x i ), geht für kleine Bandbreite h gegen. Besser: Leave-One-Out Cross-Validation E CV = 1 y i f i (x i ) 2 N f i (x) = k i i K(x x k ) y k j K(x x j)
Kernregression Welche Bandbreite ist richtig? Naives Fehlermaß: Mittlerer quadr. Abstand zw. y i und f(x i ), geht für kleine Bandbreite h gegen. Besser: Leave-One-Out Cross-Validation E CV = 1 y i f i (x i ) 2 N f i (x) = k i i K(x x k ) y k j K(x x j)
Kernregression 1 1 1 error 1 1 1 2 CV error reconstruction error 1 3 1 2 1 1 1 h (bandwidth)
Kernregression 4 Gaussian kernel h=.53 3 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1
Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg
Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg
Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg
Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg
4 random initialization 3.8.6 2.4 1.2 y 2 1.2 2 3.4.6.8 4 2 1.5 1.5.5 1 1.5 2 y 1
4 after 1 steps 2 3 1.5 y 2 2 1 1.5 1.5 2 1 3 1.5 4 2 1.5 1.5.5 1 1.5 2 y 1
4 after 3 steps 5 3 4 2 1 3 2 1 y 2 1 1 2 3 2 3 4 4 2 1.5 1.5.5 1 1.5 2 y 1
4 after 5 steps 3 6 2 4 1 2 y 2 1 2 2 3 4 4 2 1.5 1.5.5 1 1.5 2 y 1 6
4 after 1 steps 3 2 8 6 4 1 2 y 2 1 2 2 3 4 6 8 4 2 1.5 1.5.5 1 1.5 2 y 1
4 3 after 1 steps 2 15 2 1 1 5 y 2 1 5 2 1 3 15 4 2 1.5 1.5.5 1 1.5 2 y 1 2
Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima
Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima
Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima
Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima
Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima
(Unüberwachte) Kernregression Nützlich zur Effizienzsteigerung: Kernfunktionen mit endlichem Träger Epanechnikov-Kernel K E (x) [1 x 2 ] + Quartic-Kernel K Q (x) K E (x) 2
(Unüberwachte) Kernregression Nützlich zur Effizienzsteigerung: Kernfunktionen mit endlichem Träger Epanechnikov-Kernel K E (x) [1 x 2 ] + Quartic-Kernel K Q (x) K E (x) 2 1 Epanechnikov.8.6.4.2.2 1.5 1.5.5 1 1.5
(Unüberwachte) Kernregression Nützlich zur Effizienzsteigerung: Kernfunktionen mit endlichem Träger Epanechnikov-Kernel K E (x) [1 x 2 ] + Quartic-Kernel K Q (x) K E (x) 2 1 Epanechnikov Quartic.8.6.4.2.2 1.5 1.5.5 1 1.5
In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)
In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)
In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)
In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)
Noisy Spiral mit LLE & PCA-Initialisierung Gute Lösungen weisen kleine CV-Fehler auf K=4 R cv =.331 K=5 R cv =.2167 K=6 R cv =.624 K=7 R cv =.94 K=8 R cv =.44 K=9 R cv =.869 K=1 R cv =.43 K=11 R cv =.23 K=12 R cv =.85 K=13 R cv =.91 K=14 R cv =.3331 PCA R cv =.267
UKR zur Visualisierung USPS Digit 2 : 731 Datenvektoren der Dimension 16x16 Projektion in 2D-Raum, dort Abtastung von f(x) 2D-Karte handgeschriebener Ziffern Dichte im latenten Raum als Intensität verwendbar