Unsupervised Kernel Regression



Ähnliche Dokumente
Statistische Thermodynamik I Lösungen zur Serie 1

q = 1 p = k k k = 0, 1,..., = [ ] = 0.678

Informationsblatt Induktionsbeweis

i x k k=1 i u i x i v i 1 0, ,08 2 0, ,18 3 0, ,36 4 0, ,60 5 1, ,00 2,22 G = n 2 n i=1

Würfelt man dabei je genau 10 - mal eine 1, 2, 3, 4, 5 und 6, so beträgt die Anzahl. der verschiedenen Reihenfolgen, in denen man dies tun kann, 60!.

Die Pareto Verteilung wird benutzt, um Einkommensverteilungen zu modellieren. Die Verteilungsfunktion ist

Abituraufgabe zur Stochastik, Hessen 2009, Grundkurs (TR)

W-Rechnung und Statistik für Ingenieure Übung 11

TREND SEARCH VISUALISIERUNG. von Ricardo Gantschew btk Berlin Dozent / Till Nagel

Professionelle Seminare im Bereich MS-Office

Vorkurs Mathematik Übungen zu Polynomgleichungen

Unterrichtsmaterialien in digitaler und in gedruckter Form. Auszug aus: Übungsbuch für den Grundkurs mit Tipps und Lösungen: Analysis

Der monatliche Tarif für ein Handy wurde als lineare Funktion der Form f(x) = k x + d modelliert (siehe Grafik).

Was meinen die Leute eigentlich mit: Grexit?

R ist freie Software und kann von der Website.

Stellen Sie bitte den Cursor in die Spalte B2 und rufen die Funktion Sverweis auf. Es öffnet sich folgendes Dialogfenster

Lineargleichungssysteme: Additions-/ Subtraktionsverfahren

Melanie Kaspar, Prof. Dr. B. Grabowski 1

1.3 Die Beurteilung von Testleistungen

Diese Prozesse und noch viele andere Tricks werden in der Digitalfotografie mit Hilfe von Bildbearbeitungsprogrammen, wie z. B. Gimp, bewältigt.

Binäre abhängige Variablen

6. Bayes-Klassifikation. (Schukat-Talamazzini 2002)

Füllmenge. Füllmenge. Füllmenge. Füllmenge. Mean = 500,0029 Std. Dev. = 3,96016 N = ,00 490,00 495,00 500,00 505,00 510,00 515,00 Füllmenge

Extrema von Funktionen in zwei Variablen

a n auf Konvergenz. Berechnen der ersten paar Folgenglieder liefert:

geben. Die Wahrscheinlichkeit von 100% ist hier demnach nur der Gehen wir einmal davon aus, dass die von uns angenommenen

Reporting Services und SharePoint 2010 Teil 1

Er musste so eingerichtet werden, dass das D-Laufwerk auf das E-Laufwerk gespiegelt

Kugel-Fächer-Modell. 1fach. 3fach. Für die Einzelkugel gibt es 3 Möglichkeiten. 6fach. 3! Möglichkeiten

13. Lineare DGL höherer Ordnung. Eine DGL heißt von n-ter Ordnung, wenn Ableitungen y, y, y,... bis zur n-ten Ableitung y (n) darin vorkommen.

Erstellen einer Collage. Zuerst ein leeres Dokument erzeugen, auf dem alle anderen Bilder zusammengefügt werden sollen (über [Datei] > [Neu])

Data Mining: Einige Grundlagen aus der Stochastik

9 Auto. Rund um das Auto. Welche Wörter zum Thema Auto kennst du? Welches Wort passt? Lies die Definitionen und ordne zu.


Wir machen neue Politik für Baden-Württemberg

Universität Bonn 28. Juli 2010 Fachbereich Rechts- und Wirtschaftswissenschaften Statistische Abteilung Prof. Dr. A. Kneip. KLAUSUR Statistik B

Second Steps in eport 2.0 So ordern Sie Credits und Berichte

Planen mit mathematischen Modellen 00844: Computergestützte Optimierung. Autor: Dr. Heinz Peter Reidmacher

Online Newsletter III

Seite 1 von 14. Cookie-Einstellungen verschiedener Browser

3. LINEARE GLEICHUNGSSYSTEME

Profil A 49,3 48,2 50,7 50,9 49,8 48,7 49,6 50,1 Profil B 51,8 49,6 53,2 51,1 51,1 53,4 50, ,5 51,7 48,8

Repetitionsaufgaben Wurzelgleichungen

Lineare Gleichungssysteme

Stochastische Eingangsprüfung,

Um sich zu registrieren, öffnen Sie die Internetseite und wählen Sie dort rechts oben

Die Post hat eine Umfrage gemacht

Urlaubsregel in David

Beispiel Zusammengesetzte Zufallsvariablen

Grundlagen der höheren Mathematik Einige Hinweise zum Lösen von Gleichungen

Mathematischer Vorbereitungskurs für Ökonomen

Eva Douma: Die Vorteile und Nachteile der Ökonomisierung in der Sozialen Arbeit

Proxy. Krishna Tateneni Übersetzer: Stefan Winter

Windows XP Jugendschutz einrichten. Monika Pross Molberger PC-Kurse

4. Erstellen von Klassen

Die Gleichung A x = a hat für A 0 die eindeutig bestimmte Lösung. Für A=0 und a 0 existiert keine Lösung.

Gantt-Diagramm - Diagramm zur Projektverfolgung

Gimp Kurzanleitung. Offizielle Gimp Seite:

Ein möglicher Unterrichtsgang

Das RSA-Verschlüsselungsverfahren 1 Christian Vollmer

Vorgestellt von Hans-Dieter Stubben

Lineare Gleichungssysteme

Tangentengleichung. Wie lautet die Geradengleichung für die Tangente, y T =? Antwort:

Wie stark ist die Nuss?

6.2 Scan-Konvertierung (Scan Conversion)

Computational Finance

Leichte-Sprache-Bilder

Korrelation (II) Korrelation und Kausalität

Fax einrichten auf Windows XP-PC

Gleichungen und Ungleichungen

Kfz-Versicherung für Fahranfänger. mit der Lizenz zum Fahren

Die Invaliden-Versicherung ändert sich

Anleitung zur Erstellung von Serienbriefen (Word 2003) unter Berücksichtigung von Titeln (wie Dr., Dr. med. usw.)

Lösungsmethoden gewöhnlicher Differentialgleichungen (Dgl.)

Ausarbeitung des Seminarvortrags zum Thema

AGROPLUS Buchhaltung. Daten-Server und Sicherheitskopie. Version vom b

Installation der Eicon Diva PCI Karte unter Windows XP

Landes-Arbeits-Gemeinschaft Gemeinsam Leben Gemeinsam Lernen Rheinland-Pfalz e.v.

Was ist Sozial-Raum-Orientierung?

Anwendungsbeispiele. Neuerungen in den s. Webling ist ein Produkt der Firma:

ε heteroskedastisch BINARY CHOICE MODELS Beispiele: Wahlentscheidung Kauf langlebiger Konsumgüter Arbeitslosigkeit Schätzung mit OLS?

Überprüfung der digital signierten E-Rechnung

Netzwerk einrichten unter Windows

Wir machen Praxiszahlen transparent 1

Hilfe-Blatt: Ausgabenkontrolle

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

ERGÄNZUNGEN ZUR ANALYSIS II MITTELWERTSATZ UND ANWENDUNGEN

Fotos verkleinern mit Paint

Festigkeit von FDM-3D-Druckteilen

Gibt es einen Geschmacksunterschied zwischen Coca Cola und Cola Zero?

Schritte 4. Lesetexte 13. Kosten für ein Girokonto vergleichen. 1. Was passt? Ordnen Sie zu.

IBIS Professional. z Dokumentation zur Dublettenprüfung

Multicheck Schülerumfrage 2013

Klausur zur Vorlesung Multivariate Verfahren, SS Kreditpunkte, 90 min

WORKSHOP für das Programm XnView

Linearen Gleichungssysteme Anwendungsaufgaben

Fotogalerie mit PWGallery in Joomla (3.4.0) erstellen

Basis und Dimension. Als nächstes wollen wir die wichtigen Begriffe Erzeugendensystem und Basis eines Vektorraums definieren.

Division Für diesen Abschnitt setzen wir voraus, dass der Koeffizientenring ein Körper ist. Betrachte das Schema

SCHRITT 1: Öffnen des Bildes und Auswahl der Option»Drucken«im Menü»Datei«...2. SCHRITT 2: Angeben des Papierformat im Dialog»Drucklayout«...

Transkript:

9. Mai 26

Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben

Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben

Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben

Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben

Inhalt Nichtlineare Dimensionsreduktion mittels UKR (Unüberwachte KernRegression, 25) Anknüpfungspunkte Datamining I: PCA + Hauptkurven Benötigte Zutaten Klassische Kernregression Kerndichteschätzung Wir arbeiten uns von unten nach oben

Dichteschätzung Gegeben: Ein Datensatz x i, i = 1... N. Gesucht: Die Wahrscheinlichkeitsdichte p(x), nach der die Daten verteilt sind. Zwei Klassen von Verfahren Parametrische Verfahren legen eine bestimmte Form der Verteilung zugrunde und optimieren dann deren Parameter z.b. Annahme x ist normalverteilt bestimme passenden Mittelwert und Standardabweichung. Nicht parametrische Verfahren machen keine Annahmen über die Verteilung. Ihre Form wird von den Daten selbst bestimmt. Dabei gibt es meistens nur eine Stellschraube. Beispiel: Histogramm (Datamining I)

Dichteschätzung Gegeben: Ein Datensatz x i, i = 1... N. Gesucht: Die Wahrscheinlichkeitsdichte p(x), nach der die Daten verteilt sind. Zwei Klassen von Verfahren Parametrische Verfahren legen eine bestimmte Form der Verteilung zugrunde und optimieren dann deren Parameter z.b. Annahme x ist normalverteilt bestimme passenden Mittelwert und Standardabweichung. Nicht parametrische Verfahren machen keine Annahmen über die Verteilung. Ihre Form wird von den Daten selbst bestimmt. Dabei gibt es meistens nur eine Stellschraube. Beispiel: Histogramm (Datamining I)

Dichteschätzung Gegeben: Ein Datensatz x i, i = 1... N. Gesucht: Die Wahrscheinlichkeitsdichte p(x), nach der die Daten verteilt sind. Zwei Klassen von Verfahren Parametrische Verfahren legen eine bestimmte Form der Verteilung zugrunde und optimieren dann deren Parameter z.b. Annahme x ist normalverteilt bestimme passenden Mittelwert und Standardabweichung. Nicht parametrische Verfahren machen keine Annahmen über die Verteilung. Ihre Form wird von den Daten selbst bestimmt. Dabei gibt es meistens nur eine Stellschraube. Beispiel: Histogramm (Datamining I)

Dichteschätzung Beispiel: 2 Datenpunkte gemäß dieser Verteilung.25.2.15.1.5 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 6 Balken 6 5 4 3 2 1 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 7 Balken 7 6 5 4 3 2 1 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 8 Balken 5 4 3 2 1 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 9 Balken 5 4 3 2 1 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 1 Balken 5 4 3 2 1 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 12 Balken 4 35 3 25 2 15 1 5 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 13 Balken 35 3 25 2 15 1 5 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 15 Balken 35 3 25 2 15 1 5 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 2 Balken 25 2 15 1 5 2 4 6 8 1

Dichteschätzung: Histogramm Histogramm mit 3 Balken 2 15 1 5 2 4 6 8 1

Dichteschätzung Beim Histogramm zählt man, wieviele Daten in einen bestimmten Bereich ( Bin ) fallen. Modifikation: Zähle an jeder x-koordinate, wie viele Daten in der Nachbarschaft liegen. Alternatives Bild: Schiebe ein Fenster der Breite h über die x-achse und zähle, wieviele Daten das Fenster freilegt. Dies lässt sich wie folgt formalisieren: { falls v > h K U (v) = sonst 1 2h Rosenblatt (1956), Parzen (1962) (1) p(x) = 1 K U (x x i ) (2) N i

Dichteschätzung Beim Histogramm zählt man, wieviele Daten in einen bestimmten Bereich ( Bin ) fallen. Modifikation: Zähle an jeder x-koordinate, wie viele Daten in der Nachbarschaft liegen. Alternatives Bild: Schiebe ein Fenster der Breite h über die x-achse und zähle, wieviele Daten das Fenster freilegt. Dies lässt sich wie folgt formalisieren: { falls v > h K U (v) = sonst 1 2h Rosenblatt (1956), Parzen (1962) (1) p(x) = 1 K U (x x i ) (2) N i

Dichteschätzung Beim Histogramm zählt man, wieviele Daten in einen bestimmten Bereich ( Bin ) fallen. Modifikation: Zähle an jeder x-koordinate, wie viele Daten in der Nachbarschaft liegen. Alternatives Bild: Schiebe ein Fenster der Breite h über die x-achse und zähle, wieviele Daten das Fenster freilegt. Dies lässt sich wie folgt formalisieren: { falls v > h K U (v) = sonst 1 2h Rosenblatt (1956), Parzen (1962) (1) p(x) = 1 K U (x x i ) (2) N i

Kerndichteschätzung K U (v) ist die sog. uniforme Kernfunktion Lässt sich verallgemeinern, z.b. Gausskern: K G (v) = 1 v2 e 2h 2 (3) 2πh 2.5.4.3.2.1 5 3 1 1 3 5 Oft Bedingungen K(v)dv = 1 vk(v)dv =

Kerndichteschätzung: uniformer Kern Bandbreite h=2.25.2.15.1.5 2 4 6 8 1

Kerndichteschätzung: uniformer Kern Bandbreite h=1.25.2.15.1.5 2 4 6 8 1

Kerndichteschätzung: uniformer Kern Bandbreite h=.5.16.14.12.1.8.6.4.2 2 4 6 8 1

Kerndichteschätzung: uniformer Kern Bandbreite h=.3.12.1.8.6.4.2 2 4 6 8 1

Kerndichteschätzung: uniformer Kern Bandbreite h=.1.1.8.6.4.2 2 4 6 8 1

Kerndichteschätzung: Gausskern Bandbreite h=2.16.14.12.1.8.6.4.2 2 4 6 8 1

Kerndichteschätzung: Gausskern Bandbreite h=1.2.15.1.5 2 4 6 8 1

Kerndichteschätzung: Gausskern Bandbreite h=.5.25.2.15.1.5 2 4 6 8 1

Kerndichteschätzung: Gausskern Bandbreite h=.3.35.3.25.2.15.1.5 2 4 6 8 1

Kerndichteschätzung: Gausskern Bandbreite h=.1.35.3.25.2.15.1.5 2 4 6 8 1

Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i

Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i

Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i

Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i

Kerndichteschätzung Wie bestimmt man die Bandbreite? Sehr viele Methoden + Kriterien Für uns interessant: Likelihood-Crossvalidation Log-Likelihood der Daten ist definiert als L = log i p(x i ) = i log p(x i ) (4) Würde mit kleinen Bandbreiten unbegrenzt wachsen Verwende Leave-One-Out Kreuzvalidierung L cv = i log p i (x i ), p i (x) = 1 N 1 K(x x k ) (5) k i

Kerndichteschätzung kreuzvalidierte Likelihood als Funktion der Bandbreite 35 4 45 5 55 6 65 log Likelihood (CV) 7 1 2 1 1 1 1 1

Kerndichteschätzung Maximum bei h=.4192 (Gausskern).25.2.15.1.5 2 4 6 8 1

Kernregression Gegeben: Ein Satz von Ein-/Ausgabedaten (x i, y i ), i = 1... N Gesucht: Eine glatte Funktion y = f (x). Fasse die Daten x i und y i als Realisationen von Zufallsvariablen X und Y auf. Dann ist die Regressionsfunktion gegeben durch den bedingten Erwartungswert f (x) = E(Y X = x) Kennt man die gemeinsame Verteilung p(x, y) der beiden Zufallsvariablen, so kann man f (x) angeben als f (x) = yp(y x)dy (6) p(x, y) = y dy (7) p(x) p(x, y) = y p(x, y dy (8) )dy

Kernregression Gegeben: Ein Satz von Ein-/Ausgabedaten (x i, y i ), i = 1... N Gesucht: Eine glatte Funktion y = f (x). Fasse die Daten x i und y i als Realisationen von Zufallsvariablen X und Y auf. Dann ist die Regressionsfunktion gegeben durch den bedingten Erwartungswert f (x) = E(Y X = x) Kennt man die gemeinsame Verteilung p(x, y) der beiden Zufallsvariablen, so kann man f (x) angeben als f (x) = yp(y x)dy (6) p(x, y) = y dy (7) p(x) p(x, y) = y p(x, y dy (8) )dy

Kernregression Gegeben: Ein Satz von Ein-/Ausgabedaten (x i, y i ), i = 1... N Gesucht: Eine glatte Funktion y = f (x). Fasse die Daten x i und y i als Realisationen von Zufallsvariablen X und Y auf. Dann ist die Regressionsfunktion gegeben durch den bedingten Erwartungswert f (x) = E(Y X = x) Kennt man die gemeinsame Verteilung p(x, y) der beiden Zufallsvariablen, so kann man f (x) angeben als f (x) = yp(y x)dy (6) p(x, y) = y dy (7) p(x) p(x, y) = y p(x, y dy (8) )dy

Kernregression Im Allgemeinen ist die Verteilung nicht bekannt, muss also geschätzt werden. Benutze Produkt aus zwei Kernen: p(x, y) = 1 K X (x x i )K Y (y y i ) (9) N i Man erhält damit durch Marginalisierung zusätzlich 1 p(x) = K X (x x i )K Y (y y i )dy (1) N i = 1 K X (x x i ) K Y (y y i )dy (11) N i = 1 K X (x x i ) (12) N i

Kernregression Im Allgemeinen ist die Verteilung nicht bekannt, muss also geschätzt werden. Benutze Produkt aus zwei Kernen: p(x, y) = 1 K X (x x i )K Y (y y i ) (9) N i Man erhält damit durch Marginalisierung zusätzlich 1 p(x) = K X (x x i )K Y (y y i )dy (1) N i = 1 K X (x x i ) K Y (y y i )dy (11) N i = 1 K X (x x i ) (12) N i

Kernregression Einsetzen in (7) ergibt f (x) = = i y 1 N i K X (x x i )K Y (y y i ) 1 N j K dy X (x x j ) (13) yk Y (y y i )dy (14) K X (x x i ) j K X (x x j ) Um das Integral zu lösen, substituiere z = y y i und benutze K(z)dz = 1, zk(z) = yk Y (y y i )dy = (z + y i )K Y (z)dz = y i (15)

Kernregression Einsetzen in (7) ergibt f (x) = = i y 1 N i K X (x x i )K Y (y y i ) 1 N j K dy X (x x j ) (13) yk Y (y y i )dy (14) K X (x x i ) j K X (x x j ) Um das Integral zu lösen, substituiere z = y y i und benutze K(z)dz = 1, zk(z) = yk Y (y y i )dy = (z + y i )K Y (z)dz = y i (15)

Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.

Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.

Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.

Kernregression Insgesamt erhält man den von Nadaraya (1964) und Watson (1964) vorgeschlagenen Ausdruck: f (x) = i K X (x x i ) y i j K X (x x j ) (16) f (x) ist eine Konvexkombination der y i (lokal gewichtetes Mittel) f (x) hängt nicht mehr von K Y ( ) ab, d.h. wir haben nur noch einen Kern K X (x) = K(x). Einziger Parameter: Bandbreite des Kerns.

Kernregression 1.9 Gaussian Kernel, h=2. data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9

Kernregression 1.9 Gaussian Kernel, h=1. data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9

Kernregression 1.9 Gaussian Kernel, h=.8 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9

Kernregression 1.9 Gaussian Kernel, h=.5 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9

Kernregression 1.9 Gaussian Kernel, h=.4 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9

Kernregression 1.9 Gaussian Kernel, h=.25 data points regression function single summands.8.7.6.5.4.3.2.1 1 2 3 4 5 6 7 8 9

Kernregression Je größer die Bandbreite, desto glatter die Funktion Der Nadaraya-Watson-Schätzer funktioniert natürlich auch mehrdimensional (sowohl x als auch y).

Kernregression 1D 2D 4 Noisy "S", Y and X known 1 3 2 1.8.6.4.2 y 2 1 2 3.2.4.6.8 4 2 1.5 1.5.5 1 1.5 2 y 1 x 1

Kernregression 4 3 Gaussian kernel h=1 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Kernregression 4 3 Gaussian kernel h=.5 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Kernregression 4 3 Gaussian kernel h=.2 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Kernregression 4 3 Gaussian kernel h=.1 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Kernregression 4 3 Gaussian kernel h=.5 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Kernregression 4 3 Gaussian kernel h=.2 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Kernregression 4 3 Gaussian kernel h=.1 data points regression function 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Kernregression Welche Bandbreite ist richtig? Naives Fehlermaß: Mittlerer quadr. Abstand zw. y i und f(x i ), geht für kleine Bandbreite h gegen. Besser: Leave-One-Out Cross-Validation E CV = 1 y i f i (x i ) 2 N f i (x) = k i i K(x x k ) y k j K(x x j)

Kernregression Welche Bandbreite ist richtig? Naives Fehlermaß: Mittlerer quadr. Abstand zw. y i und f(x i ), geht für kleine Bandbreite h gegen. Besser: Leave-One-Out Cross-Validation E CV = 1 y i f i (x i ) 2 N f i (x) = k i i K(x x k ) y k j K(x x j)

Kernregression Welche Bandbreite ist richtig? Naives Fehlermaß: Mittlerer quadr. Abstand zw. y i und f(x i ), geht für kleine Bandbreite h gegen. Besser: Leave-One-Out Cross-Validation E CV = 1 y i f i (x i ) 2 N f i (x) = k i i K(x x k ) y k j K(x x j)

Kernregression 1 1 1 error 1 1 1 2 CV error reconstruction error 1 3 1 2 1 1 1 h (bandwidth)

Kernregression 4 Gaussian kernel h=.53 3 2 1 y 2 1 2 3 4 2 1.5 1.5.5 1 1.5 2 y 1

Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg

Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg

Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg

Unüberwachtes Problem: Nur die y i sind bekannt. Finde verborgene Struktur, latente Variablen x i. Dimensionsreduktion UKR-Idee: Benutze den Nadaraya-Watson Kernregressionsschätzer, aber fasse die unbekannten x i als Parameter auf f(x) = i K(x x i ) y i j K(x x j) Skalierung der x i ist frei, d.h. Bandbreite h kann hier fest auf 1 gesetzt werden. Minimiere CV-Fehler als Funktion der x i, z.b. durch zufällige Initialisierung und Gradientenabstieg

4 random initialization 3.8.6 2.4 1.2 y 2 1.2 2 3.4.6.8 4 2 1.5 1.5.5 1 1.5 2 y 1

4 after 1 steps 2 3 1.5 y 2 2 1 1.5 1.5 2 1 3 1.5 4 2 1.5 1.5.5 1 1.5 2 y 1

4 after 3 steps 5 3 4 2 1 3 2 1 y 2 1 1 2 3 2 3 4 4 2 1.5 1.5.5 1 1.5 2 y 1

4 after 5 steps 3 6 2 4 1 2 y 2 1 2 2 3 4 4 2 1.5 1.5.5 1 1.5 2 y 1 6

4 after 1 steps 3 2 8 6 4 1 2 y 2 1 2 2 3 4 6 8 4 2 1.5 1.5.5 1 1.5 2 y 1

4 3 after 1 steps 2 15 2 1 1 5 y 2 1 5 2 1 3 15 4 2 1.5 1.5.5 1 1.5 2 y 1 2

Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima

Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima

Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima

Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima

Vorteil gegenüber PCA: nichtlineare Mannigfaltigkeiten behandelbar (dafür aber deutlich aufwendiger) Hauptkurven aus Datamining I: Optimierung schwierig, daher Vereinfachung auf diskretes Gitter, das vorher spezifiziert werden muss. Außerdem ist ein Glattheitsterm erforderlich. UKR hat mit LOO-CV eine eingebaute automatische Komplexitätskontrolle. Kein Gitter etc. Einzige Spezifikation: Wahl des Kerns (nicht entscheidend für Qualität des Modells) Nachteil: Nichtlineare Optimierung recht aufwendig, viele lokale Minima

(Unüberwachte) Kernregression Nützlich zur Effizienzsteigerung: Kernfunktionen mit endlichem Träger Epanechnikov-Kernel K E (x) [1 x 2 ] + Quartic-Kernel K Q (x) K E (x) 2

(Unüberwachte) Kernregression Nützlich zur Effizienzsteigerung: Kernfunktionen mit endlichem Träger Epanechnikov-Kernel K E (x) [1 x 2 ] + Quartic-Kernel K Q (x) K E (x) 2 1 Epanechnikov.8.6.4.2.2 1.5 1.5.5 1 1.5

(Unüberwachte) Kernregression Nützlich zur Effizienzsteigerung: Kernfunktionen mit endlichem Träger Epanechnikov-Kernel K E (x) [1 x 2 ] + Quartic-Kernel K Q (x) K E (x) 2 1 Epanechnikov Quartic.8.6.4.2.2 1.5 1.5.5 1 1.5

In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)

In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)

In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)

In Kombination mit anderen Methoden können sehr schwierige Probleme geknackt werden. Es gibt eine Reihe sog. nonlinear spectral embedding methods 1, die (ohne Regressionsfunktion) relativ effizient einen hochdimensionalen Datensatz in einen niedrig dimensionalen Raum einbetten können. Der Erfolg der Methoden hängt von einem zu spezifizierenden Nachbarschaftsparameter (im Datenraum der y i ) ab, aber die Methoden bieten selbst i.a. kein Maß für den Erfolg. UKR lässt sich mit deren Resultat initialisieren, mehrere Versuche (mit anderer Nachbarschaft) lassen sich per CV-Fehler vergleichen. 1 Locally Linear Embedding (Roweis u. Saul, 2), Isomap (Tenenbaum, de Silva u. Langford, 2), Laplacian Eigenmaps (Belkin u. Niyogi, 23), Semidefinite Embedding (Weinberger u. Saul, 24)

Noisy Spiral mit LLE & PCA-Initialisierung Gute Lösungen weisen kleine CV-Fehler auf K=4 R cv =.331 K=5 R cv =.2167 K=6 R cv =.624 K=7 R cv =.94 K=8 R cv =.44 K=9 R cv =.869 K=1 R cv =.43 K=11 R cv =.23 K=12 R cv =.85 K=13 R cv =.91 K=14 R cv =.3331 PCA R cv =.267

UKR zur Visualisierung USPS Digit 2 : 731 Datenvektoren der Dimension 16x16 Projektion in 2D-Raum, dort Abtastung von f(x) 2D-Karte handgeschriebener Ziffern Dichte im latenten Raum als Intensität verwendbar