Kapitel 8: Kernel-Methoden. Maschinelles Lernen und Neural Computation

Ähnliche Dokumente
Kapitel 2: Klassifikation. Maschinelles Lernen und Neural Computation

Kapitel 7: Ensemble Methoden. Maschinelles Lernen und Neural Computation

Daten sind in Tabellenform gegeben durch die Eingabe von FORMELN können mit diesen Daten automatisierte Berechnungen durchgeführt werden.

1 Definition und Grundbegriffe

Nullstellen Suchen und Optimierung

Konkave und Konvexe Funktionen

nonparametrische Tests werden auch verteilungsfreie Tests genannt, da sie keine spezielle Verteilung der Daten in der Population voraussetzen

Kapitel 4: Lernen als Optimierung. Maschinelles Lernen und Neural Computation

Kapitel 10 Die Support-Vektor-Maschine (SVM) Ein statistischer Ansatz der Lerntheorie zum Entwurf eines optimalen Klassifikators

Universität Karlsruhe (TH)

Spiele und Codes. Rafael Mechtel

4. Musterlösung. Problem 1: Kreuzende Schnitte **

Funktionsgleichungen folgende Funktionsgleichungen aus der Vorlesung erhält. = e

Kapitel 6: Unüberwachtes Lernen. Maschinelles Lernen und Neural Computation

6. Modelle mit binären abhängigen Variablen

Beim Wiegen von 50 Reispaketen ergaben sich folgende Gewichte X(in Gramm):

Gesichtsfindung mit der Support Vektor Maschine

Beschreibende Statistik Mittelwert

Aufgabe 8 (Gewinnmaximierung bei vollständiger Konkurrenz):

Einführung in die Methode der Finiten Elemente

binäre Suchbäume Informatik I 6. Kapitel binäre Suchbäume binäre Suchbäume Rainer Schrader 4. Juni 2008 O(n) im worst-case Wir haben bisher behandelt:

Prof. Dr.-Ing. P. Eberhard, Prof. Dr.-Ing. M. Hanss SS 2016 A 1.1

Neuronale Netze. M. Gruber (1) ausgeloste Reiz ist x (1) = (1) (s (1) ) mit (1) (s) = 1 sgn(s 1 ) sgn(s 2 ) T. .

Lineare Optimierung Dualität

Für jeden reinen, ideal kristallisierten Stoff ist die Entropie am absoluten Nullpunkt gleich

Nernstscher Verteilungssatz

Beschreibung des Zusammenhangs zweier metrischer Merkmale. Streudiagramme Korrelationskoeffizienten Regression

Netzwerkstrukturen. Entfernung in Kilometer:

Gruppe. Lineare Block-Codes

Der stöchiometrische Luftbedarf einer Reaktion kann aus dem Sauerstoffbedarf der Reaktion und der Zusammensetzung der Luft berechnet werden.

3.3 Lineare Abbildungen und Matrizen

14 Überlagerung einfacher Belastungsfälle

50 Matrixnormen und Eigenwertabschätzungen

6. Hilbertraum und lineare Operatoren (mathematische Grundlagen QM)

Free Riding in Joint Audits A Game-Theoretic Analysis

wird auch Spannweite bzw. Variationsbreite genannt ist definiert als die Differenz zwischen dem größten und kleinsten Messwert einer Verteilung:

5. Gruppenübung zur Vorlesung. Höhere Mathematik 1. Wintersemester 2012/2013

Hydrosystemanalyse: Finite-Elemente-Methode (FEM)

1 Mehrdimensionale Analysis

Werkstoffmechanik SS11 Baither/Schmitz. 5. Vorlesung

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Dr. Roland Füss Statistik II: Schließende Statistik SS 2007

Auswertung von Umfragen und Experimenten. Umgang mit Statistiken in Maturaarbeiten Realisierung der Auswertung mit Excel 07

2. Nullstellensuche. Eines der ältesten numerischen Probleme stellt die Bestimmung der Nullstellen einer Funktion f(x) = 0 dar.

Modelle, Version Spaces, Lernen

Mining Concept-Drifting Data Streams using Ensemble Classifiers

Nomenklatur - Übersicht

Lösungen zum 3. Aufgabenblock

1.1 Das Prinzip von No Arbitrage

Flußnetzwerke - Strukturbildung in der natürlichen Umwelt -

Anwendungsmöglichkeiten von Lernverfahren

Statistik und Wahrscheinlichkeit

NSt. Der Wert für: x= +1 liegt, erkennbar an dem zugehörigen Funktionswert, der gesuchten Nullstelle näher.

Auswertung univariater Datenmengen - deskriptiv

Methoden der innerbetrieblichen Leistungsverrechnung

Kapitel 8: Graph-Strukturierte Daten

12 LK Ph / Gr Elektrische Leistung im Wechselstromkreis 1/ ω Additionstheorem: 2 sin 2 2

Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte. Itemanalyse und Itemkennwerte: Itemschwierigkeit P i

Vorlesung 1. Prof. Dr. Klaus Röder Lehrstuhl für BWL, insb. Finanzdienstleistungen Universität Regensburg. Prof. Dr. Klaus Röder Folie 1

Teil E: Qualitative abhängige Variable in Regressionsmodellen

III. Theorie des Haushalts

Konzept der Chartanalyse bei Chart-Trend.de

-2 Das einfache Regressionsmodell 2.1 Ein ökonomisches Modell

Lineare Regression (1) - Einführung I -

3.6 Molekulare Dynamik

Kreditrisikomodellierung und Risikogewichte im Neuen Baseler Accord

Lehrstuhl für Empirische Wirtschaftsforschung und Ökonometrie Übung/Tutorate Statistik II: Schließende Statistik SS 2007

Auswertung univariater Datenmengen - deskriptiv

Versicherungstechnischer Umgang mit Risiko

Kernfunktionen. Nicht-lineare Daten. Beispiel. Nicht-lineare Daten. Wie funktioniert der Kern-Trick? Wann funktioniert der Kern-Trick? Warum?

1.1 Grundbegriffe und Grundgesetze 29

18. Vorlesung Sommersemester

Analyse von Querschnittsdaten. Bivariate Regression

Optische Systeme. Inhalte der Vorlesung. Hausaufgabe: Reflexion mit Winkel. Vergleichen Sie Ihre Rechnung mit einem Experiment! n = tan. sin.

18. Dynamisches Programmieren

3. Lineare Algebra (Teil 2)

5. ZWEI ODER MEHRERE METRISCHE MERKMALE

6.5. Rückgewinnung des Zeitvorgangs: Rolle der Pole und Nullstellen

Hocheffiziente Antwortflächenverfahren für die probabilistische Simulation und Optimierung unter Anwendung des Gauss-Prozesses

3.2 Bewertung sozialer Zustände

Standardnormalverteilung / z-transformation

Seminar Analysis und Geometrie Professor Dr. Martin Schmidt - Markus Knopf - Jörg Zentgraf. - Fixpunktsatz von Schauder -

Zufallsvariable, Wahrscheinlichkeitsverteilungen und Erwartungswert

Boost-Schaltwandler für Blitzgeräte

Einführung in geostatistische Methoden der Datenauswertung

Einführung in Origin 8 Pro

SIMULATION VON HYBRIDFAHRZEUGANTRIEBEN MIT

Klasse : Name1 : Name 2 : Datum : Nachweis des Hookeschen Gesetzes und Bestimmung der Federkonstanten

Prof. Dr.- Ing. Herzig Vorlesung "Grundlagen der Elektrotechnik 1" 1etv3-4

6.1 Definition der freien Energie und der freien Enthalpie

Stochastische Prozesse

Lagrangesche Mechanik

Wir betrachten in diesem Abschnitt Matrixspiele in der Maximierungsform, also endliche 2 Personen Nullsummenspiele der Gestalt

Erwartungswert, Varianz, Standardabweichung

Diskrete Mathematik 1 WS 2008/09

Ordered Response Models (ORM)

1 - Prüfungsvorbereitungsseminar

12 UMPU Tests ( UMP unbiased )

1 BWL 4 Tutorium V vom

Transkript:

Kaptel 8: Kernel-Methoden SS 009 Maschnelles Lernen und Neural Computaton 50

Ausgangsbass: Perceptron Learnng Rule Δw y = Kf = 0Ksonst K"target" = Kf Rosenblatt (96) Input wrd dazugezählt (abgezogen), wenn Output falsch ( msmatch-based ) Verwendung: Klassfkaton < y > y arget: Nach dem Lernschrtt: SS 009 Maschnelles Lernen und Neural Computaton 5

Mathematsche Formulerung Perceptron ( Output): f ( ) = w + w0 y = +/-: Δw = Daten kommen als nneres Produkt vor ( duale Darstellung ) y ( ) = + f y w0 Inneres Produkt (dot product) SS 009 Maschnelles Lernen und Neural Computaton 5

Vor- und Nachtele des Perceptrons Vortele: Globale Lösung garantert (kene lokalen Mnma) Lecht lösbar bzw. otpmerbar Nachtel: Auf lneare Separerbarket beschränkt Idee: ransformaton der Daten auf enen Raum, n dem das Problem lnear trennbar st SS 009 Maschnelles Lernen und Neural Computaton 53

Vergleche Dskrmnanzanalyse Allgemen lnear: belebge Vorverarbetungsfunktonen, lneare Verknüpfung Neuronales Netz: y y g p ( ) w y ( ) w0 = + = ( ) f ( w ) = f...sgmode MLP ( ) = f ( w ) f... Gauss RBFN NN mplementert adaptve Vorverarbetung nchtlnear n Parametern (w) durch Appromatonstheorem: belebg nchtlneare Dskrmnanzfunkton SS 009 Maschnelles Lernen und Neural Computaton 54

Kernels Zel st ene f bestmmte ransformaton Φ( ), sodass das Problem lnear trennbar st (ev. hochdmensonal) Kernel: Funkton, de als nneres Produkt von Φs darstellbar st: ( ) = Φ( ) Φ( ) K, Φ muss ncht enmal bekannt sen ( ) y K(,) f = + w0 SS 009 Maschnelles Lernen und Neural Computaton 55

SS 009 Maschnelles Lernen und Neural Computaton 56 Bespel: Polynomscher Kernel Dmensonen: Kernel entsprcht tatsächlch enem nneren Produkt aus Vektoren mt Vorverarbetung ( ) ( ), K z z = ( ) ( ) ( )( ) ( ) ( ) Φ z Φ z = = = = + + = = + = z z z z z z z z z z,,,,

Durch ransformaton wrd Problem lnear trennbar Ф Bespel Ф - SS 009 Maschnelles Lernen und Neural Computaton 57

De Wrkung des Kernel-rcks Ensatz des Kernels, z.b: ( ) ( ) ( = y + = ) K, w0 y 5 f + w0 66-dmensonale Vektoren (z.b. Pel-Blder), Polynom 5. Grades: Dmenson = 0 0 Inneres Produkt zweer 0000000000-dm. Vektoren Berechnung erfolgt m nedrgdmensonalen Raum: Inneres Produkt zweer 56-dm. Vektoren 5-te Potenz SS 009 Maschnelles Lernen und Neural Computaton 58

K z / σ (, z) = e Gauss scher Kernel Ф ncht darstellbar, hat aber unendlche Dmenson! (wenn ranngsset unbegrenzt groß sen kann) Folgt aus Mercer s heorem: Betrachte de Kernel-Matr über alle ranngsbespele K K K = M K (, ) K(, ) K K(, m) (,) K(,) K K(, m) ( m,) K( m,) K K( m, m) Berechne Egenwerte und -funktonen, dann glt: K (, z) = λ Φ ( ) Φ ( z) Für Gauss schen Kernel glt: Kernel-Matr hat vollen Rang! Dmenson so groß we das ranngsset M L M SS 009 Maschnelles Lernen und Neural Computaton 59

Hochdmensonaler Raum: Overfttng lecht möglch Lösung: Suche Entschedungslne (Hyperebene) mt größtem Abstand von den Punkten Large Margn Classfer w + b = 0 w + b = Optmerung: Mnmere w (Mamere d = ) w Randbedngung: y ( + b) 0 w w w + b = Abstand mamal d = w SS 009 Maschnelles Lernen und Neural Computaton 60

Optmerung Quadratsches Optmerungsproblem Lösungsansatz: Lagrange-Multplkanten L Randbedngung: P n = w α = α ( y ( w + b) ) mn 0. Abletung nach w und b muss 0 sen. Das ergbt: w = α y = 0 α y SS 009 Maschnelles Lernen und Neural Computaton 6

Optmerung Ensetzen der zuletzt ergebenen erme: L D α =, α α y y mn Duale Formulerung Wchtg: Daten stehen weder als nneres Produkt (dot product) m erm! Kernel-rck kann weder angewandt werden L D α =, α α y y K (, ) mn SS 009 Maschnelles Lernen und Neural Computaton 6

Optmerung 3 Mnmerung st quadratsches Programmerungsproblem Globales Mnmum garantert Methoden Chunkng nutzt de atsache dass vele α =0 Decomposton Methods Sequental Mnmal Optmzaton (SMO) löst ene Sequenz von Problemen der Größe (Paare von Varablen) SS 009 Maschnelles Lernen und Neural Computaton 63

Support Vectors Support-Vectors: Punkte am Rand des Margns Bestmmen allene de Lösung, für alle anderen Punkte glt: α =0, können weggelassen werden Kernelfunkton SS 009 Support Vectors Rückproekton Maschnelles Lernen und Neural Computaton 64

Bsherge Annahme: Problem st eakt trennbar Be Rauschen: Enführung von Slack varables : wecht den strengen Margn etwas auf y ( w b) ξ ξ 0 + Daten mt Rauschen SS 009 w + C ξ α =, Lernparameter mn Duales Problem (Lagrange) blebt glech (bs auf Randbedngung) L D α α y 0 α C y mn Maschnelles Lernen und Neural Computaton ξ w w 65

Bespel Kernel: Polynom 3. Ordnung Schätzung nur mt Support- Vectors ergbt de selbe Lösung: SS 009 Maschnelles Lernen und Neural Computaton 66

Jede Funkton K(,z), für de glt bzw., K a (, z) f ( ) f ( z) ddz 0 f a K ( ), a Bedngungen für Kernels für belebge ranngspunkte st ene Kernelfunkton ( postve defnte Kernels) Ist K und K en Kernel, so snd auch ak (für a>0) K +K K *K Kernel Wahl des rchtgen Kernels (Vorverarbetung) st entschedend! Modellselekton notwendg SS 009 Maschnelles Lernen und Neural Computaton 67

SVM-heore: VC-Dmenson Shatter : Wenn unter n Punkten alle n Klassfkatonen möglch snd VC-Dmenson h klenstes m von Punkten, für de der Lerner wenger als m Klassfkatonen schafft Z.B.: VC-Dm(Perceptron)=k+ (k Inputdmenson) Für komplee Lerner kann oft nur Schranke angegeben werden SS 009 Maschnelles Lernen und Neural Computaton 68

SVM-heore: Structural rsk mnmzaton Schranke für das Rsko (Fehler) Emprscher Fehler am ranngsset R R Anzahl ranngspunkte emp + h ln Mnmal möglcher Fehler δ + ln 4 n Mameren des Margns beschränkt VC-Dmenson w kann als Regularserungsterm betrachtet werden Gauss-Kernel: VC-Dm h= n h Mt Wahrschenlchket -δ SS 009 Maschnelles Lernen und Neural Computaton 69

SVM und Neuronale Netze Gauss-Kernel: RBF Sgmod-Kernel: MLP K K z / σ (, z) = e (, z) = tanh( κ z +θ ) So vele Hdden Unts we ranngsmuster Allerdngs andere Berechnung Raum st -dmensonal SVM und Boostng: formaler Zusammenhang vgl. Boostng: Punkte an der Entschedungsgrenze bekommen größte Bedeutung (we SV) SS 009 Maschnelles Lernen und Neural Computaton 70

Andere Kernelverfahren Kernel-rck funktonert be allen Methoden, n denen Daten als nneres Produkt vorkommen Kernel-PCA Kernel-Fsher Dksrmnante Kernel Regresson Gauss sche Prozesse SS 009 Maschnelles Lernen und Neural Computaton 7

Zusammenfassung SVMs snd nteressante Alternatve zu klassschen neuronalen Netzen Kernel-rck: Inneres Produkt von hochdmensonalen Features (Vorverabetung) kann nedrgdmensonal berechnet werden Beschränken der VC-Dm. (Vermedung von Overfttng): Large Margn Classfer Lneares Modell, Quadratsche Programmerung, Mnmum garantert Support Vectors: Punkte am Margn, snd allene für Lösung verantwortlch Aber: Overfttng dennoch möglch Modellselekton notwendg Wahl des geegneten Kernels st sehr wchtg! SS 009 Maschnelles Lernen und Neural Computaton 7