Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung
|
|
- Miriam Scholz
- vor 7 Jahren
- Abrufe
Transkript
1 Grundlagen von Support Vector Maschinen und Anwendungen in der Bildverarbeitung Jan Eichhorn Max-Planck-Institut für biologische Kybernetik Tübingen
2 Danksagung Olivier Bousquet und Bernhard Schölkopf (slides) Wolf Kienzle (Demo) September 10, 2004, page 1 of 33
3 Übersicht Grundlagen von Support Vector Maschinen Motivation aus Statistischer Lerntheorie Lineare Klassifizierer warum großer Margin? Formulierung der Support Vector Maschine Der Kern-Trick Anwendungen in der Bildverarbeitung Kern-Funktionen für lokale Deskriptoren Separable Filter zur Beschleunigung von SVMs in der Gesichtserkennung September 10, 2004, page 2 of 33
4 Das Klassifikationsproblem Trainingsdaten: D = {(x i, y i )} i=1...m X Y X = R 2, Y = {+1, 1} Entscheidungsfunktion: f(x) = sgn(... ) = ±1? September 10, 2004, page 3 of 33
5 Das Lernproblem Gegeben: Daten D = {(x i, y i )} i=1...m X Y Annahme: Datenpunkte unabhängig und gleichverteilt nach unbekannter Verteilung: (x i, y i ) P(x, y) Ziel: Schätze Entscheidungsfunktion f F so, dass das Risiko R[f] minimal ist. R[f] = X Y l(f(x), y) dp(x, y) l(f(x), y) ist die Verlustfunktion für die Vorhersage f(x) wenn der wahre Wert y ist. September 10, 2004, page 4 of 33
6 Empirische Risiko-Minimierung Wahres Risiko R[f] ist nicht berechenbar, da P(x, y) unbekannt Man muss aus den Daten D lernen Induktionsprinzip Empirisches Risiko aus den Daten geschätzt: R m emp[f] = 1 m m i=1 l(y i, f(x i )) Empirische Risiko-Minimierung: finde f m so dass f m = arg min f F Rm emp[f] Wie gut approximiert R m emp[f] das Wahre Risiko R[f]? September 10, 2004, page 5 of 33
7 No free lunch-theorem Betr. zwei Fälle: 1. F enthält nur eine einzige Funktion Gesetz der Großen Zahlen R m emp[f] m R[f] 2. F = {±1} X enthält alle Funktionen: Betr. zwei Mengen mit m Punkten: D train, D test X {±1}, D train D test = Zu jedem f F gibt es ein f F so dass: f (x i ) = f(x i ), x i D train aber f (x j ) f(x j ), x j D test Auf D train sind f und f ununterscheidbar, liefern jedoch entgegengesetzte Resultate auf D test. September 10, 2004, page 6 of 33
8 Einschränkung der Funktionenklasse Die Funktionenklasse muss eingeschränkt werden, um erfolgreich lernen zu können. Statistische Lerntheorie beschränkt die Kapazität der Funktionenklasse (z.b. VC-Dimension) Bayesianische Lerntheorie nimmt eine a priori -Wahrscheinlichkeitsverteilung der Funktionen im Funktionenraum an Heuristisch: Der Algorithmus benutzt implizit eine bestimmte Funktionenklasse (Nearest Neighbour) oder es wird eine Regularisierung vorgenommen (early stopping in N.N., Ridge-Regression). September 10, 2004, page 7 of 33
9 Die Vapnik-Chervonenkis-Dimension Die Menge X = {x i } i=1...m kann auf max. 2 m Arten in zwei Klassen aufgeteilt werden. Wenn Funktionen f F alle Aufteilungen realisieren können, sagt man F zertrümmert X. F hat die VC-Dimension h, wenn F eine Menge von h Punkten zertrümmern kann, es aber keine Konfiguration von h + 1 Punkten gibt, die F zertrümmern kann. Gibt es kein solches h so ist V C(F) = test Vapnik und Chervonenkis, 1968, 1971 September 10, 2004, page 8 of 33
10 Gleichmäßige Konvergenz Das empirische Risiko konvergiert gleichmäßig (über alle f F) gegen das wahre Risiko genau dann wenn VC-Dimension endlich. ( lim P ( R m emp [f] R[f] ) ) > ɛ = 0 V C(F) < m sup f F Wenn h = V C(F) < m dann gilt mit Wahrscheinlichkeit 1 δ: R[f] < R m emp[f] + φ (h, m, δ) φ (h, m, δ) = 1 m ( h (ln 2mh ) ln 4 δ Beim Lernen die VC-Dimension kontrollieren!! ) h m September 10, 2004, page 9 of 33
11 Hyperebenen und Margin <w,x>+b=0 <w,x>+b=-1 <w,x>+b=+1 rag replacements w ρ = 1 w Margin ρ: Kleinster Abstand der Punkte zur Hyperebene September 10, 2004, page 10 of 33
12 Lineare Klassifizierer Entscheidungsfunktion: f(x) = sgn ( w, PSfrag x + replacements b) Beispiel: Prototype-Klassifizierer f(x) = sgn ( c + c, x c ) c + w c x c c also? x w = c + c, b = w, c September 10, 2004, page 11 of 33
13 Lineare Klassifizierer Welche der möglichen kanonischen Ebenen hat die besten Verallgemeinerungs-Chancen? Welche Ebene soll man wählen? die mit dem größten Margin September 10, 2004, page 12 of 33
14 Warum Large Margin Klassifizierer? Satz [Vapnik, 1979]: Betrachte Hyperebenen w, x = 0 wobei w so normiert ist, dass diese in kanonischer Form bzgl. einer Menge von Punkten X = {x 1,..., x r } sind, d.h., min i=1,...,r w, x i = 1. Die Menge der auf X definierten Entscheidungsfunktionen f w (x) = sgn w, x hat eine VC-Dimension h R2 ρ 2 Hierbei ist R der Radius der kleinsten Kugel um den Ursprung, die X enthält. September 10, 2004, page 13 of 33
15 Intuitive Erklärung Rauschen in den Datenpunkten: Je größer der Margin, desto mehr Rauschen in den Daten verträgt der Algorithmus, ohne dass die Klassifizierung falsch wird. September 10, 2004, page 14 of 33
16 Die Support Vector Maschine Formulierung des Optimierungsproblems für größtmöglichen Margin (bedenke: ρ 1/ w ) unter den Nebenbedingungen min w,b w 2 y i ( w, x i + b) 1, i = 1... m D.h., die Trainingsdaten werden korrekt separiert. September 10, 2004, page 15 of 33
17 Die Lagrange-Funktion Einführung von Lagrange-Multiplikatoren α i 0 liefert die Lagrange-Funktion: L(w, b, α) = 1 2 w 2 m i=1 α i [ y i ( w, x i + b) 1] L(w, b, α) wird minimiert bzgl. der primären Variablen w und b und maximiert bzgl. der dualen Variablen α i. September 10, 2004, page 16 of 33
18 Die duale Formulierung Einsetzen der KKT-Bedingungen in L(w, b, α) liefert das duale Problem: m m max α W (α) = i=1 α i 1 2 i,j=1 α i α j y i y j x i, x j unter den Nebenbedingungen: α i 0, i = 1... m, und m i=1 α i y i = 0. Konvexes quadratisches Optimierungsproblem (d.h. globales Optimum erreichbar) September 10, 2004, page 17 of 33
19 Support Vektoren m w = α i y i x i i=1 wobei i = 1... m entweder y i [ w, x i + b] > 1 = α i = 0 x i irrelevant oder y i [ w, x i + b] = 1 (auf dem Margin) x i Support Vector Die Lösung wird bestimmt durch die Datenpunkte auf dem Margin. f(x) = sgn ( x, w + b) ( m ) = sgn α i y i x, x i + b i=1. September 10, 2004, page 18 of 33
20 Der Kern-Trick Erlaubt lineare Algorithmen auf nicht linear separierbare Probleme anzuwenden durch effiziente Berechnung einer (nicht-linearen) Merkmalstransformation. September 10, 2004, page 19 of 33
21 Merkmalstransformation x 1 x 2 z 1 z 3 z 2 Φ : R 2 R 3 (x 1, x 2 ) (z 1, z 2, z 3 ) := (x 2 1, 2 x 1 x 2, x 2 2) September 10, 2004, page 20 of 33
22 Merkmalsraum Für nicht linear separierbare Probleme können in einem Vorverarbeitungsschritt geeignete Merkmale konstruiert werden (z.b. Pixel-Korrelationen in Bildern). Vorverarbeitung der Daten mit: Φ : X H x Φ(x) Der lineare Klassifizierer kann jetzt auf den neuen Merkmalen arbeiten. September 10, 2004, page 21 of 33
23 Der Kern-Trick in der SVM Die Zielfunktion max α W (α) = m i=1 α i 1 2 m i,j=1 α i α j y i y j Φ(x i ), Φ(x j ) und die Entscheidungsfunktion ( m ) f(x) = sgn α iy i Φ(x), Φ(x i ) + b. i=1 verwenden nur Skalarprodukte der Daten. Das Skalarprodukt im Merkmalsraum kann durch eine Kernfunktion k(x, x ) = Φ(x), Φ(x ) ausgedrückt werden. September 10, 2004, page 22 of 33
24 Welche Kerne sind erlaubt? Für X sind folgende Aussagen äquivalent: k ist positiv definit (pd), d.h. für eine beliebige Menge von Punkten x 1,..., x m X und für alle a 1,..., a m R gilt: a Ka = a i a j K ij 0, wobei K ij := k(x i, x j ) i,j Es gibt eine Funktion Φ : X H in einen Hilbertraum H so dass k(x, x ) = Φ(x), Φ(x ) H ist ein sogenannter reproducing kernel Hilbert space (RKHS). September 10, 2004, page 23 of 33
25 Kern-Trick Zusammenfassung Jeder Algorithmus, der nur Skalarprodukte verwendet, kann den Kern-Trick benutzen Große Vielfalt kernelisierter Standardalgorithmen (z.b. Kernel-Perceptron, Kernel-Fisher-Diskriminante, Kernel-PCA, Kernel-CCA). Man kann den Kern als ein nichtlineares Ähnlichkeitsmaß interpretieren. Daher braucht X kein Vektorraum zu sein ( Kerne auf Graphen, Text etc.). Die Geometrie wird durch die Kernfunktion induziert. September 10, 2004, page 24 of 33
26 Beispiel: Gausscher Kern k(x, x ) = 1 exp ( x ) x 2 2πσ 2σ 2 σ kontrolliert die Lokalität der Daten demo September 10, 2004, page 25 of 33
27 Weiterführende Ansätze C-SVM und µ-svm für nicht separierbare Probleme Support Vektor Regression One-Class-SVM zur Identifikation von Ausreißern Reduced-set-Methoden zur Beschleunigung (s. Anwendung) Andere Large-Margin-Klassifizierer (z.b. Boosting) und Kernel-Maschinen September 10, 2004, page 26 of 33
28 Anwendungen in der Bildverarbeitung SVM für Objekt-Kategorisierung, Repräsentation der Bilder durch lokale Deskriptoren Kernfunktion für Mengen SVM in der Gesichtserkennung, Kaskade von Klassifizierern, Beschleunigung des ersten Layers durch separable Filter September 10, 2004, page 27 of 33
29 Objekt-Kategorisierung mit SVM September 10, 2004, page 28 of 33
30 Lokale Deskriptoren für Bilder Wie? 1. Interest Point Detector findet markante Punkte 2. In lokaler Umgebung wird eine Bildcharakteristik berechnet (z.b. Ausschnitt, Gradientenhistogramm etc.) Warum? Je nach Konstruktion - Invariant unter Translation, Rotation, Skalierung, Änderung von Kontrast, Helligkeit etc. Sehr erfolgreich in Objektidentifizierung (D. Lowe) September 10, 2004, page 29 of 33
31 Geeignete Kernfunktion SVM braucht eine Kernfunktion auf Mengen von lokalen Deskriptoren f1 f2 f3 f4... fm f1 f2 f3... fn Problem: Keine natürliche Reihenfolge Bilder haben i.a. verschiedene Anzahl von markanten Punkten September 10, 2004, page 30 of 33
32 Bisherige Ansätze Wallraven et al. a : Berechne Mittelwert des Abstandes zum jeweils ähnlichsten Deskriptor Vergleichen einzelne Deskriptoren Kondor und Jebara b : Berechnen die Ähnlichkeit zweier Verteilungen Vergleichen suffiziente Statistiken a C. Wallraven et al, Recognition with Local Features: the Kernel Recipe, Proc. of ICCV 03 b R. Kondor and T. Jebara, A Kernel between Sets of Vectors, Proceedings of the ICML, 2003 September 10, 2004, page 31 of 33
33 A Kernel between Sets of Vectors Bhattacharyya-Kern für Wahrscheinlichkeitsverteilungen: K(p, p ) = p(x) p (x) dx Geschlossener Ausdruck für p N (µ, Σ) Mehr Variabilität durch Merkmalstranformation: x N (µ, Σ) Φ Φ(x) N ( µ, Σ) effizient berechenbar durch Kern-Trick September 10, 2004, page 32 of 33
34 Literatur References [1] B. E. Boser, I. M. Guyon, and V. Vapnik. A training algorithm for optimal margin classifiers. In D. Haussler, editor, Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory, pages , Pittsburgh, PA, July ACM Press. [2] V. N. Vapnik. Statistical Learning Theory. Wiley, New York, [3] V. N. Vapnik. The Nature of Statistical Learning Theory. Statistics for Engineering and Information Science. Springer Verlag, New York, 2nd edition, [4] B. Schölkopf and A. J. Smola. Learning with Kernels. MIT Press, Cambridge, MA, [5] N. Cristianini and J. Shawe-Taylor. An Introduction to Support Vector Machines. Cambridge University Press, [6] A. J. Smola, P. L. Bartlett, B. Schölkopf, and D. Schuurmans. Advances in Large Margin Classifiers. MIT Press, Cambridge, MA, [7] E. T. Jaynes. Probability Theory - The Logic of Science. Cambridge University Press, Cambridge, U.K., [8] D. J. C. MacKay. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, Cambridge, UK, September 10, 2004, page 33 of 33
Vorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik 8.11.2011 1 von 38 Gliederung 1 2 Lagrange-Optimierung 2 von 38 Übersicht über die Stützvektormethode (SVM) Eigenschaften
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik Technische Universität Dortmund 12.11.2013 1 von 39 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung
MehrRidge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel
Ridge Regression und Kernalized Support Vector Machines : Einführung und Vergleich an einem Anwendungsbeispiel Dr. Dominik Grimm Probelehrveranstaltung Fakultät für Informatik und Mathematik Hochschule
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Stützvektormethode Katharina Morik, Uwe Ligges 10.6.2010 1 von 40 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 2 von
MehrVorlesung Wissensentdeckung
Gliederung Vorlesung Wissensentdeckung Stützvektormethode 1 Hinführungen zur SVM Katharina Morik, Claus Weihs 26.5.2009 2 Maximum Margin Methode Lagrange-Optimierung 3 Weich trennende SVM 1 von 40 2 von
MehrNeuronale Netze. Prof. Dr. Rudolf Kruse
Neuronale Netze Prof. Dr. Rudolf Kruse Computational Intelligence Institut für Intelligente Kooperierende Systeme Fakultät für Informatik rudolf.kruse@ovgu.de Rudolf Kruse Neuronale Netze 1 Überwachtes
MehrEinführung in Support Vector Machines (SVMs)
Einführung in (SVM) Januar 31, 2011 Einführung in (SVMs) Table of contents Motivation Einführung in (SVMs) Outline Motivation Vektorrepräsentation Klassifikation Motivation Einführung in (SVMs) Vektorrepräsentation
MehrSupport Vector Machines, Kernels
Support Vector Machines, Kernels Katja Kunze 13.01.04 19.03.2004 1 Inhalt: Grundlagen/Allgemeines Lineare Trennung/Separation - Maximum Margin Hyperplane - Soft Margin SVM Kernels Praktische Anwendungen
MehrSupport Vector Machines (SVM)
Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-
MehrFunktionslernen. 5. Klassifikation. 5.6 Support Vector Maschines (SVM) Reale Beispiele. Beispiel: Funktionenlernen
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrVorlesung Wissensentdeckung
Vorlesung Wissensentdeckung Stützvektormethode Katharina Morik, Uwe Ligges 23.5.2013 1 von 48 Gliederung 1 Geometrie linearer Modelle: Hyperebenen Einführung von Schölkopf/Smola 2 Lagrange-Optimierung
MehrMustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines
Mustererkennung R. Neubecker, WS 018 / 019 (SVM) kommen aus der statistischen Lerntheorie gehören zu den optimalen Klassifikatoren = SVMs minimieren nicht nur den Trainingsfehler, sondern auch den (voraussichtlichen)
MehrOptimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp
Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Support Vector Machine Nico Piatkowski und Uwe Ligges 30.05.2017 1 von 14 Überblick Was bisher geschah... Modellklassen Verlustfunktionen Numerische Optimierung Regularisierung
MehrMaschinelles Lernen Vorlesung
Maschinelles Lernen Vorlesung SVM Kernfunktionen, Regularisierung Katharina Morik 15.11.2011 1 von 39 Gliederung 1 Weich trennende SVM 2 Kernfunktionen 3 Bias und Varianz bei SVM 2 von 39 SVM mit Ausnahmen
Mehr5. Klassifikation. 5.6 Support Vector Maschines (SVM)
5. Klassifikation 5.6 Support Vector Maschines (SVM) übernommen von Stefan Rüping, Katharina Morik, Universität Dortmund Vorlesung Maschinelles Lernen und Data Mining, WS 2002/03 und Katharina Morik, Claus
MehrSupport Vector Machines (SVM)
Seminar Statistische Lerntheorie und ihre Anwendungen Support Vector Machines (SVM) Jasmin Fischer 12. Juni 2007 Inhaltsverzeichnis Seite 1 Inhaltsverzeichnis 1 Grundlagen 2 2 Lineare Trennung 3 2.1 Aufstellung
MehrLineare Klassifikationsmethoden
Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung
MehrLineare Klassifikatoren. Volker Tresp
Lineare Klassifikatoren Volker Tresp 1 Einführung Lineare Klassifikatoren trennen Klassen durch eine lineare Hyperebene (genauer: affine Menge) In hochdimensionalen Problemen trennt schon eine lineare
MehrStatistische Lerntheorie und Empirische Inferenz Statistical Learning Theorie and Empirical Inference
Statistische Lerntheorie und Empirische Inferenz Statistical Learning Theorie and Empirical Inference Schölkopf, Bernhard Max-Planck-Institut für biologische Kybernetik, Tübingen Korrespondierender Autor
MehrDie Datenmatrix für Überwachtes Lernen
Die Datenmatrix für Überwachtes Lernen X j j-te Eingangsvariable X = (X 0,..., X M 1 ) T Vektor von Eingangsvariablen M Anzahl der Eingangsvariablen N Anzahl der Datenpunkte Y Ausgangsvariable x i = (x
MehrPareto optimale lineare Klassifikation
Seminar aus Maschinellem Lernen Pareto optimale lineare Klassifikation Vesselina Poulkova Betreuer: Eneldo Loza Mencía Gliederung 1. Einleitung 2. Pareto optimale lineare Klassifizierer 3. Generelle Voraussetzung
MehrHauptseminar Machine Learning: Support Vector Machines, Kernels. Katja Kunze
Hauptseminar Machine Learning: Support Vector Machines, Kernels Katja Kunze 13.01.2004 Inhaltsverzeichnis 1 Einführung 2 1.1 Grundlagen............................ 2 2 Lineare Seperation 5 2.1 Maximum
MehrStatistische Lerntheorie und Empirische Inferenz
Schölkopf, Bernhard Statistische Lerntheorie und Empirische Inferenz Tätigkeitsbericht 2004 Informatik/Mathematik/Komplexe Systeme Statistische Lerntheorie und Empirische Inferenz Schölkopf, Bernhard Max-Planck-Institut
MehrÜberwachtes Lernen / Support Vector Machines. Rudolf Kruse Neuronale Netze 246
Überwachtes Lernen / Support Vector Machines Rudolf Kruse Neuronale Netze 246 Überwachtes Lernen, Diagnosesystem für Krankheiten Trainingsdaten: Expressionsprofile von Patienten mit bekannter Diagnose
MehrOne-class Support Vector Machines
One-class Support Vector Machines Seminar Wissensbasierte Systeme Dietrich Derksen 3. Januar 204 Motivation One-class Support Vector Machines: Detektion von Ausreißern (Systemfehlererkennung) Klassifikation
MehrMethoden zur Erzeugung von Kernen
Methoden zur Erzeugung von Kernen Stefan Frommer 03.07.2007 1. Theoretische Konstruktion von Kernen 1.1 Wiederholung: Kerne 1.2 Auswahl eines Kerns 1.3 Kern-Kompositionen 2. Rechenbeispiele für Kerne 2.1
MehrInnere-Punkt-Methoden
Innere-Punkt-Methoden Johannes Stemick 26.01.2010 Johannes Stemick () Innere-Punkt-Methoden 26.01.2010 1 / 28 Übersicht 1 Lineare Optimierung 2 Innere-Punkt-Methoden Path-following methods Potential reduction
MehrSeminar Statistische Lerntheorie und ihre Anwendungen Ausarbeitung zum Thema Methoden zur Erzeugung von Kernen von Stefan Frommer am
Seminar Statistische Lerntheorie und ihre Anwendungen Ausarbeitung zum Thema Methoden zur Erzeugung von Kernen von Stefan Frommer am 10.07.2007 Inhalt: 1. Theoretische Konstruktion von Kernen 1.1 Wiederholung:
MehrThema: Support Vector Machines Johannes Lächele
Proseminar: Machine Learning 26. Juli 2006 Johannes Lächele Zusammenfassung: In dieser Seminararbeit wird das Basiswissen für das Verständnis von Support Vector Machines oder SVM vermittelt. Nach einer
MehrEin Vergleich von Methoden für Multi-klassen Support Vector Maschinen
Ein Vergleich von Methoden für Multi-klassen Support Vector Maschinen Einführung Auf binären Klassifikatoren beruhende Methoden One-Against-All One-Against-One DAGSVM Methoden die alle Daten zugleich betrachten
MehrApproximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes
Approximate Maximum Margin Algorithms with Rules Controlled by the Number of Mistakes Seminar Maschinelles Lernen VORTRAGENDER: SEBASTIAN STEINMETZ BETREUT VON: ENELDO LOZA MENCÍA Inhalt Vorbedingungen
MehrFrequentisten und Bayesianer. Volker Tresp
Frequentisten und Bayesianer Volker Tresp 1 Frequentisten 2 Die W-Verteilung eines Datenmusters Nehmen wir an, dass die wahre Abhängigkeit linear ist, wir jedoch nur verrauschte Daten zur Verfügung haben
MehrVorlesung Maschinelles Lernen
Gliederung Vorlesung Maschinelles Lernen Strukturelle Modelle SVMstruct Katharina Morik 6.2.2008 Überblick Lernaufgaben 2 Primales Problem 3 Duales Problem 4 Optimierung der SVMstruct 5 Anwendungen von
MehrEinführung in das statistische Lernen
Universität Ulm 24. April 2007 Inhalt Motivation Grundbegriffe Kleinste Quadrate und k-nächste-nachbar-methode Statistische Entscheidungstheorie Regressionsmodelle und Kernmethoden Zusammenfassung Modellwahl
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Strukturelle Modelle SVMstruct Katharina Morik, Claus Weihs LS 8 Informatik 16.6.2009 1 von 37 Gliederung LS 8 Informatik 1 Überblick Lernaufgaben 2 Primales Problem 3
MehrTechnische Universität
Technische Universität München Fakultät für Informatik Forschungs- und Lehreinheit Informatik IX Support Vector Machines Hauptseminar Robert Rackl Betreuer: Abgabetermin: 8. Juli.2004 Dipl.-Inform. Simone
MehrSupport Vector Machines und Kernel-Methoden
Support Vector Machines und Kernel-Methoden Seminar Bernd Bischl und Heike Trautmann Lehrstuhl Computergestützte Statistik Fakultät Statistik TU Dortmund 7. Juli 2010 Trautmann, Bischl (Fakultät Statistik)
MehrLineare Klassifikatoren
Universität Potsdam Institut für Informatik Lehrstuhl Lineare Klassifikatoren Christoph Sawade, Blaine Nelson, Tobias Scheffer Inhalt Klassifikationsproblem Bayes sche Klassenentscheidung Lineare Klassifikator,
MehrTheorie Parameterschätzung Ausblick. Schätzung. Raimar Sandner. Studentenseminar "Statistische Methoden in der Physik"
Studentenseminar "Statistische Methoden in der Physik" Gliederung 1 2 3 Worum geht es hier? Gliederung 1 2 3 Stichproben Gegeben eine Beobachtungsreihe x = (x 1, x 2,..., x n ): Realisierung der n-dimensionalen
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Modellklassen, Verlustfunktionen Nico Piatkowski und Uwe Ligges 02.05.2017 1 von 15 Literatur Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical
Mehr1/19. Kern-Methoden zur Extraktion von Informationen. Sebastian Marius Kirsch Back Close
1/19 Kern-Methoden zur Extraktion von Informationen Sebastian Marius Kirsch skirsch@moebius.inka.de 2/19 Gliederung 1. Verfahren zur Extraktion von Informationen 2. Extraktion von Beziehungen 3. Maschinelles
MehrEinführung in die Bioinformatik: Lernen mit Kernen
Einführung in die Bioinformatik: Lernen mit Kernen Dr. Karsten Borgwardt Forschungsgruppe für Maschinelles Lernen und Bioinformatik Max-Planck-Institut für Intelligente Systeme & Max-Planck-Institut für
MehrBildverarbeitung: Filterung. D. Schlesinger () Bildverarbeitung: Filterung 1 / 17
Bildverarbeitung: Filterung D. Schlesinger () Bildverarbeitung: Filterung 1 / 17 Allgemeines Klassische Anwendung: Entrauschung (Fast) jeder Filter basiert auf einem Modell (Annahme): Signal + Rauschen
MehrTheoretische Informatik 1
Theoretische Informatik 1 Teil 12 Bernhard Nessler Institut für Grundlagen der Informationsverabeitung TU Graz SS 2007 Übersicht 1 Maschinelles Lernen Definition Lernen 2 agnostic -learning Definition
MehrMustererkennung und Klassifikation
Mustererkennung und Klassifikation WS 2007/2008 Fakultät Informatik Technische Informatik Prof. Dr. Matthias Franz mfranz@htwg-konstanz.de www-home.htwg-konstanz.de/~mfranz/heim.html Grundlagen Überblick
Mehr53 Die Parsevalsche Gleichung
53 Die Parsevalsche Gleichung 53 Die Parsevalsche Gleichung 5 53. Skalarprodukte auf Räumen quadratintegrierbarer Funktionen. a) Die Orthogonalitätsrelationen (5.5) legen die Interpretation des Ausdrucks
MehrAlgebraische Statistik ein junges Forschungsgebiet. Dipl.-Math. Marcus Weber
Algebraische Statistik ein junges Forschungsgebiet Dipl.-Math. Marcus Weber Disputationsvortrag 15. Februar 2006 Gliederung 1. Statistische Modelle 2. Algebraische Interpretation statistischer Probleme
MehrVorlesung Maschinelles Lernen
Gliederung Vorlesung Maschinelles Lernen Strukturelle Modelle SVMstruct Katharina Morik, Claus Weihs 24520 Überblick Lernaufgaben 2 Primales Problem 3 Duales Problem 4 Optimierung der SVMstruct 5 Anwendungen
MehrKurze Einführung in das maschinelle Lernen mit einem Fokus auf Support Vector Maschinen
Seminararbeit Kurze Einführung in das maschinelle Lernen mit einem Fokus auf Support Vector Maschinen für das Mathematische Seminar im WS2014 Harald Burgsteiner 28. Januar 2015 In dieser Seminararbeit
Mehrൿ ψ ± = 01 ± Verschränkte Zustände. Fabio Di Pumpo ASQ Leibnitz und die Quantenphysik Verschränkte Zustände WS16/17
φ ± ൿ = 00 ± 11 2 ൿ ψ ± = 01 ± 10 2 Verschränkte Zustände Fabio Di Pumpo 01.03.2017 ASQ Leibnitz und die Quantenphysik Verschränkte Zustände WS16/17 Seite 2 Inhaltsverzeichnis 1. Einleitung 2. Hilbertraum
MehrKlassifikation durch direkten Vergleich (Matching)
Klassifikation durch direkten Vergleich (Matching) Eine triviale Lösung für die Klassifikation ergibt sich durch direkten Vergleich des unbekannten Musters in allen Erscheinungsformen der Äquivalenzklasse
MehrGrundlagen von Support Vector Machines (SVM)
Grundlagen von Support Vector Machines (SVM) Jens Pönisch 2019-03-16 1 / 31 Motivation Masterarbeit Sandy Bitterlich 2016 Optimierungsverfahren im Machine Learning ADMM SVM MPI Eigene Implementierung des
MehrHypothesenbewertungen: Übersicht
Hypothesenbewertungen: Übersicht Wie kann man Fehler einer Hypothese abschätzen? Wie kann man einschätzen, ob ein Algorithmus besser ist als ein anderer? Trainingsfehler, wirklicher Fehler Kreuzvalidierung
MehrStrukturelle SVM zum Graph-labelling
23. Juni 2009 1 Was wir gerne hätten...... und der Weg dorthin Erinnerung: strukturelle SVM 2 Junction Tree Algorithmus Loopy Belief Propagation Gibbs Sampling 3 Umfang Qualität der Algorithmen Schlussfolgerungen
MehrMachine Learning. ML Kapitel 7: Support Vector Machines. Prof. Dr. Johannes Maucher. Version November HdM CSM
Machine Learning Kapitel 7: Support Vector Machines HdM CSM Version 1.5 16. November 2017 Document History Version Date Changes Nr. 1.0 18.06.2009 1.1 14.06.2010 Eigene Beispiele hinzugefügt 1.2 16.05.2011
Mehr9.5 Entscheidungsbäume
9.5. ENTSCHEIDUNGSBÄUME 149 9.5 Entscheidungsbäume Wir betrachten wieder einen Datensatz von Ereignissen mit jeweils m Merkmalen, zusammengefasst in x, die zwei verschiedenen Klassen angehören, zum Beispiel
MehrNewton- und und Quasi-Newton-Methoden in der Optimierung. János Mayer
Newton- und und Quasi-Newton-Methoden in der Optimierung János Mayer 1 GLIEDERUNG Newton-Methode für nichtlineare Gleichungen nichtlineare Gleichungssysteme freie Minimierung. Quasi-Newton-Methoden für
MehrEinführung in die statistische Testtheorie
1 Seminar Simulation und Bildanalyse mit Java von Benjamin Burr und Philipp Orth 2 Inhalt 1. Ein erstes Beispiel 2. 3. Die Gütefunktion 4. Gleichmäßig beste Tests (UMP-Tests) 1 Einführendes Beispiel 3
MehrSo lösen Sie das multivariate lineare Regressionsproblem von Christian Herta
Multivariate Lineare Regression Christian Herta Oktober, 2013 1 von 34 Christian Herta Multivariate Lineare Regression Lernziele Multivariate Lineare Regression Konzepte des Maschinellen Lernens: Kostenfunktion
MehrSignalentdeckungstheorie, Dichteschätzung
Signalentdeckungstheorie, Dichteschätzung Mustererkennung und Klassifikation, Vorlesung No. 6 1 M. O. Franz 15.11.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001.
MehrNichtlineare Klassifikatoren
Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
MehrSeminar in Statistik - FS Nonparametric Bayes. Handout verfasst von. Ivo Francioni und Philippe Muller
Seminar in Statistik - FS 2008 Nonparametric Bayes Handout verfasst von Ivo Francioni und Philippe Muller Zürich, 17. März 2008 1 EINLEITUNG 1 1 Einleitung Bis jetzt haben wir in der Bayes schen Statistik
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrVF-2: 2. Es seien x = 1 3 und y = π Bei der Berechnung von sin(x) sin(y) in M(10, 12, 99, 99) tritt. Auslöschung auf.
IGPM RWTH Aachen Verständnisfragen-Teil NumaMB H11 (24 Punkte) Es gibt zu jeder der 12 Aufgaben vier Teilaufgaben. Diese sind mit wahr bzw. falsch zu kennzeichnen (hinschreiben). Es müssen mindestens zwei
Mehr5 Allgemeine Verfahren zum Testen von Hypothesen
5 Allgemeine Verfahren zum Testen von Hypothesen 5.1 Likelihood Schätzung für multivariate Daten Statistisches Modell: Einfache Zufallsstichprobe X 1,..., X n (unabhängige Wiederholungen von X IR d ).
MehrGauß-Prozess-Regression
Bayessche Regression und Gaußprozesse Dr. rer. nat. Johannes Riesterer Motivation Kriging Der südafrikanische Bergbauingenieur Danie Krige versuchte 1951, eine optimale Interpolationsmethode für den Bergbau
MehrAnwendung von neuronalen Netzen, Projection Pursuits und CARTs für die Schätzerkonstruktion unter R
Anwendung von neuronalen Netzen, Projection Pursuits und CARTs für die Schätzerkonstruktion unter R Markus-Hermann Koch 18. Oktober 2009 Übersicht Regression im Allgemeinen Regressionsproblem Risiko Schematischer
MehrFortgeschrittene Mathematik Raum und Funktionen
Fortgeschrittene Mathematik Raum und Funktionen Thomas Zehrt Universität Basel WWZ Thomas Zehrt (Universität Basel WWZ) R n und Funktionen 1 / 33 Outline 1 Der n-dimensionale Raum 2 R 2 und die komplexen
MehrDas Subgradientenverfahren
Das Subgradientenverfahren Seminar Optimierung WS 05/06 Betreuer: Prof. F. Jarre von Jalo Liljo Das Subgradientenverfahren Das Ziel dieses Vortrags ist die Berechnung einer Lösung des unrestringierten
MehrKlassifikationsverfahren haben viele Anwendungen. Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar
Rückblick Klassifikationsverfahren haben viele Anwendungen Binäres Klassifikationsverfahren auch zur Klassifikation in mehr als zwei Klassen verwendbar Konfusionsmatrix stellt Vorhersagen und Daten gegenüber
MehrVorlesung Maschinelles Lernen
Vorlesung Maschinelles Lernen Strukturelle Modelle SVMstruct Katharina Morik LS 8 Künstliche Intelligenz Fakultät für Informatik 16.12.2008 1 von 35 Gliederung LS 8 Künstliche Intelligenz Fakultät für
MehrSoftwareprojektpraktikum Maschinelle Übersetzung
Softwareprojektpraktikum Maschinelle Übersetzung Jan-Thorsten Peter, Andreas Guta, Jan Rosendahl max.bleu@i6.informatik.rwth-aachen.de Vorbesprechung 5. Aufgabe 22. Juni 2017 Human Language Technology
MehrNeural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
MehrAlgorithmische Geometrie: Delaunay Triangulierung (Teil 2)
Algorithmische Geometrie: Delaunay Triangulierung (Teil 2) Nico Düvelmeyer WS 2009/2010, 2.2.2010 Überblick 1 Delaunay Triangulierungen 2 Berechnung der Delaunay Triangulierung Randomisiert inkrementeller
MehrTECHNISCHE UNIVERSITÄT MÜNCHEN. Spurklasse-Operatoren und Hilbert-Schmidt-Operatoren
TECHNISCHE UNIVERSITÄT MÜNCHEN Zentrum Mathematik Prof. Dr. H. Spohn Max Lein Ulrich Mauthner Quantendynamik SoSe 006 en Blatt 8 006.06.6 Spurklasse-Operatoren und Hilbert-Schmidt-Operatoren Aufgabe 1
MehrMethoden der Statistik Markov Chain Monte Carlo Methoden
Methoden der Statistik Markov Chain Monte Carlo Methoden Humboldt-Universität zu Berlin 08.02.2013 Problemstellung Wie kann eine Zufallsstichprobe am Computer simuliert werden, deren Verteilung aus einem
MehrWahrscheinlichkeit und Statistik: Zusammenfassung
HSR Hochschule für Technik Rapperswil Wahrscheinlichkeit und Statistik: Zusammenfassung beinhaltet Teile des Skripts von Herrn Hardy von Lukas Wilhelm lwilhelm.net 12. Januar 2007 Inhaltsverzeichnis 1
MehrCompressed Sensing für Signale aus Vereinigungen von Unterräumen
Compressed Sensing für Signale aus Vereinigungen von Unterräumen Nadine Pawlitta 21. Januar 2011 Nadine Pawlitta () CS auf Vereinigungen von Unterräumen 21. Januar 2011 1 / 28 Übersicht 1 Grundprinzip
MehrSupport-Vektor Maschinen: Feature-Funktionen. 27. Juni / 62
Support-Vektor Maschinen: Feature-Funktionen 27. Juni 2017 1 / 62 Feature Funktionen Beispiele werden durch Zusatzinformationen, Features, aufbereitet. Eine Funktion φ : X R N heißt eine Feature-Funktion.
MehrMartin Stetter WS 03/04, 2 SWS. VL: Dienstags 8:30-10 Uhr
Statistische und neuronale Lernverfahren Martin Stetter WS 03/04, 2 SWS VL: Dienstags 8:30-0 Uhr PD Dr. Martin Stetter, Siemens AG Statistische und neuronale Lernverfahren Behandelte Themen 0. Motivation
MehrInstitut für Analysis und Scientific Computing Dr. E. Weinmüller SS 2015
Institut für Analysis und Scientific Computing TU Wien Dr. E. Weinmüller SS 205 A N A L Y S I S I I F Ü R T P H, (0.09) Test 2 Gruppe (DI, 6.6.205) (mit Lösung ) Sie können den Taschenrechner verwenden.
MehrEfficient Learning of Label Ranking by Soft Projections onto Polyhedra
Efficient Learning of Label Ranking by Soft Projections onto Polyhedra Technische Universität Darmstadt 18. Januar 2008 Szenario Notation duales Problem Weitere Schritte Voraussetzungen Tests Szenario
MehrAllgemeine lineare Modelle
262 Merkpunkte Allgemeine lineare Modelle Multiple lineare Regression mit nicht-normalen Zufallsabweichungen bilden eine harmlose" Verallgemeinerung der multiplen lin. Regr. Beispiele: Gumbel-Regression,
MehrDefinition Eine Metrik d auf der Menge X ist eine Abbildung d : X X IR
0 Inhaltsverzeichnis 1 Metrik 1 1.1 Definition einer Metrik............................. 1 1.2 Abstand eines Punktes von einer Menge................... 1 1.3 Einbettung eines metrischen Raumes in einen
MehrInstitut für Geometrie und Praktische Mathematik
RWTH Aachen Verständnisfragen-Teil Institut für Geometrie und Praktische Mathematik (24 Punkte) Es gibt zu jeder der 12 Aufgaben vier Teilaufgaben. Diese sind mit wahr bzw. falsch zu kennzeichnen (hinschreiben).
MehrFUNKTIONALANALYSIS. Carsten Schütt WS 2006/7
1. Eine Teilmenge K eines topologischen Raumes heißt folgenkompakt, wenn jede Folge in K eine Teilfolge enthält, die in K konvergiert. Die Menge K heißt abzählbar kompakt, wenn jede unendliche Teilmenge
MehrSchwartz-Raum (Teil 1)
Schwartz-Raum (Teil 1) Federico Remonda, Robin Krom 10. Januar 2008 Zusammenfassung Der Schwartz-Raum ist ein Funktionenraum, der besondere Regularitätseigenschaften besitzt, die uns bei der Fouriertransformation
MehrKern Fisher Diskriminanten
Kern Fisher Diskriminanten Sebastian Mika idalab GmbH & Fraunhofer FIRST Mohrenstraße 63 10117 Berlin email: mika@{first.fraunhofer.de, idalab.com} 1 Einleitung Diese Zusammenfassung meiner Doktorarbeit
MehrStatistik I für Betriebswirte Vorlesung 3
Statistik I für Betriebswirte Vorlesung 3 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 15. April 2019 Dr. Andreas Wünsche Statistik I für Betriebswirte Vorlesung 3 Version: 1. April
MehrWechselkurse und Finanzmarkt-Indizes
8. Mai 2008 Inhaltsverzeichnis 1 Wechselkurse Einführung Wechselkurs US Dollar - Deutsche Mark Statistischer Prozess 2 Reinjektion Eigenschaften der Fluktuationen von x(τ) 3 Diffusion auf Finanzmärkten
MehrD-CHAB Frühlingssemester 2017 T =
D-CHAB Frühlingssemester 17 Grundlagen der Mathematik II Dr Marcel Dettling Lösung 13 1) Die relevanten Parameter sind n = 3, x = 1867, σ x = und µ = 18 (a) Die Teststatistik T = X µ Σ x / n ist nach Annahme
MehrUniversität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen. Maschinelles Lernen
Universität Potsdam Institut für Informatik Lehrstuhl Niels Landwehr, Silvia Makowski, Christoph Sawade, Tobias Scheffer Organisation Vorlesung/Übung, praktische Informatik. 4 SWS. Übung: Di 10:00-11:30
MehrVorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)
Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 3/) Kapitel : Optimierung ohne Nebenbedingungen Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom. Oktober 3) Gliederung
MehrVorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)
Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 3/4) Kapitel : Optimierung ohne Nebenbedingungen Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom. Oktober 3) Gliederung
MehrÜberblick. Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung
Grundlagen Überblick Einführung in die automatische Mustererkennung Grundlagen der Wahrscheinlichkeitsrechnung Klassifikation bei bekannter Wahrscheinlichkeitsverteilung Entscheidungstheorie Bayes-Klassifikator
Mehr