Praktische Optimierung

Ähnliche Dokumente
Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1

Proseminar Machine Learning. Neuronale Netze: mehrschichtige Perzeptrone. Christina Schmiedl Betreuer: Christian Spieth, Andreas Dräger

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Konzepte der AI Neuronale Netze

Hannah Wester Juan Jose Gonzalez

Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)

Neural Networks: Architectures and Applications for NLP

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze (Konnektionismus)

Künstliche neuronale Netze

Proseminar Neuronale Netze Frühjahr 2004

Künstliche Neuronale Netze

11. Neuronale Netze 1

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Klassifikationsverfahren und Neuronale Netze

Hochschule Regensburg. Spezielle Algorithmen (SAL) Lehrbeauftragter: Prof. Sauer

Neuronale Netze mit mehreren Schichten

Das Perzeptron. Künstliche neuronale Netze. Sebastian Otte. 1 Grundlegendes. 2 Perzeptron Modell

Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.

Klassifikation linear separierbarer Probleme

BACKPROPAGATION & FEED-FORWARD DAS MULTILAYER PERZEPTRON

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Radiale-Basisfunktionen-Netze. Rudolf Kruse Neuronale Netze 120

5. Lernregeln für neuronale Netze

Neuronale Netze. Maschinelles Lernen. Michael Baumann. Universität Paderborn. Forschungsgruppe Wissensbasierte Systeme Prof. Dr.

Gliederung. Biologische Motivation Künstliche neuronale Netzwerke. Anwendungsbeispiele Zusammenfassung. Das Perzeptron

Adaptive Systeme. Einführung. Grundlagen. Modellierung. Prof. Rüdiger Brause WS Organisation. Einführung in adaptive Systeme B-AS-1, M-AS-1

Grundlagen neuronaler Netzwerke

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider

Einführung in Neuronale Netze

Aufbau und Beschreibung Neuronaler Netzwerke

Neuronale Netze (I) Biologisches Neuronales Netz

auch: Konnektionismus; subsymbolische Wissensverarbeitung

Neuronale Netze. Anna Wallner. 15. Mai 2007

Wissensentdeckung in Datenbanken

Neuronale Netze. Christian Böhm.

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Grundlagen Künstlicher Neuronaler Netze

Inhaltsverzeichnis. Einführung

10. Neuronale Netze 1

Lernverfahren von Künstlichen Neuronalen Netzwerken

Einführung in die Computerlinguistik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Kurt Mehlhorn

Neuronale Netze Aufgaben 3

Teil III: Wissensrepräsentation und Inferenz. Kap.5: Neuronale Netze

Intelligente Algorithmen Einführung in die Technologie

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Ausarbeitung zum Hauptseminar Machine Learning

Modellbildung und Simulation

Thema 3: Radiale Basisfunktionen und RBF- Netze

Künstliche Neuronale Netze

Künstliche neuronale Netze

Softcomputing Biologische Prinzipien in der Informatik. Neuronale Netze. Dipl. Math. Maria Oelinger Dipl. Inform. Gabriele Vierhuff IF TIF

Neuronale Netze. Volker Tresp

Klassifizierungsverfahren und neuronale Netze Hauptseminar - Methoden der experimentellen Teilchenphysik

Neuronale Netze, Fuzzy Control, Genetische Algorithmen. Prof. Jürgen Sauer. 5. Aufgabenblatt: Neural Network Toolbox 1

Eine kleine Einführung in neuronale Netze

Künstliche neuronale Netze

Einführung in die Methoden der Künstlichen Intelligenz

Prof. Dr. H. Brenner Osnabrück SS Analysis II. Vorlesung 50. Hinreichende Kriterien für lokale Extrema

Überwachtes Lernen II: Netze und Support-Vektor-Maschinen

Computational Intelligence 1 / 31. Computational Intelligence Künstliche Neuronale Netze Geschichte 3 / 31

3 Differenzierbarkeit und Ableitung (Differentialrechnung I)

Universität Klagenfurt

Datenorientierte SA. Aufbau und Grundlagen. Aufbau und Grundlagen. Aufbau und Grundlagen. Was sind neuronale Netze?

Neuronale Netze I. Proseminar Data Mining Florian Zipperle Fakultät für Informatik Technische Universität München

Kohonennetze Selbstorganisierende Karten

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Wissensentdeckung in Datenbanken

Künstliche neuronale Netze

Einführung in neuronale Netze

Das Subgradientenverfahren

Können neuronale Netze Vorhersagen treffen? Eine Anwendung aus der Stahlindustrie

Technische Universität. Fakultät für Informatik

Neuronale Netze, Fuzzy Control, Genetische Algorithmen. Prof. Jürgen Sauer. 12. Aufgabenblatt: Projektvorschläge für WS 2010/2011

Künstliche Neuronale Netze

Künstliche Neuronale Netze als Neues Paradigma der Informationsverarbeitung

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.

Computational Intelligence I Künstliche Neuronale Netze

Kapitel LF: IV. IV. Neuronale Netze

Was sind Neuronale Netze?

Kapitel LF: IV. Multilayer-Perzeptrons und Backpropagation. Multilayer-Perzeptrons und Backpropagation. LF: IV Machine Learning c STEIN

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren Thomas Brox, Fabian Kuhn

12. Trennungssätze für konvexe Mengen 83

Transkript:

Wintersemester 27/8 Praktische Optimierung (Vorlesung) Prof. Dr. Günter Rudolph Fakultät für Informatik Lehrstuhl für Algorithm Engineering

Metamodellierung Inhalt Multilayer-Perceptron (MLP) Radiale Basisfunktionsnetze (RBF) Kriging Neuronale Netze Rudolph: PO (WS 27/8) Künstliche neuronale Netze 2

Biologisches Vorbild Neuronen - Information aufnehmen (D) - Information verarbeiten (Z) - Information weiterleiten (A / S) Mensch: 2 Neuronen Strom im mv-bereich 2 m / s Zellkörper (Z) Axon (A) Kern Dendrit (D) Synapse (S) Rudolph: PO (WS 27/8) Künstliche neuronale Netze 3

Abstraktion Dendriten Zellkern / Zellkörper Axon Synapse Signal- Eingabe Signal- Verarbeitung Signal- Ausgabe Rudolph: PO (WS 27/8) Künstliche neuronale Netze 4

Modell x Funktion f f(x,,, x n ) x n McCulloch-Pitts-Neuron 943: x i {, } =: B f: B n B Rudolph: PO (WS 27/8) Künstliche neuronale Netze 5

Perzeptron (Rosenblatt 958) komplexes Modell reduziert von Minsky & Papert auf das Notwendigste Minsky-Papert-Perzeptron (MPP), 969 Was leistet ein MPP? J umstellen nach liefert: J N N Bsp: N J Trenngerade separiert R 2 in 2 Klassen Rudolph: PO (WS 27/8) Künstliche neuronale Netze 6

= = AND OR NAND NOR XOR? x xor w x + w 2 θ < θ w 2 θ w θ w + w 2 < θ w, w 2 θ > w + w 2 2θ Widerspruch! Rudolph: PO (WS 27/8) Künstliche neuronale Netze 7

969: Marvin Minsky / Seymor Papert Buch Perceptrons Analyse math. Eigenschaften von Perzeptrons Ernüchterndes Ergebnis: Triviale Probleme können nicht mit Perzeptrons gelöst werden! - XOR-Problem - Parity-Problem - Connectivity-Problem Folgerung : Alle künstliche Neuronen haben diese Schwäche! Forschung auf diesem Gebiet ist wissenschaftliche Sackgasse! Folge: Forschungsförderung bzgl. KNN praktisch eingestellt (~ 5 Jahre) Rudolph: PO (WS 27/8) Künstliche neuronale Netze 8

Wege aus der Sackgasse :. Mehrschichtige Perzeptrons: x 2 x 2 realisiert XOR 2. Nichtlineare Trennfunktionen: XOR g(x, ) = 2x + 2 4x - mit θ = g(,) = g(,) = + g(,) = + g(,) = Rudolph: PO (WS 27/8) Künstliche neuronale Netze 9

Wie kommt man zu den Gewichten und θ? bisher: durch Konstruktion Bsp: NAND-Gatter x NAND θ w 2 θ w θ w + w 2 < θ erfordert Lösung eines linearen Ungleichungssystems ( P) (Bsp: w = w 2 = -2, θ = -3) jetzt: durch Lernen bzw. Trainieren Rudolph: PO (WS 27/8) Künstliche neuronale Netze

Perceptron-Lernen Annahme: Testbeispiele mit richtigem Ein-/Ausgabeverhalten bekannt Prinzip: () wähle Gewichte irgendwie (2) lege Testmuster an (3) falls Perceptronausgabe falsch, dann verändere Gewichte (4) gehe nach (2) bis richtige Perceptronausgabe für alle Testmuster grafisch: Verschieben und Drehen der Trenngeraden Rudolph: PO (WS 27/8) Künstliche neuronale Netze

Was kann man durch zusätzliche Schichten (Layer) erreichen? Single-layer perceptron (SLP) Hyperfläche separiert Raum in zwei Teilräume N P Two-layer perceptron beliebige konvexe Mengen unterscheidbar Verknüpfung mit AND in der 2. Schicht Three-layer perceptron beliebige Mengen unterscheidbar (abh. von Anzahl der Neuronen), weil mehrere konvexe Mengen bis 2. Schicht darstellbar, diese können in 3. Schicht kombiniert werden Mehr als 3 Schichten sind nicht nötig! Rudolph: PO (WS 27/8) Künstliche neuronale Netze 2

XOR mit 3 Neuronen in 2 Schichten x - y 2 z x y y 2 z - y 2 konvexe Menge Rudolph: PO (WS 27/8) Künstliche neuronale Netze 3

XOR mit 3 Neuronen in 2 Schichten x - y z x y y 2 z - y 2 ohne AND-Verknüpfung in 2. Schicht Rudolph: PO (WS 27/8) Künstliche neuronale Netze 4

XOR mit 2 Neuronen möglich x y -2y x -2y+ z x 2 y -2 z -2 aber: keine Schichtenarchitektur Rudolph: PO (WS 27/8) Künstliche neuronale Netze 5

Lernalgorithmus für Multi-Layer-Perceptron vorteilhaft: sigmoide Aktivierungsfunktion (statt Signum-Funktion) θ monoton wachsend differenzierbar nicht-linear Ausgabe [,] statt {, } Bsp: Schranke θ in Aktivierungsfunktion integriert Werte für Ableitungen direkt aus Funktionswerten bestimmbar Rudolph: PO (WS 27/8) Künstliche neuronale Netze 6

Quantifizierung des Klassifikationsfehlers beim MLP Total Sum Squared Error (TSSE) Ausgabe des Netzes für Gewichte w und Eingabe x Soll-Ausgabe des Netzes für Eingabe x Total Mean Squared Error (TMSE) TSSE Anzahl der Beispiele Anzahl der Ausgabeneuronen const. führt zur gleichen Lösung wie TSSE Rudolph: PO (WS 27/8) Künstliche neuronale Netze 7

Lernalgorithmus für Multi-Layer-Perceptrons Gradientenverfahren w y u x z f(w t, u t ) = TSSE y 2 u t+ = u t - γ u f(w t, u t ) 2 z 2 w t+ = w t - γ w f(w t, u t )...... 2... z K x i : Eingabe an Eingabeschicht y j : Ausgabe der verdeckten Schicht x I w nm J y J K z k = a( ) z k : Ausgabe der Ausgabeschicht y j = h( ) Rudolph: PO (WS 27/8) Künstliche neuronale Netze 8

Ausgabe von Neuron j in der verdeckten Schicht Ausgabe von Neuron k in der Ausgabeschicht Fehler bei Eingabe x: Netzausgabe Sollausgabe bei Eingabe x Rudolph: PO (WS 27/8) Künstliche neuronale Netze 9

Fehler bei Eingabe x und Sollausgabe z*: Gesamtfehler für alle Beispiele (x, z*) B: (TSSE) Rudolph: PO (WS 27/8) Künstliche neuronale Netze 2

Gradient des Gesamtfehlers: Vektor der partiellen Ableitungen nach den Gewichten u jk und w ij also: bzw. Rudolph: PO (WS 27/8) Künstliche neuronale Netze 2

Annahme: und: Kettenregel der Differentialrechnung: äußere Ableitung innere Ableitung Rudolph: PO (WS 27/8) Künstliche neuronale Netze 22

partielle Ableitung nach u jk : Fehlersignal δ k Rudolph: PO (WS 27/8) Künstliche neuronale Netze 23

partielle Ableitung nach w ij : Faktoren umordnen Fehlersignal δ k aus vorheriger Schicht Fehlersignal δ j aus aktueller Schicht Rudolph: PO (WS 27/8) Künstliche neuronale Netze 24

Verallgemeinerung Das neuronale Netz habe L Schichten (layer) S, S 2,... S L. Seien Neuronen aller Schichten durchnummeriert von bis N. Alle Gewichte w ij sind in Gewichtsmatrix W zusammengefasst. Sei o j Ausgabe (output) von Neuron j. j S m Neuron j ist in m-ter Schicht Fehlersignal: Korrektur: beim Online-Lernen: Korrektur nach jedem präsentierten Beispiel Rudolph: PO (WS 27/8) Künstliche neuronale Netze 25

Fehlersignal eines Neurons einer inneren Schicht bestimmt durch Fehlersignale aller Neuronen der nachfolgenden Schicht und zugehörige Verbindungsgewichte. Erst Fehlersignale der Ausgabeneuronen bestimmen, daraus Fehlersignale der Neuronen der vorhergehenden Schicht berechnen, daraus Fehlersignale der Neuronen der vorhergehenden Schicht berechnen, usw. bis zur ersten inneren Schicht. Fehler wird also von Ausgabeschicht zur ersten inneren Schicht zurückgeleitet. Backpropagation (of error) Rudolph: PO (WS 27/8) Künstliche neuronale Netze 26

Satz: MLPs mit einer verdeckten Schicht sigmoidaler Einheiten sind universelle Approximatoren für stetige Funktionen. Beweis: Hornik, K., Stinchcombe, M., and White, H. (989). "Multilayer Feedforward Networks are Universal Approximators," Neural Networks, 2(5), 359-366. Folgt im Grunde aus dem Satz von Weierstraß. Netz explizit hinschreiben und ausmultiplizieren. Sigmoidale Funktionen durch ihre Reihenentwicklung (Polynome!) ersetzen. Ausmultiplizieren Polynom als Ersatzzielfunktion Rudolph: PO (WS 27/8) Künstliche neuronale Netze 27