Maschinelles Lernen und Neural Computation

Ähnliche Dokumente
Konzepte der AI Neuronale Netze

Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.

Neuronale Netze. Christian Böhm.

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Neural Networks: Architectures and Applications for NLP

Hannah Wester Juan Jose Gonzalez

Praktische Optimierung

Der Sprung in die Zukunft! Einführung in neuronale Netzwerke

Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1

(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.

Mustererkennung und Klassifikation

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

Perzeptronen. Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004

Grundlagen zu neuronalen Netzen. Kristina Tesch

Martin Stetter WS 03/04, 2 SWS. VL: Dienstags 8:30-10 Uhr

Vorlesung Digitale Bildverarbeitung Sommersemester 2013

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

5. Lernregeln für neuronale Netze

Neuronale. Netze. Henrik Voigt. Neuronale. Netze in der Biologie Aufbau Funktion. Neuronale. Aufbau Netzarten und Topologien

So lösen Sie das multivariate lineare Regressionsproblem von Christian Herta

Modellierung mit künstlicher Intelligenz

Lineare Regression. Christian Herta. Oktober, Problemstellung Kostenfunktion Gradientenabstiegsverfahren

Textmining Klassifikation von Texten Teil 2: Im Vektorraummodell

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Adaptive Systeme. Mehrere Neuronen, Assoziative Speicher und Mustererkennung. Prof. Dr. rer. nat. Nikolaus Wulff

kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.

Vergleich von SVM und Regel- und Entscheidungsbaum-Lernern

Weitere Untersuchungen hinsichtlich der Anwendung von KNN für Solvency 2. Tom Schelthoff

INTELLIGENTE DATENANALYSE IN MATLAB

Künstliche neuronale Netze

Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)

Logistische Regression

Einführung in Neuronale Netze

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

Adaptive Systeme. Neuronale Netze: Neuronen, Perzeptron und Adaline. Prof. Dr. rer. nat. Nikolaus Wulff

Linear nichtseparable Probleme

Lineare Regression. Volker Tresp

Künstliche Neuronale Netze

Seminar Künstliche Intelligenz WS 2013/14 Grundlagen des Maschinellen Lernens

Wissensentdeckung in Datenbanken

Lösungen zur letzten Stunde & Vorbereitung

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

INTELLIGENTE DATENANALYSE IN MATLAB. Einführungsveranstaltung

Datenorientierte SA. Aufbau und Grundlagen. Aufbau und Grundlagen. Aufbau und Grundlagen. Was sind neuronale Netze?

Neuronale Netze. Einführung i.d. Wissensverarbeitung 2 VO UE SS Institut für Signalverarbeitung und Sprachkommunikation

Übungen zur Vorlesung Grundlagen der Bilderzeugung und Bildanalyse (Mustererkennung) WS 05/06. Musterlösung 11

Neuronale Netze Aufgaben 3

Eine kleine Einführung in neuronale Netze

Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8

Polynomiale Regression lässt sich mittels einer Transformation der Merkmale auf multiple lineare Regression zurückführen

Klassifikation linear separierbarer Probleme

Neuronale Netze. Seminar aus Algorithmik Stefan Craß,

Neuronale Netze. Anna Wallner. 15. Mai 2007

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Reinforcement Learning

oder A = (a ij ), A =

Behandelte Themen. 0. Motivation : Lernen in Statistik und Biologie. 1. Überblick über statistische Datenmodellierungs-Verfahren

Intelligente Algorithmen Einführung in die Technologie

INTELLIGENTE DATENANALYSE IN MATLAB

8. Vorlesung Neuronale Netze

Kann SAS Ihre Handschrift lesen? Machine Learning am Beispiel von Stacked Denoising Autoencoders

Modell Komplexität und Generalisierung

Lineare Klassifikationsmethoden

Faltungsnetzwerke. (Convolutional Neural Networks) Maximilian Schmidt. Faltungsnetzwerke

Praktikum Simulationstechnik Rene Schneider, Benjamin Zaiser

Einführung in Support Vector Machines (SVMs)

Inhalt. 4.1 Motivation. 4.2 Evaluation. 4.3 Logistische Regression. 4.4 k-nächste Nachbarn. 4.5 Naïve Bayes. 4.6 Entscheidungsbäume

Andreas Scherer. Neuronale Netze. Grundlagen und Anwendungen. vieweg

b) Definieren Sie den Begriff Cauchy-Folge. c) Geben Sie zwei Beispiele für konvergente Folgen und deren jeweilige Grenzwerte an.

Optimierung. Optimierung. Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 2013 Thomas Brox, Fabian Kuhn

Ideen und Konzepte der Informatik. Maschinelles Lernen. Kurt Mehlhorn

Wissensentdeckung in Datenbanken

Entwicklung einer Entscheidungssystematik für Data- Mining-Verfahren zur Erhöhung der Planungsgüte in der Produktion

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt

Kapitel 10. Maschinelles Lernen Lineare Regression. Welche Gerade? Problemstellung. Th. Jahn. Sommersemester 2017

Das Perzeptron. Volker Tresp

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Selbstorganisierende Karten

Analysis II. Vorlesung 47

Mathematik in den Life Siences

Lineare Gleichungssysteme

Automatische Spracherkennung

Mathematik für. Wirtschaftswissenschaftler. Basiswissen mit Praxisbezug. 4., aktualisierte und erweiterte Auflage

Nichtlineare Klassifikatoren

Virtuelles Labor für Neuronale Netze

Neuronale Netze (Konnektionismus)

Support Vector Machines, Kernels

Grundlagen Neuronaler Netze

Statistische Methoden in den Umweltwissenschaften

Konvergenz von Hopfield-Netzen

Was sind Neuronale Netze?

htw saar 1 EINFÜHRUNG IN DIE STATISTIK: BESCHREIBENDE STATISTIK

:21 Uhr Modulbeschreibung #1290/1 Seite 1 von 5

1 Einleitung Definitionen, Begriffe Grundsätzliche Vorgehensweise... 3

Transkript:

und Neural Computation 840042, VO, 1 Std WS 2015/16 Georg Dorffner Inst f Artificial Intelligence Zentrum für Med Statistik, Informatik und Intelligente Systeme Medizinische Universität Wien meduniienacat/user/georgdorffner/lv/mlnchtml 1

Überblick Grundlagen ML/NC Überachtes Lernen: Klassifikation Überachtes Lernen: Regression Lernen als Optimierung Komplee Lerner in der Prais Unüberachtes Lernen Ensemble Methoden Kernel Methoden 2

Begleitende Literatur Duda R, Hart PE, Stork DG: Pattern Classification, 2 nd edition, Ne York: Wiley, 2001 Bishop CM: Pattern Recognition and Machine Learning, Ne York: Springer, 2006 3

Kapitel1: Grundlagen 4

mögliche Definitionen Computerprogramme, die sich mit Erfahrung verbessern (Mitchell 1997) (Artificial Intelligence) Auf der Basis von Beispielen nichttriviale Strukturen in Daten finden (Mustererkennung, Data Mining) Ein Modell der Daten schätzen, die diese beschreiben (Statistische Datenanalyse) 5

Einige Vorausetzungen Merkmale (Features) Beschreiben die Fälle des Problems Messungen, Daten Lerner (Version Space) Eine Klasse von Modellen Lernverfahren Ein Algorithmus, der das beste Modell findet Generalisierung Struktur/Datenmodell soll neue Daten beschreiben können 6

Features Qualitativ, nominal zb: [Student, Arbeiter, Angestellter] Qualitativ, ordinal (enthält Ordnung) zb: [schlecht, mittelmäßig, gut] Numerisch, metrisch Intervallskala: kein natürlicher Nullpunkt, nur Differenzen bedeutungsvoll (zb Temp in C) Verhältnisskala: natürlicher Nullpunkt, auch verhältnisse bedeutungsvoll (zb Größe in m) Diskret: nur endlich viele Werte (zb Anzahl) Stetig: theoretisch unendlich viele Werte (zb Länge) 7

Features: 2 numerische Werte (gezeichnet in Ebene) Aufgabe: Teile in zei Klassen (eiß und scharz) Lerner (version space): Trenngerade durch den Ursprung Lernregel: Nimm Normalvektor Addiere den Punktvektor eines falsch klassifizierten Beispiels Drehe Gerade, sodass neuer Vektor der Normalverktor ird Solange bis alles richtig klassifiziert Generalisierung: neue Punkte richtig klassifiziert Konvergenz garantiert, enn Problem lösbar(rosenblatt 1962) Beispiellerner: Perceptron 8

Arten des Lernens Überachtes Lernen (supervised learning) Zuordnung der Daten ( Label ) bekannt Finde Zusammenhänge mit Input Beispiele: medizinische Diagnose, Temperaturvorhersage Unüberachtes Lernen (unsupervised learning) Finde Struktur in den Daten Beispiele: Marktsegmentierung, Visualisierung Reinforcement Learning Finde Zusammenhänge anhand von globalem Feedback Beispiele: Steuerung einer Roboterhand, Lernen von Spielen 9

Neural Computation Ursprünglich biologisch motiviert (daher der Name) Lerner als Netzerk einfacher Einheiten beschreibbar Stärke: beliebige nichtlineare Modelle (zb nicht nur Geraden) Voraussetzung: numerische Features Qualitative Features: als Binärcode (zb 1-aus-n) 10

2 Geicht 1 i y Unit (Neuron) y f i1 f n i Das einfache mathematische Modell Aktivierung, Output (Netto-) Input i n y f i i i1 Propagierungsregel: Geichtete Summe Euklidischer Abstand (später) Transferfunktion f: Schellertfkt (McCulloch & Pitts) Lineare Fkt Sigmoide Fkt 11

Perceptron als neuronales Netz Inputs sind zufällige Featuredetektoren Binär kodiert Perceptron lernt Klassifikation Neuronengayneedu Modell der Wahrnehmung / Obekterkennung 12

Perceptron Learning Rule als Geichtsadaption t i if 0sonst "target" i if i t t Target: Rosenblatt (1962) Zielvorgabe (target) Nach dem Lernschritt: notendig = Lehrer Input ird dazugezählt (abgezogen), enn Output falsch Verendung: Klassifikation (Original: Input = visuelle Vorverarbeitung) 13

Geichtete Summe nicht vollständig y 1 i1 n 2 i i n 0 y 0 Konstante notendig i1 Realisierung: zusätzliche Unit, immer auf 1 gesetzt 0 (Bias Unit) Bias Trenngerade geht immer durch Ursprung n y i i 0 14

15 Vektor- und Matrinotation Lineares Perceptron ist Multiplikation des Input-Vektors mit der Geichtsmatri Kompakte Schreibeise Hilfsmittel aus Vektoralgebra y W n nm m m n n m n i i i y y y m y 2 1 2 1 2 22 12 1 21 11 2 1 1 1 for

16 Einschub: Matrimulitplikation Multiplikation zeier Matrizen: elementeise multiplizieren und addieren Spaltenzahl der 1Matri = Zeilenzahl der 2 Resultat: Zeilen der 1 X Spalten der 2 Matri Vektoren als Matrizen: inneres Produkt äußeres Produkt T Transpose (um Diagonale kippen) s T 1 2 2 T 1

Sigmoide Transferfunktion 1 f y y 1 e Outputs begrenzt auf [0,1] Quasi-linear um 0 Mögliche Interpretation: Wahrscheinlichkeit f out W in Immer ahrscheinlicher 17

Mehrebenen-Perceptron (MLP) 2 (oder mehrere) Schichten (= Verbindungen) Output Units (typisch linear) Hidden Units (typisch sigmoid) Input Units 18

Verallgemeinerte Delta-Regel Geichtsadaption: Backpropagation y out, out out i i W out y hid, hid W hid out hid f f ' ' out out y t n hid out out y k 1 k k Fehler ird rückpropagiert Pseudofehler an den Hidden Units 19

Backpropagation als Gradientenverfahren Definiere (quadratischen) Fehler (für Muster l): E l m out k tk k 1 2 Minimiere Fehler Ändere Geichte in Richtung des Gradienten i El i (partielle Ableitung nach dem Geicht) Kettenregel ergibt Backpropagation 20

Differenzieren von verschachtelten Funktionen: Äußere Ableitung innere Ableitung ' ' f gh f gh g h Einschub: Kettenregel ' h nur 1 Summand abh ' out out 2 k tk out f y k nur 1 Summand: hid M Wege um Geicht zu erreichen out k f y usf: ' hid in i E l m n m out f k f k 1 1 i1 hid i in i hid i0 out 0 t out k 2 21

Geometrische Interpretation Fehler bildet (hochdimensionale) Fläche Gradient entspricht der Richtung des steilsten Abstiegs Folge dieser Richtung bis zum Minimum 22

Grenzen der Backpropagation Gradientenverfahren kann in lokalem Minimum hängenbleiben (abhängig von der Initialisierung) Es ist nicht garantiert, daß Backpropagation eine eistierende Lösung auch findet Weitere Probleme: langsam, kann zu oszillieren beginnen (siehe später) 23

Prais der Backpropagation Beginne mit zufälligen Geichten Wähle kleine Lernrate (da sonst kein Gradientenverfahren) Nehme Satz von Trainingsmustern, die gelernt erden sollen Wähle eeils zufällig ein Musterpaar: 1 Vorärtsschritt, 1 Backpropagation-Schritt ( online learning ) Eigentlich: definiere Fehler als M M m out 2 E El k tk (über alle M Musterpaare) l1 l1 k 1 berechne Geichtsänderungen für alle Musterpaare des Trainingssatzes, summiere und ändere erst dann ( batch learning ) 24

Vienet2>uebung3ee Beispiel: Medizinische Diagnose Bsp: Pima Indian Diabetes ftp://ftpicsuciedu/pub/machine-learningdatabases/pima-indians-diabetes Input: 1 Number of times pregnant 2 Plasma glucose concentration at 2 hours in an oral glucose tolerance test 3 Diastolic blood pressure (mm Hg) 4 Triceps skin fold thickness (mm) 5 2-Hour serum insulin (mu U/ml) 6 Body mass inde (eight in kg/(height in m)^2) 7 Diabetes pedigree function 8 Age (years) Normalisiert auf Mittelert 0 und Varianz 1 Output: Diabetes a/nein 768 Fälle, aufgeteilt auf Training- und Testsatz Performanz nach Training auf Testsatz: ca 70-80% Fehler geht nicht auf 0! (siehe später) 25

Occam s Razor Einige ichtige Prinzipien Wenn zei Modelle die Daten gleich gut beschreiben, dann ähle das einfachere kompleer (mächtiger) ist nicht automatisch besser Fluch der Dimension Für komplee Lerner steigt der Bedarf an Beispielen überlinear (eponentiell) mit der Zahl der Features nimm nur Features, die notendig sind No free lunch Es gibt keinen Lerner, der für alle Probleme die beste Lösung liefert ende kompleen Lerner nie blind ohne Wissen über die Daten an 26

Die stochastische Sicht des überachten Lernens Realdaten sind stochastisch (von Natur aus mit Rauschen/Streuungen versehen) 2 Typen von Problemen: Regression, Klassifikation Lernen muss mathematisches Modell finden 27