10. Neuronale Netze 1

Transkript

1 10. Neuronale Netze 1

2 Einführung (1) Ein künstliches neuronales Netz ist vom Konzept her eine Realisierung von miteinander verschalteten Grundbausteinen, sogenannter Neuronen, welche in rudimentärer Form die Vorgänge im biologischen Vorbild, unserem Gehirn, nachahmen. Wichtige Eigenschaften sind: Lernfähigkeit, Parallelität, Verteilte Wissensrepräsentation, Hohe Fehlertoleranz, Assoziative Speicherung, Robustheit gegen Störungen oder verrauschten Daten, 2

3 Einführung (2) Der Preis für diese Eigenschaften ist: Wissenserwerb ist nur durch Lernen möglich. Logisches (sequenzielles) Schließen ist schwer. Sie sind oft langsam und nicht immer erfolgreich beim Lernen. Aus diesem Grunde werden Neuronale Netze nur dort angewandt, wo genügend Zeit für ein Lernen zur Verfügung steht. Sie stehen in Konkurrenz z.b. zu Vektorraum-Modellen oder probabilistischen Modellen. Es gibt viele fertige Softwarepakete für Neuronale Netze, siehe z.b. Liste unter 3

4 Einführung (3) Ein Neuronales Netz besteht aus verbundenen Neuronen (ca Neuronen bei einem Menschen mit ca Verbindungen). Abbildung aus Wikipedia: de.wikipedia.org/wiki/neuronales Netz 4

5 Einführung (4) Ein Neuron hat Dendriten, die die Eingaben einsammeln Soma, der Zellkörper Axon, welches die Ausgabe der Zelle weiterleitet, sich verzweigt und mit den Dendriten nachfolgender Neuronen über Synapsen in Kontakt tritt. Synapsen schütten Neurotransmitter aus, die anregend oder dämpfend wirken. 5

6 Einführung (5) Ein Modell eines Neurons: Eingabe X 1 ω 11 Übertragungsfunktion Aktivierungsfunktion Ausgabefunktion Ausgabe X i ω 1i f prop net f act a f out o j j j X n ω 1n Schwellwert Gewichte Die Ausgabe führt zur Ausschüttung von Neurotransmittern und damit zu einer Eingabe der nachfolgenden Zellen. In den Aktivitäten der Neuronen ist die Information codiert. 6

7 Einführung (6) Vereinfacht: Ein Neuron i mit n Eingängen (Dendriten) bekommt einen Gesamtinput von net i und erhält damit einem Aktivitätswert a i. Daraus folgt ein Ausgangswert o i (Axon), der über eine synaptische Koppelung w i,j an das Neuron j koppelt. net i a i net j o w i i,j o a j j Neuronale Netze waren für längere Zeit auf Grund der Lernprobleme aus der Mode gekommen. Seit ca erleben neuronale Netzwerke eine Wiedergeburt, da sie bei herausfordernden Anwendungen oft bessere Ergebnisse als konkurrierende Lernverfahren liefern. 7

8 Einführung (7) 1. Klassische künstliche Neuronale Netze Grundlage sind biologische Neuronen, jedoch in einer starken Vereinfachung, so dass sie mathematisch einfach und schnell zu behandeln sind. Heute werden sogenannte tiefe Netze (deep neural networks) verwendet, bei denen Neuronen über viele Schichten verbunden sind (siehe z.b. Sie werden z.b. von Google, Apple, Facebook, NSA, BND und vielen anderen verwendet z.b. zur Bild- und Spracherkennung, in der Robotik, für Optimierungsprobleme usw. Fast täglich gibt es neue Meldungen über neue Anwendungen. 8

9 Einführung (8) Anwendungsgebiete nach Wikipedia (Stand 2016): Regelung und Analyse von komplexen Prozessen Frühwarnsysteme Optimierung Zeitreihenanalyse (Wetter, Aktien etc.) Sprachgenerierung Bildverarbeitung und Mustererkennung * Schrifterkennung (OCR), Spracherkennung, Data-Mining Informatik: Bei Robotik, virtuellen Agenten und KI-Modulen in Spielen und Simulationen. Medizinische Diagnostik, Epidemiologie und Biometrie Klangsynthese Strukturgleichungsmodell zum Modellieren von sozialen oder betriebswirtschaftlichen Zusammenhängen 9

10 Einführung (9) Weitere aktuelle Anwendungsbeispiele (2016) Mit zwei tiefen Netzen, eins für die Vorhersage guter Züge und eins für den Wert einer Stellung, ist es im März 2016 gelungen, einen Go-Meister zu schlagen. Hardware: 1202 CPUs mit 176 GPUs. Facebook sagt, das neue System Deep Text versteht Texte genauso gut wie Menschen. Google Photo oder die Translater-App, auf Clustern trainiert, laufen jetzt auf dem Smartphone. Immer mehr Firmen entwickeln Empathiemodule. Google hat gerade für Neuronale Netze eine Tensor Processing Unit (TPU) entwickelt. In der MKL (Mathematical Kernel Library) von Intel gibt es jetzt ein Modul DNN (Deep Neural Network). 10

11 Einführung (10) 2. Neuronale Netze, nahe an der Biologie Größtes Beispiel: Das Human Brain Project ( * Gestartet in 2013, Fördersumme 1,2 Milliarden Euro * 6 Segmente: Neuroinformatik, Medizinische Informatik, Gehirnsimulation, Supercomputing, Neuronales Rechnen und Neurorobotik. * Beispiel SpiNNaker-Projekt, Manchester Prozessoren mit 18 ARM-Kernen. Jeder Prozessor simuliert Neuronen und 8 Millionen Synapsen. * Beispiel BrainScaleS-System, Heidelberg. 20 Silizium-Wafer mit je knapp Neuronen, ca. 58 Millionen Synapsen. Unabhängig von diesem Projekt gibt es jede Menge kleine Arbeiten, z.b. unsere hier. Im folgenden werden diese Netze nicht weiter betrachtet. 11

12 Mathematisches Modell (1) Mathematisches Modell von neuronalen Netzen Die klassischen künstlichen Neuronalen Netze vereinfachen das biologische Vorbild so stark, dass viele biologische Eigenschaften verloren gehen, aber die Grundidee erhalten bleibt und eine schnelle Berechnung möglich ist. Mathematisch heißt das, der Weg von der Eingabe eines Neurons zur Eingabe des damit verbundenen Neurons wird durch sehr einfache Funktionen beschrieben. 12

13 Mathematisches Modell (2) Ein künstliches neuronales Netz besteht aus folgenden Komponenten 1. Zellen mit einem Aktivierungszustand a i (t) zum Zeitpunkt t. 2. Eine Aktivierungsfunktion f act, die angibt, wie sich die Aktivierung in Abhängigkeit der alten Aktivierung a i (t), des Inputs net i und eines Schwellwerts Θ i mit der Zeit ändert. a i (t+1) = f act (a i (t),net i (t),θ i ). 3. Eine Ausgabefunktion f out, die aus der Aktivierung der Zelle den Output berechnet o i = f out (a i ). 13

14 Mathematisches Modell (3) 4. Ein Verbindungsnetzwerk mit den Koppelungen w i,j (Gewichtsmatrix). 5. Eine Propagierungsfunktion, die angibt, wie sich die Netzeingabe aus den Ausgaben der anderen Neuronen berechnet, meist einfach net j (t) = i o i (t)w i,j 6. Eine Lernregel, die angibt, wie aus einer vorgegebenen Eingabe eine gewünschte Ausgabe produziert wird. Dies erfolgt meist über eine Modifikation der Stärke der Verbindungen als Ergebnis wiederholter Präsentation von Trainingsmustern. Auf diese Weise werden die Zustände geändert, bis ein stabiler (und hoffentlich erwünschter) Endzustand eintritt, welcher in gewisser Weise das Ergebnis der Berechnungen eines neuronales Netzes darstellt. 14

15 Mathematisches Modell (4) Meist werden ganz einfache Funktionen verwendet: Die Ausgabefunktion ist einfach o j = f out (a j ) = a j Propagierungsfunktion lautet net j = i o i w i,j Die Ausgabe berechnet sich dann über o j = a j = f act (net j,θ j ) wobei f act eine Stufenfunktion, der Tangens Hyperbolicus oder die logistische Funktion ist. 15

16 Mathematisches Modell (5) Stufenfunktion: o j = f act (net j,θ j ) == { 1 falls netj Θ j 0 sonst Tangens Hyperbolicus o i = tanh(c(net i Θ i )). Logistische Funktion oder Sigmoidfunktion o i = 1/(1+exp( c(net i Θ i ))) Die Konstante c beeinflusst die Steigung der Funktionen. 16

17 Mathematisches Modell (6) Aktivierungsfunktionen Stufenfunktion Tangens Hyperbolicus Logistische Funktion 0.5 output input Hier wurde c = 5 verwendet. Meist wird aber c = 1 gesetzt. 17

18 Mathematisches Modell (7) Beispiel: Ein nettes kleines bekanntes Netz mit wenigen Verbindungen und welches im Kopf nachzurechnen ist, ist das XOR-Netzwerk mit 4 Zellen. n n Die Neuronen beinhalten die Schwellwerte, die Verbindungen sind mit den Gewichten beschriftet. n1 n2 Als Aktivitätsfunktion bzw. für die Ausgabe wird eine Stufenfunktion gewählt 18

19 Mathematisches Modell (8) Weiterhin wird die standardmäßige Propagierungsfunktion verwendet net j = i o i w i,j also gilt o j = { 1 falls io i w i,j Θ j 0 sonst. Aus der folgenden Tabelle ist die Funktionsweise des Netzes ersichtlich: o 1 o 2 net 3 Θ 3 o 3 net 4 Θ 4 o

20 Mathematisches Modell (9) Beschränkt man sich auf ebenenweise verbundene feedforward-netze, so wird für die XOR-Funktion ein weiterer verdeckter Knoten benötigt. n n3 0.5 n n1 n2 Eine kleine Übungsaufgabe: Wie sieht die zugehörige Tabelle von Eingabe zur Ausgabe aus? 20

21 Mathematisches Modell (10) Eingabeschicht: o 1,o 2 Aktivierungsfunktion: tanh(x) net 1 = o 1 w 11 +o 2 w 21 +Θ 1 n_o w_1o θ_ο net 2 = o 1 w 12 +o 2 w 22 +Θ 2 o 1 = tanh(o 1w 11 +o 2 w 21 +Θ 1 ) n_1 θ_1 n_2 o 2 = tanh(o 1w 12 +o 2 w 22 +Θ 2 ) net o = o 1 w 1o +o 2 w 2o +Θ o o o = tanh(o 1 w 1o +o 2 w 2o +Θ o ) w_11 n_1 n_2 w_2o θ_2 w_12 w_21 w_22 Insgesamt ergibt sich die Funktion o o = tanh( ( tanh(o 1 w 11 +o 2 w 21 +Θ 1 ) w 1o + ( tanh(o 1 w 12 +o 2 w 22 +Θ 2 ) w 2o + Θ o Aufgabe des Lernens : Bestimmung der 9 Parameter w 11,w 12,w 21,w 22, w 1o,w 2o,Θ 1,Θ 2,Θ o 2, so dass sich für alle möglichen Werten o 1,o 2 die gewünschten o o ergeben. 21

22 Darstellung von neuronalen Netzen (1) Ein neuronales Netz ist ein Graph mit Kanten und Knoten. Neuronen bzw. Zellen sind aktive Knoten oder Berechnungseinheiten, die lokal auf Eingaben reagieren und Ausgaben produzieren, die über die Kanten weiter gegeben werden. Eine andere Darstellung besteht aus 3 Matrizen: Verbindungsmatrix, Schwellwertmatrix und Anregungsmatrix. Rechnungen erfolgen durch Neuberechnung der Anregungsmatrix. Arten von Verbindungsnetzwerken Je nach Netztopologie und der Art der Verarbeitung der Aktivitätswerte werden verschiedene neuronale Netze unterschieden. 22

23 Darstellung von neuronalen Netzen (2) Eine Einteilung nach Rückkopplung: 1. Netze ohne Rückkopplung (feedforward-netze), Ebenenweise verbundene feedforward-netze Allgemeine feedforward-netze 2. Netze mit Rückkopplung, Netze mit direkter Rückkopplung (direct feedback, zurück zu Eingabeknoten), Netze mit indirekter Rückkopplung (indirect feedback, zurück zu Zwischenkonten), Netze mit Rückkopplung innerhalb einer Schicht (lateral feedback), Vollständig verbundene Netze (lateral feedback). 23

24 Darstellung von neuronalen Netzen (3) 2 Beispiel-Topologien und ihre Verbindungsmatrizen: feedforward, ebenenweise verbunden 1 2 vollständig verbunden, ohne direkte Rückkopplung 24

25 Darstellung von neuronalen Netzen (4) Zwei zur Zeit häufig angewendete Architekturen Feedforward Networks (FFN), in Bildverarbeitung z.b. in der Form von Convolution Neural Networks (CNN) (überlappende Teilbereiche). Rekurrent Neuronal Networks (RNN), also solche mit Rückwärtsverbindungen, z.b. in der Form von Long Short Term Memory Networks (LSTM) für handgeschriebene Zeichen oder auch in der Spracherkennung. Diese beiden Architekturen und deren Anwendung werden in den letzten Jahren fast überall diskutiert, siehe z.b. C t 2016, Heft 6 25

26 Darstellung von neuronalen Netzen (5) Beispiel eines feedforward Netzes Eingabe x 1 ω 11 x i ω 1i Ausgabe o 1 Eingabe z.b. Pixel eines Bildes (Gesicht, Zahl, Tier... x n ω 1n o m Ausgabe ein Neuron pro Name, Zahl, Art des Tiers... 26

27 Darstellung von neuronalen Netzen (6) Das Schöne an einem solchen Netz ist folgendes: Wenn die Parameter, also die Gewichte w i,j und die Schwellwerte Θ i gut bestimmt wurden, gilt: kleine Änderungen des Netzes (Verbindungen defekt) oder kleine Eingabeänderungen (Bild verrauscht) kleine Änderung der Ausgabewerte Bild wird höchst wahrscheinlich trotzdem erkannt, da das gleiche Neuron den größten Wert haben wird. 27

28 Lernen (1) Wie werden gute Parameter bestimmt oder woher weiß ein Netz, welches Neuron bei welchem Bild aktiv sein soll? Mögliche Arten des Lernens 1. Entwicklung neuer Verbindungen 2. Löschen existierender Verbindungen 3. Modifikation der Stärke von Verbindungen 4. Modifikation der Schwellwerte der Neuronen 5. Modifikation der Aktivierungs-, Propagierungs- oder Ausgabefunktion 6. Entwicklung neuer Zellen 7. Löschen von Zellen 28

29 Lernen (2) Lernverfahren Meist wird die Modifikation der Stärke von Verbindungen w i,j verwendet, da diese Verfahren am einfachsten sind und die Entwicklung bzw. das Löschen von Verbindungen mit eingeschlossen werden kann. Prinzipiell werden 3 Arten von Lernverfahren unterschieden: 1. Überwachtes Lernen, bei dem einem Netzwerk zu einem Input ein gewünschter Output gegeben wird, nach dem es sich einstellt. 2. Bestärkendes Lernen, bei dem zu einem Input die Information, ob der Output richtig oder falsch ist, in das Netz zurückgegeben wird. 3. Unüberwachtes Lernen, bei dem sich das Netz selbst organisiert. Am häufigsten ist das überwachte Lernen. Von den verschiedenen Lernmethoden wird hier nur das klassische Backpropagation-Verfahren vorgestellt. 29

30 Lernen (3) Hebbsche Lernregel Die einfachste Lernregel, die heute noch Grundlage der meisten Lernregeln ist, wurde 1949 von Donald O.Hebb entwickelt. Wenn Zelle j eine Eingabe von Zelle i erhält und beide gleichzeitig stark aktiviert sind, dann erhöhe das Gewicht w ij, die Stärke der Verbindung von i nach j. w ij = ηo i a j Die Konstante η wird als Lernrate bezeichnet. Verallgemeinert lautet die Hebbsche Regel w ij = ηh(o i,w ij )g(a j,t j ) t j ist die erwartete Aktivierung (teaching input), ein Parameter der Funktion g. Fast alle Lernregeln sind Spezialisierungen der Funktionen h und g. 30

31 Perzeptron (1) Im folgenden werden wir uns aus Zeitgründen nur eine Art von Netz mit einer Art von Lernregel genauer ansehen, ein feedforward Netz oder Perzeptron mit der Backpropagation-Regel. Ursprung hat das Perzeptron aus der Analogie zum Auge, bei dem die Retina die Input-Neuronen beinhaltet, von der über eine Zwischenschicht eine Klassifikation der einzelnen Bilder in der Ausgabeschicht erfolgt. Dementsprechend werden solche Netz z.b. in der Steuerung autonomer Fahrzeuge eingesetzt. Ausgabeneuron (Lenkung) Eingabeneuronen (Straßenbild+entfernungen) 31

32 Perzeptron (2) Aufbau: Es gibt eine Input-Schicht Es gibt keine, eine oder mehrere verborgene Schichten (hidden layer) Es gibt eine Ausgabe-Schicht Die Kanten verbinden die Schichten eine nach der anderen in der gleichen Richtung untereinander, d.h. die Informationen aller Knoten der Input-Schicht laufen in die selbe Richtung, nicht zurück und nicht zwischen den Knoten einer Schicht. In einigen Fällen wird der Begriff Perzeptron enger als feedforward- Netz mit keiner oder einer verborgenen Schicht verwendet. 32

33 Backpropagation-Regel (1) Gegeben sind Eingabewerte, z.b. der MNIST-Datensatz mit Bilder der Größe 28x28 Pixel, auf denen handgeschriebene Ziffern abgebildet sind, ein Standard-Benchmark für Neuronale Netze. Das ergeben 784 Eingabeknoten und 10 Ausgabeknoten, für jede Ziffer einer. Ziel ist es, für ein gegebenes Bild p die Funktionen, die die Ausgabe o p des Netzes berechnen, so zu bestimmen, dass z.b. nur der Knoten, der der dem Bild entsprechenden Ziffer zugeordnet ist, einen Wert 1 hat und alle anderen Ausgabeknoten einen Wert 0 haben, was dann die gewünschten Ausgabewerte t p für dieses Bild wären (es gibt auch andere Zuordnungen). 33

34 Backpropagation-Regel (2) Ein Maß für die Abweichung des berechneten von dem gewünschten Ergebnis ist die Summe der quadratischen Abweichungen über alle Bilder p und alle Ausgabeneuronen j: das Fehlerfunktional E = P p=1e p E p = 1 2 n out j ( op,j t p,j ) 2 Die Funktionen, die die Ausgaben o p,j berechnen, hängen von den Gewichten der Verbindungen zwischen den Knoten und den Schwellwerten der einzelnen Knoten ab. Backpropagation ist ein Gradientenabstiegsverfahren, bei dem die Gewichte und Schwellwerte so geändert werden, dass das Fehlerfunktional (oder die Energiefunktion) minimiert wird. 34

35 Backpropagation-Regel (3) Wiederholung lineare Ausgleichsrechnung / Methode der kleinsten Quadrate Definition (Ausgleichsproblem) Gegeben sind n Wertepaare (x i,y i ), i = 1,...,n mit x i x j für i j. Gesucht ist eine stetige Funktion f, die in einem gewissen Sinne bestmöglich die Wertepaare annähert, d.h. dass möglichst genau gilt: f(x i ) y i für i = 1,...,n. Definition (Fehlerfunktional) Gegeben sei eine Menge F von stetigen Funktionen sowie n Wertepaare (x i,y i ), i = 1,...,n. Ein Element von f F heißt Ausgleichsfunktion von F zu den gegebenen Wertepaaren, falls das Fehlerfunktional E(f) = n i=1 (f(x i ) y i ) 2 für f minimal wird, d.h. E(f) = min{e(g) g F}. Die Menge F nennt man auch die Menge der Ansatzfunktionen. 35

36 Backpropagation-Regel (4) Ist die Funktion f(x i ) linear in den Parametern, also f(x) = p k=1 a kg k (x), so lässt sich das Minimum des Fehlerfunktionals über die Nullstelle der Ableitungen von E(f) durch Lösen der Normalengleichung für die Parameter a k bestimmen. Jetzt: Jedem x-wert entspricht einem Satz von Eingabewerten bzw. ein Eingabe- Pattern in p,i mit i 1 n in Werten. Jedem y-wert entspricht einem Satz von Ausgabewerten bzw. Ausgabe- Pattern t p,j mit j 1 n out Werten. Die Ausgleichsfunktion f(x) ist jetzt ein Satz von nicht-linearen Funktionen in einer Anzahl von Parameter, z.b. in den Gewichten des neuronalen Netzes: f i,j (in p,i,w i,j ) = o p,j. 36

37 Backpropagation-Regel (5) Dann lautet das Fehlerfunktional, die Summe der quadratischen Abweichungen anstatt jetzt E = n i=1 E i E i = (f(x i ) y i ) 2 n out ( op,j t p,j ) 2 E = p E p E p = 1 2 j Gesucht in dem nicht-linearen Ausgleichsproblem: das Minimum von E als Funktion der nicht-linearen Parameter. Da die Funktionen jetzt nicht-linear in den Parametern sind, kann das System nicht exakt gelöst werden, sondern das Minimum wird gesucht, in dem z.b. die Parameter entlang der negativen Steigung des Fehlerfunktionals als Funktion der Parameter geändert wird Backpropagation oder Gradientenabstiegsverfahren. 37

38 Backpropagation-Regel (6) Vor der Ableitung des Algorithmus ist eine Vereinheitlichung der Notation von Vorteil: Der Bias-Wert eines Knotens wird interpretiert als eine Verbindung zu einem Knoten, der immer den Wert 1 hat. Dann gilt n i=1 o i w i,j Θ j = n+1 i=1 o i w i,j net j (t) mit o n+1 = 1 und w n+1,j = Θ j 38

39 Backpropagation-Regel (7) Der Algorithmus ändert die Gewichte w i,j von einem Knoten i zu einem Knoten j entlang des negativen Gradienten der Fehlerfunktion, bis diese (hoffentlich) minimal ist. w ij = η p E p w ij. Da die Funktion nicht-linear ist, hat sie sicher jede Menge lokaler Minima, in denen das Verfahren hängen bleiben kann. Im folgenden wird davon ausgegangen, dass sich der Output eines Knotens schreiben lässt als o j = f act (net j ). Verwende die Kettenregel E p w ij = E p net pj net pj w ij. 39

40 Backpropagation-Regel (8) Der erste Faktor wird als Fehlersignal bezeichnet und der zweite Faktor ist δ pj = E p net pj net pj w ij = w ij k o pk w kj = o pi. Die Änderung der Gewichte berechnet sich dann durch w ij = η p o pi δ pj Bei der Berechnung von δ pj geht die konkrete Aktivierungsfunktion ein, also wie die Zelle j den Input in einen Output verwandelt. δ pj = E p net pj = E p o pj o pj net pj = E p o pj f act (net pj ) net pj = E p o pj f act(net pj ). 40

41 Backpropagation-Regel (9) Für den ersten Faktor muss zwischen den Ebenen, in denen sich die Knoten befinden, unterschieden werden. 1. j ist Index einer Ausgabezelle. Dann gilt E p o pj = 1 2 o pj n out Der Gesamtfehler ist in diesem Fall k ( op,k t p,k ) 2 = (tpj o oj ). δ pj = f act (net pj) (t pj o oj ) 2. j ist Index einer Zelle der verdeckten Ebenen. Die Fehlerfunktion hängt von den Output o j indirekt über die Zwischenzellen k ab, denn der Output o j geht in den Input net pk von allen Knoten k eine Schicht höher ein. 41

42 Backpropagation-Regel (10) E p = o pj k = k E p net pk net pk o pj δ pk o pj i o pi w ik = k δ pk w jk Das bedeutet, dass man den Gesamtfehler der Zelle j für ein Muster p aus den gewichteten Fehlern δ pk aller Nachfolgezellen k und der Gewichte der Verbindungen von j zu diesen k berechnen kann. δ pj = f act(net pj ) δ pk w jk Zusammengefasst w i,j = η p o p,i f act(net pj ) k (t pj o oj ) falls j Ausgabeneuron kδ pk w jk falls j verdecktes Neuron 42

43 Backpropagation-Regel (11) Meist wird als Aktivierungsfunktion die logistische Funktion verwendet mit der Ableitung d dx f log(x) = d dx 1 1+e x = f log(x) (1 f log (x)) Damit ergibt sich eine vereinfachte Formel für den Backpropagation Algorithmus mit dem Fehlersignal p w ij = ηo pi δ pj δ pj = { opj (1 o pj )(t pj o pj ) falls j Ausgabeneuron o pj (1 o pj ) kδ pk w jk falls j verdecktes Neuron } 43

44 Backpropagation-Regel (12) Beispiel: Netz mit 3 Ausgabeknoten n 1,n 2 und n 3 n1 n2 n3 W 42 n4 W 74 n7 w 4i = ηo 4 δ i = ηo 4 (t i o i ) f (net i ), i = 1,2,3 w 74 = ηo 7 δ 4 = ηo 7 ( 3 i=1 δ i w 4i )f (net 4 ) 44

45 Backpropagation-Regel (13) Das Verfahren zusammengefasst 1. Berechne bei einem gegebenem Input den Output oder Propagierung ein Signales über die Schichten: Die Ausgaben der Neuronen i (oder die Werte der Inputneuron i) einer Schicht werden an die Eingaben der Knoten j der nächsten Schicht weitergeleitet über net j (t) = n+1 i=1 o i w i,j Die Knoten j berechnen die Ausgabe, die eventuell an die nächste Schicht weiter geleitet wird, über o j = f act (net j ) Ist man an der Ausgabeschicht angekommen, überprüfe, ob das Eingabesignal erkannt wird, also berechne den Fehler bzw. das Fehlerfunktional. 45

46 Backpropagation-Regel (14) 2. Ist der Fehler zu groß, führe eine Rückpropagierung durch. Berechne das Fehlersignal, von der Ausgabeschicht beginnend rückwärts bis zur Eingabeschicht. Berechne die Korrektur der Gewichte gemäß p w ij = ηo pi δ pj 3. Beginne mit der Prozedur von vorne, bis der Fehler (hoffentlich) klein geworden ist, also die Eingaben gelernt wurden. 46

47 Backpropagation-Regel (15) Das Beispiel vom Anfang: o o = tanh( ( tanh(o 1 w 11 +o 2 w 21 +Θ 1 ) w 1o + ( tanh(o 1 w 12 +o 2 w 22 +Θ 2 ) w 2o +Θ o Ableitung der Aktivierungsfunktion: tanh = (1 tanh 2 ) Fehler bei der Ausgabe: t o o o Fehlersignal am Ausgabeknoten n o : δ o = (1 o 2 o )(t o o o ) Korrektur der Gewichte vom verdeckten Konten n i zum Ausgabeknoten n o : w i,o = ηo i δ o Fehler beim verdeckten Knoten n j : δ o w j,o Fehlersignal am verdeckten Knoten n j : δ j = (1 o 2 j )δ ow j,o Korrektur der Gewichte vom Eingangkonten n i zum verdeckten Knoten n j : w i,j = ηo i δ j 47

48 Backpropagation-Regel (16) Noch zu beachten: Werden für jede Eingabe einzeln neue Gewichte berechnet, spricht man von online-learning. Werden erst die Fehler für alle Eingaben aufsummeriert (so wie in der Herleitung), heißt das batch-learning. Meist werden die Fehler für Blöcke von Eingaben und damit Korrekturen für die Gewichte berechnet. Für die Initialisierung der Gewichte gibt es verschiedene Methoden, am einfachsten sind gleichverteilte oder Gauß-verteilte Zufallszahlen. Die Lernrate sollte kleiner werden mit kleiner werdendem Fehler.... und vieles mehr. 48

49 Backpropagation-Regel (17) Probleme: 1. Hohe Rechenzeiten, um ein Minimum zu finden. 2. Das Verfahren bleibt leicht in einem lokalen Minimum hängen. Verbesserungen: Intelligentere Netze und Algorithmen + schnelle Hardware. Faltungsnetze / rekurrente Netze / Deep Belief Netze Stochastische Modelle Genetische Algorithmen... Graphikkarten Frage: Was lernt das Netz? Neuer Ansatz: Rückverfolgung des Gelernten über die Schichten. Bei diesen Versuchen hat Google direkt eine neue Kunstrichtung ins Leben gerufen: Inceptionism siehe z.b. Computer-Halluzinationen in Spektrum der Wissenschaft, 12/2015 von Brian Hayes. 49

50 Ausblick Es fehlen viele Kleinigkeiten, die als nächstes wichtig für eine aktuelle Anwendung, z.b. in der Objekterkennung wären: Wie sind Faltungsnetze (CNN) in Detail aufgebaut (convolution/ pooling/ ReLu-Schichten)? Welche Aktivierungsfunktion ist die geeigneste (LeakyReLU)? Welche Fehlerfunktion sollte gewählt werden (cross entropy)? Welchen Lernalgorithmus sollte man nehmen (Adam Algorithmus)? Was ist eine gute Initialisierung der Gewichte (Gauß-verteilung oder gelernt )? Wie wird overfitting vermieden (Dropout/L2-Regularisierung/Batch- Norm)?... 50