2.4. Neuronale Netze: Modellierung von Lernen und Klassifizieren

Transkript

1 2.4. Neuronale Netze: Modellierung von Lernen und Klassifizieren Einführung neuronale Netze (konnektionistische Modelle): Systeme, die einige der im menschlichen Gehirn bekannten oder vermuteten Organisationsprinzipien ausnutzen bestehen aus Vielzahl einfacher unabhängiger Prozessoren (Neuronen), die über gewichtete Verbindungen (synaptische Gewichte) kommunizieren Arbeiten zunächst stark neurobiologisch motiviert (z.b. Frank Rosenblatts Perzeptron (1958) als erstes lernfähiges künstliches neuronales Netz) ein Hauptthema: Modellierung des Lernens über Lernregeln feste Lernaufgaben: Datensatz von Eingabemustern samt gewünschten Ausgaben liegen vor; Zusammenhang soll erlernt werden (zur späteren Bearbeitung von auch leicht modifizierten Eingaben) freie Lernaufgaben: Ähnlichkeiten von Daten sollen gefunden werden, Strukturierung durch Klassenbildung (wobei Klassen nicht vorgegeben sind) Page 94 of 151

2 unterschiedliche Forschungsinteressen bei künstlichen neuronalen Netzen: Aufbau und Funktionsweise von Gehirnen verstehen kognitive Prozesse simulieren Datenbestände analysieren (Muster erkennen und vervollständigen, Ähnlichkeiten erkennen, Daten klassifizieren) komplexe Systeme regeln und steuern Page 95 of 151

3 Das Neuronale Netz als Black Box Lernalgorithmen verändern typischerweise die mit den Verbindungen assoziierten Gewichte. Die Struktur des Netzes (Anzahl der Neuronen, Verbindungen) bleibt in der Regel erhalten. Erlerntes Wissen ist also implizit in den Gewichten kodiert. Konsequenzen: explizite Extraktion von Wissen i.a. nicht möglich explizite Integration von Vorwissen i.a. nicht möglich Wissen ist nicht symbolisch repräsentiert (als Regelbasis etwa), sondern über das ganze Netz verteilt neuronales Netz als Black Box gilt als einer der wesentlichen Nachteile neuronaler Netze Page 96 of 151

4 Ein paar historische Bemerkungen Beginn der Erforschung künstlicher neuronaler Netze um 1940 Motivation zunächst: Verständnis der neurophysiologischen Grundlagen des menschlichen Gehirns Struktur aus Nervenzellen (Neuronen) und Kopplungsstellen (Synapsen) war früh bekannt erstes vereinfachendes Modell eines Neurons von McCulloch und Pitts (1943): Neuron als binäres Schaltelement aktiv oder inaktiv Neuron hat festen Schwellenwert Neuron empfängt Eingaben von anregenden Synapsen gleichen Gewichts Neuron empfängt Eingaben von hemmenden Synapsen (eine aktive hemmende Synapse verhindert die Aktivierung des Neurons) Zeitfenster: falls keine hemmende Synapse aktiv ist, werden die Eingaben von den anregenden aktiven Synapsen addiert; bei Überschreitung seines Schwellwerts wird das Neuron aktiviert ( Feuern, Nervenzelle kann das nicht öfter als etwa 200 Mal pro Sekunde) erste Beschreibung des Lernens in der Hebbschen Lernregel (1949): ein Lernvorgang verstärkt die Verbindung zwischen zwei Neuronen, wenn beide gleichzeitig aktiv sind Page 97 of 151

5 dadurch sind AND und OR und somit endliche logische Ausdrücke darstellbar weitere Meilensteine: Perzeptron von Rosenblatt (1958): erstes lernfähiges künstliches neuronales Netz, i.w. aufgebaut aus McCulloch-Pitts-Neuronen ADALINE (adaptive linear neuron) von Widrow und Hoff (1960): Delta- Regel als effiziente Weiterentwicklung des Perzeptron-Lernverfahrens Krise in der Folge von Arbeiten von Minsky und Papert (1969) Multilayer-Perzeptron von Rumelhart et al. (1986): Backpropagation als neues Lernverfahren... im Folgenden weit gehende Vernachlässigung der neurobiologischen Aspekte Page 98 of 151

6 Ein generisches Modell für neuronale Netze Definition neuronales Netz als formale Struktur Definition generisch, umfasst alle wesentlichen Netzmodelle neuronales Netz ist ein Tupel (U, W, A, O, NET, ex), wobei gilt U ist endliche Menge von Verarbeitungseinheiten (Neuronen) W : U U IR gibt die Netzstruktur an A : U A u, A u : IR 3 IR, ordnet jedem Neuron u seine Aktivierungsfunktion A u zu O : U O u, O u : IR IR, ordnet jedem Neuron u seine Ausgabefunktion O u zu NET : U NET u, NET u : (IR IR) U IR, ordnet jedem Neuron u seine interne oder Netzeingabefunktion zu ex : U IR ist eine externe Eingabefunktion, die jedem Neuron u eine externe Eingabe in Form einer reellen Zahl zuordnet dies beschreibt die statischen Eigenschaften neuronaler Netze keine Aussagen über ihre Dynamik! Page 99 of 151

7 U: Verarbeitungseinheiten vorstellbar als (einfache) Prozessoren oder Automaten haben aktuellen Zustand (Aktivierung) erhalten aktuelle Eingabe (aus dem Netz oder von außerhalb) berechnen neuen Zustand generieren Ausgabe arbeiten unabhängig voneinander und parallel oft wird unterschieden zwischen Eingabeeinheiten U I versteckten oder inneren Einheiten U H Ausgabeeinheiten U O Page 100 of 151

8 W : Netzstruktur Darstellung als gewichteter gerichteter Graph: Neuronen als Knoten Synapsen als Kanten synaptische Gewichte als Kantengewichte alternative Darstellung: Konnektionsmatrix Grundlage für Kommunikation der Neuronen Ausgabe eines Neurons wird zur Eingabe der mit ihm durch ausgehende Kanten verbundenen Neuronen Bedeutung der Gewichte: W (u 1, u 2 ) = 0: keine Verbindung W (u 1, u 2 ) > 0: anregende Verbindung W (u 1, u 2 ) < 0: hemmende Verbindung W (u 1, u 2 ) = W (u 2, u 1 ) u 1, u 2 : symmetrisches Netz W (u, u) = 0 u: irreflexives Netz Nullsetzen von Gewichten erlaubt geschichtete Netze wie das Multilayer- Perzeptron W (d.h. die Gewichte) während der Lernphase veränderbar Page 101 of 151

9 A: Aktivierungsfunktionen im Prinzip individuell für jedes Neuron festlegbar in der Regel jedoch einheitlich für alle Neuronen (oder zumindest für alle Neuronen einer Schicht in geschichteten Netzen) Ausschlag geben können potenziell der aktuelle Zustand, die interne Eingabe sowie die externe Eingabe (daher der dreidimensionale Urbildraum) meistens wird jedoch nur die interne Eingabe herangezogen (dann A u : IR IR) Beispiele: Schwellwertfunktion stückweise lineare Funktion lineare Funktion sigmoide Funktion Page 102 of 151

10 a u a u 1 1 u net u u u net u Schwellwertfunktion { 1 falls netu > θ a u = u 0 sonst a u 1 Stückweise lineare Funktion 1 falls net u > θ u a u = 0 falls net u < θ u net u θ u θ u θ u 1 a u sonst net u ½ Lineare Funktion a u = c u net u Sigmoide Funktion 1 a u = 1 + e netu net u Page 103 of 151

11 O: Ausgabefunktionen führt Aktivierung eines Neurons in seine Ausgabe über wie bei A meist einheitlich für alle Neuronen N ET : interne / Netzeingabefunktionen wie zuvor in der Regel einheitlich für alle Neuronen meist wird hier sogar immer dieselbe Funktion eingesetzt: net u := v U W (v, u) o v, wobei das Auftreten negativer Gewichte (hemmend!) i.a. nicht gesondert behandelt wird d.h.: Netzeingabe für u ist gewichtete Summe aller Ausgaben im Netz ex: externe Eingabefunktionen stellen Verbindung eines neuronalen Netzes mit der Außenwelt dar oft ist nur eine Teilmenge von Neuronen für externe Eingaben erreichbar (die so genannten Eingabeeinheiten) steht i.a. nur während einer Eingabephase zur Verfügung, nicht mehr jedoch während der Arbeitsphase Page 104 of 151

12 Schematischer Überblick o u1 o u2 o u3 W(u 1,u) W(u 2,u) W(u 3,u) ex(u) netu a u o A u u O u o un W(u n,u) Eine Verarbeitungseinheit u eines Neuronalen Netzes Page 105 of 151

13 Arbeitsweise neuronaler Netze zunächst ohne Dynamik/Lernprozess (also nur Abbildung Eingabe Ausgabe) es gelte U I, U O, U H (U I U O ) = drei Phasen: Ruhephase: konstante Aktivierungen, stabiler Zustand (muss sich keinesfalls immer automatisch einstellen) Eingabephase: an Ruhephase anschließend und durch externe Eingaben initiiert; abgeschlossen, wenn alle Eingabeeinheiten die externe Eingabe ausgewertet und ihre Aktivierung bzw. Ausgabe entsprechend neu berechnet haben Arbeitsphase: an Eingabephase anschließend und durch neu berechnete Ausgaben der Eingabeeinheiten initiiert; alle Neuronen führen nun unabhängig Updates durch; abgeschlossen, wenn wieder eine Ruhephase erreicht ist (nicht sicher) Page 106 of 151

14 Anmerkungen zur Auswertereihenfolge: meistens nicht in kontinuierlicher Zeit, sondern getaktet entweder Auswertung für alle Neuronen parallel in einem Takt (bzw. in mehreren Takten bei mehreren Schritten, vgl. das nachfolgende Beispiel) oder für (nacheinander auszuwertende) Teilmengen parallel in einem Takt oder seriell (bei fester oder variabler Reihenfolge) bei Zyklen kann die Reihenfolge Auswirkungen auf das automatische Erreichen eines stabilen Zustands haben (u.u. können durch geschickte Wahl der Reihenfolge bei Parallelauswertung auftretende Oszillationen vermieden werden) Page 107 of 151

15 Ein Beispiel U = x, y, z, U I = x, y, U O = z W gegeben durch Konnektionsmatrix: x y z x y z einheitliche Aktivierungsfunktion A für alle drei Neuronen: { 1, falls net u > 0 oder ex(u) = 1 A(net u, ex(u)) = 0 sonst für alle Neuronen ist die Ausgabe gleich der Aktivierung Netzeingabe ist die oben eingeführte gewichtete Summe über alle Ausgaben der Vorgänger ex(x) = ex(y) = 1, ex(z) ist nicht definiert Startzustand: alle Knoten weisen Aktivierung 0 auf ausgehend vom Startzustand und der anliegenden externen Eingabe, wird nach drei Update-Schritten wieder ein stabiler Zustand erreicht Page 108 of 151

16 x ex(x) 1 ex(y) y z Ein einfaches Neuronales Netz Eingabephase Update Update 2 1 Update 3 / stabiler Zustand Page 109 of 151

17 Dynamik Lernen Lernvorgang: adaptive Veränderung der Netzgewichte W Ziele dieses Lernvorgangs: bestimme W so, dass das Netz auf bestimmte vorgegebene Eingaben in der gewollten Weise antwortet (also die erfolgreiche Bewältigung der Lernaufgabe im engeren Sinne) auf weitere Eingaben auf geeignete Art antwortet (Generalisierung, Strukturen und Muster erkennen) damit auch die passende Reaktion auf gestörte oder unvollständige Muster zeigt (Fehlertoleranz) Vorgehen: propagiere verfügbare Eingabemuster durch das Netz vergleiche die erzielten Ausgaben mit den gewollten passe W geeignet so an, dass sich beim nächsten Versuch eine verbesserte Approximation einstellt erforderlich: Metrik (d.h. Ähnlichkeits- oder Fehlermaß) Eingabe(muster): erlaubte Belegung von ex an allen Eingabeeinheiten Ausgabe(muster): erlaubte Belegung aller O u in allen Ausgabeeinheiten Page 110 of 151

18 freie Lernaufgabe: zu einer gegebenen Menge von Eingabemustern sind die Ausgaben zu bestimmen die Lernaufgabe ist erfüllt, wenn im Sinne einer geeigneten Metrik ähnliche Eingaben zu ähnlichen Ausgaben führen feste Lernaufgabe: gegeben sei eine Menge von Paaren von Ein- und Ausgabemustern; zu den Eingabemustern sind die Ausgaben zu bestimmen (Annahme: widerspruchsfrei!) die Lernaufgabe ist erfüllt, wenn die vorgegebenen Ausgaben erzeugt werden Lernalgorithmus: Verfahren, das anhand einer gegebenen Lernaufgabe die Netzgewichte W verändert überwachter Lernalgorithmus: Algorithmus zu fester Lernaufgabe nicht überwachter Lernalgorithmus: Algorithmus zu freier Lernaufgabe Erfolgsfall: Erfüllen der Lernaufgabe bzw. Unterschreiten einer Fehlerschranke in endlicher Zeit Page 111 of 151

19 Fehlermaße erforderlich für die Steuerung des Lernvorgangs in neuronalen Netzen: Erfolgskriterium: ist der Lernvorgang erfolgreich abgeschlossen? Modifikationsregel: wie ist W ggf. geeignet zu verändern? Misserfolgskriterium: ist ein Fortsetzen des Lernvorgangs überhaupt sinnvoll? überwachte Lernalgorithmen verwenden hierzu i.a. ein Fehlermaß: e : IR U O IR U O IR + 0, e(a, b) = 0 a = b Fehler, den ein neuronales Netz bei der Verarbeitung einer Eingabe i mit Soll-Ausgabe t und Ist-Ausgabe o macht: e(t, o) typische Festlegung für eine einzelne Ausgabeeinheit u U O : e u := t u o u typische Festlegung für das gesamte neuronale Netz: e := (t u o u ) 2 u U O (jeweils für eine feste Eingabe i mit Soll-Ausgabe t und Ist-Ausgabe o) Page 112 of 151

20 Aufgabe eines überwachten Lernalgorithmus somit: ändere W so ab, dass für jedes Musterpaar (i, t) der festen Lernaufgabe der Fehlerwert e minimiert wird Abbruch, falls die (eventuell gewichtete) Summe der Einzelfehler für die verschiedenen Eingaben unter eine vorgegebene Toleranz fällt (Erfolgsfall) oder falls ein Weiterarbeiten als sinnlos erkannt wird (Divergenz, Oszillationen) Update dieses Gesamtfehlers nach jeder Epoche, d.h. nach jedem vollständigen Durchlauf durch die Lernaufgabe (jede Eingabe einmal behandelt) Page 113 of 151

21 Grundstruktur überwachter Lernalgorithmen Algorithm 1 für alle Eingaben der Lernaufgabe: (1) wähle Musterpaar (i, t) der Lernaufgabe aus (2) propagiere die Eingabe, bis das Netz seine Ruhephase erreicht hat (3) vergleiche die ermittelte Ausgabe o mit der Zielvorgabe t und füge den resultierenden (lokalen) Fehler e zum Gesamtfehler (über die ganze Epoche) E hinzu (4) falls lokaler Fehler nicht Null: ändere die Gewichte geeignet (d.h. so, dass beim nächsten Mal für diese Eingabe ein kleinerer Fehler zu erwarten ist) (5) am Ende der Epoche (alle Eingaben einmal verarbeitet): falls E < ε: Abbruch wegen Erfolg; andernfalls: falls Fortsetzung sinnvoll, starte neue Epoche mit E := 0; andernfalls: Abbruch wegen Misserfolg Herzstück jedes überwachten Lernalgorithmus ist der Schritt (4) typisch: definiere E in Abhängigkeit von W und verwende ein Minimierungsverfahren (z.b. Gradienten-basiert) oft heuristisch Erfolg nicht garantiert! Page 114 of 151

22 Grundstruktur nicht überwachter Lernalgorithmen verarbeiten freie Lernaufgaben, die nur aus Eingaben bestehen (ohne Soll- Ausgaben) Fehlermaß, das die Veränderung von W steuert, somit nicht angebbar Klassifizierung als Ziel konkrete Ausgaben interessieren i.d.r. nicht typisch: konkurrierende Einheiten, größte Aktivierung setzt sich durch Algorithm 2 für alle Eingaben der Lernaufgabe: (1) wähle Eingabe i der Lernaufgabe aus (2) propagiere die Eingabe, bis das Netz seine Ruhephase erreicht hat (3) verändere Netzstruktur W anhand eines Modifikationskriteriums (4) am Ende der Epoche (alle Eingaben einmal verarbeitet): Abbruch, falls Endekriterium erfüllt; ansonsten starte neue Epoche durch Weglassen des Endekriteriums kann fortwährendes Lernen erreicht werden Page 115 of 151

23 Lernparadigmen Einsatz neuronaler Netze für verschiedene Aufgabengebiete, charakterisiert durch die folgenden Lernparadigmen: Musterassoziation: Assoziation von Ein- und Ausgaben Eingabe dient später als Schlüssel für den Zugriff auf die Ausgabe Einsatz: von Assoziativspeichern Autoassoziation: Spezialfall der Musterassoziation, bei dem Ein- und Ausgabe dasselbe Muster repräsentieren Netz dient zur Mustervervollständigung Einsatz: Rekonstruktion gestörter oder unvollständiger Eingaben Mustererkennung: Spezialfall der Musterassoziation, bei dem mehrere Eingaben mit einer Ausgabe assoziiert werden Ausgaben als disjunkte Klassen Einsatz: Klassifikation Page 116 of 151

24 Ähnlichkeitserkennung: bilde aus Eingaben Regeln zur Klassifikation typischerweise mittels nicht überwachter Lernverfahren Einsatz: Mustererkennung Optimierung: nutze Minimierung des Fehlermaßes aus Einsatz: Lösung von Optimierungsproblemen (z.b. travelling salesman) Page 117 of 151

25 Einordnung neuronaler Netze Vorteile gegenüber alternativen Ansätzen: Lösung von Problemen hoher Komplexität mit relativ einfachen Mitteln Analyse und Modellierung des gegebenen Problems nicht erforderlich Angabe eines bestimmten Algorithmus nicht erforderlich vielmehr Konstruktion von Problemlösungsfähigkeit Nachteile: Lernerfolg nicht vorhersagbar Ergebnis nicht nachzuvollziehen gespeicherte Werte (z.b. die Gewichte) tragen keine erkennbare Bedeutung Page 118 of 151

26 Perzeptronen Perzeptron ist einfaches neuronales Netz ohne innere Einheiten bzw. Schichten es besteht sogar nur aus einer einzigen Verarbeitungseinheit Einsatz v.a. zur Musterklassifikation zugrunde liegende Modellvorstellung: auf einer imaginären Netzhaut sitzen viele optische Rezeptoren im Falle eines Reizes senden diese Rezeptoren Impulse an die Verarbeitungseinheit Impulse werden aufgrund der Verbindungsgewichte in ihrer Stärke modifiziert Verarbeitungseinheit ist lineare Schwellwerteinheit: Addition der eingehenden Impulse und Aktivierung der Einheit bei Überschreiten des Schwellwerts θ Perzeptron trifft also binäre Entscheidung (zwei Zustände) Entscheidungsfindung entspricht der Berechnung eines Prädikats Page 119 of 151

27 Formales Modell des Perzeptrons im Folgenden leicht verallgemeinerte Deutung mit mehreren Eingabeeinheiten (keine Verarbeitung, lediglich Aufnahme der Eingabe) und einer einzigen Ausgabeeinheit in diesem Sinne zweischichtiges bzw. einstufiges neuronales Netz Perzeptron ist neuronales Netz (U, W, A, O, NET, ex) mit 1. U = U I U O mit nichtleeren und disjunkten U I, U O, wobei die Ausgabeschicht U O = {v} einelementig ist 2. Netzwerkstruktur gegeben durch W : U I U O IR, es gibt also nur Verbindungen von der Eingabeschicht zur Ausgabeeinheit v 3. A ordnet jeder Eingabeeinheit u U I die einheitliche Aktivierungsfunktion A u : {0, 1} {0, 1}, A u : ex(u) ex(u), und der Ausgabeeinheit die lineare Schwellwertfunktion A v : IR {0, 1}, { 0 falls netv θ A v : net v 1 sonst zu 4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung a u als Ausgabe o u Page 120 of 151

28 5. NET ordnet der Ausgabeeinheit v die Netzeingabefunktion NET v zu, die die Netzeingabe berechnet als net v := u U I W (u, v) o u 6. ex ordnet jeder Eingabeeinheit u U I ihre externe Eingabe (0 oder 1) als Wert zu Page 121 of 151

29 Merkmale, Merkmalsraum, Klassifikation eine (eindimensionale) Eigenschaft X wird auch Merkmal genannt, die Menge der möglichen Ausprägungen (i.a. reellwertig, beim Perzeptron binär) Merkmalsraum, eine konkrete Ausprägung x X Muster Merkmalsraum oder Universum ist oft höherdimensional, also X = X 1... X n mit Vektoren von Merkmalen bzw. Ausprägungen als Muster die Ausgabe eines Perzeptrons klassifiziert (n-dimensionale) Muster bzgl. einer (eindimensionalen) Ausgabeeigenschaft somit wird also ein Prädikat entschieden (auf der Netzeingabefunktion) ein solches Prädikat heißt linear separabel, wenn es ein θ IR sowie für alle Merkmale i = 1,..., n Gewichte w i IR gibt, sodass die Auswertung der gewichteten Summe bzw. der linearen Schwellwertfunktion n w i x i i=1 > θ das Prädikat für alle möglichen konkreten Ausprägungen entscheidet im Perzeptron stellen die W (u, v) die Gewichte und die Aktivierungen a u die Ausprägungen dar Page 122 of 151

30 Beispiele Sei X := {0, 1} 2 ; das Prädikat AND (logisches UND) lässt sich offensichtlich durch die Auswertung der linearen Schwellwertfunktion berechnen. x 1 + x 2 > 1 Sei X := {0, 1} 3 ; das Prädikat ZWEI (mindestens zwei von drei Merkmalen müssen ausgeprägt sein) kann durch die lineare Schwellwertfunktion dargestellt werden. x 1 + x 2 + x 3 > 1 Sei X := {0, 1} 2 ; das Prädikat XOR (ausschließliches ODER) ist dagegen nicht als lineare Schwellwertfunktion darstellbar; die übliche Darstellung beispielsweise x 1 (1 x 2 ) + (1 x 1 )x 2 > 0 ist nichtlinear! Die Unmöglichkeit der linearen Darstellung kann formal gezeigt werden. Das letzte Beispiel beendete seinerzeit die frühe Phase der Euphorie über neuronale Netze. Page 123 of 151

31 Lineare Separabilität jetzt: geometrische Anschauung für die lineare Separabilität dazu: Verallgemeinerung der Definition des Perzeptrons zum Perzeptron mit reellwertigen Eingabeinheiten; hierbei wird das Interval [0, 1] anstelle von {0, 1} als Bildbereich der externen Eingabefunktion zugelassen wie zuvor gilt: neu ist: ein Prädikat ist zu entscheiden ein einzelnes Perzeptron kann Wahrheitswert dieses Prädikats nur berechnen, wenn es sich als lineare Schwellwertfunktion darstellen lässt das Eingabemuster kann Merkmale mit kontinuierlichen Ausprägungen aufweisen das Prädikat kann daher nicht mehr als Boolescher Ausdruck dargestellt werden geometrische Deutung der Entscheidung: Trennung des Universums an einer Geraden (2D), Ebene (3D) oder Hyperebene (JA bzw. 1 auf der einen Seite, NEIN bzw. 0 auf der anderen) damit ist auch der Grund des Scheiterns bei XOR klar: hier sind zwei Geraden zur Entscheidung erforderlich (geht nur mit Hilfe mehrerer Perzeptronen) Page 124 of 151

32 Der Lernalgorithmus des Perzeptrons Perzeptron kann nur feste Lernaufgabe mit überwachtem Lernalgorithmus bewältigen Perzeptron-Lernregel (jetzt wieder originales (binäres) Perzeptron): entspricht der Delta-Regel oder Widrow-Hoff-Regel (siehe Abschnitt ) korrigiert Gewichte der Verbindungen zur Ausgabeeinheit anhand des dort aufgetretenen Fehlers Fehler wie zuvor definiert als Differenz von vorgegebener und tatsächlicher Ausgabe mögliche Fehlerwerte sind 0, 1 oder 1 Algorithmus: Änderung W (u, v) der Gewichte nach Propagation der Eingabe i eines Musterpaares (i, t) der Lernaufgabe: 0 falls a v = t W (u, v) := +σa u falls a v = 0, t = 1 σa u falls a v = 1, t = 0 Page 125 of 151

33 Änderung θ des Schwellwerts nach Propagation der Eingabe i eines Musterpaares (i, t) der Lernaufgabe: 0 falls a v = t θ := σ falls a v = 0, t = 1 +σ falls a v = 1, t = 0 Faktor σ wird Lernrate genannt Änderungen also nur für aktivierte vorgeschaltete Eingabeeinheiten Page 126 of 151

34 Beispiel: Lernen des AND-Prädikats Eingabeeinheiten u 1, u 2, Ausgabeeinheit v, zu lernen ist das logische UND Lernrate σ := 1, Startwerte W (u 1, v) = W (u 2, v) = θ := 0 nachfolgend dargestellte Lösung (Gewichte) nur eine von vielen (abhängig von σ oder der Reihenfolge der Musterpropagation innerhalb der einzelnen Epochen) 1. Epoche 2. Epoche 3. Epoche 4. Epoche 5. Epoche 6. Epoche i t a v e W (u 1, v) W (u 2, v) θ W (u 1, v) W (u 2, v) θ Page 127 of 151

35 Konvergenz gegeben: linear separable Lernaufgabe dann gilt: Perzeptron-Lernalgorithmus konvergiert garantiert zu einer geeigneten Gewichtskonfiguration mit verschwindendem Gesamtfehler bewiesen im so genannten Perzeptron-Konvergenztheorem cave: dies sagt nichts aus über die Konvergenzgeschwindigkeit (also die Anzahl der erforderlichen Epochen bis um Erreichen des stationären Zustands) Konvergenzgeschwindigkeit hängt ab von Zusammensetzung der Lernaufgabe (also die (i, t)-paare) Reihenfolge der Musterpropagation Lernrate Initialgewichte optimale Einstellung dieser Parameter i.a. aufgrund von Heuristiken Page 128 of 151

36 Einfache lineare Modelle Einfache lineare neuronale Netze sind wie das Perzeptron zweischichtige bzw. einstufige Systeme. hier jedoch oft anderes Lernparadigma: Musterassoziation statt Musterklassifikation (Eingabemuster als Schlüssel für vom Netz zu erzeugendes Ausgabemuster) impliziert i.d.r. mehrere Ausgabeeinheiten hohe Verwandtschaft zum Perzeptron, aber einige zentrale Unterschiede Anzahl der Ausgabeeinheiten Wahl der Aktivierungsfunktion(en) i.a. alles reellwertig (d.h. keine Einschränkung auf binäre Werte) Page 129 of 151

37 Formales Modell linearer neuronaler Netze Name aufgrund der Verwendung linearer Aktivierungsfunktionen lineares neuronales Netz ist neuronales Netz (U, W, A, O, NET, ex) mit 1. U = U I U O mit nichtleeren und disjunkten U I (Eingabeschicht) und U O (Ausgabeschicht) 2. Netzwerkstruktur gegeben durch W : U I U O IR, es gibt also nur Verbindungen von der Eingabeschicht zur Ausgabeschicht 3. A ordnet jeder Eingabeeinheit u U I die einheitliche Aktivierungsfunktion A u : IR IR, A u : ex(u) ex(u), und jeder Ausgabeeinheit die lineare Aktivierungsfunktion A v : IR IR, A v : net v net v + θ v zu; θ v wird reeller Schwellwert oder Bias von v genannt 4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung a u als Ausgabe o u 5. NET ordnet jeder Ausgabeeinheit v U O eine lineare Netzeingabefunktion NET v zu, die die Netzeingabe berechnet als net v := u U I W (u, v) o u 6. ex : U I IR ordnet jeder Eingabeeinheit u U I ihre externe Eingabe als Wert zu Page 130 of 151

38 Das ADALINE ADALINE (ADAptive LInear NEuron): eines der ersten linearen neuronalen Netze zunächst als adaptives Neuron eingeführt 1960 von Widrow und Hoff vorgestellt Ähnlichkeit zum Perzeptron, aber lineare Aktivierungsfunktion Erzeugung von Ausgaben aus { 1, +1} es gilt die Definition der vorigen Folie, bis auf o v := 1 falls a v > 0 und o v := 1 falls a v 0 für alle v U O ex : U I { 1, 1} Lernalgorithmus: Delta-Regel bzw. Widrow-Hoff-Regel überwachte Lernregel Fehler einer Ausgabeeinheit als Differenz von erhaltener Aktivierung und geforderter Aktivierung ermöglicht Lernen auch bei bereits korrekter Ausgabe Idee der Gewichtsänderung: passe Gewichte so an, dass Ausgabe bei sofortiger erneuter Propagation derselben Eingabe korrekt (vgl. Relaxation bei iterativen Verfahren zum Lösen linearer Gleichungssysteme) ermöglicht schnelleres Lernen als beim Perzeptron Page 131 of 151

39 Die Delta-Regel ADALINE-Lernalgorithmus: Delta-Regel bzw. Widrow-Hoff-Regel gegeben seien ein ADALINE und eine feste Lernaufgabe Änderung W (u, v) der Gewichte nach Propagation der Eingabe i des Musters p der Lernaufgabe: ( ) p W (u, v) := σ t (p) v a (p) v a u (p) Änderung θ v der Bias-Werte nach Propagation der Eingabe i eines Musters p der Lernaufgabe: ( ) p θ v := σ t v (p) a (p) v Bedeutung der Parameter: t (p) v : für die Ausgabeeinheit v vorgesehene Aktivierung a (p) v : erhaltene Aktivierung der Ausgabeeinheit v a (p) u : Aktivierung der Eingabeeinheit u σ: Lernrate, σ IR + Die so berechneten Werte werden über alle Eingaben der Lernaufgabe aufsummiert. Die Änderung von W und θ findet erst am Ende einer Epoche statt: Page 132 of 151 W (u, v) := p p W (u, v), θ v := p p θ v

40 Fehler und Konvergenz Ziel: sukzessive Minimierung des Fehlers aller Einheiten durch Minimierung eines globalen Fehlermaßes E: E := 1 2 v U O p ( t (p) v ) 2 a (p) v Man kann i.d.t. zeigen, dass die Delta-Regel E tatsächlich minimiert; sie approximiert also einen Gradientenabstieg bzgl. E. praktisches Problem: Wahl von σ zu groß: verhindert genaues Verfolgen des Gradienten und verhindert deshalb u.u. Lernerfolg zu klein: Verfahren wird langsam typische Wahl: 0 σ 1 vgl. Relaxationsparameter bei Relaxationsverfahren! Konvergenz? E hat nur ein Minimum allerdings muss im Minimum nicht immer E = 0 gelten bei nicht linear separablen Lernaufgaben (z.b. XOR) stellt sich Konvergenz ein, der Fehlerwert ist aber positiv Page 133 of 151

41 ergo: auch lineare Netze eignen sich nicht zur Lösung nicht linear separabler Lernaufgaben im Falle von Musterassoziation interessant: Anzahl der korrekt speicherbaren Musterpaare es gilt: ADALINE mit n Eingabe- und m Ausgabeeinheiten kann maximal n linear unabhängige Vektoren (Muster) fehlerfrei speichern Page 134 of 151

42 Multilayer-Perzeptronen Einschränkung der Einsetzbarkeit der bisher diskutierten Netzmodelle aufgrund der erforderlichen Eigenschaft der linearen Separabilität Gegenbeispiel 1: XOR Gegenbeispiel 2: Klassifizierung binärer Eingabemuster nach gerader bzw. ungerader Anzahl auftretender Einsen früh klar: innere Verarbeitungseinheiten bzw. Schichten können Abhilfe schaffen unklar jedoch zunächst: wie können geeignete Lernalgorithmen aussehen? wie können Verbindungen trainiert werden, die zu inneren Einheiten führen? Lösung (wie so oft mehrfach unabhängig erfunden: 1974, 1985, 1986): verallgemeinerte Delta-Regel als Verallgemeinerung der bereits eingeführten Delta-Regel für mehrschichtige neuronale Netze üblichere Bezeichnung heute: (Error-)Backpropagation prominentes Beispiel mehrschichtiger neuronaler Netze: Multilayer-Perzeptron vorwärts betriebenes neuronales Netz besteht aus einer Eingabeschicht, mindestens einer inneren Schicht sowie einer Ausgabeschicht (auch mehrelementig) bei n 2 inneren Schichten: n-schichtig bzw. n 1-stufig Page 135 of 151

43 Formales Modell des Multilayer-Perzeptrons Multilayer-Perzeptron ist neuronales Netz (U, W, A, O, N ET, ex) mit folgenden Charakteristika: 1. U = U 1... U n mit nichtleeren und paarweise disjunkten U i, wobei U 1 Eingabeschicht, U n Ausgabeschicht und die restlichen U i, 1 < i < n, innere (versteckte) Schichten heißen 2. Netzwerkstruktur gegeben durch W : U U IR, wobei es nur Verbindungen zwischen direkt aufeinander folgenden Schichten gibt (also von U i nach U i+1, i = 1,..., n 1) 3. A ordnet jeder Eingabeeinheit u U 1 die einheitliche Aktivierungsfunktion A u : IR [0, 1], A u : ex(u) ex(u), und allen anderen Einheiten v U \ U 1 die Aktivierungsfunktion A v : IR [0, 1], A v : net v f(net v ) mit einheitlichem, fest gewähltem und nichtlinearem f zu 4. O: alle Ausgabefunktionen übernehmen den Wert der Aktivierung a u als Ausgabe o u Page 136 of 151

44 5. NET ordnet jeder Einheit v U i, 2 i n, die Netzeingabefunktion NET v zu, die die Netzeingabe berechnet als net v := u U i 1 W (u, v) o u + θ v, wobei θ v Bias von v genannt wird 6. ex : U 1 [0, 1] ordnet jeder Eingabeeinheit u U 1 ihre externe Eingabe als Wert zu Page 137 of 151

45 Nichtlineare Aktivierungsfunktionen Funktion f muss nichtlinear sein: mehrschichtige Netze aus linearen Einheiten bringen nichts qualitativ Neues Aktivierungen der Neuronen liegen i.d.r. im Intervall [0, 1], wobei jedoch auch andere Intervalle oder Binärwerte möglich sind für Lernfähigkeit ist stetiges und differenzierbares f erforderlich häufig getroffene Wahl für f: sigmoide (S-förmige) Gestalt, quasi als Annäherung an eine lineare Schwellwertfunktion logistische Funktion (nähert sich asymptotisch 0 bzw. 1): f 1 (x) := e βx, β > 0 tangens hyperbolicus (nähert sich asymptotisch 1 bzw. 1): f 2 (x) := tanh(βx) arcustangens (nähert sich asymptotisch 0 bzw. 1): ( π 2 + arctan(βx) ) f 3 (x) := 1 π Parameter β bestimmt stets Steilheit Page 138 of 151

46 Backpropagation verallgemeinerte Delta-Regel zugrunde liegende Idee: rückwärtige Ausbreitung eines Fehlersignals durch das Netzwerk propagiere Eingabemuster durch das Netz vergleiche das erhaltene Ausgabemuster mit der Vorgabe und ermittle daraus den Fehler der Ausgabeeinheiten propagiere diesen Fehler nun rückwärts durch das Netz (also in Richtung der Eingabeschicht) daraus können nun die inneren Einheiten ihren eigenen lokalen Fehler ermitteln Fehler in allen Einheiten bildet dann Grundlage für die Modifikation der Gewichte (d.h. von W ) Page 139 of 151

47 verallgemeinerte Delta-Regel (überwachter Lernalgorithmus): gegeben Multilayer-Perzeptron mit nichtlinearem, monoton wachsendem und differenzierbarem f sowie feste Lernaufgabe Veränderung der Netzstruktur W nach Propagation der Eingabe i eines Musters p der Lernaufgabe: p W (u, v) := η δ (p) v a (p) u mit u U i 1, v U i, 2 i n, η > 0 und ( ) ( ) f net (p) δ u (p) u t (p) u a (p) u := ( f net (p) u falls u U n, ) v U j+1 δ v (p) W (u, v) falls u U j, 2 j < n dabei bezeichnen a (p) u und t u (p) die erhaltene bzw. vorgegebene Aktivierung/Ausgabe der Einheit u; η > 0 heißt Lernrate Page 140 of 151

48 Fehler und Fehlertransport verwendetes Fehlermaß analog zur Delta-Regel: E := p E (p) := 1 2 p v U n ( t (p) v ) 2 a v (p) Ziel des Lernalgorithmus wie zuvor: Minimierung des Fehlers E durch Veränderungen der Gewichte des Netzes, folglich p W (u, v) E(p) W (u, v) daraus kann mit etwas Analysis die Berechnungsformel für die lokalen Fehler δ u (p) aus der verallgemeinerten Delta-Regel hergeleitet werden insgesamt somit rekursive Berechnungsvorschrift für den Fehler von der Ausgabeschicht rückwärts durch das Netz Page 141 of 151

49 Anwendung des Backpropagation-Algorithmus zwei Phasen: Phase 1: propagiere eine Eingabe vorwärts durch das Netz, um so die Ausgabe jeder Einheit zu bestimmen Phase 2: Backpropagation der Fehlersignale Phase 2 im Detail: bestimme Fehlersignale für die Ausgabeschicht durch Vergleich der erreichten mit den erwünschten Ausgaben ermittle daraus die Gewichtsänderungen aller zur Ausgabeschicht führenden Verbindungen danach beginnt die eigentliche Rückwärtspropagation: transportiere Fehler, gewichtet mit den Verbindungsstärken der eingehenden Verbindungen, in die Vorgängerschicht und bestimme daraus die Gewichtsänderungen der zu dieser Schicht führenden Verbindungen, etc. in der Praxis leichte Modifikation der Update-Formel: p W (u, v) := η δ (p) v a (p) u + β q W (u, v), wobei das Muster q das unmittelbar zuvor propagierte sei und β > 0 Moment genannt wird Page 142 of 151

50 Modifikation verleiht dem Lernverfahren eine gewisse Trägheit, die sich als hilfreich zur Vermeidung lokaler E-Minima, zur Vermeidung von Oszillationen sowie allgemein zur Konvergenzbeschleunigung erweist oft günstig: ändere Gewichte nicht nach jeder Musterpropagation, sondern erst am Ende einer ganzen Epoche (dann summierte Änderungen) Page 143 of 151

51 Wahl der Parameter Wahl der Parameter kann starken Einfluss auf Lernerfolg haben typische Werte für Lernrate: η [0, 1], η 0.05 typische Werte für Moment: β [0, 1], β 0.9 selbst bestmögliche Wahl garantiert jedoch Lernerfolg nicht: E sehr kompliziert, wir haben es mit einer Heuristik zu tun (vgl. Methode des steilsten Abstiegs in der Optimierung) Initialisierung von W : i.d.r. zufällige kleine Werte, z.b. aus [ 0.1, 0.1] (nicht alle identisch!) passende Anzahl der inneren Schichten? eine innere Schicht prinzipiell ausreichend passende Zahl innerer Einheiten? notwendige Zahl kann nicht vorab bestimmt werden Risiko, falls zu wenige: Netz kann Lernaufgabe nicht lösen Risiko, falls zu viele: Problem der Übergeneralisierung (Netz kann es sich leisten, innere Einheiten speziell für einzelne Eingaben zu reservieren und vernachlässigt dadurch die Konstruktion der allgemeinen Abbildungsvorschrift) dennoch ist Backpropagation weit verbreitet Page 144 of 151

52 Einmal mehr: das Beispiel XOR XOR-Problem gilt als klassisches Beispiel einer Lernaufgabe für das Multilayer- Perzeptron bzw. den Backpropagation-Algorithmus betrachte folgendes Multilayer-Perzeptron: U = U 1 U 2 U 3 mit Eingabeschicht U 1 = {u 11, u 12 }, innerer Schicht U 2 = {u 21, u 22 } und Ausgabeschicht U 3 = {u 31 } XOR-Problem als feste Lernaufgabe: {((0, 0), 0), ((0, 1), 1), ((1, 0), 1), ((1, 1), 0)} Aktivierungsfunktion sei die logistische Funktion Initialisierung: x y u 11 u u 12 u 22 Lernrate η := 0.5, Moment β := u XOR(x,y) Updates von Gewichten und Bias-Werten erst am Epochenende Page 145 of 151

53 Das Beispiel XOR (2) Abbruch des Lernvorgangs nach 272 Epochen mit einem Gesamtfehler E < 0.01 Ausgaben zu Beginn und nach Abschluss des Lernvorgangs: Ausgabe Eingabe Ziel vor nach (0,0) (0,1) (1,0) (1,1) Page 146 of 151

54 Gewichte und Bias-Werte am Ende: x y u 11 u u 12 u u XOR(x,y) ideale Ausgaben 0 bzw. 1 nicht erreicht (liegt an Gestalt der Aktivierungsfunktion, die 0 und 1 im endlichen Bereich nicht annimmt) 7.84 Page 147 of 151

55 Mächtigkeit des Multilayer-Perzeptrons großer Vorteil: Einschränkung auf linear separable Probleme entfällt Man kann sogar zeigen, dass mit Multilayer-Perzeptronen im Prinzip jede stetige Funktion g : [0, 1] n [0, 1] beliebig genau approximiert werden kann. Deshalb werden Multilayer-Perzeptronen auch als universelle Approximatoren bezeichnet. großer Nachteil: kein allgemeines Konvergenztheorem (Verfangen in lokalen Minima ist möglich) Lösung der Lernaufgabe ist nicht sichergestellt außerdem problematisch: Wahl der Parameter und der Netzstruktur Page 148 of 151

56 Anwendungen Multilayer-Perzeptronen weit verbreitet unter den praktisch eingesetzten neuronalen Netzen bekannte frühe Implementierung: System NETtalk (1987) liest geschriebenen englischen Text laut vor dreischichtiges Netz mit 203 Eingabeeinheiten, 80 inneren Einheiten und 29 Ausgabeeinheiten Eingabe: sieben Zeichen breites Fenster, jedes durch 29 Neuronen dargestellt (Buchstaben des Alphabets plus Interpunktion und Zwischenraum), von denen jeweils genau eines aktiviert wird Ausgabeschicht: 26 Einheiten zur Repräsentation artikulatorischer Merkmale, 3 Einheiten für Betonung und Silbengrenzen geeignete Kombination aktivierter Ausgabeeinheiten gestattet die Darstellung von Phonemen (unteilbare Laute der menschlichen Sprache) Ziel: gebe das korrekte Phonem für den mittleren der sieben Eingabebuchstaben wieder (restliche sechs Zeichen für Kontextinformation) Trainingsdaten: Paare aus Text und Phoneminformation zu 1024 Wörtern häufige Fehlerquelle: Verwechslung ähnlicher Phoneme Page 149 of 151

57 Beispiele modernerer Anwendungen: komplexe Mustererkennung Finanzmathematik (ein mit Daten aus trainiertes System bspw. erwirtschaftete einen durchschnittlichen jährlichen Profit von 18 Prozent und schlug damals verbreitete stochastische Methoden klar) Page 150 of 151

58 Ausblick Wen s interessiert spannende weiterführende (und hier nicht behandelte) Themen: neuronale Netze für freie Lernaufgaben: Wettbewerbslernen Selbstorganisierende Karten rückgekoppelte neuronale Netze: Hopfield-Netze Simulated Annealing Boltzmann-Maschinen spannende Anwendung: neuronale Regler... stellt Beziehung von Abschnitt 2.4 zu Abschnitt 3.2 her Page 151 of 151