ISI-Proseminar NEURONALE NETZE. Thema: MULTILAYER PERZEPTRON. Ausarbeitung von. Roland Ritter Betreuer

ISI-Proseminar NEURONALE NETZE Thema: MULTILAYER PERZEPTRON Ausarbeitung von Roland Ritter rr@informatiuni-ulmde Betreuer Prof Heio Neumann Guillem Pagès Gassull Faultät für Informati, Abt Neuroinformati Universität Ulm Inhaltsverzeichnis: Aufbau eines Multilayer Perzetron Perzetron 2 2 MLP-Netzwer 2 2 Das Bacroagation Lernverfahren 2 Allgemeines 4 22 Algorithmus 5 23 Mathematische Herleitung 5 3 Anwendungsbeisiel 7 4 mögliche Probleme 8 5 Quellenverzeichnis

Neuronale Netze - Multilayer Perzetron - 2004-04-3 Aufbau eines Multilayer Perzetron Perzetron x ω x 2 ω 2 t y x n ω n Abb : Schaltzeichen eines Perzetrons Ein Perzetron () (Abb ) ist ein Modell eines ünstlichen Neurons Es hat gewichtete Eingänge (x,,xn) und einen Ausgang (y) Die an den Eingängen anliegenden Werte werden eweils mit dem entsrechenden Gewicht (wi) multiliziert und anschließend aufsummiert net = n x i i= ω Mithilfe dieser Summe und einer Ativierungsfuntion (f(net)) wird entschieden ob das Perzetron eine oder eine 0 ausgibt 2 y = f net ) ( Im einfachsten Fall handelt es sich um eine binäre Schwellenfuntion, bei der überrüft wird, ob die Summe mindestens einen gegebenen Schwellenwert (t) erreicht 3, es sind edoch auch weitere Sigmoide, lineare oder semilineare Funtionen üblich n falls xiωi t 3 f ( net ) = i= 0 sonst Um Perzetrone vereinfacht darstellen zu önnen, ann die Schwelle (t) auf Null normiert werden Hierfür wird ein zusätzlicher Eingang, an dem immer Eins anliegt, erstellt und dessen Gewicht auf das Negative des ursrünglichen Schwellenwertes gesetzt Man sricht hierbei von einem so genannten Bias i 2 MLP-Netzwer Da Perzetrone lediglich zu den linearen Klassifiatoren zählen (Abb 2), dies edoch oft nicht ausreicht, ist man dazu übergegangen mehrere Perzetrone miteinander zu verschalten Das Ergebnis waren die Multilayer Perzetrone (MLP), die einen wesentlich mächtigeren Klassifiator darstellen (Abb 22) - 2 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 X 2 X 2 Entscheidungsft X X Abb 2: Eine mögliche Aufteilung einer Puntmenge mittels eines einzelnen Perzetrons Abb 22: Eine mögliche Aufteilung einer Puntmenge mittels eines MLP Ein MLP erstrect sich über mindestens drei Schichten, oft auch Layer genannt: Eine Eingabe-, eine Ausgabe- und mindestens eine verborgene Zwischenschicht (Hidden Layer) (Abb 23) Die Eingabeeinheiten leiten hierbei lediglich die Daten an die nächste Schicht weiter und verteilen sie, so dass edem Perzetron der ersten Zwischenschicht alle Eingabedaten vorliegen Hier, in den Zwischenschichten, findet nun die eigentliche Verarbeitung/Klassifizierung statt Ohne Zwischenschicht hätten wir ein Analogon zum einzelnen Perzetron, das heißt es wäre wiederum ausschließlich die Verarbeitung linearer Probleme möglich Die Eingabe- und ede Zwischenschicht enthält zusätzlich zu den normalen Perzetronen noch ein Bias, das immer eine an die nächste Schicht weitergibt und damit wie oben erlärt deren Schwellenwert sichert bzw auf Null normiert Beim MLP handelt es sich um vollverschaltete Netzwere, dh die Ausgänge der Perzetrone einer Schicht werden alle mit edem Perzetron der nächsten Schicht vernüft und damit ein vorwärtsgerichtetes Netz onstruiert Die Sezifizierung (Abb 23) eines Netzweres erfolgt über die Parameter: Anzahl der Schichten (m), Anzahl der Perzetrone der einzelnen Schichten (ni) und die in der Schicht verwendete Ativierungsfuntion (fi) Hierbei stehen beisielsweise lineare Funtionen, Tangenshyerbolicus, Fermifuntion usw zur Auswahl, wobei eweils der erste Buchstabe als Kennbuchstabe dient (zb L, T, F ) In einigen Büchern ist auch von Stufen die Rede, damit sind alle Schichten außer der Eingabeschicht gemeint, dh ein Netzwer hat stets eine Stufe weniger als Schichten Abb 23: Beisiel für den Aufbau eines MLP (Schicht ist Eingabe-, Schicht 2 ist Zwischenund Schicht 3 ist Ausgabeschicht) Anzahl der Perzetrone in Schicht : n=3 Anzahl der Perzetrone in Schicht 2: n 2 =4 Allgemein gleicht die Beschreibung Anzahl der Schichten: m=3 L L T T T L L L Anzahl der Perzetrone in Schicht 3: n3=3-3 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 eines Netzes also folgender Formel: nf-n2f2- -nmfm (Schichtenschreibweise) n2f2- -nmfm (Stufenschreibweise) Das Netzwer in Abb 23 ist also nach obiger Definitionen ein dreischichtiges bzw zweistufiges Netzwer und lässt sich wie folgt beschreiben: 3L-4T-3L (Schichtenschreibweise) 4T-3L (Stufenschreibweise) Die Anzahl der Perzetrone der Zwischenschichten richtig zu wählen ist beim Aufbau eines MLP eines der größten Probleme, da eine zu geringe Anzahl dazu führt, dass die Ausgabe nicht exat genug ist, während eine zu große Anzahl uneffetiv ist und einen deutlich erhöhten Trainingsaufwand fordert Beim anschließend besrochenen Training werden daher oft mehrere Netze verschiedener Größe gleichzeitig verwendet und erst nach einiger Zeit das am besten geeignete ausgewählt 2 Das Bacroagation Lernverfahren 2 Allgemeines Gerade bei omlexeren Netzen ist es unmöglich intuitiv die richtigen Werte der Gewichte zu bestimmen, daher setzt man Lernverfahren ein um diese zu bestimmen Für das Training der Verbindungsgewichte Neuronaler Netze werden die verfügbaren Daten in Trainings- und Validierungsdaten aufgeteilt Das Netzwer lernt edoch nur von den Trainingsdaten, bei denen Bacroagation zum Einsatz ommt Für alle anderen Eingaben soll es säter eine assende Ausgabe erzeugen Man unterscheidet grundsätzlich zwischen überwachtem und unüberwachtem Lernen Bei den überwachten Lernverfahren, zu denen Bacroagation zählt, existiert ein Lehrersignal t, das den erwarteten Ausgabewert angibt Bei den unüberwachten hingegen fehlt dieses und das Lernen funtioniert über Clustering, über welches Sie in Fachliteratur nähere Informationen finden Während des Trainings werden die Ausgaben des Netzes (o) mit dem Lehrersignal verglichen und die Differenz in Form einer Fehlerfuntion (E) rücwärts durch die Schichten weitergegeben (roagiert) Das Ziel ist es die Gewichte derart zu maniulieren, dass der Fehler minimiert wird Hierfür wird die Ableitung bestimmt und gleich Null gesetzt, daher zählt man Bacroagation auch zu den Gradientenabstiegsverfahren, dh man folgt dem steilsten Abstieg mit dem Ziel ein globales Minimum zu erreichen Hierbei önnen edoch einige Probleme auftreten, die in Kaitel 4 näher erläutert werden - 4 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 22 Algorithmus Vorinitialisieren der Gewichte mit zufälligen, leinen Werten Wiederholen solange Min TRUE Min = TRUE Für ede Eingabe der Trainingsdaten wiederhole Feedforward-Berechnung Die Eingabe wird durch das Netz geschict um am Ausgang die atuelle Ausgabe zu erhalten Berechnung des Fehlers aus der erwarteten und der tatsächlichen Ausgabe Ja Ist Fehlerdifferenz außerhalb der vereinbarten Toleranz? Min = FALSE Nein Rücwärtsroagierung des Fehlers durch das Netz Berechne daraus die Gewichtsänderungen Ändere die Gewichte Kurz zusammengefasst, werden dem Netzwer solange immer wieder alle Trainingsdaten nacheinander eingegeben und dementsrechend die Gewichte geändert, bis irgendwann bei allen Eingaben der Unterschied des atuellen Fehlers zu dem des letzten Durchlaufes innerhalb einer vorher festgelegten Toleranz liegt 23 Mathematische Herleitung Bacroagation ist eine Verallgemeinerung der Deltaregel 0, welche ursrünglich nur für einstufige Netzwere mit linearen Ativierungsfuntionen definiert wurde 0 wi = η o i wi = η o i = ηo i ( t o ) Bei der Offline-Version (lins) errechnet sich die Gewichtsänderung zwischen den Perzetronen i und mithilfe der Summe über alle Trainingsmuster (), während bei der Online-Version (rechts) für edes Trainingsmuster einzeln eine Gewichtsänderung berechnet wird Bei Bacroagation önnen auch semilineare Ativierungsfuntionen und Netzwere mit mehr als zwei Schichten beschrieben werden Die Herleitung verläuft weitestgehend analog zur Deltaregel, über die in zahlreichen Fachbüchern genaueres nachgelesen werden ann Die nachfolgende Herleitung des Bacroagation-Verfahrens ist beisielsweise weitestgehend aus Simulation neuronaler Netze [2] entnommen - 5 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 Hierfür betrachten wir zunächst einen Ausschnitt eines MLP um die anschließend fallenden Abürzungen besser zu verstehen (Abb 23) i ω i Die Gewichtsänderung ( W) ist definiert als negatives Produt des Gradienten der Fehlerfuntion E(W) und dem Lernfator η Der Lernfator bestimmt somit entscheidend die Geschwindigeit mit der man sich einem Minimum nähert Das W steht hierbei für den Vetor aller Gewichte des Perzetrons Die Fehlerfuntion entsricht edoch nicht einfach der unter 2 erwähnten Differenz In ihr werden die quadratischen Fehler aller Perzetrone aufsummiert und anschließend halbiert, wodurch stets ein ositiver Wert 2 entsteht ( E = ( t ) ) W = η E(W ) 2 i o Somit ergibt sich für das einzelne Gewicht zwischen den Perzetronen i und die Änderung 2 wi = η wobei für alle Eingabemuster der Trainingsdaten steht w i ω Abb 23: Ausschnitt eines MLP zur Erläuterung der Indizes der nachfolgenden Herleitung Mit Hilfe der mehrdimensionalen Kettenregel der Differentialrechnung erhalten wir 3 w i = w i Erinnern wir uns an die Bedeutung der Netzeingabe net, so önnen wir folgendes einsetzen 4 = o iwi = o i wi wi i Hierbei bedeutet oi die Ausgabe des i-ten Perzetrons unter dem Eingabemuster Definiert man etzt als Fehlersignal 5 = so erhält man durch Einsetzen von 4 und 5 in 3 und diese dann in 2 die Offline-Version der Bacroagation-Regel w = η i o i Die Online-Version ist dann, analog zur Delta-Regel, für die Gewichtsänderung für edes einzelne Trainingsmuster () w = ηo i i - 6 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 Um Berechnungen durchführen zu önnen muss etzt edoch noch das Fehlersignal genauer sezifiziert werden = = o o = o f act ( net ) = f act ( net ) o Nachdem das Fehlersignal derart aufgelöst wurde ann zur weiteren Vereinfachung nun noch der erste Fator aufgelöst werden Hierbei muss unterschieden werden, ob es sich bei dem betrachteten Neuron um ein Element der Ausgabe- oder einer der Zwischenschichten handelt Handelt es sich um ein Neuron der Ausgabeschicht, ann die Definition des Fehlersignals eingesetzt werden o = o 2 2 ( t o ) = ( t o ) Bei den Zwischenschichten muss die Ableitung durch Anwendung der Kettenregel und Einsetzen von 5 bestimmt werden o = o = o o iwi = i w Das Summenzeichen sagt uns dabei, dass wir zur Berechnung des gesamten Fehlers in auch alle Nachfolger von betrachten müssen Insgesamt erhalten wir also für die Bacroagation-Regel: f act ( net = f act ( net ) ) ( t o ) w falls eine Zelle der Ausgabeschicht ist, falls eine Zelle der Zwischenschicht ist 3 Anwendungsbeisiel Multilayererzetrone önnen eine Vielzahl an Problemstellungen lösen Ein einfaches Beisiel ist das XOR-Problem Hierbei wird eine Eins ausgegeben wenn genau an einer der Eingabeleitungen eine Eins anliegt Hierfür nehmen wir ein dreischichtiges MLP wie in Abb 3 gezeigt - 7 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 - x E i -2 x - 2 E - Abb 3: Ein MLP zur Lösung des XOR-Problems E ennzeichnet die Eingabeschicht, i,, sind Kennzeichnungen für Perzetrone und die Zahlen an den Pfeilen sind die Gewichte Für das Perzetron i gilt: Durch den Bias erhalten wir -, da beide anderen Eingänge das Gewicht haben, muss mindestens an einem der beiden Eingänge eine anliegen, damit die Summe größer gleich 0 wird und somit i eine ausgibt (Abb 32) Für das Perzetron gilt: Durch den Bias erhalten wir, da beide anderen Eingänge das Gewicht - haben, darf höchstens an einem der beiden Eingänge eine anliegen, damit die Summe größer gleich 0 wird und somit eine ausgibt (Abb 33) Für das Perzetron gilt somit: Durch den Bias erhalten wir -2, da beide anderen Eingänge das Gewicht haben, muss an beiden eine anliegen, damit die Summe größer gleich 0 wird und somit eine ausgibt Dh, betrachtet man die Eingänge x und x2, so muß sowohl die Bedingung des Perzetrons i als auch des Perzetrons erfüllt sein und wir erhalten dadurch die Schnittmenge der beiden einzelnen Puntmengen (Abb 34) y x 2 x 2 x 2 0 x Abb 32: Klassifizierung nach Perzetron i x x 0 0 Abb 33: Klassifizierung nach Perzetron Abb 32: Klassifizierung nach Perzetron 4 Mögliche Probleme Abschließend sollen noch Probleme genannt werden, die beim Bacroagation- Verfahren auftreten önnen Diese lassen sich hautsächlich darauf zurücführen, dass das Verfahren auf der ersten Ableitung basiert, welche nur loal gilt Wir suchen edoch ein loales sondern ein globales Minimum der Fehlerfläche - 8 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 Folgende sind häufig auftretende Probleme: Symmetriebrechung: Hierbei wird bei der Initialisierung der Fehler gemacht, die Gewichte zwischen allen Ebenen mit den gleichen Werten zu belegen Daraus ergibt sich, dass sich die Gewichte zwar verändern önnen, aber lediglich alle um den gleichen Betrag, wodurch die Symmetrie fest erhalten bleibt Um diese s Problem zu lösen, reicht es die Gewichte mit zufälligen Werten zu initialisieren Meist wird zusätzlich darauf geachtet, dass es leine Werte sind, was dem Netz ermöglicht, sich schneller anzuassen Loale Minima: Es ann vorommen, dass der Gradient in ein Nebenminimum hineinläuft und aus diesem nicht wieder herausommt, obwohl es gar nicht das globale Minimum ist Man hat beobachtet, dass mit steigender Verbindungszahl in einem Netz, dessen Fehlerfläche immer stärer zerlüftet wird, wodurch dieses Phänomen gehäuft auftritt Eine Lösung für dieses Problem ist in der Regel von der Anwendung und der Kodierung des Netzes abhängig, es ist edoch in der Praxis üblich mehrere Abb 4: ( Quelle: [2] ) identische Netze zu trainieren, wobei die Reihenfolge der Trainingsdaten zufällig ist Dadurch haben die Netze unterschiedliche Anfangsositionen auf der Fehlerfläche und man ann das Netz auswählen, das die beste Lösung hervorbringt Flache Plateaus: Da die Änderung der Gewichte neben dem Lernfator auch vom Gradienten abhängt und dieser bei sehr flachen Abschnitten der Fehlerfläche sehr gering ausfällt, ann es dazu ommen, dass sehr viele Iterationsschritte nötig werden Die Schwierigeit daran ist vor allem, dass unlar bleibt, ob man sich auf einem Plateau oder in einem Minimum befindet Dies lässt sich edoch leicht vermeiden indem man Abb 42: ( Quelle: [2] ) zb einen Momentum Term, Bacroagation mit Imuls oder einfach nur mit variabler Schrittlänge anwendet Auf diese seziellen Verfahren wird hier edoch nicht näher eingegangen, sie sind edoch in Fachliteratur (zb Quelle [2])erläutert - 9 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 Oszillation: Ist der Gradient auf der Seite einer steilen Schlucht sehr groß, so ann ein Srung auf die andere Seite auftreten Findet dort das gleiche Phänomen statt, haben wir eine Oszillation Auch hier hilft Momentum Term oder Bacroagation mit Imuls die Oszillation zu reduzieren oder gar omlett zu unterdrücen Abb 43: ( Quelle: [2] ) Verlassen guter Minima: In sehr engen Minima ann der Gradient betragsmäßig so groß sein, dass eine Gewichtsänderung aus diesem Minimum heraus in ein weniger gutes hinein führt Dies ist edoch normalerweise sehr selten Leider begünstigen die Lösungsversuche der obigen Probleme edoch wieder diesen Fehler Abb 44: ( Quelle: [2] ) Insgesamt zeigt sich, dass die Wahl der Schrittweite das eigentliche Problem ist Ist sie zu gering wird das Verfahren ineffizient, ist sie zu groß wird es zu ungenau (unter anderem wegen obigen Probleme) Die Verfahren die dieses Problem lösen sollen, variieren die Schrittweite während des Trainings Wie in Abb 45 dargestellt, ann dies unter Umständen zu einer deutlichen Verbesserung des Trainingverhaltens führen Das Training mit Imuls ist beisielsweise in diesem Fall fünfmal schneller als Offline Training (hier Batch genannt) Abb 45: Vergleich der nötigen Trainingszeiten eines leinen Netzweres für das XOR-Problem ( [3] ) - 0 -

Neuronale Netze - Multilayer Perzetron - 2004-04-3 Mit den Multilayer Perzetronen haben wir in Verbindung mit Bacroagation ein sehr mächtiges Klassifizierungswerzeug Verwendet man nicht die ursrüngliche Version, sondern modifizierte Verfahren wie sie oben bei den Problemlösungen genannt wurden, so lassen sich auch die Nachteile weitestgehend ausbessern 5 Quellenverzeichnis Literaturverzeichnis: [] The essence of Neural Networs Ka 24 Bacroagation learning, S 33-4 Ka 25 Alying the bacroagation networ, S 42-47 R Callan, Prentice Hall, 999 [2] Simulation Neuronaler Netze Ka 8 Bacroagation, S 05-4 A Zell, Addison-Wesley, 996 [3] Theorie der neuronalen Netze: Eine systematische Einführung Ka 7 Bacroagation-Algorithmus, S 54-72 R Roas, Sringer, 993 Internetrecherche: [4] htt://wwwneuroct-websacede (Stand: 2032004) [5] htt://wwwinfuosde/theo/neuro/multilayerperzetron (Stand: 2032004) [6] htt://wwwiwiuni-hannoverde/lv/do_ss03/do-df (Stand: 2032004) [7] htt://www-bbghrzhs-anhaltde/wi/nn_web/was/df/toologiedf (Stand: 3032004) [8] htt://www-bbghrzhs-anhaltde/wi/nn_web/was/df/bacrodf (Stand: 3032004) [9] htt://wwwmathtu-clausthalde/~mtalh/zeitreihen/srit/node5html (Stand: 3032004) - -