Künstliche Neuronale Netze
|
|
|
- Florian Brahms
- vor 6 Jahren
- Abrufe
Transkript
1 Andreas Scherer Überarbeitung: Hermann Helbig, Wolfram Schiffmann Kurs Künstliche Neuronale Netze LESEPROBE
2 Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere das Recht der Vervielfältigung und Verbreitung sowie der Übersetzung und des Nachdrucks bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Kein Teil des Werkes darf in irgendeiner Form (Druck, Fotokopie, Mikrofilm oder ein anderes Verfahren) ohne schriftliche Genehmigung der FernUniversität reproduziert oder unter Verwendung elektronischer Systeme verarbeitet, vervielfältigt oder verbreitet werden.
3 59 Kapitel 4 Die Grundlagen künstlicher Neuronaler Netze Nachdem die Informationsverarbeitung in biologischen Systemen auf neuronaler Ebene behandelt wurde, wollen wir nun zur Beschreibung künstlicher Neuronaler Netze übergehen, die in enger Analogie zu natürlichen Nervensystemen entwickelt wurden. Zu diesem Zwecke betrachten wir Abbildung 4.1. Das natürliche Neuron wird als Prozessorelement (Neuron, Unit) nachgebildet, das eine Neuronenfunktion realisiert, die n Eingaben e 1,...,e n auf eine Ausgabe o (den Output) abbildet. Den Zuleitungen der Eingaben entsprechen die Dendriten des natürlichen Neurons, dem Prozessorelement entspricht der Zellkörper und der Outputableitung entspricht das Axon (vgl. Abb. 4.1a und 4.1b). Die Inputs werden nicht einfach unverändert auf das (künstliche) Neuron geschaltet, sondern jeweils mit einem entsprechenden Gewicht w i (1 i n) versehen. Dadurch wird die Wirkung der Synapsen bzw. deren Verbindungsstärke modelliert. Die Nachbildung eines biologischen Neuronennetzes wird auf technischer Ebene dadurch erreicht, daß mehrere Neuronen zusammengeschaltet werden, indem die Outputs der einen Neuronen als Inputs weiterer Neuronen verwendet werden (vgl. Abb. 4.1c und 4.1d). Dabei bilden die Neuronen, die Inputs von außen erhalten, die Eingabeschicht und die Neuronen, die Outputs nach außen (d.h. nicht auf andere Neuronen) abgeben, die Ausgabeschicht. Alle anderen Neuronen gehören sogenannten verborgenen (d.h. nicht von außen direkt beobachtbaren bzw. beeinflußbaren) Schichten an. In den beiden Teilen e) bzw. f) der Abbildung 4.1 ist die unterschiedliche materielle Basis für natürliche bzw. künstliche Neuronen angedeutet. Dabei ist darauf hinzuweisen, daß Neuronale Netze heute technisch meist nicht unmittelbar als elektronische Schaltungen realisiert werden, sondern vorwiegend programmtechnisch simuliert werden. Beide Vorgehensweisen setzen eine mathematische Modellierung voraus, die hier im Zentrum des Interesses stehen soll.
4 60 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Abbildung 4.1: Analogien zwischen biologischen und künstlichen Neuronalen Netzen
5 4.1. Die charakteristischen Merkmale Neuronaler Netze Die charakteristischen Merkmale Neuronaler Netze Neuronale Netze weisen bestimmte Gemeinsamkeiten auf, die man auch als die building blocks konnektionistischer Architekturen bezeichnet. Verschiedene Netztypen, die in den nachfolgenden Kapiteln behandelt werden, unterscheiden sich in der Regel in einem oder mehreren der nachstehenden Grundelemente. 1. Das Neuron (Zelle, Element, Unit): Das Neuron in einem künstlichen Neuron Neuronalen Netz ist die formalisierte Entsprechung der Nervenzelle in biologischen Systemen. Zur Beschreibung der Funktion eines Neurons werden in der Regel folgende Bestandteile unterschieden: a) Die Inputfunktion oder Propagierungsfunktion (propagation function): Sie beschreibt das Verhalten eines Neurons im Hinblick auf seine integrative Wirkung, indem sie alle Eingaben zu einem Wert, zum sogenannten Nettoinput zusammenfaßt. In der Regel werden die Eingaben der vorgeschalteten Neuronen entsprechend den Gewichtungen der Eingangsdaten aufsummiert. b) Die Aktivierungsfunktion (activation function): Sie bestimmt, wie sich der Aktivierungszustand zum Zeitpunkt t + 1 aus dem Aktivierungszustand im Zeitpunkt t und dem in diesem Zeitpunkt anliegenden Nettoinput errechnet. c) Die Aktivierungszustand (activation state): Er widerspiegelt den aktuellen Erregungszustand eines Neurons (und entsprechend verallgemeinert auch eines ganzen Netzes). Er wird durch den Wert der Aktivierungsfunktion an einem Neuron (bzw. durch das Muster von Neuronen-Aktivierungen über ein ganzes Netz) bestimmt. Nettoinput Aktivierungsfunktion Aktivierungszustand d) Die Ausgabefunktion (output function): Sie legt den tatsäch- Ausgabefunktion lichen Ausgabewert eines Neurons in Abhängigkeit vom aktuellen Aktivierungszustand fest. 2. Der Netzwerkgraph (topology): Ein Neuronales Netz kann als ge- Netzwerkgraph richteter Graph aufgefaßt werden, dessen Kanten die gewichteten Verbindungen zwischen einzelnen Neuronen darstellen. Der Netzwerkgraph wird wesentlich durch die Matrix W = {w ij } der Verbindungsstärken zwischen i-tem und j-tem Neuron bestimmt (pattern of connectivity). Der Netzwerkgraph beschreibt die Topologie des Netzes. Die Knoten des Netztopologie Graphen werden typischerweise in Schichten angeordnet, die durch bestimmte Restriktionen hinsichtlich der Verbindung zwischen den Knoten
6 62 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze jeder Schicht charakterisiert sind. Die Knoten, an die von außen Eingaben übermittelt werden, bilden die Eingabeschicht. Die Knoten, die nach außen Ergebnisse (Outputs) abgeben, bilden die Ausgabeschicht (alle anderen Schíchten werden innere oder verdeckte Schichten gennannt). Lernregel 3. Die Lernregel (learning rule): Diese legt fest, wie bestimmte Netzparameter (in den meisten Fällen sind dies die Gewichte der Neuronenverbindungen) verändert werden sollen, damit das Netz eine gewünschte Leistung (Klassifizierung, Ausbildung bestimmter Assoziationen usw.) hervorbringt. Grundlage der Darstellungen sind im folgenden Zell [Zel94] und Rumelhart und McClelland [RM86]. 4.2 Das Neuron Die technische Realisierung eines Neurons wird wie in Abbildung 4.2 dargestellt beschrieben. Abbildung 4.2: Aufbau eines Neurons
7 4.2. Das Neuron 63 Als Konventionen zur Beschreibung der Bestimmungsstücke eines Neuronalen Netzes werden die folgenden verwendet: i e j w ij Index/Nummer der neuronalen Einheit Eingabewert (Input), der entweder von außen vorgegeben wird oder der Output o j eines anderen Neurons (des Unit mit der Nummer j) in einem Neuronalen Netz ist Faktor, mit dem die j-te Eingabe des i-ten Neurons gewichtet wird (im folgenden kurz Gewicht genannt) Gewicht θ Schwellwert; dieser kann ohne Einschränkung der Schwellwert Allgemeinheit weggelassen und durch einen zusätzlichen festen Input e o = 1 (den sogenannten Bias) und ein entsprechendes Gewicht w io ersetzt werden o i Output des i-ten Elements; f out (a i ) k w ij e j = net i Nettoinput des i-ten Elements (Inputfunktion = Inputfunktion j=1 f in (w i, e)) a i (t) = f act (a i (t 1), net i ) Aktivierung des i-ten Elements; a i (t) wird auch als Aktivierungsfunktion oder als Transferfunktion bezeichnet ( f act ). Oft wird für f act nur eine Schwellwertfunktion angesetzt: a i = f act (net i ) = s(net i ). Transferfunktion Die Inputs eines Neurons oder der Inputschicht werden oft zu einem Vektor e = {e 1,...,e k } zusammengefaßt. Analoges gilt für den Output o = {o 1,...,o m } einer Gruppe von m Neuronen (z.b. aller Neuronen der Ausgabeschicht) oder für die Gewichte w j = {w j1, w j2,...,w jk } aller Eingaben zum Neuron mit der Nummer j. Die Matrix aller Gewichte wird mit W = {w ij } bezeichnet. Vektoren und Matrizen werden im folgenden durch Fettdruck hervorgehoben. Die Verarbeitungseinheit Neuron kann durch die Angabe des Aktivierungszustandes, der verwendeten Propagierungsfunktion, der Aktivierungsfunktion und der Ausgabefunktion vollständig beschrieben werden. Das Neuron n i steht in Verbindung zu seinen Vorgängerneuronen n 1,..., n k. Den Verbindungen von den n 1,..., n k zu n i sind Gewichte w ij zugeordnet. Die Aktivierung des Neurons n i wird nach entsprechender Zwischenverarbeitung durch
8 64 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze dieses Neuron an andere Neuronen oder an die Gesamtausgabe des Netzes weitergeleitet. Im weiteren soll untersucht werden, welche Möglichkeiten es zur Modellierung des Inneren des Neurons gibt Die Inputfunktion oder Propagierungsfunktion Sigma-Units Pi-Units Sigma-Pi-Unit Die Inputfunktion f in gibt an, wie sich der Nettoinput net i des Neurons mit der Nummer i aus den Eingaben e = {e 1,...,e k } zu diesem Neuron errechnet. Der Vektor e spezifiziert dabei entweder Eingaben, die von außen an das Neuron herangeführt werden, oder die e j (1 j k) entsprechen jeweils Ausgaben o j von anderen Neuronen mit der Nummer j (1 j k). Folgende Inputbzw. Propagierungsfunktionen werden für die Beschreibung Neuronaler Netze verwendet: Summation der gewichteten Eingaben k net i = w ij e j (4.1) j=1 Maximalwert der gewichteten Eingaben net i = max(w ij e j ) (4.2) j Produkt der gewichteten Eingaben k net i = w ij e j (4.3) j=1 Minimalwert der gewichteten Eingaben net i = min j (w ij e j ) (4.4) Die Eingaben e j an das Neuron n i werden in allen hier angegebenen Propagierungsfunktionen mit einem entsprechenden Gewicht multipliziert. Anschließend erfolgt eine Aufaddierung, Multiplikation oder Minimum- bzw. Maximumbildung. Neuronen mit Inputfunktion (4.1) werden auch als Sigma-Units (Σ-Units) und solche mit Inputfunktion (4.3) als Pi-Units (Π-Units) bezeichnet. Eine Kombination von beiden heißt dementsprechend Sigma-Pi-Unit. Als Definitions- und Wertebereiche für die beschriebenen Inputfunktionen kommen sowohl diskrete als auch kontinuierliche Wertemengen (z.b. die Menge aller reellen Zahlen) in Frage. Die Propagierungsfunktion (4.1) ist eine der am häufigsten verwendeten Vorschriften zur Berechnung des Nettoinputs bei Neuronalen Netzen. Sie kann unter Verwendung der Vektordarstellung e = {e 1,...,e k } für den Eingabevektor und w i = {w i1, w i2,..., w ik } für den Gewichtsvektor des i-ten Neurons auch in Form eines Skalarprodukts geschrieben werden: k net i = w ij e j = w i e (4.5) j=1
9 4.2. Das Neuron Aktivierungsfunktion und Aktivierungszustand Der Aktivierungszustand a i (t) beschreibt den Zustand eines Neurons n i zum Zeitpunkt t. Man kann a i (t) auch als inneren Zustand oder Erregung zum Zeitpunkt t auffassen. Die Aktivierungsfunktion f act (auch Transferfunktion, activation function genannt) gibt an, wie sich aus dem vorherigen Zustand und dem aktuellen Input der Zustand des Neurons zum Zeitpunkt t + 1 berechnet. Allgemeine Aktivierungsfunktion a i (t + 1) = f act (a i (t), net i (t)) (4.6) Die Berücksichtigung des zeitlich vorangehenden Aktivierungszustandes stellt eine Modellierungsoption dar, die häufig nicht eingesetzt wird. Praktisch relevant sind folgende Klassen von Aktivierungsfunktionen: lineare Aktivierungsfunktionen, Schwellwertfunktionen, sigmoide Funktionen (Sigmoide) Die Wahl der Aktivierungsfunktion hängt vom konkret vorliegenden Anwendungsproblem ab und bestimmt wesentlich den Netztyp. Lineare Aktivierungsfunktion. Im einfachsten Falle werden lineare Funktionen zur Berechnung der Aktivierung verwendet. Der Hauptvorteil besteht darin, daß sich solche Funktionen leicht berechnen und schnell implementieren lassen. Lineare Aktivierungsfunktionen werden nur dann eingesetzt, wenn das Netz keine verdeckten Schichten besitzt (d. h. nur aus einer Ein- und Ausgabeschicht besteht) und die Korrelation zwischen Ein- und Ausgabedaten linear ist bzw. hinreichend genau linear approximiert werden kann. Lineare Aktivierungsfunktion Abbildung 4.3: Identität als Aktivierungsfunktion
10 66 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Lineare Aktivierungsfunktionen werden durch Gleichung (4.7) beschrieben, ein Beispiel für eine solche Funktion ist die Identität (vgl. Abb. 4.3). Es kommen aber auch abschnittsweise lineare Funktionen zum Einsatz (vgl. Gleichung (4.8) und Abb. 4.4). o i = c i net i (lineare Outputfunktion) (4.7) 1 wenn net i 1 o i = 1 wenn net i 1 net i sonst abschnittsweise lineare Funktion (4.8) Abbildung 4.4: Abschnittsweise lineare Aktivierungsfunktion Die Verwendung von linearen Aktivierungsfunktionen ist wie bereits angedeutet nur sinnvoll, wenn das Neuronale Netz aus zwei Schichten (der Eingabe- und der Ausgabeschicht) besteht. Ein mehrschichtiges Netz mit n > 2 Schichten kann mit linearen Aktivierungsfunktionen nicht mehr leisten als ersteres. Es kann immer auf ein zweilagiges Netz reduziert werden, wie nachfolgende Rechnung zeigt (vgl. Abb. 4.5). Sei o n (l) der Outputvektor der n-ten Schicht, wobei l die Anzahl der Komponenten des Vektors, d.h. die Zahl der Neuronen in dieser Schicht, angibt. Sei weiter W (l,k) n,(n 1) die Matrix der Gewichtsfaktoren vom Typ (l, k), d.h. mit l Zeilen und k Spalten, die die Gewichte zwischen Neuronen der (n 1)-ten und der n-ten Schicht zusammenfaßt. Ein Matrixelement w ij dieser Matrix bezeichnet das Gewicht der Verbindung vom j-ten Neuron der (n 1)-ten Schicht (1 j k) zum i-ten Neuron der n-ten Schicht (1 i l). Bei der Verwendung einer linearen Aktivierungsfunktion und Gleichsetzen von Aktivierung und Output gilt für das j-te Neuron o j = a j = c j net j. Schreibt man noch die Linearfaktoren der n-ten Schicht aus Gleichung (4.7) als Diagonalmatrix vom Typ (l, l) (diese sind in Abb. 4.5 in den Kreisen angegeben) und repräsentiert die Nettoinputs jeder Schicht analog zu den Outputs in Vektorschreibweise, dann gelten mit den Bezeichnungen aus Abbildung 4.5 folgende C (l,l) n
11 4.2. Das Neuron 67 Abbildung 4.5: Musternetz zur Schichtenreduktion Gleichungen (wie die oberen Indizes, d.h. die Typangaben zeigen, ist in den Formeln auch die korrekte Verkettung der Matrizen und Vektoren gesichert). o (m) n+1 = C(m,m) n+1 net (m) n+1 = C(m,m) n+1 W (m,l) (n+1), n o(l) n = C (m,m) n+1 W (m,l) (n+1), n C(l,l) n net n (l) (4.9) = C (m,m) n+1 W (m,l) (n+1), n C(l,l) n W (l,k) n,(n 1) o(k) n 1 setzt man noch: W (m,k) (n+1), (n 1) = W(m,l) (n+1), n C(l,l) n W (l,k) n,(n 1) (4.10) so erhält man: o (m) n+1 = C(m,m) n+1 W (m,k) (n+1), (n 1) o(k) n 1 (4.11) Diese Gleichung drückt genau den behaupteten linearen Zusammenhang zwischen (n 1)-ter und (n + 1)-ter Neuronenschicht nur unter Verwendung einer modifizierten Gewichtsmatrix aus. Durch wiederholte Anwendung dieses Reduktionsverfahrens läßt sich jedes so aufgebaute mehrschichtige Netz auf zwei Schichten reduzieren. Für das Beispiel aus Abbildung 4.5 ergibt sich durch Anwendung der Reduktionsgleichung (4.10) das in Abbildung 4.6 dargestellte äquivalente Neuro-
12 68 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze nale Netz aufgrund nachstehender Berechnung: W (3,3) 31 = W (3,2) 32 C (2,2) 2 W (2,3) 21 = = ( ) ( ) Abbildung 4.6: Reduziertes Netz (äquivalent zu Beispielnetz aus Abb. 4.5) Schwellwertfunktion. Eine einfache Variante, den Aktivierungszustand eines Neurons zu berechnen, stellt die sogenannte Schwellwertfunktion dar (vgl. Gleichung (4.12) und Abb. 4.7). Sie wird vorwiegend in den klassischen Netztypen (z. B. im Perzeptron, s. Kap. 5) verwendet. Schwellwertfunktion { 1 falls neti θ o i = i 0 sonst (4.12) Abbildung 4.7: Schwellwertfunktion Diese Funktion kann besonders effizient ausgewertet werden und ist auch leicht zu implementieren. In neueren Netzwerktypen wird jedoch häufig die
13 4.2. Das Neuron 69 Differenzierbarkeit der Aktivierungsfunktion gefordert (z. B. in mehrschichtigen Netzen, s. Kap. 5). Da Schwellwertfunktionen an der Sprungstelle nicht differenzierbar sind, verbietet sich ihre Anwendung innerhalb dieser Verfahren. Sigmoide. Sigmoide Aktivierungsfunktionen (das sind Funktionen, deren graphische Darstellung einen S-förmigen Verlauf zeigt) werden in einer Reihe von Netzwerktypen angewendet. Sie spielen eine große Rolle bei der Modellierung nichtlinearer Beziehungen zwischen Ein- und Ausgabedaten. Zudem erfüllen sie folgende wesentliche Anforderungen: Sigmoide Stetigkeit, Differenzierbarkeit, Monotonie. Hier seien nur zwei sigmoide Aktivierungsfunktionen und deren Ableitungen beschrieben: 1) Die Fermi-Funktion Fermi-Funktion Die nach dem Physiker Fermi benannte Funktion, die auch eine wichtige Rolle in der Thermodynamik spielt (und zwar in der Fermi-Statistik); sie wird mitunter auch als logistische Funktion bezeichnet und hat die Form: s F (x) = e x/t (4.13) Ihr Wertebereich ist das offene Intervall ]0, 1[ (vgl. Abb. 4.8); sie hat die besondere Eigenschaft, daß sich ihre erste Ableitung durch die Funktion selbst ausdrücken läßt: d dx s F(x) = s F (x)(1 s F (x)) 1 T (4.14) logistische Funktion Abbildung 4.8: Fermi-Funktion für T = 0.5
14 70 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze In Analogie zur Physik wird T auch als Temperaturparameter bezeichnet, der nach (4.14) den Anstieg der Fermi-Funktion bestimmt (kleines T bedeutet starken Anstieg in der Umgebung von x = 0). Tangens hyperbolicus 2) Der Tangens hyperbolicus Auch der Tangens hyperbolicus (Symbol: tanh) wird als Transferfunktion verwendet. Die entsprechende Funktionsgleichung ist definiert durch: s tanh (x) = ex e x e x + e x (4.15) Der Wertebereich ist das offene Intervall ] 1; 1[ (vgl. Abb. 4.9). Die Ableitung des Tangens hyperbolicus berechnet sich wie folgt: d dx s tanh(x) = 1 s 2 tanh (x) (4.16) Abbildung 4.9: Tangens hyperbolicus Die Ausgabefunktion Allgemeine Ausgabefunktion Die Ausgabefunktion bildet den aktuellen Zustand des Neurons auf einen gewünschten Wertebereich ab. Viele Autoren führen die Ausgabefunktion nicht gesondert auf, sondern verstehen diese als Bestandteil der Aktivierungsfunktion. Bei hybriden Netzen mit verschiedenen Aktivierungsfunktionen, die unterschiedliche Definitions- und Wertebereiche haben, muß jedoch eine explizite Ausgabefunktion eingesetzt werden. An dieser Stelle führen wir daher formal die Ausgabefunktion f out ein, für die allerdings wie bereits bemerkt häufig die Identitätsfunktion verwendet wird. o i (t + 1) = f out (a i (t + 1)) = f out (f act (a i (t), net i (t))) (4.17) 4.3 Der Netzwerkgraph Die Leistungsfähigkeit konnektionistischer Verfahren beruht allgemein auf der Verbindung vieler einfacher Prozessorelemente zu einer netzartigen aktiven
15 4.3. Der Netzwerkgraph 71 Struktur, die in der Lage ist, komplexere Problemstellungen zu lösen. Man kann diese Struktur als einen endlichen Graphen darstellen. In der Fachsprache existieren einige Begriffe, die unterschiedliche Topologievarianten benennen. Diese sollen im folgenden kurz eingeführt werden. Definition 4.1 Mathematisch ist ein Neuronales Netz ein gerichteter Graph, der aus einer Menge von Knoten, den Neuronen N = {n 1,...,n m } und einer Menge von gewichteten Verbindungen, das sind markierte Kanten A = {a 1,...,a p } besteht, mit A N N und einer Markierungsfunktion µ(a) = w (mit a A und w W, dem Wertebereich der Gewichte). In vielen Neuronalen Netzen läßt sich die Gesamtheit N der Neuronen vollständig in Partitionen S n (1 n k) zerlegen, wobei S n N und k S i = N und S i S j = für i j. Dieser Zerlegung liegt die Vorstellung zugrunde, daß die Neuronen einer Partition diese wird auch Schicht genannt eine in paralleler Arbeit realisierte, gemeinsame Funktion im Gesamtverband der Neuronen besitzen. Dem Begriff der Schicht liegt also das Konzept von Funktionseinheiten bzw. der Modularisierung von Netzen zugrunde. Folgende wichtige Netztopologien lassen sich unterscheiden: i=1 Neuronales Netz als Graph Schichten Netztopologie Feedforward-Netze (FF-Netze) 1. Ordnung, 2. Ordnung. Feedback-Netze (FB-Netze) Dazu gehören Feedback-Netze mit: indirektem Feedback, Lateralverbindung, vollständiger Vermaschung FF-Netze Bei dieser Topologievariante kann man die Schichten des entsprechenden Netzes ordnen. Seien also die S n (1 n k) zu einem Netz gegeben. Man spricht von einem FF-Netz 1. Ordnung genau dann, wenn es nur gerichtete Verbindungen zwischen Schicht S n und Schicht S n+1 gibt. Man sagt auch, das Netz ist schichtweise verbunden (vgl. Abb. 4.10a). FF-Netz 1. Ordnung
16 72 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Abbildung 4.10: Feedforward-Netze FF-Netz 2. Ordnung Ein Netz heißt FF-Netz 2. Ordnung genau dann, wenn Neuronen einer Schicht S n auch gerichtete Verbindungen zu Neuronen aus höheren Schichten S n+m mit m > 1 aufweisen. Man nennt Verbindungen in FF-Netzen, die von Schicht S n nach S n+m mit m > 1 verlaufen, shortcut connections. (vgl. Abb.4.10b). Ein Neuronales Netz NN ist genau dann ein Feedforward-Netz, wenn der entsprechende gerichtete Graph zyklenfrei ist FB-Netze direkte Rückkopplung indirekte Rückkopplung Bei den rückgekoppelten Netzen verlaufen gerichtete Verbindungen von Neuronen höherer Schichten zu Neuronen niedrigerer Schichten bzw. zu Neuronen der gleichen Schicht. Diese Art von Rückkopplung kann bei einer Reihe von Problemen mit komplexer zeitlicher Dynamik sehr wertvoll sein (vgl. Abb. 4.11). Ein Feedback-Netz weist direkte Rückkopplungen auf, wenn ein Neuron n N seine Ausgabe direkt wieder als Eingabe erhält und bei dem nächsten Bearbeitungsschritt in die Berechnung seines neuen Aktivierungszustandes einfließen läßt (vgl. Abb. 4.11a). Ein Feedback-Netz mit indirekter Rückkopplung weist Verbindungen von Schichten S n+k zu Schichten S n auf, mit (k 1), und es gibt gleichzeitig gerichtete direkte oder indirekte Verbindungen der Neuronen von Schicht S n zu Schichten S n+k. Rückkopplungen werden häufig dazu verwendet, bestimmte Bereiche der Eingabe als besonders relevant hervorzuheben (vgl. Abb. 4.11b).
17 4.4. Die Lernregel 73 Abbildung 4.11: Rückkopplung in Neuronalen Netzen Netze mit Lateralverbindung (vgl. Abb 4.12a) weisen Kanten zwischen Neuronen der gleichen Schicht auf. Häufig wird diese Art von Verbindung dazu benutzt, die Aktivität eines Neurons hervorzuheben, während gleichzeitig der Einfluß benachbarter Neuronen gedämpft wird (vgl. hierzu die Ausführungen zur lateralen Hemmung in Abschnitt 3.4 und zu Kohonen-Netzen in Kurseinheit 4). Ein Netz heißt vollständig vermascht, wenn jedes Neuron n i N zu jedem Neuron n j N (i j) eine gerichtete Verbindung aufweist (vgl. Abb. 4.12b). Diese Topologievariante wird bei sogenannten Hopfield-Netzen verwendet. Lateralverbindung vollständige Vermaschung 4.4 Die Lernregel Eine der zentralen Eigenschaften Neuronaler Netze ist ihre Lernfähigkeit. Diese Fähigkeit impliziert im elementarsten Fall, daß ein Netz früher vorgegebene Paare von Ein- und Ausgabe-Daten bei Vorgabe des Inputs einfach reproduzieren kann (analog zum Auswendiglernen beim Menschen). Diese Leistung allein würde aber für interessante Anwendungen noch nicht genügen. Was man tatsächlich anstrebt, ist ein generalisiertes Lernen. Hierzu muß zunächst eine geeignete netzinterne Repräsentation der Eingabedaten ausgebildet werden. Die Lernregel legt dabei fest, nach welcher Strategie das Netz zu verändern ist, um diese interne Repräsentation zu erzielen. Es gibt grundsätzlich mehrere Möglichkeiten, ein solches Lernverfahren zu realisieren: Lernverfahren 1. Aufbauen und Löschen von Verbindungen, 2. Hinzufügen und Löschen von Neuronen,
18 74 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Abbildung 4.12: Lateralverbindung und vollständige Vermaschung 3. Modifikation der Gewichte von Verbindungen, 4. Modifikation von Parametern innerhalb des Neurons (Variation von internen Parametern der Aktivierungsfunktion, Schwellwertänderungen etc.). Variante 3 stellt eine der am häufigsten eingesetzten Lernstrategien dar. Insbesondere kann man mit dieser Methode Variante 1 simulieren, indem nicht existierende Verbindungen zwischen zwei Neuronen einfach mit 0 gewichtet werden. In den folgenden Kurseinheiten werden verschiedene Lernverfahren detailliert behandelt, die eine oder mehrere der oben angeführten Strategien einsetzen. Zunächst sollen aber einige der bekanntesten Lernregeln unabhängig von ihrem Einsatz in bestimmten Netzen eingeführt werden Hebbsche Lernregel Hebbsche Lernregel Bereits Ende der 40er Jahre stellte Donald Hebb (Hebb, 1949) die Theorie auf, daß assoziatives Speichern in biologischen Systemen auf Prozessen beruht, die die Verbindung zwischen Nervenzellen modifizieren. In der nach ihm benannten Hebbschen Regel führt er Lernen auf das folgende einfache Prinzip zurück. Wenn zwei Neuronen n i und n j zur gleichen Zeit aktiv sind und eine Verbindung zwischen beiden Neuronen existiert, so ist das Gewicht dieser Verbindung in definierter Weise zu verstärken: w ij = η a i o j (4.18) Hierbei ist w ij die Veränderung des Verbindungsgewichtes von Neuron n j zum Neuron n i, a i die Aktivierung von Neuron n i, o j die Ausgabe von Neuron n j und η eine geeignet zu wählende Lernrate.
19 4.4. Die Lernregel 75 In technischen Systemen, die sich an die Hebbsche Regel anlehnen, legt die Lernrate η fest, wie groß die Veränderung eines Verbindungsgewichtes innerhalb eines Lernschritts sein soll. Sie wird meist als Konstante angegeben und ist ein kritischer Parameter, der sorgfältig ausgewählt werden sollte. In Kap. 5, Backpropagation, wird ein Verfahren vorgestellt, das diese Lernrate in der Lernphase modifiziert. Lernrate Delta-Regel Eine weitere wichtige Lernregel ist die von Widrow und Hoff entwickelte Delta- Regel [WH60]. Sie ist für sogenannte einstufige FF-Netze geeignet. Ihr liegt folgende Überlegung zugrunde. Solange eine Abweichung zwischen der Zielausgabe und Sollausgabe eines Netzes festgestellt wird, verändert man die internen Gewichte der Verbindung zwischen Ein- und Ausgabeschicht in definierter Weise, und zwar genau nach Formel (4.19). Übergeordnetes Ziel ist es, durch iterative Anwendung der Delta-Regel die Ist-Ausgabe des Netzes in Richtung der gewünschten Soll- Ausgabe zu verschieben. Delta-Regel w ij = η o j (o i o i ) (4.19) Hierbei ist w ij wieder die Veränderung des Verbindungsgewichtes von Neuron n j zu Neuron n i. Der Term δ i = (o i o i ) beschreibt die Differenz zwischen der Sollausgabe o i und der Ist-Ausgabe o i für das Neuron n i, o j ist die Ausgabe des Vorgängerneurons n j. Wenn die Differenz δ i gegen Null geht, d.h. Soll- und Ist-Ausgabe für das betreffende Neuron bereits nahe beieinander liegen, dann fällt die entsprechende Änderung w ij für die Neuron n j mit Neuron n i verbindende Kante entsprechend klein aus Erweiterte Delta-Regel Die einfache Delta-Regel hat den Nachteil, daß sie als Lernregel für mehrschichtige Neuronale Netze nicht ohne weiteres anwendbar ist, da man den Parameter δ i für die inneren (verdeckten) Neuronen nicht unmittelbar bestimmen kann. Deshalb wurde eine erweiterte Delta-Regel entwickelt, die für mehrschichtige FF-Netze höherer Ordnung einsetzbar ist. Wie wir noch sehen werden, hat dies sehr weitreichende Konsequenzen im Hinblick auf die mit solchen Neuronalen Netzen lösbaren Problemklassen. Die erweiterte Delta-Regel ist definiert durch: Erweiterte Delta-Regel w ij = η o j δ i δ i = { s F (net i )(o i o i ) falls n i ein Ausgabeneuron ist s F (net i) k (δ k w ki ) sonst (4.20)
20 76 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Der Index k läuft dabei über alle Nachfolgerneuronen des Neurons n i, d.h. über alle Neuronen, die näher zur Outputschicht liegen. Die Funktion s F ist die erste Ableitung der in dem Neuron als Aktivierungsfunktion verwendeten Fermifunktion. Die ausführliche Herleitung der erweiterten Delta-Regel wird in Kap. 6 (KE 3) angegeben. 4.5 Die Arbeitsphasen Neuronaler Netze In der Arbeit Neuronaler Netze unterscheidet man zwei verschiedene Phasen oder Modi: Lernphase Ausführungsphase überwachtes Lernen Autoadaptation die Lernphase oder Trainingsphase, in der in Abhängigkeit vom Verhalten des Netzes zielgerichtet Parameterveränderungen vorgenommen werden, die Ausführungsphase (Recall Mode), in der das Netz die eingelernten Leistungen (Klassifizieren, Assoziieren usw.) erbringt. Es gibt zwei verschiedene Arten von Lernen. Beim überwachten Lernen (assoziativen Lernen) werden dem System bestimmte Vektoren von Eingabewerten e = {e 1,...,e n } und die zu diesen gehörenden, d.h. die gewünschten Ausgabedaten o = {o 1, o 2,...,o m } vorgegeben. Durch geeignete Änderung der Gewichte wird dann versucht, genau die gewünschte Input/Output-Relation (e, o) mit dem Netz zu realisieren. Beim nicht-überwachtem Lernen (entdeckenden Lernen) erhält das System nur die Eingabedaten und muß sich dann gewissermaßen von selbst einstellen. Diesen Vorgang nennt man Autoadaptation. Bei Netzen, die diese Art des Lernens zeigen, besteht die Leistung im Recall Mode darin, daß bei Eingaben, die sich ähneln (zur gleichen Klasse gehören), immer auch ähnliche Erregungsmuster der Neuronen ausgebildet werden. Bei diesen Netzen werden die in den Daten enthaltenen Ähnlichkeitsklassen erst im Laufe des Lernens entdeckt (entdeckendes Lernen). 4.6 Datenräume Partitionierung des Datenraums Stellt man sich die Ein- und Ausgaben bzw. Aktivierungen eines Neuronalen Netzes als Punkte in einem mehrdimensionalen Datenraum vor, so definiert ein entsprechend trainiertes Netz die Partitionierung dieses Datenraums in Teilräume. In den nachfolgenden Bildern ist jeweils die Aktivierung eines (einzigen) Outputneurons über beiden Eingaben in das Neuronale Netz aufgetragen, dies
21 4.6. Datenräume 77 ergibt eine dreidimensionale Darstellung: je eine Dimension für die beiden Inputs (die beiden waagrechten Achsen) und für den Output (senkrechte Achse). Den einzelnen Partitionen des Datenraums entsprechen Klassen von Eingaben und jeder Klasse entspricht bei geeignetem Training des Netzes wiederum ein bestimmter Ausgabevektor. Komplexe Probleme zeichnen sich üblicherweise dadurch aus, daß die Klassengrenzen nichtlinearer Natur sind. Das trainierte Netz fungiert demnach als Klassifikator, der Eingabevektoren den entsprechenden Klassen zuordnet. Um das für eine bestimmte Anwendung adäquate Klassifikationsverhalten zu erzielen, müssen vom Netz möglicherweise sehr kompliziert geformte Entscheidungsflächen im Datenraum ausgebildet werden, die die Klassen separieren. Klassifikation und Entscheidungsflächen Abbildung 4.13: Beispielnetze Einfluß der Aktivierungsfunktion auf die Entscheidungsfläche Zum Abschluß soll veranschaulicht werden, welchen Einfluß die Aktivierungsund Propagierungsfunktionen auf die Gestalt der Entscheidungsflächen haben. Für ein einfaches Netz (vgl. Abb. 4.13) werden unter Variation der Aktivierungsfunktion, der Propagierungsfunktion und gewisser Netzverbindungen die resultierenden Entscheidungsflächen für das Ausgabeneuron dargestellt. Die Entscheidungsebene aus Abbildung 4.14 veranschaulicht nochmals graphisch die Ausführungen in Kapitel zur Wirkung linearer Aktivierungsfunktionen. Dort wurde gezeigt, daß von diesen bei zwei Eingängen auch in mehrschichtigen Netzen nur eine zweidimensionale Entscheidungsebene erzeugt werden kann. In Abbildung 4.15 wurde für Netz 1 die gewichtete Summe der Eingangsaktivitäten (Gleichung 4.1) als Propagierungsfunktion verwendet. Als Aktivierungsfunktion ist der einfache tangens hyperbolicus eingesetzt worden. Als Re-
22 78 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Abbildung 4.14: Verwendung linearer Aktivierungsfunktionen (Netz 1) Abbildung 4.15: Verwendung des tangens hyperbolicus (Netz 1) sultat erhält man eine im Raum gekrümmte Entscheidungsfläche. Diese erlaubt im Vergleich zu Abbildung 4.14 bereits eine komplexere Klassifikationsleistung. In den Abbildungen 4.16 und 4.17 zeigt sich schließlich der Effekt des Einsatzes von Sigma-Pi-Units (vgl. Kap , Formeln (4.1) bzw. (4.3)) und von Veränderungen der Netztopologie. Man erkennt, daß mit diesen Maßnahmen weitere Faltungen der Entscheidungsfläche erzielbar sind.
23 4.6. Datenräume 79 Abbildung 4.16: Verwendung des tangens hyperbolicus mit SigmaPi-Units (Netz 1) Einfluß der verdeckten Neuronen auf die Entscheidungsfläche Entsprechend den Ausführungen aus Kapitel 2 zum Thema Entscheidungsflächen kann ein Neuronales Netz als ein Funktionsapproximator angesehen werden, der den Verlauf einer gewünschten Entscheidungsfläche bzw. eine Näherung derselben berechnet. Dabei spielt die Konfiguration des Netzes eine entscheidende Rolle. Abbildung 4.18 zeigt eine exemplarische Trainingsmenge. Die Gesamtmenge folgt in ihrem Grundverlauf einer kubischen Funktion f(x). Aufgrund leichter stochastischer Störungen zeigen jedoch die Einzelfälle mehr oder weniger starke Abweichungen von dieser kubischen Grundfunktion. Angenommen, man würde die den Trainingsdaten zugrundeliegende Funktion genau kennen, dann stellte natürlich ein Polynom dritten Grades die beste Approximation dar. Durch geeignete Wahl der Koeffizienten kann dann eine optimale Approximation der Grundfunktion und der verrauschten Beispieldaten bei minimaler mittlerer Abweichung (s. Abb. 4.20) erreicht werden. Diese Funktion würde die Trainingsdaten am besten generalisieren. Da die Grundfunktion nicht bekannt ist, kann man versuchen, diese sukzessive durch Polynome unterschiedlichen Grades anzunähern. Beginnt man die Daten durch eine quadratische Funktion zu approximieren, so stellt diese nur eine schlechte Annäherung an die tatsächlichen Gegebenheiten dar (s. Abb. 4.19). Wählt man andererseits ein Polynom höheren als dritten Grades, so optimiert man immer mehr den Reproduktionsfehler auf der Trainingsmenge, verliert aber gleichzeitig den funktionellen Zusammenhang. Abbildung 4.21
24 80 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Abbildung 4.17: Verwendung des tangens hyperbolicus mit SigmaPi-Units und veränderter Netztopologie (Netz 2) Overfitting zeigt dies besonders deutlich. Hier wird letztlich das stochastische Rauschen im Detail beschrieben, und die Oszillationseffekte bestimmen den Funktionsverlauf zwischen den Datenpunkten. Der gewünschte Generalisierungseffekt würde aber i.a. verlorengehen, da die so berechnete Funktion zwar die Trainingsdaten übergenau wiedergibt, aber im weiteren Verlauf ein ganz anderes Verhalten zeigt als die intendierte Grundfunktion (sogenanntes Overfitting ).
25 4.6. Datenräume 81 Abbildung 4.18: Eine kubische, stochastisch gestörte Funktion f (nach [Was93]) Abbildung 4.19: Eine quadratische Approximation zu f (nach [Was93])
26 82 Kapitel 4. Die Grundlagen künstlicher Neuronaler Netze Abbildung 4.20: Eine kubische Approximation zu f (nach [Was93]) Abbildung 4.21: Eine Approximation zehnten Grades zu f (nach [Was93])
Hannah Wester Juan Jose Gonzalez
Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron
Künstliche neuronale Netze
Künstliche neuronale Netze Eigenschaften neuronaler Netze: hohe Arbeitsgeschwindigkeit durch Parallelität, Funktionsfähigkeit auch nach Ausfall von Teilen des Netzes, Lernfähigkeit, Möglichkeit zur Generalisierung
11. Neuronale Netze 1
11. Neuronale Netze 1 Einführung (1) Ein künstliches neuronales Netz ist vom Konzept her eine Realisierung von miteinander verschalteten Grundbausteinen, sogenannter Neuronen, welche in rudimentärer Form
Aufbau und Beschreibung Neuronaler Netzwerke
Aufbau und Beschreibung r 1 Inhalt Biologisches Vorbild Mathematisches Modell Grundmodelle 2 Biologisches Vorbild Das Neuron Grundkomponenten: Zellkörper (Soma) Zellkern (Nukleus) Dendriten Nervenfaser
Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze Reinhard Eck 1
Der Backpropagation-Algorithmus als Beispiel für Lernalgorithmen künstlicher neuronaler Netze 2.04.2006 Reinhard Eck Was reizt Informatiker an neuronalen Netzen? Wie funktionieren Gehirne höherer Lebewesen?
Andreas Scherer. Neuronale Netze. Grundlagen und Anwendungen. vieweg
Andreas Scherer Neuronale Netze Grundlagen und Anwendungen vieweg Inhaltsverzeichnis Vorwort 1 1 Einführung 3 1.1 Was ist ein neuronales Netz? 3 1.2 Eigenschaften neuronaler Netze 5 1.2.1 Allgemeine Merkmale
Thema 3: Radiale Basisfunktionen und RBF- Netze
Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung
Neuronale Netze (Konnektionismus)
Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Daniel Göhring Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung
Konzepte der AI Neuronale Netze
Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: [email protected] Was sind Neuronale
Neuronale Netze (Konnektionismus) Einführung in die KI. Beispiel-Aufgabe: Schrifterkennung. Biologisches Vorbild. Neuronale Netze.
Einführung in die KI Prof. Dr. sc. Hans-Dieter Burkhard Vorlesung (Konnektionismus) sind biologisch motiviert können diskrete, reell-wertige und Vektor-wertige Funktionen berechnen Informationsspeicherung
Künstliche Neuronale Netze
Inhalt (Biologische) Neuronale Netze Schwellenwertelemente Allgemein Neuronale Netze Mehrschichtiges Perzeptron Weitere Arten Neuronaler Netze 2 Neuronale Netze Bestehend aus vielen Neuronen(menschliches
6 Neuronale Modellierung: Der STAA-Ansatz
Bernd J. Kröger: Neuronale Sprachverarbeitung (Version 1.0.4) Seite 150 6 Neuronale Modellierung: Der STAA-Ansatz 6.1 Knoten: die STAA-Neuronensembles 6.1.1 Aktivierungslevel, Aktivierungsfunktion und
kurze Wiederholung der letzten Stunde: Neuronale Netze Dipl.-Inform. Martin Lösch (0721) Dipl.-Inform.
kurze Wiederholung der letzten Stunde: Neuronale Netze [email protected] (0721) 608 45944 Labor Wissensrepräsentation Aufgaben der letzten Stunde Übersicht Neuronale Netze Motivation Perzeptron Multilayer
Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20
Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt
Proseminar Machine Learning. Neuronale Netze: mehrschichtige Perzeptrone. Christina Schmiedl Betreuer: Christian Spieth, Andreas Dräger
Proseminar Machine Learning Neuronale Netze: mehrschichtige Perzeptrone Christina Schmiedl Betreuer: Christian Spieth, Andreas Dräger 27.Mai 2006 Inhaltsverzeichnis 1 Biologische Motivation 2 2 Neuronale
Auch wenn Prof. Helbig die Prüfung nicht mehr lange abnimmt, hier ein kurzer Eindruck:
Diplomprüfung Informatik Kurs 1830 Neuronale Netze Prüfer: Prof. Dr. Helbig Beisitzer: Prodekan Prof. Dr. Hackstein Datum: 01.10.08 Note: 2,7 Auch wenn Prof. Helbig die Prüfung nicht mehr lange abnimmt,
Maschinelles Lernen: Neuronale Netze. Ideen der Informatik
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale
Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und
Was bisher geschah Künstliche Neuronen: Mathematisches Modell und Funktionen: Eingabe-, Aktivierungs- Ausgabefunktion Boolesche oder reelle Ein-und Ausgaben Aktivierungsfunktionen: Schwellwertfunktion
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Albayrak, Fricke (AOT) Oer, Thiel (KI) Wintersemester 2014 / 2015 8. Aufgabenblatt
Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs)
6. Neuronale Netze Motivation Wir haben in den vorherigen Kapiteln verschiedene Verfahren zur Regression und Klassifikation kennengelernt (z.b. lineare Regression, SVMs) Abstrakt betrachtet sind alle diese
6.4 Neuronale Netze zur Verarbeitung von Zeitreihen
6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1
Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)
Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)
29 Neuronale Netze Gehirn: ca. 10 11 Neuronen stark vernetzt Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) Mustererkennung in 0.1s 100 Schritte Regel 30 Was ist ein künstl. neuronales Netz? Ein
Adaptive Systeme. Neuronale Netze: Neuronen, Perzeptron und Adaline. Prof. Dr. rer. nat. Nikolaus Wulff
Adaptive Systeme Neuronale Netze: Neuronen, Perzeptron und Adaline Prof. Dr. rer. nat. Nikolaus Wulff Neuronale Netze Das (menschliche) Gehirn ist ein Musterbeispiel für ein adaptives System, dass sich
Neuronale Netze in der Phonetik: Feed-Forward Netze. Pfitzinger, Reichel IPSK, LMU München {hpt 14.
Neuronale Netze in der Phonetik: Feed-Forward Netze Pfitzinger, Reichel IPSK, LMU München {hpt reichelu}@phonetik.uni-muenchen.de 14. Juli 2006 Inhalt Typisierung nach Aktivierungsfunktion Lernen in einschichtigen
Praktische Optimierung
Wintersemester 27/8 Praktische Optimierung (Vorlesung) Prof. Dr. Günter Rudolph Fakultät für Informatik Lehrstuhl für Algorithm Engineering Metamodellierung Inhalt Multilayer-Perceptron (MLP) Radiale Basisfunktionsnetze
Konvergenz von Hopfield-Netzen
Matthias Jauernig 1. August 2006 Zusammenfassung Die nachfolgende Betrachtung bezieht sich auf das diskrete Hopfield-Netz und hat das Ziel, die Konvergenz des Verfahrens zu zeigen. Leider wird dieser Beweis
5. Lernregeln für neuronale Netze
5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1
Wissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 20.07.2017 1 von 11 Überblick Künstliche Neuronale Netze Motivation Formales Modell Aktivierungsfunktionen
Linear nichtseparable Probleme
Linear nichtseparable Probleme Mustererkennung und Klassifikation, Vorlesung No. 10 1 M. O. Franz 20.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
auch: Konnektionismus; subsymbolische Wissensverarbeitung
10. Künstliche Neuronale Netze auch: Konnektionismus; subsymbolische Wissensverarbeitung informationsverarbeitende Systeme, bestehen aus meist großer Zahl einfacher Einheiten (Neuronen, Zellen) einfache
(hoffentlich kurze) Einführung: Neuronale Netze. Dipl.-Inform. Martin Lösch. (0721) Dipl.-Inform.
(hoffentlich kurze) Einführung: [email protected] (0721) 608 45944 Überblick Einführung Perzeptron Multi-layer Feedforward Neural Network MLNN in der Anwendung 2 EINFÜHRUNG 3 Gehirn des Menschen Vorbild
Lineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
Wissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial
Künstliche Neuronale Netze
Künstliche Neuronale Netze als Möglichkeit, einer Maschine das Lesen beizubringen Anja Bachmann 18.12.2008 Gliederung 1. Motivation 2. Grundlagen 2.1 Biologischer Hintergrund 2.2 Künstliche neuronale Netze
Neuronale. Netze. Henrik Voigt. Neuronale. Netze in der Biologie Aufbau Funktion. Neuronale. Aufbau Netzarten und Topologien
in der Seminar Literaturarbeit und Präsentation 17.01.2019 in der Was können leisten und was nicht? Entschlüsseln von Texten??? Bilderkennung??? in der in der Quelle: justetf.com Quelle: zeit.de Spracherkennung???
$Id: linabb.tex,v /01/09 13:27:34 hk Exp hk $
Mathematik für Ingenieure I, WS 8/9 Freitag 9. $Id: linabb.tex,v.3 9//9 3:7:34 hk Exp hk $ II. Lineare Algebra 9 Lineare Abbildungen 9. Lineare Abbildungen Der folgende Satz gibt uns eine einfachere Möglichkeit
Grundlagen neuronaler Netzwerke
AUFBAU DES NEURONALEN NETZWERKS Enrico Biermann [email protected]) WS 00/03 Timo Glaser [email protected]) 0.. 003 Marco Kunze [email protected]) Sebastian Nowozin [email protected])
Musterlösungen Blatt Mathematischer Vorkurs. Sommersemester Dr. O. Zobay. Matrizen
Musterlösungen Blatt 8 34007 Mathematischer Vorkurs Sommersemester 007 Dr O Zobay Matrizen Welche Matrixprodukte können mit den folgenden Matrizen gebildet werden? ( 4 5 A, B ( 0 9 7, C 8 0 5 4 Wir können
Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider
Praktikum Computational Intelligence 2 Ulrich Lehmann, Johannes Brenig, Michael Schneider Versuch: Training eines Künstlich Neuronalen Netzes (KNN) zur Approximation einer Kennlinie in JavaNNS 28.01.2008
Was bisher geschah. Lernen: überwachtes Lernen. biologisches Vorbild neuronaler Netze: unüberwachtes Lernen
Was bisher geschah Lernen: überwachtes Lernen korrigierendes Lernen bestärkendes Lernen unüberwachtes Lernen biologisches Vorbild neuronaler Netze: Neuron (Zellkörper, Synapsen, Axon) und Funktionsweise
Mathematik. für das Ingenieurstudium. 10 Funktionen mit mehreren Variablen. Jürgen Koch Martin Stämpfle.
10 Funktionen mit mehreren Variablen www.mathematik-fuer-ingenieure.de 2010 und, Esslingen Dieses Werk ist urheberrechtlich geschützt. Alle Rechte, auch die der Übersetzung, des Nachdruckes und der Vervielfältigung
Praktikum Simulationstechnik Rene Schneider, Benjamin Zaiser
Praktikum Simulationstechnik Rene Schneider, Benjamin Zaiser 11.11.2008 CSM Master: Praktikum Simulationstechnik, rs034, bz003 2 Befehlsübersicht Begriffsdefinition / Neuronale Netze: / / 11.11.2008 CSM
Lernverfahren von Künstlichen Neuronalen Netzwerken
Lernverfahren von Künstlichen Neuronalen Netzwerken Untersuchung und Vergleich der bekanntesten Lernverfahren und eine Übersicht über Anwendung und Forschung im Bereich der künstlichen neuronalen Netzen.
Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit
A Analysis, Woche 9 Mehrdimensionale Differentialrechnung I A 9. Differenzierbarkeit A3 =. (9.) Definition 9. Sei U R m offen, f : U R n eine Funktion und a R m. Die Funktion f heißt differenzierbar in
3 Matrizenrechnung. 3. November
3. November 008 4 3 Matrizenrechnung 3.1 Transponierter Vektor: Die Notation x R n bezieht sich per Definition 1 immer auf einen stehenden Vektor, x 1 x x =.. x n Der transponierte Vektor x T ist das zugehörige
Neuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
Einfaches Framework für Neuronale Netze
Einfaches Framework für Neuronale Netze Christian Silberbauer, IW7, 2007-01-23 Inhaltsverzeichnis 1. Einführung...1 2. Funktionsumfang...1 3. Implementierung...2 4. Erweiterbarkeit des Frameworks...2 5.
Matrizen. a12 a1. a11. a1n a 21. a 2 j. a 22. a 2n. A = (a i j ) (m, n) = i te Zeile. a i 1. a i 2. a i n. a i j. a m1 a m 2 a m j a m n] j te Spalte
Mathematik I Matrizen In diesem Kapitel werden wir lernen was Matrizen sind und wie man mit Matrizen rechnet. Matrizen ermöglichen eine kompakte Darstellungsform vieler mathematischer Strukturen. Zum Darstellung
Radiale-Basisfunktionen-Netze. Rudolf Kruse Neuronale Netze 120
Radiale-Basisfunktionen-Netze Rudolf Kruse Neuronale Netze 2 Radiale-Basisfunktionen-Netze Eigenschaften von Radiale-Basisfunktionen-Netzen (RBF-Netzen) RBF-Netze sind streng geschichtete, vorwärtsbetriebene
Logisches und funktionales Programmieren
Prof. Dr. Christoph Beierle, Dr. Harald Ganzinger, Prof. Dr. Michael Hanus Kurs 01816 Logisches und funktionales Programmieren LESEPROBE Das Werk ist urheberrechtlich geschützt. Die dadurch begründeten
Allgemeine (Künstliche) Neuronale Netze. Rudolf Kruse Neuronale Netze 40
Allgemeine (Künstliche) Neuronale Netze Rudolf Kruse Neuronale Netze 40 Allgemeine Neuronale Netze Graphentheoretische Grundlagen Ein (gerichteter) Graph ist ein Tupel G = (V, E), bestehend aus einer (endlichen)
Kohonennetze Selbstorganisierende Karten
Kohonennetze Selbstorganisierende Karten Julian Rith, Simon Regnet, Falk Kniffka Seminar: Umgebungsexploration und Wegeplanung mit Robotern Kohonennetze: Neuronale Netze In Dendriten werden die ankommenden
Datenorientierte SA. Aufbau und Grundlagen. Aufbau und Grundlagen. Aufbau und Grundlagen. Was sind neuronale Netze?
Datenorientierte SA Was sind neuronale Netze? Neuronale Netze: Grundlagen und Anwendungen Neuronale Netze bilden die Struktur eines Gehirns oder eines Nervensystems ab Andreas Rauscher 0651993 Damir Dudakovic
Partialbruchzerlegung
Partialbruchzerlegung Lucas Kunz 27. Januar 207 Inhaltsverzeichnis Theorie 2. Definition.................................... 2.2 Nullstellen höheren Grades........................... 2.3 Residuen-Formel................................
Neuronale Netze mit mehreren Schichten
Neuronale Netze mit mehreren Schichten Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Neuronale Netze mit mehreren
Die Determinante ist nur für beliebige quadratische Matrizen (n = m) definiert: a 11 a 12 a a 1n a 21 a 22. det. a nn.
Die Determinante ist nur für beliebige quadratische Matrizen (n = m) definiert: Definition 1.2 (Leibniz-Formel) Die Determinante einer n n-matrix ist a 11 a 12 a 13... a 1n a 11 a 12 a 13... a 1n a 21
Grundlagen Kondition Demo. Numerisches Rechnen. (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang
Numerisches Rechnen (für Informatiker) M. Grepl P. Esser & G. Welper & L. Zhang Institut für Geometrie und Praktische Mathematik RWTH Aachen Wintersemester 2011/12 IGPM, RWTH Aachen Numerisches Rechnen
5 Interpolation und Approximation
5 Interpolation und Approximation Problemstellung: Es soll eine Funktion f(x) approximiert werden, von der die Funktionswerte nur an diskreten Stellen bekannt sind. 5. Das Interpolationspolynom y y = P(x)
Neuroinformatik. Übung 1
Neuroinformatik Übung 1 Fabian Bürger Raum: BC419, Tel.: 0203-379 - 3124, E-Mail: [email protected] Fabian Bürger ([email protected]) Neuroinformatik: Übung 1 1 / 27 Organisatorisches Neuroinformatik:
In der Praxis werden wir häufig mit relativ komplexen Funktionen konfrontiert. y
Approximationen In der Praxis werden wir häufig mit relativ komplexen Funktionen konfrontiert. y y = f (x) x Um das Arbeiten mit einer komplizierten Funktion zu vermeiden, können wir versuchen, diese Funktion
BACKPROPAGATION & FEED-FORWARD DAS MULTILAYER PERZEPTRON
BACKPROPAGATION & FEED-FORWARD DAS MULTILAYER PERZEPTRON EINFÜHRUNG IN KÜNSTLICHE NEURONALE NETZE Modul Leitung Technischer Datenschutz und Mediensicherheit Nils Tekampe Vortrag Jasmin Sunitsch Abgabe
Abb. 5.10: Funktion und Tangentialebene im Punkt ( ) ( ) ( ) 3.) Die Zahlenwerte und in Gleichung (Def. 5.11) berechnen sich durch ( ) ( )
Abb. 5.0: Funktion und Tangentialebene im Punkt Aus der totalen Differenzierbarkeit folgt sowohl die partielle Differenzierbarkeit als auch die Stetigkeit von : Satz 5.2: Folgerungen der totalen Differenzierbarkeit
Nichtlineare Klassifikatoren
Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht
Grundlagen Neuronaler Netze
Grundlagen Neuronaler Netze Neuronen, Aktivierung, Output, Netzstruktur, Lernziele, Training, Grundstruktur Der Begriff neuronales Netz(-werk) steht immer für künstliche neuronale Netzwerke, wenn nicht
10. Neuronale Netze 1
10. Neuronale Netze 1 Einführung (1) Ein künstliches neuronales Netz ist vom Konzept her eine Realisierung von miteinander verschalteten Grundbausteinen, sogenannter Neuronen, welche in rudimentärer Form
13 Mehrdimensionale Zufallsvariablen Zufallsvektoren
3 Mehrdimensionale Zufallsvariablen Zufallsvektoren Bisher haben wir uns ausschließlich mit Zufallsexperimenten beschäftigt, bei denen die Beobachtung eines einzigen Merkmals im Vordergrund stand. In diesem
Einführung in Neuronale Netze
Wintersemester 2005/2006 VO 181.138 Einführung in die Artificial Intelligence Einführung in Neuronale Netze Oliver Frölich Abteilung für Datenbanken und Artificial Intelligence Institut für Informationssysteme
Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Eine kurze Einführung in Quasi Newton Verfahren
Ergänzungen zu dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Carl Geiger und Christian Kanzow (Springer Verlag, 1999) Eine kurze Einführung in Quasi Newton Verfahren
Mischungsverhältnisse: Nehmen wir an, es stehen zwei Substanzen (zum Beispiel Flüssigkeiten) mit spezifischen Gewicht a = 2 kg/l bzw.
Kapitel 5 Lineare Algebra 51 Lineare Gleichungssysteme und Matrizen Man begegnet Systemen von linearen Gleichungen in sehr vielen verschiedenen Zusammenhängen, etwa bei Mischungsverhältnissen von Substanzen
Die Anwendung von Neuronalen Netzen in der Marketingforschung
Diana Rittinghaus-Mayer Die Anwendung von Neuronalen Netzen in der Marketingforschung iiiiiiiiii:;: Akademischer Verlag München 1993 Abbildungsverzeichnis VIII Tabellenverzeichnis X Abkürzungsverzeichnis
Analytische Lösung algebraischer Gleichungen dritten und vierten Grades
Analytische Lösung algebraischer Gleichungen dritten und vierten Grades Inhaltsverzeichnis 1 Einführung 1 2 Gleichungen dritten Grades 3 3 Gleichungen vierten Grades 7 1 Einführung In diesem Skript werden
Das Modell: Nichtlineare Merkmalsextraktion (Preprozessing) + Lineare Klassifikation
Das Modell: Nichtlineare Merkmalsextraktion (Preprozessing) + Lineare Klassifikation Hochdimensionaler Eingaberaum {0,1} Z S quadratisch aufgemalt (zwecks besserer Visualisierung) als Retina bestehend
Adaptive Systeme. Neuronale Netze: der Backward Propagation Algorithmus. Prof. Dr. rer. nat. Nikolaus Wulff
Adaptive Systeme Neuronale Netze: der Backward Propagation Algorithmus Prof. Dr. rer. nat. Nikolaus Wulff Neuronen Schicht x 1 x 2 x 3.. θ 1 θ 2. y 1 y 2 n y j = k =1 w jk x k j y j = n k =0 w jk x k x
Einführung. Ablesen von einander zugeordneten Werten
Einführung Zusammenhänge zwischen Größen wie Temperatur, Geschwindigkeit, Lautstärke, Fahrstrecke, Preis, Einkommen, Steuer etc. werden mit beschrieben. Eine Zuordnung f, die jedem x A genau ein y B zuweist,
BC 1.2 Mathematik WS 2016/17. BC 1.2 Mathematik Zusammenfassung Kapitel II: Vektoralgebra und lineare Algebra. b 2
Zusammenfassung Kapitel II: Vektoralgebra und lineare Algebra 1 Vektoralgebra 1 Der dreidimensionale Vektorraum R 3 ist die Gesamtheit aller geordneten Tripel (x 1, x 2, x 3 ) reeller Zahlen Jedes geordnete
Übungen zu Splines Lösungen zu Übung 20
Übungen zu Splines Lösungen zu Übung 20 20.1 Gegeben seien in der (x, y)-ebene die 1 Punkte: x i 6 5 4 2 1 0 1 2 4 5 6 y i 1 1 1 1 1 + 5 1 + 8 4 1 + 8 1 + 5 1 1 1 1 (a) Skizzieren Sie diese Punkte. (b)
Schwellenwertelemente. Rudolf Kruse Neuronale Netze 8
Schwellenwertelemente Rudolf Kruse Neuronale Netze 8 Schwellenwertelemente Ein Schwellenwertelement (Threshold Logic Unit, TLU) ist eine Verarbeitungseinheit für Zahlen mitneingängenx,...,x n und einem
Mathematik II Frühjahrssemester 2013
Mathematik II Frühjahrssemester 2013 Prof Dr Erich Walter Farkas Kapitel 7: Lineare Algebra 71 Reelle Matrizen Prof Dr Erich Walter Farkas Mathematik I+II, 71 Reelle Matrizen 1 / 31 1 2 3 4 Prof Dr Erich
5 Lineare Algebra (Teil 3): Skalarprodukt
5 Lineare Algebra (Teil 3): Skalarprodukt Der Begriff der linearen Abhängigkeit ermöglicht die Definition, wann zwei Vektoren parallel sind und wann drei Vektoren in einer Ebene liegen. Daß aber reale
Virtuelles Labor für Neuronale Netze
Universität Zürich / Wintersemester 2001/2002 Semesterarbeit Virtuelles Labor für Neuronale Netze vorgelegt von Rolf Hintermann, Dielsdorf, ZH, Schweiz, Matrikelnummer: 98-706-575 Angefertigt am Institut
Mathematik I Herbstsemester 2014 Kapitel 8: Lineare Algebra 8.1 Reelle Matrizen
Mathematik I Herbstsemester 2014 Kapitel 8: Lineare Algebra 81 Reelle Matrizen Prof Dr Erich Walter Farkas http://wwwmathethzch/ farkas 1 / 31 1 2 3 4 2 / 31 Transponierte einer Matrix 1 Transponierte
Integraldarstellung des Restgliedes; Lagrangesche Restgliedformel;
Kapitel Der Satz von Taylor. Taylor-Formel und Taylor-Reihe (Taylor-Polynom; Restglied; Integraldarstellung des Restgliedes; Lagrangesche Restgliedformel; die Klasse C ; reell analytische Funktionen) In
Mathematische Erfrischungen III - Vektoren und Matrizen
Signalverarbeitung und Musikalische Akustik - MuWi UHH WS 06/07 Mathematische Erfrischungen III - Vektoren und Matrizen Universität Hamburg Vektoren entstanden aus dem Wunsch, u.a. Bewegungen, Verschiebungen
1 Folgen und Stetigkeit
1 Folgen und Stetigkeit 1.1 Folgen Eine Folge ist eine durchnummerierte Zusammenfassung von reellen Zahlen. Sie wird geschrieben als (a 1, a 2, a 3,...) = (a n ) n N. Es ist also a n R. Der Index n gibt
Mathematik für Naturwissenschaftler II SS 2010
Mathematik für Naturwissenschaftler II SS 2010 Lektion 12 8. Juni 2010 Kapitel 10. Lineare Gleichungssysteme (Fortsetzung) Umformung auf obere Dreiecksgestalt Determinantenberechnung mit dem Gauß-Verfahren
TECHNISCHE UNIVERSITÄT MÜNCHEN FERIENKURS. Lineare Algebra FLORIAN NIEDERREITER & AILEEN WOLF
TECHNISCHE UNIVERSITÄT MÜNCHEN FERIENKURS Lineare Algebra FLORIAN NIEDERREITER & AILEEN WOLF 07.03.2016-11.03.2016 Inhaltsverzeichnis Inhaltsverzeichnis 1 Darstellungsmatrizen 2 2 Diagonalisierbarkeit
Erläuterungen. Grundlagen der Leistungserstellung. Übersichtsdiagramm. Internes Rechnungswesen und funktionale Steuerung
Internes Rechnungswesen und funktionale Steuerung Übersichtsdiagramm Grundlagen der Leistungserstellung Erläuterungen Lernmaterial zum Modul - 31031 - der Fernuniversität Hagen Verantwortlich für den Inhalt:
