Theorie neuronaler Netze

Transkript

1 Theorie neuronaler Netze Friedhelm Schwenker October 16, 2012

2 Organisation Vorlesung (3h) mit Übung (1h) Mi H21 und Fr Uhr 123 MatLab: Übung: Schein: 50% der Punkte (7 Übungsblätter) + aktive Übungsteilnahme; Bonusregel gilt!

3 Theorie neuronaler Netze 1. Modellierung neuronaler Netze 2. Stabilität neuronaler Netze 3. Lernen in Einschichtnetzen 4. Lernen in Mehrschichtnetzen 5. Rekurrente Netze 6. Darstellung mit neuronalen Netzen 7. Komplexität neuronaler Netze

4 1. Modellierung neuronaler Netze 1. Biologische Grundlagen 2. Allgemeines Kanalmodell 3. Vereinfachte Neuronenmodelle 4. Quasi-stationäre Lösungen

5 1.1 Biologische Grundlagen Der Kortex des menschlichen Gehirns mit verschiedenen Arealen.

6 Bestandteile eines typischen Neurons Dendriten bzw. Dendritenbaum Zellkörper (Soma) Nervenfaser (Axon) mit dem axonalen Baum

7 Aufbau einer Synapse Synapse mit der prä- und postsynaptischen Membran. Ausschüttung der Neurotransmittermoleküle in den synaptischen Spalt.

8 Zellmembran / Ionen Zellmembran - offene und verschließbare Ionenkanäle sind abgebildet. Typische Ionenkonzentrationen (für (Tintenfisch-)Axon in Millimol/Liter) im Intra- und Extrazellulärraum Typ Innen Außen K Cl Na

9 Aktionspotential

10 Räumlich-zeitliche Summation am Dendriten

11 Dynamik der neuronalen Verarbeitung Summation am Zellkörper EPSP/IPSP von vorgeschalteten Neuronen führen zu Potentialveränderungen am Dendritenbaum/Zellkörper ( räumlich/zeitliche Summation der EPSP/IPSP) Auslösung eines Aktionspotentials Ändert sich das Membranpotential am Zellkörper nur schwach, wird kein Aktionspotential ausgelöst (unterschwelligen Erregung). Bei hinreichend starker Depolarisation der Membran wird im Bereich des Axonhügels ein Aktionspotential ausgelöst. Ausbreitung des Aktionspotentials Das Aktionspotential breitet über das Axon bis in den axonalen Baum mit konstanter Amplitude aus Synaptische Übertragung Das Aktionspotential führt in den axonalen Endknöpfchen zu einer Ausschüttung von Neurotransmittern, die auf der postsynaptischen Membran zu einer Änderung des Membranpotentials führen.

12 Anatomische Größen Maus Mensch N/mm D/N 3 mm 2 cm A/N 2 cm 6 cm S/N D/mm m m A/mm m m S/mm S/D 3 / µm 1 / µm S/A 1 / 2 µm 1 / 3 µm N = Neuronenzahl ; D = Dendritenlänge; S = Synapsenzahl; A = Axonlänge

13 Computer vs. Neuronale Netze Computer kaum fehlertolerant Totalausfall bei Hardwarestörungen explizite Programmierung wenige, aber komplexe Prozessoren (typischerweise 10 0 ) niedriger Vernetzungsgrad (Verbindungen 10 2 am Prozessor) kurze Schaltzeiten der Prozessoren (heute im 10 8 Hz-Bereich) Neuronale Netze fehlertolerant, robust gegenüber verrauschtendaten System funktioniert mit eingeschränkter Funktionalität Lernen durch Beispiele sehr viele einfache Neuronen (menschliches Gehirn ca ) hoher Vernetzungsgrad (bis zu 10 4 Synapsen pro Neuron) lange Schalt und Laufzeiten (im 10 2 Hz-Bereich)

14 1.2 Allgemeines Kanalmodell Modellvoraussetzungen für das allgemeine Kanalmodell: I = {1,..., N} die Menge der Neuronen. Jedes Neuron j ist von einem bestimmten (Membran-)Typ l und einem bestimmten (Übertragungs-)Kanaltyp k. τ l > 0 Zeitkonstante und ϑ l : R + R + die Schwellenfunktion für den Membrantyp l. r k : R + R + die Responsefunktion und U k Umkehrpotentiale für den Übertragungskanaltyp k. C = (c ij ) synaptische Kopplungsmatrix und D = (d ij ) Matrix der Delays.

15 Neuronenmodelle (1/2) (1) Dendritisches Potential u j des Neurons j vom Membrantyp l τ l u j (t) = u j (t) + k a k j (t)(u k u j (t)) + x j (t) (V) Variante: u j nach Spike von j auf Ruhepotential U 0 gesetzt. (2) Gesamtinputaktivität aj k im Übertragungskanal k des Neurons j a k j (t) = i I k a ij (t) I k Neuronen vom Kanaltyp k übertragene Aktivität a ij vom Neuron i zum Neuron j im Kanal k a ij (t) = s T i t r k (t (s + d ij ))c ij = s<t r k (t (s + d ij ))y i (s)c ij

16 Neuronenmodelle (2/2) (3) Outputaktivität y j des Neurons j y j (t) = 1 [uj (t) θ j (t)] (4) Schwellenfunktion θ j und Spikezeitpunkte T j t von Neuron j (vom Membrantyp l) θ j (t) = max ϑ l (t s) T s T j t j = {s < t y j (s) = 1} t (5) Diskretisierung von (1) mit ϱ l := t τ l und ϱ l (0, 1] u j (t + t) = (1 ϱ l ) u j (t) + ϱ l aj k (U k u j (t)) + ϱ l x j (t) k

17 Vereinfachungen a) Response Funktion durch Gesamtwirkung w ij beschreiben: (2 ) a k j (t) = i I k w ij y i (t d ij ) b) U k u ersetzen durch U k (unterhalb der Schwelle ist u klein): (1 ) τ l u j (t) = u j (t) + k a k j (t)u k + x j (t) Mit (2 ) folgt: (1 ) τ l u j (t) = u j (t) + i w ij y i (t d ij ) + x j (t) c) Einfache zweiwertige Schwellenfunktion ϑ(t) {ϑ ref, ϑ rest }. d) Schwellenmechanismus (mit ϑ l ) durch Ratenfunktion f l ersetzen: (3 ) y j (t) = f l (u j (t)) e) Alle Delays = 1; alle Delays = 0.

18 1.3 Vereinfachte Neuronenmodelle Kanalmodell: Gleichungen 1, 2, 3 und 4 Spike-Response-Modell: 1, 2, 3 und 4 Dynamic-Threshold-Modell: 1, 2, 3 und 4 Integrate-and-Fire-Modell: 1 mit Variante (V), 3, 4 und mit einfacher Schwelle (d) Ratenmodell: 1, 2 und 3 Grundmodell: 1 und 3 Lineares Modell: 1, 3 und mit linearer Ratenfunktion f Einfaches lineares Modell: 1, 3, Delays alle = 0 und mit linearer Ratenfunktion f

19 1.4 Asynchrone quasistationäre Zustände (1/5) Asynchrone quasistationäre Zustände - als Basis für die neuronale Informationsverarbeitung. (1) Ratenfunktion f l (u) aus Schwellenfunktion ϑ l (t) bestimmen. y j = f l (u j ) = 1 ϑ 1 l (u j ) fr j vom Membrantyp l (2) Gesamtwirkung ˆr k := r k (t)dt aus der Responsefunktion r k (t). Diese beiden Vereinfachungen ergeben das Grundmodell mit: a k j = i I k ˆr k y i c ij = i I k ˆr k f li (u i ) c ij l i Membrantyp des Neurons i.

20 ... (2/5) (3) Berechnung der Fixpunkte mit dem Ansatz 0 u j 0 τ k u j = u j + k a k j (U k u j )+x j u j x j + k ak j U k 1 + k ak j (4) Linearisierung ergibt ein homogenes einfaches lineares Modell DGL des dendritischen Potentials lautet mit den Vereinfachungen: τ l u j = u j + (U k u j )ˆr k f li (u i )c ij + x j k i I k Betrachten nun DGL für u j = u j + e j : τ l ( u j + ė j ) = (u j + e j ) + k (U k (u j + e j ))ˆr k i I k f li (u i + e i )c ij + x j

21 ... (3/5) Nun setzen wir ein f li (u i + e i ) f li (u i ) + e i f l i (u i ) τ l ( u j +ė j ) = (u j +e j )+x j + k (U k (u j +e j ))ˆr k (f li (u i )+e i f l i (u i ))c ij i I k τ l ( u j + ė j ) = (u j + e j ) + x j + (U k u j )ˆr k f li (u i )c ij k i I k + (U k u j )ˆr k e i f l i (u i )c ij k i I k e jˆr k f li (u i )c ij e jˆr k e i f l i (u i )c ij k i I k k i I k

22 ...(4/5) Die Summanden k ˆr k i I k e j e i f l i (u i )c ij sind quadratisch in den Störungstermen e j und können bei der Linearisierung vernachlässigt werden: τ l ė j = e j + (U k u j )ˆr k e i f l i (u i )c ij e j ˆr k f li (u i )c ij k i I k k i I k Mit C ij = ˆr k f li (u i )c ij und Ĉij = (U k u j )ˆr k f l i (u i )c ij folgt die lineare DGL: τ l ė j = e j e j C ij + Ĉ ij e i k i I k k i I k

23 ...(5/5) Man erhält man ein homogenes lineares DGl-System: ė = Ae mit e = (e 1,... e n ) T, ė = (ė 1,... ė n ) T und mit der reellen n n Matrix A = (a ij ) definiert durch a jj = 1 τ l (1 + k i I k Cij ) und a ji = 1 τ l k i I k Ĉ ij, i j Die Stabilität dieses Systems ist zu untersuchen, dazu betrachten wir einfache lineare neuronale Netze.

24 2. Stabilität in neuronalen Netzen 1. Lineare Netze in kontinuierlicher Zeit 2. Lineare Netze in diskreter Zeit 3. Äquivalenz der Stabilitätsbedingungen 4. Hopfield Netze in kontinuierlicher Zeit 5. Hopfield Netze in diskreter Zeit

25 2.1 Stabilität linearer Netze (kontinuierliche Zeit) Wir untersuchen das System von n linearen Modellneuronen: n τ u j = u j + x j + c ij u i i=1 j = 1,..., n τ > 0 Zeitkonstante, u j dendritisches Potential, x j externe Eingabe, c ij synaptische Kopplungen. Für Modelle ohne externen Input, also x j = 0, erhalten wir ein homogenes DGL-System mit Einheitsmatrix Id. τ u = u + uc = u(c Id)

26 ... Also u = Au mit A = 1 τ (C T Id). Lösungsansatz für (komplexe) Lösungen: u(t) = ve λt mit λ C und v C n. Hierfür muss dann gelten also muss gelten Au = Ave λt = u = vλe λt Av = λv d.h. λ C ist Eigenwert mit zugehürigem Eigenvektor v C n der (reellen) n n Matrix A

27 ... Für eine n n Matrix A sind die Eigenwerte nach Definition genau die Nullstellen des charakteristischen Polynoms von A. Es ist definiert durch: p A (λ) = det(a λid) Für einen Eigenwert λ C von A bestimmt man zugehörige Eigenvektoren v C n durch Lösen des LGS: (A λid)v = 0 Es gelten die folgenden Eigenschaften: Sei u Lösung von u = Au, dann ist auch ū Lösung, denn: denn A ist eine reelle Matrix. u = u = Au = Au Seien u 1, u 2 Lösungen von u = Au und a 1, a 2 C dann sind auch a 1 u 1 + a 2 u 2 Lösungen: (a 1 u 1 + a 2 u 2 ) = a 1 u 1 +a 2 u 2 = a 1 Au 1 +a 2 Au 2 = A(a 1 u 1 +a 2 u 2 )

28 ... Sei u Lösung von u = Au, dann sind auch Re(u) und Im(u) Lösungen: Re(u) = 1 2 (u + ū) und Im(u) = 1 (u ū) 2i Explizite Darstellung von Real- und Imaginärteil sind: und Re(u) = e µt (a cos(νt) b sin(νt)) Im(u) = e µt (a sin(νt) + b cos(νt)) hierbei sei λ = µ + iν und v = a + ib mit µ, ν R und a, b R n.

29 ... Stabilität von u = Au bei t offenbar gdw alle Eigenwerte λ C von A = 1 τ (C T Id) negative Realteile haben bzw. die Eigenwerte der Kopplungsmatrix c Realteile kleiner als 1 haben. Es gelten folgende Aussagen für Eigenwerte/Eigenvektoren von Matrizen: 1. λ Eigenwert zum Eigenvektor v von Matrix C, gdw λ Eigenwert zum Eigenvektor v von Matrix C T 2. Es sei α, β C. Dann gilt λ Eigenwert zum Eigenvektor v von Matrix C, gdw αλ + β) Eigenwert zum Eigenvektor v von Matrix αc + βid. Es sei λ Eigenwert von C dann gilt: 0 = det(αλ + βid αc + βid) (1) = det(α(λid + µid C µid)) (2) = det(λid C) (3)

30 2.2 Stabilität linearer Netze (diskrete Zeit) Wir betrachten nun das zeitlich diskretisierte Modell für j = 1,..., n, t > 0 τ u j(t + t) u j (t) t n = u j (t) + x j (t) + c ij u i (t) i=1 Also mit ϱ = t/τ u j (t + t) = (1 ϱ)u j (t) + ϱx j (t) + ϱ in Matrixnotation erhalten wir n c ij u i (t) i=1 u(t + t) = (1 ϱ)u(t) + ϱx(t) + ϱu(t)c mit F = (1 ϱ)id + ϱc folgt: u(t + t) = u(t)f + ϱx(t)

31 ... Hieraus folgt: u(0) = u 0 u( t) = u 0 F + ϱx(0) u(2 t) = u 0 F 2 + ϱx(0)f + ϱx(1) u(3 t) = u 0 F 3 + ϱx(0)f 2 + ϱx(1)f + ϱx(2) Induktiv folgt k > 0: k 1 u(k t) = u 0 F k + ϱ Falls x(t) = 0 für alle t so folgt: i=1 u(k t) = u 0 F k x(i)f k (i+1)

32 ... Falls x(t) = x R n für alle t so folgt: k 1 u(k t) = u 0 F k + ϱx Verhalten bei k : Es seien λ 1,..., λ n die Eigenwerte von F mit den entsprechenden Eigenvektoren v 1,..., v n und V die Matrix deren Spalten aus den Eigenvektoren v i besteht. Sind die Eigenvektoren linear unabhängig so gilt F = VDV 1 i=0 dabei ist D = diag(λ 1,..., λ n ) die Diagonalmatrix mit den Eigenwerten in der Diagonalen. F i

33 ... Dann gilt: F k = (VDV 1 ) k = VDV 1 VDV 1 = VD k V 1 Also F k = V diag(λ k 1,..., λ k n) V 1 Es gilt offenbar k 1 k 1 (I F ) F i = ( F i )(I F ) = I F k i=0 i=0 Falls nun I F invertierbar ist (gdw alle Eigenwerte von F 1 sind) dann gilt: k 1 F i = (I F k )(I F ) 1 i=0

34 ... Falls alle EW von F vom Betrag kleiner als 1 sind, so folgt k 1 F i (I F ) 1, i=0 bei k Damit gilt für: k 1 u(k t) = u 0 F k + ϱx falls alle Eigenwerte λ von F gilt λ < 1 so folgt u(n t) 0 bei t. Sind die Stabilitätsbedingungen für das kontinuierliche und das diskretisierte lineare System äquivalent? i=0 F i

35 2.3 Äquivalenz der Stabilitätsbedingungen Es sei a C ein Eigenwert von Kopplungsmatrix C und damit 1 + ϱ(a 1) ein Eigenwert von Id + ϱ(c Id) mit 1 + ϱ(a 1) < 1 Es sei nun a = α + iβ mit α, β R. Dann gilt: 1 + ϱ(a 1) = 1 + ϱ(α 1) + iϱβ Ferner ist 1 + ϱ(a 1) < 1 gdw. 1 + ϱ(a 1) 2 < 1. Es gilt weiter: 1+ϱ(a 1) 2 = (1+ϱ(α 1)) 2 +ϱ 2 β 2 = 1+2ϱ(α 1)+ϱ 2 (α 1) 2 +ϱ 2 β 2 Also 1 + ϱ(a 1) 2 < 1 gdw Dies ist nun äquvalent zu 2(α 1) + ϱ(α 1) 2 + ϱβ 2 < 0 ϱ < 2(1 α) (α 1) 2 =: b + β2

36 ... Hieraus folgt sofort α = Re(a) < 1, denn für α 1 folgt ϱ = t τ 0. Falls nun α < 1, so gilt b > 0 und somit gibt es ein ϱ mit der Eigenschaft 0ϱ < b. Die Betrachtung gilt für beliebiges β = Im(a) R. Die Forderung α = Re(a) < 1 für alle Eigenwerte der Kopplungsmatrix C war gerade die Stabilitätsbedingung an das kontinulierliche lineare System. Stabilitätsbedingungen für das kontinuierliche und das diskretisierte System sind äquivalent und es muss gelten 2(1 α) 0 < t < τ (α 1) 2 + β 2 für alle Eigenwert a = α + iβ von C.

37 Einschub: Lyapunov-Funktionen Betrachten DGL ẋ = g(x) mit x = x(t) = (x 1 (t),..., x n (t)), wobei x i : R R, t x i (t) Eine stetig differenzierbare Funktion H : D R mit D R n heißt eine Lyapunov-Funktion für die DGL ẋ = g(x), wenn gilt: Ḣ(x) = grad(h(x)), g(x) = n i=1 H x i g i (x) 0 für alle x D. Satz: Es ein ẋ = g(x) ein DGL System mit isoliertem Fixpunkt x (obda gelte x = 0) und H ein nach unten beschränke Ljapunov-Funktion. Dann ist der Fixpunkt asymptotisch lokal stabil.

38 2.4 Stabilität des kontinuierlichen Hopfieldmodells Wir wollen zum Grundmodell in kontinuierlicher Zeit τ u(t) = u(t) + x(t) + y(t)c (4) y(t) = f (u(t)) (5) eine Lyapunov-Funktion konstruieren. Der Input sei x(t) = x = konstant. Für den Zustandsvektor y(t) = (y 1 (t),..., y n (t)) gilt dh(y(t)) dt = = = n i=1 n i=1 H y i (y(t))ẏ i (t) H y i dy i du i u i (t) n H f (u i (t)) y i }{{} i=1 0 1 τ }{{} >0 ( u i (t) + x + (yc) i ) (6)

39 ... Wir werden Lyapunov-Funktion H so konstruieren, dass H y i = u i + x i + (yc) i ist, dann gilt nämlich dh(y(t)) 0. dt Konstruktion von H aus drei Summanden H 1, H 2, H 3, also H = H 1 + H 2 + H 3.

40 ... 1) Die Transferfunktion f sei streng monoton wachsend und somit invertierbar, somit gilt u i = f 1 (y i ). Deshalb setzen wir H 1 = i yi 0 f 1 (s)ds. Damit erhalten wir als Ableitung von H 1 nach y i H 1 y i = f 1 (y i ) = u i 2) Für den zweiten Summanden setzen wir an: n H 2 = x i y i, i=1 Dann ist offenbar H 2 y i = x i.

41 ... 3) Es bleibt noch der Anteil (yc) i = n j=1 y jc ji Wir setzen an: H 3 = 1 2 n n y j c ji y i, i=1 j=1 dann ist H 3 y i = 1 2 2y i c ii + n j=1,j i c ji y j + n j=1,j i y j c ij Sei die Kopplungsmatrix C symmetrisch, d.h. c ij = c ji für alle i, j. Dann gilt: H 3 = 1 n n n c ji y j + y j c ij = c ji y j y i 2 j=1 j=1 j=1

42 ... Zusammenfassung: H = H 1 + H 2 + H 3 eine Lyapunov-Funktion des Grundmodells τ u(t) = u(t) + x + y(t)c y(t) = f (u(t)) Denn es gilt H y i = H 1 y i + H 2 y i + H 3 y i = u i x i j y j c ji = 1 τ u i und dh(y(t)) dt = 1 τ u i 2 (t) f (u i (t)) 0. i

43 2.5 Stabilität des diskreten Hopfieldmodells Diskrete Zeit und ohne Gedächtnis t = 1 u j (t + 1) = n c ij y j (t) + x j (t) i=1 Binäre Ausgabe y j (t) = sgn(u j (t)) wobei sgn(a) = 1 falls a 0 und sgn(a) = 1 falls a < 0. Voraussetzung: Asynchrone neuronale Dynamik, d.h. es wird zur Zeit t genau ein Neuron j ausgewählt - gemäß der positiven Wahrscheinlichkeiten p 1,..., p n auf den n Neuronen.

44 ... Annahme: Zur Zeit t wird Neuron j ausgewählt (Update). Ferner betrachten wir die Funktion n H(y(t)) = H 2 (y(t))+h 3 (y(t)) = x i y i (t) 1 n n y j (t)c ji y i (t) 2 i=1 i=1 j=1 zur Zeit t, d.h. vor dem Update, und zur Zeit t + 1, d.h. nach dem Update. Falls y j (t + 1) = y j (t), dann ist auch H = H(y(t + 1)) H(y(t)) = 0. Falls nun y j (t + 1) = y j (t), dann : n n H 2 = x i y i (t + 1) + x i y i (t) = 2x j y j (t) und H 3 = 1 2 n i=1 i=1 k=1 i=1 n y k (t + 1)c ki y i (t + 1) n i=1 k=1 n y k (t)c ki y i (t)

45 ... Falls C symmetrisch ist, gilt: n n H 3 = y j (t + 1)c ij y i (t + 1) + y j (t)c ij y i (t) i=1 = y j (t + 1) = y j (t + 1) i=1 n c ij y i (t + 1) + y j (t) i=1 n +y j (t) n i=1,i j i=1,i j n = y j (t + 1) n = 2y j (t) i=1,i j n c ij y i (t) i=1 c ij y i (t + 1) y j (t + 1)c jj y j (t + 1) c ij y i (t) + y j (t)c jj y j (t) n c ij y i (t + 1) + y j (t) c ij y i (t) c ij y i (t) = 2y j (t) i=1,i j i=1 i=1,i j n c ij y i (t) 2c jj

46 ... Damit folgt nun: n H = H 2 + H 3 = 2x j y j (t) + 2y j (t) c ij y i (t) 2c jj i=1 Also H = 2y j (t) ( n ) c ij y i (t) + x j 2cjj = 2y j (t)u j (t + 1) 2c jj i=1 Da das Neuron j den Zustand ändert gilt: sgn(u j (t + 1)) = y j (t + 1) = y j (t) Somit ist y j (t)u j (t + 1) 0 und Gleichheit gdw. u j (t + 1) = 0. Es gelte weiterhin: c jj 0 für alle j, d.h. keine negativen Selbstrückkopplungen. Dann gilt H 0 und Gleichheit gdw. u j (t + 1) = 0 und c jj = 0

47 3. Lernen in einschichtigen neuronalen Netzen 1. Architektur und Lernproblem 2. Lineare Assoziativspeicher 3. Binäre Assoziativspeicher 4. Perzeptron-Lernen 5. Support-Vektor-Lernen 6. Neuronale PCA

48 3.1 Architektur und Lernproblem

49 Lernproblem Merkmalsvektor: x R d bzw x {0, 1} d Lehrersignal: T R n oder T {0, 1} n Ausgabe: y j = f (x w j ), j = 1,..., n (ggf. erweiterte Gewichtsund Eingabevektoren) f eine Transferfunktion, z.b. Sprung-, Signum-, Logistische Funktion Trainingsmaterial: M = {(x µ, T µ ) : µ = 1,..., M} bzw M = {x µ : µ = 1,..., M} Gesucht sind Gewichtsvektoren wj R d, j = 1,..., n so dass E(w 1,..., w n ) min für eine definierte Fehlerfunktionen E : R nd R.

50 3.2 Lineare Assoziativspeicher Lösung durch Pseudo-Inverse Approximative Lösung durch Gradientenabstieg

51 Lösung durch Pseudo-Inverse Wir betrachten ein Einschichtnetz mit n Neuronen: d y j = f ( x i w ij ) i=1 j = 1,... n f eine stetig differenzierbare Funktion mit f > 0. Dann ist f umkehrbar und statt T µ benutzt man f 1 (T µ ) als Lehrersignale. Somit neben wir ohne Einschränkung an, f = id und y j = d x i w ij i=1 j = 1,... n Quadratische Fehlerfunktion: E(w) = µ T µ y µ 2 2, dabei ist y µ die Ausgabe für Input x µ.

52 .. Wir setzen ohne Einschränkung n = 1. Damit hat die Fehlerfunktion die Gestalt: E(w) = µ (T µ y µ ) 2 = µ d (T µ x µ i w i ) 2 min i=1 Definiere T = (T µ ) 1 µ M und M d Matrix X = (x µ i ) 1 µ M. 1 i d Fehlerfunktion lässt sich nun schreiben als E(w) = T Xw 2 2 min Fehler = 0 ist möglich, falls X invertierbar ist Xw = T durch w = X 1 T Diese Lösung ist nur für M = d möglich (uninteressante Lernaufgabe)

53 .. Minimierung von E w, d.h. es muss gelten E w w k = 0 für alle k = 1,..., d Somit folgt Hieraus folgt weiter E w w k = 2 µ (T µ µ (T µ d x µ i w i )x µ k i=1 d x µ i w i )x µ k = 0 i=1 µ x µ k d x µ i w i = µ i=1 x µ k T µ für alle k = 1,..., d Mit oben definierten Matrizen folgt: X t Xw = X t T

54 .. Ist die (symmetrische) d d Matrix X t X invertierbar, so gilt: w = (X t X ) 1 X t T Matrix (X t X ) 1 X t nennt man Pseudoinverse von X. Matrix X t X ist invertierbar, gdw es d linear unabhängige Eingabevektoren in X gibt. X t X nicht invertierbar, so ist E(w) = T Xw 2 2 min nicht eindeutig lösbar. Eindeutigkeit für veränderte Fehlerfunktion E(w) = T Xw α 2 w 2 2 min mit α > 0. (Norm des Gewichtsvektor minimal)

55 .. Dann folgt offenbar E w k = 2 µ (T µ d x µ i w i )x µ k + 2α2 w k i=1 fr alle k = 1,..., d und µ x µ k d x µ i w i + α 2 w k = µ i=1 x µ k T µ fr alle k = 1,..., d Mit den oben definierten Matrizen folgt hieraus (X t X + α 2 I )w = X t T Für α 0 ist X t X + α 2 I invertierbar (da positiv definit) und es gilt w α = (X t X + α 2 I ) 1 X t T

56 Zusammenfassung: 1. Für beliebige Matrizen X existiert die Pseudoinverse X + : X + = lim α 0 (X t X + α 2 I ) 1 X t 2. Falls X t X invertierbar ist, so gilt X + = (X t X ) 1 X t 3. Falls sogar X invertierbar ist, so gilt X + = X 1 4. In jedem Fall ist w = X + T Lösung der Minimierungsaufgabe E(w) = T Xw 2 2 min

57 Gradientenabstieg (Delta-Lernregel) Lernregel als Gradienten-Verfahren: 1. grad E(w 1,..., w n ) ausrechnen (Kettenregel zweimal anwenden) (hier für das Gewicht w ij ) : w ij E = M µ=1 2 (T µ j y µ j ) ( f (w j x µ )) x µ i. 2. Ableitung in die allgemeine Gradientenformel einsetzen liefert: w ij = l(t) M (T µ j y µ j )f (w j µ)x µ i µ=1

58 3.3 Binäre Assoziativspeicher Architektur, Musterspeicherung Hetero-Assoziation Auto-Assoziation

59 Architektur Einschichtnetz aus n Schwellenneuronen mit Schwelle θ

60 Musterspeicherung M binäre Musterpaare (x µ, T µ ) (µ = 1,..., M) werden gespeichert durch Hebb-Lernregeln c ij = M µ=1 x µ i T µ j binäre Hebbregel c ij = M µ=1 x µ i T µ j additive Hebbregel Auslesen des Antwortmusters zur Eingabe x µ y j = { 1 i x µ i c ij θ := x µ 0 sonst

61

62

63

64 Hetero-Assoziation Muster {(x µ, T µ ) : µ = 1,..., M}, x µ {0, 1} m k, T µ {0, 1} n l, p := k m, q = l n Lernregel: c ij = M µ=1 x µ i T µ j Retrieval: z j = 1 [x C θ] dabei ist θ = k Fehler: f 0 = p[z j = 0 T j = 1] = 0 und f 1 = p[z j = 1 T j = 0] = (1 p 0 ) k = pm = k = Dabei ist ln f 1 ln(1 p 0 ) (7) p 0 = p[c ij = 0] = (1 pq) M e Mpq = M = ln p 0 pq (8) Das Retrieval ist sehr genau, wenn f 1 δ q mit δ < 1. δ: Gütekriterium

65 Kapazität bei Hetero-Assoziation Falls δ klein, dann ist die Information über das Ausgabemuster T µ : I µ n ( q log 2 q (1 q) log 2 (1 q)) nq log 2 q Relative Speicherkapazität: C = M I µ m n = I µ ln p 0 pqmn = ln p 0 ln(1 p 0 ) nq log qn ln f 2 q 1 Maximieren nach p 0 : = p 0 = 1 2 und damit C max = (ln 2)2 log 2 q ln q + ln δ ln q = ln 2 ln q + ln δ ln 2 Der Limes wird erreicht für q 0 und δ 0, aber δ langsamer, so dass ln δ ln q 0. Für große Matrizen ist C ln 2 bei kleinem δ > 0 erreichbar, wenn q sehr klein gewählt wird. = Spärlichkeit.

66 Auto-Assoziativspeicher Hetero-Assoziation: x T (pattern mapping) Auto-Assoziation: x = T (pattern completion) Für Auto-Assoziation iteratives Retrieval durch Rückkopplung der Netzausgabe:

67 Speichern und Retrieval Muster {(x µ ) : µ = 1,..., M}, x µ {0, 1} m k,, p := k m. Lernregel: c ij = M µ=1 x µ i x µ j Retrieval: z t+1 j = 1 [zt C θ t ] dabei θ = z t, t = 1 und θ t = k Abbruch: z t z t+1 für t > 1 Fehler: f 0 = p[z j = 0 x j = 1] = 0 und f 1 = p[z j = 1 T j = 0] = (1 p 0 ) k = pm = k = Dabei ist ln f 1 ln(1 p 0 ) (9) p 0 = p[c ij = 0] = (1 p 2 ) M e Mp2 = M = ln p 0 p 2 (10) Das Retrieval ist sehr genau, wenn f 1 δ p mit δ < 1. δ: Gütekriterium

68 Speicherkapazität und mittlere Iterationszeit Autoassoziation mit n=2048 Neuronen; Binäre (durchgezogene Linie)/additive Hebb-Lernregel. 1-Schritt- ( ), 2-Schritt- ( ), und Fixpunkt-Retrieval ( ) Resultate Höhere Speicherkapazität mit binärer Hebbregel! Nur wenige Iterationsschritte ( 3) notwendig.

69 Fehlerwahrscheinlichkeit und Musterzahl Näherungsrechung für 1-Schritt- und 2-Schritt-Retrieval Experimentelle Ergebnisse für 1-Schritt- ( ), 2-Schritt- ( ) und Fixpunkt-Retrieval ( ) Resultate Fehlerwahrscheinlichkeit ist klein (für große Netze 0) Auslesegüte wird durch iteratives Retrieval verbessert

70 3.4 Perzeptron Lernen Trainingsmaterial : T = {(x µ, T µ ) : µ = 1,..., M} R d { 1, 1} Wir untersuchen die Perzeptron-Lernregel: w = l (T y) x mit Lehrersignal T { 1, 1} mit Eingabe x R d, Lernrate l und y = sign(x w) (Schwelle θ als Gewicht w 1 mit konstanter Eingabe x µ 1 Muster µ). Andere Schreibweise der Perzeptron-Lernregel: = 1 für alle w = l sign(x w) x = l T x falls T y (Änderungsschritt)

71 Das Problem ist lösbar, falls ein Gewichtsvektor w mit sign(x µ w) = T µ für alle µ exisitiert d.h. T µ (x µ w) > 0 µ, d.h. D(w) := min M µ=1 T µ (x µ w) > 0. Die Funktion D(w) nimmt auf der Einheitskugel K = {w : w w = 1} das Maximum d an. Also gibt es w mit w w = 1 und D(w ) = d. Separierungsproblem ist lösbar, falls d > 0. Setze c := max M µ=1 (x µ x µ ). Zu bestimmen ist die Anzahl der Änderungsschritte S.

72 Betrachten dazu das Gewicht w S nach S Änderungsschritten: w S = S i=1 ( w) i mit Startwert w = 0 Dann gilt (wegen der alternativen Formulierungen der Lernregel) und ( w) w = l T µ (x µ w ) l D(w ) = l d (w + w) (w + w) w w = 2 (( w) w) + ( w) ( w) =... = 2 l sign(x µ w) (x µ w) + l 2 (x µ x µ ) l 2 (x µ x µ ) l 2 c

73 Also gilt: w S w S Sl 2 c und w S w Sld. Daraus folgt dann mit Hilfe der Cauchy-Schwarz-Ungleichung: S l d (3) w S w (w S w S )(w w ) = w S w S S l 2 c = S c/d 2 Also konvergiert der Perzeptron-Lernalgorithmus nach endlich vielen (echten) Lernschritten. Der Gewichtsvektor kann durch w = 0 initialisiert werden. Der Konvergenz-Beweis gilt für beliebige konstante positive Lernrate.

74 3.5 Support Vektor Lernen Ist eine spezielle Form des Perzeptron-Lernverfahrens. Lernverfahren entsteht durch eine Kombination von 2 Zielen; diese legen dann im Fall linear separierbarer Mengen eine eindeutige Trennhyperebene fest. Gegeben Trainingsdaten T = {(x µ, T µ ) : µ = 1,..., M} R d { 1, 1} Wir nehmen zunächst einmal an, die Mengen P = {x µ T µ = 1} und N = {x µ T µ = 1} seien linear separierbar. Das Perzeptron-Lerntheorem sichert die Konvergenz nach endlich vielen Schritten gegen eine Lösung w (erweiterter Gewichtsvektor).

75 Die Lösung w beim SV Lernen soll erfüllen: 1. Separationsbedingungen: T µ ( w, x µ + w 0 ) > 0 fr alle µ = 1,..., M 2. Möglichst großen Abstand den Mengen N und P hat (maximal margin) Es sein min µ T µ ( w, x µ + w 0 ) = δ > 0 Nun reskalieren wir und erhalten w = 1 δ w und w 0 = 1 δ w 0, sowie T µ ( w, x µ + w 0 ) 1 fr alle µ = 1,..., M Offenbar gibt es mindestens einen Punkt x ν P und x µ N mit w, x ν + w 0 = 1 und mit w, x µ + w 0 = 1

76 Daraus folgt w, x ν x µ = 2 und damit ist D(w) die Breite des Randes der separierenden Hyperebene gegeben durch w D(w) =, (x ν x µ ) = 2 w 2 w 2 Maximierung des Randes bedeutet Minimierung von ϕ(w) = w 2 2 min 2 unter den Nebenbedingungen T µ ( w, x µ + w 0 ) 1 für alle µ = 1,..., M Dies ist ein quadratisches Optimierungsproblem unter Nebenbedingungen. Einführung von Lagrange Multiplikatoren α µ 0 für jeder Separationsbedingung µ = 1,..., M ergibt: L(w, w 0, α) = w M α µ (T µ ( w, x µ + w 0 ) 1) µ=1

77 Setzt man nun die partiellen Ableitungen L w folgen die Bedingungen M α µ T µ = 0 und w = µ=1 = 0 und L w 0 M α µ T µ x µ µ=1 Außerdem folgt aus den Optimierungsbedingungen = 0, so α µ [T µ ( w, x µ + w 0 ) 1] = 0 für alle µ = 1,..., M Falls nun α µ 0 so folgt: T µ ( w, x µ + w 0 ) = 1, d.h. für solche Trainingsbeispiele liegt x µ genau auf dem Rand. Diese Vektoren heißen Support Vektoren. Offensichtlich ist w eine Linearkombination der Support Vektoren (geometrisch ist dies (jedenfalls im R 2 ) klar). w = α µ T µ x µ x µ SV

78 Einsetzen in L ein gibt quadratische Funktion: M W (α) = α µ 1 M M α ν α µ T ν T µ x ν, x µ 2 µ=1 ν=1 µ=1 das mit α µ 0 für alle µ = 1,..., M zu maximieren ist. Die Lösung α steht nun fest: M w = αµt µ x µ µ=1 Schwelle w0 R mit Hilfe eines Supportvektors x µ 0 bestimmen, denn hierfür gilt α µ0 0 und wegen KKT-Bedingung: T µ 0 ( w, x µ 0 + w 0 ) = 1 = w0 = 1 T µ w, x µ 0 0 damit liegt die Entscheidungsfunktion fest: ( ) F (x) = sgn ( w, x + w0 ) = sgn αµt µ x µ, x + w0. x µ SV

79 Linear nichtseparierbares Problem P = {x µ T µ = 1} und N = {x µ T µ = 1} seien linear nicht separierbar Soft Separationsbedingungen durch Schlupfvariable δ µ 0 (slack variables) T µ ( w, x µ + w 0 ) 1 δ µ für alle µ = 1,..., M Nun minimieren wir mit C > 0 ϕ(w, δ) = 1 2 w C M M µ=1 Dies gibt wiederum auf die quadratische Funktion W (α) = M α µ 1 2 µ=1 ν=1 µ=1 δ µ M M α ν α µ T ν T µ x ν, x µ die mit 0 α µ C/M für alle µ = 1,..., M zu maximieren ist.

80 3.6 Neuronale PCA 1. Hebb-Lernregel 2. Oja-Lernregel 3. Sanger-Lernregel

81 Hebb-Lernregel Lineares Neuron mit Hebb-Lernregel Lineare Verrechnung der Eingabe x und dem Gewichtsvektor w y = x, w = n x i w i i=1 Hebb-Lernregel w := w + lxy = w + lxx t w Normierte Hebb-Lernregel

82 Hauptachsentransformation Die Gesamt-Varianz in Richtung v ist dann σ 2 v = (Xv) t (Xv) = v t X t Xv = v t Cv mit C = X t X. Bezglich der Matrix C soll nun σ 2 v maximiert werden. Ohne Randbedingungen an v ist eine Maximierung nicht mglich. Normierung als Bedingung: v t v = v 2 = 1 Maximierung unter Nebenbedingungen fhrt auf die Maximierung der Funktion. ϕ(v) = v t Cv λ(v t v 1) mit dem Lagrange Multiplikator λ R. Differenzieren von ϕ nach v und Nullsetzen liefert: ϕ = 2Cv 2λv = 0 v Dies fhrt direkt auf die Matrixgleichung in Eigenvektorform Cv = λv

83 Analyse der Hebb-Lernregel Gegeben seien also Eingabevektoren x µ R d, die einzelnen Merkmale (= Spaltenvektoren in der Datenmatrix X ) haben den Mittelwert E(x i ) = 0. sonst Mittelwerttranslation durchführen. Lineares Neuron: y µ := x µ, w = (x µ ) t w. Dieses Neuron realisiert eine Projektion von x µ auf w. Somit ist Xw der Vektor der Datenpuntprojektionen. Hebb-Regel : w = αxy = αx(x t w) = α(xx t )w, mit α > 0 Wir setzen ferner : J(w) := 1 2 y 2 = 1 2 (x t w) 2 dann ist offenbar J w i = 1 2 2x iy also ist w = α J w.

84 ... Wir nehmen zunächst an, es gibt eine Gleichgewichtslösung für w, dann gilt 0 = E( w) also folgt dann 0 = E( w) = αe(xx t )w = αcw Also muss gelten Cw = 0. Dabei ist C die Korrelationsmatrix der Datenmatrix X mit C ij = E(x i x j ). w ist dann Eigenvektor von C zum Eigenwert 0, diese Lösung kann aber nicht stabil sein, denn es gibt sicher positive Eigenwerte von C. C ist i.a. ungleich der Kovarianzmatrix Cov := E((x µ)(x µ) t ), es sei denn µ = E(x) = 0. C ist symmetrisch und positiv semi-definit, d.h. alle Eigenwert sind R 0 und die Eigenvektoren orthogonal und u t Cu = u t E(xx t )u = E((u t x)(x t u)) = E((u t x) 2 ) 0.

85 Oja-Lernregel Lernregel nach Oja w = l t (yx y 2 w) = l t y(x yw) Satz von Oja (1985): Gewichtsvektor w konvergiert gegen die 1. Hauptachse v 1, hierbei muss gelten: l t 0 bei t, t l t = und t l 2 t <.

86 Sanger-Lernregel Verallgemeinerung auf d d lineare Neuronen mit d Gewichtsvektor w j. Die Ausgabe des j-ten Neurons ist dabei: Lernregel nach Sanger y j = x, w j w ij = l t y j (x i j y k w ik ) k=1 Satz von Sanger (1989): w l konvergiert gegen die Hauptachsen der Eingabevektoren x µ. Es muss gelten l t 0 bei t, t l t = und t l 2 t <.

87 4. Lernen in Mehrschichtnetzen 1. Multilayer Perzeptrone 2. Radiale Basisfunktionen Netze 3. Nichtlineares Support-Vektor-Lernen 4. Zusammenfassung

88 4.1 Multilayer Perzeptrone

89 Lernregeln für Multilayer Perzeptrone Merkmalsvektor: x R n Ausgabe: z k = j w jkf ( x c j 2 ). Material: M = {(x µ, T µ ) : µ = 1,..., M} x µ R n, T µ R m. Lernregel für die Ausgabeschicht: w jk = l(t µ k zµ k ) y µ j Lernregel für die Neuronen der Zwischenschicht: c ij = l m (T µ k zµ k ) w jk f (u µ j ) c ij. k=1

90 4.2 Radiale Basisfunktionen Netze

91 Lernregeln für Radiale Basisfunktionen Merkmalsvektor: x R n Ausgabe: z k = j w jkh( x c j 2 ). Material: M = {(x µ, T µ ) : µ = 1,..., M} x µ R n, T µ R m. Lernregel für die Ausgabeschicht: Lernregel für die RBF Neuronen c ij = l w jk = l(t µ k zµ k ) y µ j m (T µ k zµ k ) w jk ( h (u µ j )) (x µ i c ij ). k=1

92 Interpolation mit RBF M = {(x µ, t µ ) : µ = 1,..., M}, x µ R n, t µ R m. OBdA sei m = 1. Gesucht ist G : R n R mit G(x µ ) = t µ µ = 1,..., M. (11) Lösung bei RBF: G als Linearkomination von Funktionen H µ : R n R mit H µ (x) := h( x x µ 2 ) µ = 1,..., M. Dabei ist h : R + R eine (beliebig oft differenzierbare) Funktion. Eine Lösung des Interpolationsproblems hat die Form M G(x) = c µ h( x x µ 2 ) mit c R M µ=1 Die Interpolationsbedingungen G(x ν ) = t ν, ν geben das lineare Gleichungssystem: M M c µ H µ (x ν ) = c µ h( x ν x µ 2 ) = t ν µ=1 µ=1

93 Matrixnotation mit H νµ := H µ (x ν ), H := (H µν ), c = (c 1,..., c M ) und t = (t 1,..., t M ): Hc = t Falls H invertierbar ist, so ist c = H 1 t Die Funktion h : R + R heißt radiale Basisfunktion, wenn die Matrix H invertierbar ist, d.h. wenn das Interpolationsproblem eindeutig lösbar ist. Notwendig: x µ, µ = 1,..., M paarweise verschiedene Punkte. Die symmetrische Matrix H ist invertierbar, wenn sie positiv definit ist, d.h. wenn für alle c R M gilt: M i=1 j=1 M c i H ij c j > 0

94 Theorem: Ist h(x 2 ) eine positiv definite Funktion, so ist h(x) eine radiale Basisfunktion. Eine Funktion h : R + R heißt vollständig monoton auf (0, ), wenn h beliebig oft differenzierbar ist und wenn ( 1) (l) h (l) (x) 0 für alle x (0, ) und alle l 0 gilt. Theorem (Schoenberg 1938): Eine Funktion h(x) ist vollständig monoton, gdw. h(x 2 ) positiv definit ist. Theorem (Micchelli 1986): Ist h vollständig monoton und h positiv, so ist h eine radiale Basisfunktion. Beispiele radialer Basisfunktionen h(r) = e r/σ2, mit σ > 0 h(r) = (c 2 + r) α, mit c > 0 und α > 0 h(r) = (c 2 + r) β, mit c > 0 und 0 < β < 1 h(r) = r

95 4.3 Nichtlineares Support Vektor Lernen P = {x µ T µ = 1} und N = {x µ T µ = 1} linear nicht separierbar Transformieren x µ mit nichtlinearer Transformation φ : R d H, in einen Vektorraum mit Skalarprodukt (genauer ein Hilbertraum), z.b. H kann endlichdimensional sein, also H = R N, aber auch ein unendlichdimensonaler Raum, etwa der Folgenraum l 2 (R). Idee: Zuerst Transformation z µ := φ(x µ ) nach R N durchführen und dann das Support-Vektor-Lernproblem in R N lösen. Gesucht ist also w R N und w 0 R für die Entscheidungsfunktion Dann ergibt sich für w R N F (x) = sgn ( w, φ(x) + w 0 ) w = φ(x µ ) SV (und w0 R wie bereits beschrieben.) α µt µ φ(x µ )

96 Die Entscheidgungsfunktion hat dann die Gestalt F (x) = sgn αµt µ φ(x µ ), φ(x) + w0. Abbildungen der Form φ(x µ ) SV (x, y) R d R d (φ(x), φ(y)) H H φ(x), φ(y) H R lassen sich u.u. durch sogenannte Mercer Kernfunktionen k : R d R d R direkt darstellen. Satz von Mercer: Sei k : R d R d R symmetrisch und gelte f (x)k(x, y)f (y)dxdy > 0 R d R d für alle f L 2 (quadratische integrierbare Funktionen). Dann gibt es einen Hilbertraum H und eine Abbildung φ : R d H mit k(x, y) = φ(x), φ(y) für alle x, y R d

97 Damit läßt sich die Entscheidungsfunktion darstellen durch M F (x) = sgn αµt µ k(x µ, x) + w0. µ=1 Die Koeffizienten ergeben sich durch Maximierung von W (α) = M α µ 1 2 µ=1 M M α ν α µ T ν T µ k(x ν, x µ ) ν=1 µ=1 die mit 0 α µ C/M für alle µ = 1,..., M erreichen

98 Beispiele für Mercer Funktionen (eine kleine Auswahl) 1. ( k(x, y) = exp x ) y 2 2 2σ 2 σ 2 > 0 2. k(x, y) = tanh ( x, y + θ) θ R 3. k(x, y) = ( x, y + 1) d d 2

99 4.4 Zusammenfassung Trainingsdaten M = {(x µ, T µ ) : µ = 1,..., M} R d { 1, 1} Lineare Netze (Delta-Lernregel) Fehlerfunktion lautet: E(w) = T Xw 2 2 min w kann iterativ bestimmt werden durch (Batch Lernregel) w = l µ (T µ w, x µ )x µ (l > 0) Lernrate Die inkrementelle Lernregel lautet w = l(t µ w, x µ )x µ

100 Lineare Netze - Pseudoinverse Analytische Lösung falls es d linear unabhängige Trainingsbeispiele gibt, ist die eindeutige Lösung gegeben durch: w = (X t X ) 1 X t T Falls es nicht d linear unabhängige Trainingsbeispiele gibt, lässt ebenfalls die eindeutige Lösung angeben durch hierbei ist w = X + T X + = lim α 0 (X t X + α 2 I ) 1 X t X + ergibt sich aus der kombinierten Fehlerfunktion (Regularisierung) beim Grenzübergang α 0. E(w) = T Xw α 2 w 2 2 min

101 Perzeptron-Lernen Ziel ist es die Anzahl der Fehlklassifikationen zu minimieren: E(w) = T µ w, x µ min x µ M hier sei M die Menge der fehlklassifizierten Muster x µ (w und x µ als erweiterte Vektoren). Inkrementelle Perzeptron-Lernregel: w = l(t µ sgn w, x µ )x µ

102 Neuronale Assoziativspeicher Spezialfall: Muster binär mit Einschrittlernen. Additive Hebbregel: w = X t T Auch die binäre Hebbregel ist gebräuchlich w = min(1, X t T ) (komponentenweises Minimum), 1 die Matrix/Vektor mit Einsen in allen Komponenten.

103 Support Vektor Lernen (linear) Ziel: Trainingsdaten durch linearen Klasssifikator richtig klassifizieren und die Trennebene soll maximalen Rand haben. L(w, w 0, α) = w M α µ (T µ ( w, x µ + w 0 ) 1) µ=1 Die Lösung w ist eindeutig und liegt fest durch w = α µ T µ x µ x µ SV Die Entscheidungsfunktion lautet dann ( ) F (x) = sgn α µ T µ x µ, x + w 0. x µ SV

104 Backpropagation-Lernen in Mehrschichtnetze (MLP und RBF) Fehlerfunktion : E(w) = T Y 2 2 min Keine analytische Lösung gegeben. Iterative Bestimmung der Parameter (synaptische Kopplungsmatrizen) notwendig, z.b. Gradientenverfahren oder ähnliche Optimierungsverfahren (siehe Neuroinformatik I Vorlesung).

105 Interpolation in RBF-Netzen Ziel: Fehler auf den Trainingsdaten soll gleich Null sein. Gesucht ist eine Funktion φ : R d R M mit φ(x) = (h 1 (x),..., h M (x)), wobei h ν : R d R, für alle ν = 1,..., M. mit T µ = w, φ(x) = für alle µ = 1,..., M. Lösung ist: M w ν h ν (x µ ) ν=1 w = H 1 T mit H µ,ν = h ν (x µ ) = h( x ν x µ ).

106 Support Vektor Lernen (nichtlinear) Zielfunktion: L(w, w 0, α) = w M α µ (T µ ( w, φ(x µ ) + w 0 ) 1) µ=1 φ : R d R N und w R n (und w 0 R) gesucht. Die Entscheidungsfunktion lautet: F (x) = sgn α µ T µ φ(x µ ), φ(x) + w 0. φ(x µ ) SV Für Mercer-Kernfunktionen k(x, y): F (x) = sgn αµt µ k(x µ, x) + w0. φ(x µ ) SV

107 5. Rekurente Netze Jordan Netze Elman Netze BPTT Algorithmus Echo-State Netze

108 Jordan Netzwerke Feedback von der Ausgabeschicht auf die Eingabeschicht; Feedback-Kopplungen werden nicht trainiert (Jordan, 1986)

109 Elman Netzwerk Feedback von einem hidden layer (Elman 1990): Vorteile: interne Repräsentation einer Sequenz ist unabhängig von der Ausgabe y, Zahl der Kontextzellen ist unabhängig von der Ausgabedimension!

110 Training eines partiell rekurrenten Netzes Möglichkeit A: Modifikation eines Lernverfahrens für nichtrekurrente Netze, z.b. Error Backpropagation. Algorithmus (für Elman-Netzwerk): Seien w ki und v ki die Gewichte von Eingabeknoten u k bzw. Kontextknoten s k zum verdeckten Neuron i und c ij die Gewichte der zweiten Netzwerkschicht 1) Setze t = t 0, initialisiere Kontextzellen s(t 0 ) = 0 2) Berechne w ki (t), v ki (t) und c ij (t) gemäß Lernregel für eine Eingabe x(t) mit Sollwert T(t) ohne Beachtung rekurrenter Verbindungen 3) Setze t = t + 1, aktualisiere die Ausgabe s(t) der Kontextzellen und gehe zu 2) Eigenschaften: Fehler von y(t) = f (x(t)) wird minimiert, keine Klassifikation von Sequenzen möglich.

111 Möglichkeit B: Verwendung eines Lernverfahrens für rekurrente Netze (z.b. BPTT [Rumelhart 86], RTRL [Willliams 89]) Idee von BPTT ( Backpropagation Through Time ): Entfaltung des Netzwerks in der Zeit! t max Gradientenabstieg zur Minimierung von E = E(t) t=t 0 mit { E(t) = T(t) y(t) falls T(t) zum Zeitpunkt t vorliegt 0 sonst Eigenschaften: Fehler von y(t max ) = f (x(t 0 ),..., x(t max )) wird minimiert, auch Klassifikation von Sequenzen variabler Länge möglich!

112 BPTT Algorithmus für Elman Netzwerk Gegeben sei ein (m + h) h n Elman Netzwerk mit: w ki v ki c ij δ (y) j δ (s) i : Gewichte von Eingabeknoten u k zum verdeckten Neuron i : Gewichte von Kontextknoten s k zum verdeckten Neuron i : Gewichte vom verdeckten Neuron i zum Ausgabeneuron j : Fehler am Ausgabeneuron j : Fehler am verdeckten Neuron i Lineare Ausgabeneuronen j = 1,..., n : Annahme: E(t) = 0 für t t max für t = t max gilt: für t < t max gilt: δ (y) j (t) = T j (t) y j (t) c ij = s i (t + 1) δ (y) j (t) δ (y) j (t) = 0 c ij = 0

113 Sigmoide verdeckte Neuronen i = 1,..., h : für t = t max für t 0 t < t max δ (s) i (t) = n j=1 c ij δ (y) j (t) s i (t + 1) v ki (t) = s k (t) δ (s) i (t) w ki (t) = x k (t) δ (s) (t) δ (s) i (t) = h k=1 v ki (t) = s k (t) δ (s) i (t) w ki (t) = x k (t) δ (s) i (t) Resultierende Lernregeln: c ij = c ij + η 1 c ij t max w ki = w ki + η 2 w ki (t) t=t 0 t max v ki = v ki + η 2 v ki (t) t=t 0 i v ki δ (s) k (t + 1) s i (t + 1)

114 Echo-State Netzwerke ESN wurden von Herbert Jäger entwickelt (Jäger, 2004). Für Zeitschritte n = 1, 2,... U(n) = (u 1 (n),..., u K (n)) Eingabe zur Zeit n X (n) = (x 1 (n),..., x N (n)) Aktivität der Poolneuronen zur Zeit n Y (n) = (y 1 (n),..., y L (n)) Ausgabe zur Zeit n

115 Kopplungsmatrizen: N K Eingabematrix W in = (wij in) N N Kopplungsmatrix der Poolneuronen W = (w ij ) L (K + N + L) Ausgabematrix W out = (wij out ) N L Feedback-Matrix W back = (wij back ) von der Ausgabe zu den Poolneuronen. Berechnung der Aktivierung der Poolneuronen: X (n + 1) = f (W in U(n + 1) + WX (n) + W back Y (n)) (12) mit f = (f 1,..., f N ) Ausgabe des ESN: Y (n + 1) = f out (W out (U(n + 1), X (n + 1), Y (n))) (13) f out = (f1 out,..., fl out ) sigmoide Funktionen der Ausgabeneuronen. (U(n + 1), X (n + 1), Y (n)) nur W out wird trainiert.

116 Training von Echo-State Netzwerken 1. Gegeben Trainingssequenz (U(n), D(n)) 2. Bilde Zufallsmatrizen (W in, W, W back ). 3. Skaliere W, dass alle Eigenwerte λ max Netzwerk laufen lassen X (n + 1) = f (W in U(n + 1) + WX (n) + W back D(n)) (14) 5. Für jeden Zeitschritt n sammle als Eingaben X (n) in einer Matrix M und tanh 1 D(n) als Matrix der Lehrersignale T. 6. Berechne die Pseudo-Inverse von M und setze t sei die transponierte Matrix. W out = (M + T ) t (15)

117 6. Komplexität der Netze und des Lernens 1. Neuronale Schaltungen 2. NP-Vollständigkeit des Lernens

118 6.1 Neuronale Schaltungen Boolesche Funktion mit AND, OR und NOT:

119 Neuronale disjunktive Normalform

120 Exkurs: McCulloch-Pitts Neuron Struktur eines Neurons (McCulloch and Pitts, 1943): x {0, 1} m, w { 1, 1} m, θ Z u = m x i w i = x w = x, w i=1 y = { 1 für u θ 0 für sonst Satz: Jede beliebige logische Funktion ist mit Netzen aus McCulloch-Pitts Neuronen realisierbar. Beweis: mittes isjunktiver Normalform

121 Aussagen über Schaltnetze Schaltungen von polylogarithmischer Tiefe für Boole sche Funktionen {0, 1} n {0, 1}. Schaltungsklassen AC (Alternating Circuits) besteht aus UND-, ODER- und NICHT-Gattern (von beliebiger Stelligkeit). RC (Real threshold Circuits) besteht aus Schwellenneuronen mit beliebigen reellen Gewichten. T C (Threshold Circuits) besteht aus Schwellenneuronen mit polynomiellen (ganzzahligen) Gewichten. UC (Unitary threshold Circuits) besteht aus Schwellenneuronen mit Gewichten aus { 1, 1}.

122 Unterklassen Für Klasse X bezeichnet X k Schaltungen der Tiefe O(log k (n)) und X k Schaltungen der Tiefe k. Beobachtungen (1): Für X = AC, RC, T C, UC gilt: X k = X 0 k 1 (2): AC k UC k T C k RC k Spezielle Prädikate: X k = X k 1 PAR(x 1,..., x n ) = n x i mod 2 i=1 SPR(x 1,..., x 2n ) = n x i x i+n mod 2 i=1

123 Vergleich von Neuronen mit Logik Theorem: Für alle k gilt: AC k UC k = T C k = RC k AC k+1 Theorem: PAR AC 0 PAR T C 0 AC 1. Vergleich verschiedener Neuronen bei endlicher Tiefe: Theorem: Für alle k gilt: RC k T C k+1 UC k+2 Beobachtung: = UC k = T C k = RC k für alle k Theorem: PAR T C 2 \ T C 1 und SPR T C 3 \ T C 2. (Schwierig zu zeigen ist, daß SPR T C 2.) Bisher ist keine Funktion aus T C 1 bekannt, die nicht in T C 3 ist.

124 6.2 NP-Vollständigkeit des Lernens Three-Unit-Training Problem: Es sei G : {0, 1} n {0, 1} eine Boole sche Funktion, gegeben durch Paare (x i, y i ), i = 1,..., M mit x i {0, 1} n und y i {0, 1}. Frage: Gibt es ein neuronales 2-schichtiges Netz mit 3 Neuronen (2 in der versteckten Schicht, 1 Ausgabeneuron) mit F (x i ) = y i alle i = 1,..., M. F : {0, 1} n {0, 1} sei hierbei die Funktion, die das neuronale Netz realisiert. F ist durch 2n + 2 Gewichte und 3 Schwellwerte definiert

125 Entscheidungsprobleme: Entscheidungsproblem D heißt in Polynomzeit entscheidbar, kurz D P, wenn es eine Turingmaschine M und ein Polynom p gibt, so dass für jedes I D die Instanz I in höchstens p( II )) Schritten entscheidbar ist. Entscheidungsproblem D heißt in verifizierbarbar, kurz D NP, wenn es eine deterministische Turingmaschine M und ein Polynom p gibt, so dass für jedes I D eine Lösung für die Instanz I in höchstens p( II )) Schritten verifiziert ist.

126 Beispiele Mengensplitting: Es sei {s 1,..., s n } eine Menge und C = {c 1,..., c k } mit x j S. Frage: Gibt es A, B disjunkte, nichtleereteilmengen von S mit A B = S und c j A und c j B für alle j = 1,..., k? Bilineare Beschränkung: Es sei {(x i, y i )}, i = 1,..., M mit x i {0, 1} n und y i {0, 1} eine Menge von Paaren. Frage: Gibt es Halbräume Z 1 und Z 2 in R n, so dass der Durchschnitt Z 1 Z 2 genau die positiven Beispiele (mit y i = 1) enthält?

127 D heisst NP-vollständig wenn gilt: 1. D NP 2. Jedes Problem D NP ist polynomiell reduzierbar auf D. D NP heißt polynomiell reduzierbar auf D, gdw es eine Abbildung f : D D gibt (f mittels einer deterministischen Turingmaschine in Polynomzeit berechenbar), so dass für jede Instanz I D gilt: I hat Antwort ja/nein bzgl D gdw f (i) Antwort ja/nein bzgl D hat

128 Satz: Three-Unit-Training (TUT ) ist NP-vollständig. Beweis: 1. TUT NP 2. Bilineare Beschränkung (BE) ist polynomiell reduzierbar auf TUT 3. Mengensplitting ist polynomiell reduzierbar auf BE Beweis: 1. TUT NP 2. Bilineare Beschränkung (BE) ist polynomiell reduzierbar auf TUT 3. Mengensplitting ist polynomiell reduzierbar auf BE

129 7. Darstellung mit neuronalen Netzen 1. Satz von Cover 2. Satz von Cybenko/Hornik

130 7.1 Satz von Cover (1964) P und N heißen linear trennbare Mengen, gdw es w R n und α R gibt mit w, x > α falls x P und w, x < α falls x N Hyperebene ist dann die Menge der x mit w, x = α. P und N heißen 0-trennbare Mengen, falls sie linear trennbar sind mit α = 0. M Punkte im R n sind in allgemeiner Lage, falls jeweils k Punkte aus M linear unabhängig sind für k = 2, 3,..., n. ( x 1,..., x k heißen linear unabhängig, gdw aus k i=1 α ix i = 0 stets α 1 = α k = 0 folgt).

131 Separierbarkeit / Allgemeine Lage : M = 3, M = 4 Punkte im R2

132 ... Betrachten M paarweise verschiedene Punkte im R n in allgemeiner Lage. C(M, n) Zahl der 0-1-Belegungen die linear trennbar sind C 0 (M, n) Zahl der 0-1-Belegungen die 0-trennbar sind. Dann ist n 1 ( ) M 1 C 0 (M, n) = 2 k und C(M, n) = 2 k=0 n k=0 ( M 1 k Hierbei ist der Binomialkoeffizient ( { ) n! n k = (n k)!k! für 0 k n 0 für k > n. ).

133 Rekursionsgleichung 1. C(M + 1, n) = C(M, n) + C 0 (M, n) 2. C 0 (M + 1, n) = C 0 (M, n) + C 0 (M, n 1) Links: M = 4 Punkte (linear trennbar) und ein neuer Punkt (Quadrat) kommt hinzu Rechts: Belegung der 4 Punkte bzw die Trennebene ist so, dass die Belegung des neuen Punktes festgelegt ist

134 ... Belegung der 4 Punkte bzw Trennebene ist so, dass Belegung des Punktes nicht festgelegt ist; (OE neuer Punkt = Nullpunkt) C(M + 1, n) = #{Trennebene legt neuen Punkt fest} + 2#{Trennebene legt neuen Punkt nicht fest} #{Trennebene legt neuen Punkt nicht fest}, d.h. es sind 2 Belegungen möglich, d.h. neuer Punkt = Nullpunkt. Dies sind C 0 (M, n) Belegungen. #{Trennebene legt neuen Punkt fest}, dass sind dann C(M, n) C 0 (M, n)

135 .. Damit gilt: C(M + 1, n) = C(M, n) C 0 (M, n) + 2C 0 (M, n) = C(M, n) + C 0 (M, n). Wir betrachten nun die Rekursionsgleichung für C 0 (M, n): 0-Punkt 0-Punkt Links: M = 4 Punkte (0 trennbar) und ein neuer Punkt (Quadrat) kommt hinzu Rechts: Belegung der 4 Punkte bzw die Trennebene ist so, dass die Belegung des neuen Punktes festgelegt ist

136 .. 0-Punkt 0-Punkt Links: Belegung der 4 Punkte bzw Trennebene ist so, dass Belegung des Punktes nicht festgelegt ist (OE Trennebene geht durch den neuen Punkt und den 0-Punkt Rechts: Projektion auf den Orthogonalraum, der von 0 und dem neuen Punkt definiert wird. Projektionen sind wegen der allgemeinen Lage der Punkt, wieder in allgemeiner Lage und linear trennbar.

137 .. Es gilt für M = 1: C(1, n) = C 0 (1, n) = 2 für alle n N Außerdem gilt C 0 (M, 1) = 2 M M + 1: C 0 (M + 1, n) = C 0 (M, n) + C 0 (M, n 1) ( n 1 ( ) M 1 n 2 ( ) ) M 1 = 2 + k k k=0 k=0 ( n 1 ( ) ( ) ) M 1 M 1 = k k 1 k=1 ( n 1 ( ) ) M n 1 ( ) M = = 2 k k k=1 Damit ist die Formel für C 0 (M, n) bewiesen. k=0

138 .. Es gilt ferner C(M, n) = C 0 (M, n + 1) durch Induktion nach M: M = 1: C(1, n) = C 0 (1, n + 1) = 2 n M M + 1: C(M + 1, n) = C(M, n) + C 0 (M, n) = C 0 (M, n + 1) + C 0 (M, n) = C 0 (M + 1, n + 1) Damit ist die Formel C(M, n) bewiesen.

139 Häufigkeit linear separierbarer Dichotomien X = {x 1,..., x M } R n mit M Punkten in allgemeiner Lage C(M, d) die Anzahl der linear separierbaren Dichotomien von X (insgesamt gibt es 2 M Dichotomien). 1 Näherungen für n=10,50, C(M,n)/2^M n/m Für große n steiler Verlauf der Binomial-Verteilung. Falls M n + 1, dann immer linear trennbar. Falls M 2n dann mit hoher Wahrscheinlichkeit trennbar.