Theorie neuronaler Netze

Größe: px
Ab Seite anzeigen:

Download "Theorie neuronaler Netze"

Transkript

1 Theorie neuronaler Netze Friedhelm Schwenker October 16, 2012

2 Organisation Vorlesung (3h) mit Übung (1h) Mi H21 und Fr Uhr 123 MatLab: Übung: Schein: 50% der Punkte (7 Übungsblätter) + aktive Übungsteilnahme; Bonusregel gilt!

3 Theorie neuronaler Netze 1. Modellierung neuronaler Netze 2. Stabilität neuronaler Netze 3. Lernen in Einschichtnetzen 4. Lernen in Mehrschichtnetzen 5. Rekurrente Netze 6. Darstellung mit neuronalen Netzen 7. Komplexität neuronaler Netze

4 1. Modellierung neuronaler Netze 1. Biologische Grundlagen 2. Allgemeines Kanalmodell 3. Vereinfachte Neuronenmodelle 4. Quasi-stationäre Lösungen

5 1.1 Biologische Grundlagen Der Kortex des menschlichen Gehirns mit verschiedenen Arealen.

6 Bestandteile eines typischen Neurons Dendriten bzw. Dendritenbaum Zellkörper (Soma) Nervenfaser (Axon) mit dem axonalen Baum

7 Aufbau einer Synapse Synapse mit der prä- und postsynaptischen Membran. Ausschüttung der Neurotransmittermoleküle in den synaptischen Spalt.

8 Zellmembran / Ionen Zellmembran - offene und verschließbare Ionenkanäle sind abgebildet. Typische Ionenkonzentrationen (für (Tintenfisch-)Axon in Millimol/Liter) im Intra- und Extrazellulärraum Typ Innen Außen K Cl Na

9 Aktionspotential

10 Räumlich-zeitliche Summation am Dendriten

11 Dynamik der neuronalen Verarbeitung Summation am Zellkörper EPSP/IPSP von vorgeschalteten Neuronen führen zu Potentialveränderungen am Dendritenbaum/Zellkörper ( räumlich/zeitliche Summation der EPSP/IPSP) Auslösung eines Aktionspotentials Ändert sich das Membranpotential am Zellkörper nur schwach, wird kein Aktionspotential ausgelöst (unterschwelligen Erregung). Bei hinreichend starker Depolarisation der Membran wird im Bereich des Axonhügels ein Aktionspotential ausgelöst. Ausbreitung des Aktionspotentials Das Aktionspotential breitet über das Axon bis in den axonalen Baum mit konstanter Amplitude aus Synaptische Übertragung Das Aktionspotential führt in den axonalen Endknöpfchen zu einer Ausschüttung von Neurotransmittern, die auf der postsynaptischen Membran zu einer Änderung des Membranpotentials führen.

12 Anatomische Größen Maus Mensch N/mm D/N 3 mm 2 cm A/N 2 cm 6 cm S/N D/mm m m A/mm m m S/mm S/D 3 / µm 1 / µm S/A 1 / 2 µm 1 / 3 µm N = Neuronenzahl ; D = Dendritenlänge; S = Synapsenzahl; A = Axonlänge

13 Computer vs. Neuronale Netze Computer kaum fehlertolerant Totalausfall bei Hardwarestörungen explizite Programmierung wenige, aber komplexe Prozessoren (typischerweise 10 0 ) niedriger Vernetzungsgrad (Verbindungen 10 2 am Prozessor) kurze Schaltzeiten der Prozessoren (heute im 10 8 Hz-Bereich) Neuronale Netze fehlertolerant, robust gegenüber verrauschtendaten System funktioniert mit eingeschränkter Funktionalität Lernen durch Beispiele sehr viele einfache Neuronen (menschliches Gehirn ca ) hoher Vernetzungsgrad (bis zu 10 4 Synapsen pro Neuron) lange Schalt und Laufzeiten (im 10 2 Hz-Bereich)

14 1.2 Allgemeines Kanalmodell Modellvoraussetzungen für das allgemeine Kanalmodell: I = {1,..., N} die Menge der Neuronen. Jedes Neuron j ist von einem bestimmten (Membran-)Typ l und einem bestimmten (Übertragungs-)Kanaltyp k. τ l > 0 Zeitkonstante und ϑ l : R + R + die Schwellenfunktion für den Membrantyp l. r k : R + R + die Responsefunktion und U k Umkehrpotentiale für den Übertragungskanaltyp k. C = (c ij ) synaptische Kopplungsmatrix und D = (d ij ) Matrix der Delays.

15 Neuronenmodelle (1/2) (1) Dendritisches Potential u j des Neurons j vom Membrantyp l τ l u j (t) = u j (t) + k a k j (t)(u k u j (t)) + x j (t) (V) Variante: u j nach Spike von j auf Ruhepotential U 0 gesetzt. (2) Gesamtinputaktivität aj k im Übertragungskanal k des Neurons j a k j (t) = i I k a ij (t) I k Neuronen vom Kanaltyp k übertragene Aktivität a ij vom Neuron i zum Neuron j im Kanal k a ij (t) = s T i t r k (t (s + d ij ))c ij = s<t r k (t (s + d ij ))y i (s)c ij

16 Neuronenmodelle (2/2) (3) Outputaktivität y j des Neurons j y j (t) = 1 [uj (t) θ j (t)] (4) Schwellenfunktion θ j und Spikezeitpunkte T j t von Neuron j (vom Membrantyp l) θ j (t) = max ϑ l (t s) T s T j t j = {s < t y j (s) = 1} t (5) Diskretisierung von (1) mit ϱ l := t τ l und ϱ l (0, 1] u j (t + t) = (1 ϱ l ) u j (t) + ϱ l aj k (U k u j (t)) + ϱ l x j (t) k

17 Vereinfachungen a) Response Funktion durch Gesamtwirkung w ij beschreiben: (2 ) a k j (t) = i I k w ij y i (t d ij ) b) U k u ersetzen durch U k (unterhalb der Schwelle ist u klein): (1 ) τ l u j (t) = u j (t) + k a k j (t)u k + x j (t) Mit (2 ) folgt: (1 ) τ l u j (t) = u j (t) + i w ij y i (t d ij ) + x j (t) c) Einfache zweiwertige Schwellenfunktion ϑ(t) {ϑ ref, ϑ rest }. d) Schwellenmechanismus (mit ϑ l ) durch Ratenfunktion f l ersetzen: (3 ) y j (t) = f l (u j (t)) e) Alle Delays = 1; alle Delays = 0.

18 1.3 Vereinfachte Neuronenmodelle Kanalmodell: Gleichungen 1, 2, 3 und 4 Spike-Response-Modell: 1, 2, 3 und 4 Dynamic-Threshold-Modell: 1, 2, 3 und 4 Integrate-and-Fire-Modell: 1 mit Variante (V), 3, 4 und mit einfacher Schwelle (d) Ratenmodell: 1, 2 und 3 Grundmodell: 1 und 3 Lineares Modell: 1, 3 und mit linearer Ratenfunktion f Einfaches lineares Modell: 1, 3, Delays alle = 0 und mit linearer Ratenfunktion f

19 1.4 Asynchrone quasistationäre Zustände (1/5) Asynchrone quasistationäre Zustände - als Basis für die neuronale Informationsverarbeitung. (1) Ratenfunktion f l (u) aus Schwellenfunktion ϑ l (t) bestimmen. y j = f l (u j ) = 1 ϑ 1 l (u j ) fr j vom Membrantyp l (2) Gesamtwirkung ˆr k := r k (t)dt aus der Responsefunktion r k (t). Diese beiden Vereinfachungen ergeben das Grundmodell mit: a k j = i I k ˆr k y i c ij = i I k ˆr k f li (u i ) c ij l i Membrantyp des Neurons i.

20 ... (2/5) (3) Berechnung der Fixpunkte mit dem Ansatz 0 u j 0 τ k u j = u j + k a k j (U k u j )+x j u j x j + k ak j U k 1 + k ak j (4) Linearisierung ergibt ein homogenes einfaches lineares Modell DGL des dendritischen Potentials lautet mit den Vereinfachungen: τ l u j = u j + (U k u j )ˆr k f li (u i )c ij + x j k i I k Betrachten nun DGL für u j = u j + e j : τ l ( u j + ė j ) = (u j + e j ) + k (U k (u j + e j ))ˆr k i I k f li (u i + e i )c ij + x j

21 ... (3/5) Nun setzen wir ein f li (u i + e i ) f li (u i ) + e i f l i (u i ) τ l ( u j +ė j ) = (u j +e j )+x j + k (U k (u j +e j ))ˆr k (f li (u i )+e i f l i (u i ))c ij i I k τ l ( u j + ė j ) = (u j + e j ) + x j + (U k u j )ˆr k f li (u i )c ij k i I k + (U k u j )ˆr k e i f l i (u i )c ij k i I k e jˆr k f li (u i )c ij e jˆr k e i f l i (u i )c ij k i I k k i I k

22 ...(4/5) Die Summanden k ˆr k i I k e j e i f l i (u i )c ij sind quadratisch in den Störungstermen e j und können bei der Linearisierung vernachlässigt werden: τ l ė j = e j + (U k u j )ˆr k e i f l i (u i )c ij e j ˆr k f li (u i )c ij k i I k k i I k Mit C ij = ˆr k f li (u i )c ij und Ĉij = (U k u j )ˆr k f l i (u i )c ij folgt die lineare DGL: τ l ė j = e j e j C ij + Ĉ ij e i k i I k k i I k

23 ...(5/5) Man erhält man ein homogenes lineares DGl-System: ė = Ae mit e = (e 1,... e n ) T, ė = (ė 1,... ė n ) T und mit der reellen n n Matrix A = (a ij ) definiert durch a jj = 1 τ l (1 + k i I k Cij ) und a ji = 1 τ l k i I k Ĉ ij, i j Die Stabilität dieses Systems ist zu untersuchen, dazu betrachten wir einfache lineare neuronale Netze.

24 2. Stabilität in neuronalen Netzen 1. Lineare Netze in kontinuierlicher Zeit 2. Lineare Netze in diskreter Zeit 3. Äquivalenz der Stabilitätsbedingungen 4. Hopfield Netze in kontinuierlicher Zeit 5. Hopfield Netze in diskreter Zeit

25 2.1 Stabilität linearer Netze (kontinuierliche Zeit) Wir untersuchen das System von n linearen Modellneuronen: n τ u j = u j + x j + c ij u i i=1 j = 1,..., n τ > 0 Zeitkonstante, u j dendritisches Potential, x j externe Eingabe, c ij synaptische Kopplungen. Für Modelle ohne externen Input, also x j = 0, erhalten wir ein homogenes DGL-System mit Einheitsmatrix Id. τ u = u + uc = u(c Id)

26 ... Also u = Au mit A = 1 τ (C T Id). Lösungsansatz für (komplexe) Lösungen: u(t) = ve λt mit λ C und v C n. Hierfür muss dann gelten also muss gelten Au = Ave λt = u = vλe λt Av = λv d.h. λ C ist Eigenwert mit zugehürigem Eigenvektor v C n der (reellen) n n Matrix A

27 ... Für eine n n Matrix A sind die Eigenwerte nach Definition genau die Nullstellen des charakteristischen Polynoms von A. Es ist definiert durch: p A (λ) = det(a λid) Für einen Eigenwert λ C von A bestimmt man zugehörige Eigenvektoren v C n durch Lösen des LGS: (A λid)v = 0 Es gelten die folgenden Eigenschaften: Sei u Lösung von u = Au, dann ist auch ū Lösung, denn: denn A ist eine reelle Matrix. u = u = Au = Au Seien u 1, u 2 Lösungen von u = Au und a 1, a 2 C dann sind auch a 1 u 1 + a 2 u 2 Lösungen: (a 1 u 1 + a 2 u 2 ) = a 1 u 1 +a 2 u 2 = a 1 Au 1 +a 2 Au 2 = A(a 1 u 1 +a 2 u 2 )

28 ... Sei u Lösung von u = Au, dann sind auch Re(u) und Im(u) Lösungen: Re(u) = 1 2 (u + ū) und Im(u) = 1 (u ū) 2i Explizite Darstellung von Real- und Imaginärteil sind: und Re(u) = e µt (a cos(νt) b sin(νt)) Im(u) = e µt (a sin(νt) + b cos(νt)) hierbei sei λ = µ + iν und v = a + ib mit µ, ν R und a, b R n.

29 ... Stabilität von u = Au bei t offenbar gdw alle Eigenwerte λ C von A = 1 τ (C T Id) negative Realteile haben bzw. die Eigenwerte der Kopplungsmatrix c Realteile kleiner als 1 haben. Es gelten folgende Aussagen für Eigenwerte/Eigenvektoren von Matrizen: 1. λ Eigenwert zum Eigenvektor v von Matrix C, gdw λ Eigenwert zum Eigenvektor v von Matrix C T 2. Es sei α, β C. Dann gilt λ Eigenwert zum Eigenvektor v von Matrix C, gdw αλ + β) Eigenwert zum Eigenvektor v von Matrix αc + βid. Es sei λ Eigenwert von C dann gilt: 0 = det(αλ + βid αc + βid) (1) = det(α(λid + µid C µid)) (2) = det(λid C) (3)

30 2.2 Stabilität linearer Netze (diskrete Zeit) Wir betrachten nun das zeitlich diskretisierte Modell für j = 1,..., n, t > 0 τ u j(t + t) u j (t) t n = u j (t) + x j (t) + c ij u i (t) i=1 Also mit ϱ = t/τ u j (t + t) = (1 ϱ)u j (t) + ϱx j (t) + ϱ in Matrixnotation erhalten wir n c ij u i (t) i=1 u(t + t) = (1 ϱ)u(t) + ϱx(t) + ϱu(t)c mit F = (1 ϱ)id + ϱc folgt: u(t + t) = u(t)f + ϱx(t)

31 ... Hieraus folgt: u(0) = u 0 u( t) = u 0 F + ϱx(0) u(2 t) = u 0 F 2 + ϱx(0)f + ϱx(1) u(3 t) = u 0 F 3 + ϱx(0)f 2 + ϱx(1)f + ϱx(2) Induktiv folgt k > 0: k 1 u(k t) = u 0 F k + ϱ Falls x(t) = 0 für alle t so folgt: i=1 u(k t) = u 0 F k x(i)f k (i+1)

32 ... Falls x(t) = x R n für alle t so folgt: k 1 u(k t) = u 0 F k + ϱx Verhalten bei k : Es seien λ 1,..., λ n die Eigenwerte von F mit den entsprechenden Eigenvektoren v 1,..., v n und V die Matrix deren Spalten aus den Eigenvektoren v i besteht. Sind die Eigenvektoren linear unabhängig so gilt F = VDV 1 i=0 dabei ist D = diag(λ 1,..., λ n ) die Diagonalmatrix mit den Eigenwerten in der Diagonalen. F i

33 ... Dann gilt: F k = (VDV 1 ) k = VDV 1 VDV 1 = VD k V 1 Also F k = V diag(λ k 1,..., λ k n) V 1 Es gilt offenbar k 1 k 1 (I F ) F i = ( F i )(I F ) = I F k i=0 i=0 Falls nun I F invertierbar ist (gdw alle Eigenwerte von F 1 sind) dann gilt: k 1 F i = (I F k )(I F ) 1 i=0

34 ... Falls alle EW von F vom Betrag kleiner als 1 sind, so folgt k 1 F i (I F ) 1, i=0 bei k Damit gilt für: k 1 u(k t) = u 0 F k + ϱx falls alle Eigenwerte λ von F gilt λ < 1 so folgt u(n t) 0 bei t. Sind die Stabilitätsbedingungen für das kontinuierliche und das diskretisierte lineare System äquivalent? i=0 F i

35 2.3 Äquivalenz der Stabilitätsbedingungen Es sei a C ein Eigenwert von Kopplungsmatrix C und damit 1 + ϱ(a 1) ein Eigenwert von Id + ϱ(c Id) mit 1 + ϱ(a 1) < 1 Es sei nun a = α + iβ mit α, β R. Dann gilt: 1 + ϱ(a 1) = 1 + ϱ(α 1) + iϱβ Ferner ist 1 + ϱ(a 1) < 1 gdw. 1 + ϱ(a 1) 2 < 1. Es gilt weiter: 1+ϱ(a 1) 2 = (1+ϱ(α 1)) 2 +ϱ 2 β 2 = 1+2ϱ(α 1)+ϱ 2 (α 1) 2 +ϱ 2 β 2 Also 1 + ϱ(a 1) 2 < 1 gdw Dies ist nun äquvalent zu 2(α 1) + ϱ(α 1) 2 + ϱβ 2 < 0 ϱ < 2(1 α) (α 1) 2 =: b + β2

36 ... Hieraus folgt sofort α = Re(a) < 1, denn für α 1 folgt ϱ = t τ 0. Falls nun α < 1, so gilt b > 0 und somit gibt es ein ϱ mit der Eigenschaft 0ϱ < b. Die Betrachtung gilt für beliebiges β = Im(a) R. Die Forderung α = Re(a) < 1 für alle Eigenwerte der Kopplungsmatrix C war gerade die Stabilitätsbedingung an das kontinulierliche lineare System. Stabilitätsbedingungen für das kontinuierliche und das diskretisierte System sind äquivalent und es muss gelten 2(1 α) 0 < t < τ (α 1) 2 + β 2 für alle Eigenwert a = α + iβ von C.

37 Einschub: Lyapunov-Funktionen Betrachten DGL ẋ = g(x) mit x = x(t) = (x 1 (t),..., x n (t)), wobei x i : R R, t x i (t) Eine stetig differenzierbare Funktion H : D R mit D R n heißt eine Lyapunov-Funktion für die DGL ẋ = g(x), wenn gilt: Ḣ(x) = grad(h(x)), g(x) = n i=1 H x i g i (x) 0 für alle x D. Satz: Es ein ẋ = g(x) ein DGL System mit isoliertem Fixpunkt x (obda gelte x = 0) und H ein nach unten beschränke Ljapunov-Funktion. Dann ist der Fixpunkt asymptotisch lokal stabil.

38 2.4 Stabilität des kontinuierlichen Hopfieldmodells Wir wollen zum Grundmodell in kontinuierlicher Zeit τ u(t) = u(t) + x(t) + y(t)c (4) y(t) = f (u(t)) (5) eine Lyapunov-Funktion konstruieren. Der Input sei x(t) = x = konstant. Für den Zustandsvektor y(t) = (y 1 (t),..., y n (t)) gilt dh(y(t)) dt = = = n i=1 n i=1 H y i (y(t))ẏ i (t) H y i dy i du i u i (t) n H f (u i (t)) y i }{{} i=1 0 1 τ }{{} >0 ( u i (t) + x + (yc) i ) (6)

39 ... Wir werden Lyapunov-Funktion H so konstruieren, dass H y i = u i + x i + (yc) i ist, dann gilt nämlich dh(y(t)) 0. dt Konstruktion von H aus drei Summanden H 1, H 2, H 3, also H = H 1 + H 2 + H 3.

40 ... 1) Die Transferfunktion f sei streng monoton wachsend und somit invertierbar, somit gilt u i = f 1 (y i ). Deshalb setzen wir H 1 = i yi 0 f 1 (s)ds. Damit erhalten wir als Ableitung von H 1 nach y i H 1 y i = f 1 (y i ) = u i 2) Für den zweiten Summanden setzen wir an: n H 2 = x i y i, i=1 Dann ist offenbar H 2 y i = x i.

41 ... 3) Es bleibt noch der Anteil (yc) i = n j=1 y jc ji Wir setzen an: H 3 = 1 2 n n y j c ji y i, i=1 j=1 dann ist H 3 y i = 1 2 2y i c ii + n j=1,j i c ji y j + n j=1,j i y j c ij Sei die Kopplungsmatrix C symmetrisch, d.h. c ij = c ji für alle i, j. Dann gilt: H 3 = 1 n n n c ji y j + y j c ij = c ji y j y i 2 j=1 j=1 j=1

42 ... Zusammenfassung: H = H 1 + H 2 + H 3 eine Lyapunov-Funktion des Grundmodells τ u(t) = u(t) + x + y(t)c y(t) = f (u(t)) Denn es gilt H y i = H 1 y i + H 2 y i + H 3 y i = u i x i j y j c ji = 1 τ u i und dh(y(t)) dt = 1 τ u i 2 (t) f (u i (t)) 0. i

43 2.5 Stabilität des diskreten Hopfieldmodells Diskrete Zeit und ohne Gedächtnis t = 1 u j (t + 1) = n c ij y j (t) + x j (t) i=1 Binäre Ausgabe y j (t) = sgn(u j (t)) wobei sgn(a) = 1 falls a 0 und sgn(a) = 1 falls a < 0. Voraussetzung: Asynchrone neuronale Dynamik, d.h. es wird zur Zeit t genau ein Neuron j ausgewählt - gemäß der positiven Wahrscheinlichkeiten p 1,..., p n auf den n Neuronen.

44 ... Annahme: Zur Zeit t wird Neuron j ausgewählt (Update). Ferner betrachten wir die Funktion n H(y(t)) = H 2 (y(t))+h 3 (y(t)) = x i y i (t) 1 n n y j (t)c ji y i (t) 2 i=1 i=1 j=1 zur Zeit t, d.h. vor dem Update, und zur Zeit t + 1, d.h. nach dem Update. Falls y j (t + 1) = y j (t), dann ist auch H = H(y(t + 1)) H(y(t)) = 0. Falls nun y j (t + 1) = y j (t), dann : n n H 2 = x i y i (t + 1) + x i y i (t) = 2x j y j (t) und H 3 = 1 2 n i=1 i=1 k=1 i=1 n y k (t + 1)c ki y i (t + 1) n i=1 k=1 n y k (t)c ki y i (t)

45 ... Falls C symmetrisch ist, gilt: n n H 3 = y j (t + 1)c ij y i (t + 1) + y j (t)c ij y i (t) i=1 = y j (t + 1) = y j (t + 1) i=1 n c ij y i (t + 1) + y j (t) i=1 n +y j (t) n i=1,i j i=1,i j n = y j (t + 1) n = 2y j (t) i=1,i j n c ij y i (t) i=1 c ij y i (t + 1) y j (t + 1)c jj y j (t + 1) c ij y i (t) + y j (t)c jj y j (t) n c ij y i (t + 1) + y j (t) c ij y i (t) c ij y i (t) = 2y j (t) i=1,i j i=1 i=1,i j n c ij y i (t) 2c jj

46 ... Damit folgt nun: n H = H 2 + H 3 = 2x j y j (t) + 2y j (t) c ij y i (t) 2c jj i=1 Also H = 2y j (t) ( n ) c ij y i (t) + x j 2cjj = 2y j (t)u j (t + 1) 2c jj i=1 Da das Neuron j den Zustand ändert gilt: sgn(u j (t + 1)) = y j (t + 1) = y j (t) Somit ist y j (t)u j (t + 1) 0 und Gleichheit gdw. u j (t + 1) = 0. Es gelte weiterhin: c jj 0 für alle j, d.h. keine negativen Selbstrückkopplungen. Dann gilt H 0 und Gleichheit gdw. u j (t + 1) = 0 und c jj = 0

47 3. Lernen in einschichtigen neuronalen Netzen 1. Architektur und Lernproblem 2. Lineare Assoziativspeicher 3. Binäre Assoziativspeicher 4. Perzeptron-Lernen 5. Support-Vektor-Lernen 6. Neuronale PCA

48 3.1 Architektur und Lernproblem

49 Lernproblem Merkmalsvektor: x R d bzw x {0, 1} d Lehrersignal: T R n oder T {0, 1} n Ausgabe: y j = f (x w j ), j = 1,..., n (ggf. erweiterte Gewichtsund Eingabevektoren) f eine Transferfunktion, z.b. Sprung-, Signum-, Logistische Funktion Trainingsmaterial: M = {(x µ, T µ ) : µ = 1,..., M} bzw M = {x µ : µ = 1,..., M} Gesucht sind Gewichtsvektoren wj R d, j = 1,..., n so dass E(w 1,..., w n ) min für eine definierte Fehlerfunktionen E : R nd R.

50 3.2 Lineare Assoziativspeicher Lösung durch Pseudo-Inverse Approximative Lösung durch Gradientenabstieg

51 Lösung durch Pseudo-Inverse Wir betrachten ein Einschichtnetz mit n Neuronen: d y j = f ( x i w ij ) i=1 j = 1,... n f eine stetig differenzierbare Funktion mit f > 0. Dann ist f umkehrbar und statt T µ benutzt man f 1 (T µ ) als Lehrersignale. Somit neben wir ohne Einschränkung an, f = id und y j = d x i w ij i=1 j = 1,... n Quadratische Fehlerfunktion: E(w) = µ T µ y µ 2 2, dabei ist y µ die Ausgabe für Input x µ.

52 .. Wir setzen ohne Einschränkung n = 1. Damit hat die Fehlerfunktion die Gestalt: E(w) = µ (T µ y µ ) 2 = µ d (T µ x µ i w i ) 2 min i=1 Definiere T = (T µ ) 1 µ M und M d Matrix X = (x µ i ) 1 µ M. 1 i d Fehlerfunktion lässt sich nun schreiben als E(w) = T Xw 2 2 min Fehler = 0 ist möglich, falls X invertierbar ist Xw = T durch w = X 1 T Diese Lösung ist nur für M = d möglich (uninteressante Lernaufgabe)

53 .. Minimierung von E w, d.h. es muss gelten E w w k = 0 für alle k = 1,..., d Somit folgt Hieraus folgt weiter E w w k = 2 µ (T µ µ (T µ d x µ i w i )x µ k i=1 d x µ i w i )x µ k = 0 i=1 µ x µ k d x µ i w i = µ i=1 x µ k T µ für alle k = 1,..., d Mit oben definierten Matrizen folgt: X t Xw = X t T

54 .. Ist die (symmetrische) d d Matrix X t X invertierbar, so gilt: w = (X t X ) 1 X t T Matrix (X t X ) 1 X t nennt man Pseudoinverse von X. Matrix X t X ist invertierbar, gdw es d linear unabhängige Eingabevektoren in X gibt. X t X nicht invertierbar, so ist E(w) = T Xw 2 2 min nicht eindeutig lösbar. Eindeutigkeit für veränderte Fehlerfunktion E(w) = T Xw α 2 w 2 2 min mit α > 0. (Norm des Gewichtsvektor minimal)

55 .. Dann folgt offenbar E w k = 2 µ (T µ d x µ i w i )x µ k + 2α2 w k i=1 fr alle k = 1,..., d und µ x µ k d x µ i w i + α 2 w k = µ i=1 x µ k T µ fr alle k = 1,..., d Mit den oben definierten Matrizen folgt hieraus (X t X + α 2 I )w = X t T Für α 0 ist X t X + α 2 I invertierbar (da positiv definit) und es gilt w α = (X t X + α 2 I ) 1 X t T

56 Zusammenfassung: 1. Für beliebige Matrizen X existiert die Pseudoinverse X + : X + = lim α 0 (X t X + α 2 I ) 1 X t 2. Falls X t X invertierbar ist, so gilt X + = (X t X ) 1 X t 3. Falls sogar X invertierbar ist, so gilt X + = X 1 4. In jedem Fall ist w = X + T Lösung der Minimierungsaufgabe E(w) = T Xw 2 2 min

57 Gradientenabstieg (Delta-Lernregel) Lernregel als Gradienten-Verfahren: 1. grad E(w 1,..., w n ) ausrechnen (Kettenregel zweimal anwenden) (hier für das Gewicht w ij ) : w ij E = M µ=1 2 (T µ j y µ j ) ( f (w j x µ )) x µ i. 2. Ableitung in die allgemeine Gradientenformel einsetzen liefert: w ij = l(t) M (T µ j y µ j )f (w j µ)x µ i µ=1

58 3.3 Binäre Assoziativspeicher Architektur, Musterspeicherung Hetero-Assoziation Auto-Assoziation

59 Architektur Einschichtnetz aus n Schwellenneuronen mit Schwelle θ

60 Musterspeicherung M binäre Musterpaare (x µ, T µ ) (µ = 1,..., M) werden gespeichert durch Hebb-Lernregeln c ij = M µ=1 x µ i T µ j binäre Hebbregel c ij = M µ=1 x µ i T µ j additive Hebbregel Auslesen des Antwortmusters zur Eingabe x µ y j = { 1 i x µ i c ij θ := x µ 0 sonst

61

62

63

64 Hetero-Assoziation Muster {(x µ, T µ ) : µ = 1,..., M}, x µ {0, 1} m k, T µ {0, 1} n l, p := k m, q = l n Lernregel: c ij = M µ=1 x µ i T µ j Retrieval: z j = 1 [x C θ] dabei ist θ = k Fehler: f 0 = p[z j = 0 T j = 1] = 0 und f 1 = p[z j = 1 T j = 0] = (1 p 0 ) k = pm = k = Dabei ist ln f 1 ln(1 p 0 ) (7) p 0 = p[c ij = 0] = (1 pq) M e Mpq = M = ln p 0 pq (8) Das Retrieval ist sehr genau, wenn f 1 δ q mit δ < 1. δ: Gütekriterium

65 Kapazität bei Hetero-Assoziation Falls δ klein, dann ist die Information über das Ausgabemuster T µ : I µ n ( q log 2 q (1 q) log 2 (1 q)) nq log 2 q Relative Speicherkapazität: C = M I µ m n = I µ ln p 0 pqmn = ln p 0 ln(1 p 0 ) nq log qn ln f 2 q 1 Maximieren nach p 0 : = p 0 = 1 2 und damit C max = (ln 2)2 log 2 q ln q + ln δ ln q = ln 2 ln q + ln δ ln 2 Der Limes wird erreicht für q 0 und δ 0, aber δ langsamer, so dass ln δ ln q 0. Für große Matrizen ist C ln 2 bei kleinem δ > 0 erreichbar, wenn q sehr klein gewählt wird. = Spärlichkeit.

66 Auto-Assoziativspeicher Hetero-Assoziation: x T (pattern mapping) Auto-Assoziation: x = T (pattern completion) Für Auto-Assoziation iteratives Retrieval durch Rückkopplung der Netzausgabe:

67 Speichern und Retrieval Muster {(x µ ) : µ = 1,..., M}, x µ {0, 1} m k,, p := k m. Lernregel: c ij = M µ=1 x µ i x µ j Retrieval: z t+1 j = 1 [zt C θ t ] dabei θ = z t, t = 1 und θ t = k Abbruch: z t z t+1 für t > 1 Fehler: f 0 = p[z j = 0 x j = 1] = 0 und f 1 = p[z j = 1 T j = 0] = (1 p 0 ) k = pm = k = Dabei ist ln f 1 ln(1 p 0 ) (9) p 0 = p[c ij = 0] = (1 p 2 ) M e Mp2 = M = ln p 0 p 2 (10) Das Retrieval ist sehr genau, wenn f 1 δ p mit δ < 1. δ: Gütekriterium

68 Speicherkapazität und mittlere Iterationszeit Autoassoziation mit n=2048 Neuronen; Binäre (durchgezogene Linie)/additive Hebb-Lernregel. 1-Schritt- ( ), 2-Schritt- ( ), und Fixpunkt-Retrieval ( ) Resultate Höhere Speicherkapazität mit binärer Hebbregel! Nur wenige Iterationsschritte ( 3) notwendig.

69 Fehlerwahrscheinlichkeit und Musterzahl Näherungsrechung für 1-Schritt- und 2-Schritt-Retrieval Experimentelle Ergebnisse für 1-Schritt- ( ), 2-Schritt- ( ) und Fixpunkt-Retrieval ( ) Resultate Fehlerwahrscheinlichkeit ist klein (für große Netze 0) Auslesegüte wird durch iteratives Retrieval verbessert

70 3.4 Perzeptron Lernen Trainingsmaterial : T = {(x µ, T µ ) : µ = 1,..., M} R d { 1, 1} Wir untersuchen die Perzeptron-Lernregel: w = l (T y) x mit Lehrersignal T { 1, 1} mit Eingabe x R d, Lernrate l und y = sign(x w) (Schwelle θ als Gewicht w 1 mit konstanter Eingabe x µ 1 Muster µ). Andere Schreibweise der Perzeptron-Lernregel: = 1 für alle w = l sign(x w) x = l T x falls T y (Änderungsschritt)

71 Das Problem ist lösbar, falls ein Gewichtsvektor w mit sign(x µ w) = T µ für alle µ exisitiert d.h. T µ (x µ w) > 0 µ, d.h. D(w) := min M µ=1 T µ (x µ w) > 0. Die Funktion D(w) nimmt auf der Einheitskugel K = {w : w w = 1} das Maximum d an. Also gibt es w mit w w = 1 und D(w ) = d. Separierungsproblem ist lösbar, falls d > 0. Setze c := max M µ=1 (x µ x µ ). Zu bestimmen ist die Anzahl der Änderungsschritte S.

72 Betrachten dazu das Gewicht w S nach S Änderungsschritten: w S = S i=1 ( w) i mit Startwert w = 0 Dann gilt (wegen der alternativen Formulierungen der Lernregel) und ( w) w = l T µ (x µ w ) l D(w ) = l d (w + w) (w + w) w w = 2 (( w) w) + ( w) ( w) =... = 2 l sign(x µ w) (x µ w) + l 2 (x µ x µ ) l 2 (x µ x µ ) l 2 c

73 Also gilt: w S w S Sl 2 c und w S w Sld. Daraus folgt dann mit Hilfe der Cauchy-Schwarz-Ungleichung: S l d (3) w S w (w S w S )(w w ) = w S w S S l 2 c = S c/d 2 Also konvergiert der Perzeptron-Lernalgorithmus nach endlich vielen (echten) Lernschritten. Der Gewichtsvektor kann durch w = 0 initialisiert werden. Der Konvergenz-Beweis gilt für beliebige konstante positive Lernrate.

74 3.5 Support Vektor Lernen Ist eine spezielle Form des Perzeptron-Lernverfahrens. Lernverfahren entsteht durch eine Kombination von 2 Zielen; diese legen dann im Fall linear separierbarer Mengen eine eindeutige Trennhyperebene fest. Gegeben Trainingsdaten T = {(x µ, T µ ) : µ = 1,..., M} R d { 1, 1} Wir nehmen zunächst einmal an, die Mengen P = {x µ T µ = 1} und N = {x µ T µ = 1} seien linear separierbar. Das Perzeptron-Lerntheorem sichert die Konvergenz nach endlich vielen Schritten gegen eine Lösung w (erweiterter Gewichtsvektor).

75 Die Lösung w beim SV Lernen soll erfüllen: 1. Separationsbedingungen: T µ ( w, x µ + w 0 ) > 0 fr alle µ = 1,..., M 2. Möglichst großen Abstand den Mengen N und P hat (maximal margin) Es sein min µ T µ ( w, x µ + w 0 ) = δ > 0 Nun reskalieren wir und erhalten w = 1 δ w und w 0 = 1 δ w 0, sowie T µ ( w, x µ + w 0 ) 1 fr alle µ = 1,..., M Offenbar gibt es mindestens einen Punkt x ν P und x µ N mit w, x ν + w 0 = 1 und mit w, x µ + w 0 = 1

76 Daraus folgt w, x ν x µ = 2 und damit ist D(w) die Breite des Randes der separierenden Hyperebene gegeben durch w D(w) =, (x ν x µ ) = 2 w 2 w 2 Maximierung des Randes bedeutet Minimierung von ϕ(w) = w 2 2 min 2 unter den Nebenbedingungen T µ ( w, x µ + w 0 ) 1 für alle µ = 1,..., M Dies ist ein quadratisches Optimierungsproblem unter Nebenbedingungen. Einführung von Lagrange Multiplikatoren α µ 0 für jeder Separationsbedingung µ = 1,..., M ergibt: L(w, w 0, α) = w M α µ (T µ ( w, x µ + w 0 ) 1) µ=1

77 Setzt man nun die partiellen Ableitungen L w folgen die Bedingungen M α µ T µ = 0 und w = µ=1 = 0 und L w 0 M α µ T µ x µ µ=1 Außerdem folgt aus den Optimierungsbedingungen = 0, so α µ [T µ ( w, x µ + w 0 ) 1] = 0 für alle µ = 1,..., M Falls nun α µ 0 so folgt: T µ ( w, x µ + w 0 ) = 1, d.h. für solche Trainingsbeispiele liegt x µ genau auf dem Rand. Diese Vektoren heißen Support Vektoren. Offensichtlich ist w eine Linearkombination der Support Vektoren (geometrisch ist dies (jedenfalls im R 2 ) klar). w = α µ T µ x µ x µ SV

78 Einsetzen in L ein gibt quadratische Funktion: M W (α) = α µ 1 M M α ν α µ T ν T µ x ν, x µ 2 µ=1 ν=1 µ=1 das mit α µ 0 für alle µ = 1,..., M zu maximieren ist. Die Lösung α steht nun fest: M w = αµt µ x µ µ=1 Schwelle w0 R mit Hilfe eines Supportvektors x µ 0 bestimmen, denn hierfür gilt α µ0 0 und wegen KKT-Bedingung: T µ 0 ( w, x µ 0 + w 0 ) = 1 = w0 = 1 T µ w, x µ 0 0 damit liegt die Entscheidungsfunktion fest: ( ) F (x) = sgn ( w, x + w0 ) = sgn αµt µ x µ, x + w0. x µ SV

79 Linear nichtseparierbares Problem P = {x µ T µ = 1} und N = {x µ T µ = 1} seien linear nicht separierbar Soft Separationsbedingungen durch Schlupfvariable δ µ 0 (slack variables) T µ ( w, x µ + w 0 ) 1 δ µ für alle µ = 1,..., M Nun minimieren wir mit C > 0 ϕ(w, δ) = 1 2 w C M M µ=1 Dies gibt wiederum auf die quadratische Funktion W (α) = M α µ 1 2 µ=1 ν=1 µ=1 δ µ M M α ν α µ T ν T µ x ν, x µ die mit 0 α µ C/M für alle µ = 1,..., M zu maximieren ist.

80 3.6 Neuronale PCA 1. Hebb-Lernregel 2. Oja-Lernregel 3. Sanger-Lernregel

81 Hebb-Lernregel Lineares Neuron mit Hebb-Lernregel Lineare Verrechnung der Eingabe x und dem Gewichtsvektor w y = x, w = n x i w i i=1 Hebb-Lernregel w := w + lxy = w + lxx t w Normierte Hebb-Lernregel

82 Hauptachsentransformation Die Gesamt-Varianz in Richtung v ist dann σ 2 v = (Xv) t (Xv) = v t X t Xv = v t Cv mit C = X t X. Bezglich der Matrix C soll nun σ 2 v maximiert werden. Ohne Randbedingungen an v ist eine Maximierung nicht mglich. Normierung als Bedingung: v t v = v 2 = 1 Maximierung unter Nebenbedingungen fhrt auf die Maximierung der Funktion. ϕ(v) = v t Cv λ(v t v 1) mit dem Lagrange Multiplikator λ R. Differenzieren von ϕ nach v und Nullsetzen liefert: ϕ = 2Cv 2λv = 0 v Dies fhrt direkt auf die Matrixgleichung in Eigenvektorform Cv = λv

83 Analyse der Hebb-Lernregel Gegeben seien also Eingabevektoren x µ R d, die einzelnen Merkmale (= Spaltenvektoren in der Datenmatrix X ) haben den Mittelwert E(x i ) = 0. sonst Mittelwerttranslation durchführen. Lineares Neuron: y µ := x µ, w = (x µ ) t w. Dieses Neuron realisiert eine Projektion von x µ auf w. Somit ist Xw der Vektor der Datenpuntprojektionen. Hebb-Regel : w = αxy = αx(x t w) = α(xx t )w, mit α > 0 Wir setzen ferner : J(w) := 1 2 y 2 = 1 2 (x t w) 2 dann ist offenbar J w i = 1 2 2x iy also ist w = α J w.

84 ... Wir nehmen zunächst an, es gibt eine Gleichgewichtslösung für w, dann gilt 0 = E( w) also folgt dann 0 = E( w) = αe(xx t )w = αcw Also muss gelten Cw = 0. Dabei ist C die Korrelationsmatrix der Datenmatrix X mit C ij = E(x i x j ). w ist dann Eigenvektor von C zum Eigenwert 0, diese Lösung kann aber nicht stabil sein, denn es gibt sicher positive Eigenwerte von C. C ist i.a. ungleich der Kovarianzmatrix Cov := E((x µ)(x µ) t ), es sei denn µ = E(x) = 0. C ist symmetrisch und positiv semi-definit, d.h. alle Eigenwert sind R 0 und die Eigenvektoren orthogonal und u t Cu = u t E(xx t )u = E((u t x)(x t u)) = E((u t x) 2 ) 0.

85 Oja-Lernregel Lernregel nach Oja w = l t (yx y 2 w) = l t y(x yw) Satz von Oja (1985): Gewichtsvektor w konvergiert gegen die 1. Hauptachse v 1, hierbei muss gelten: l t 0 bei t, t l t = und t l 2 t <.

86 Sanger-Lernregel Verallgemeinerung auf d d lineare Neuronen mit d Gewichtsvektor w j. Die Ausgabe des j-ten Neurons ist dabei: Lernregel nach Sanger y j = x, w j w ij = l t y j (x i j y k w ik ) k=1 Satz von Sanger (1989): w l konvergiert gegen die Hauptachsen der Eingabevektoren x µ. Es muss gelten l t 0 bei t, t l t = und t l 2 t <.

87 4. Lernen in Mehrschichtnetzen 1. Multilayer Perzeptrone 2. Radiale Basisfunktionen Netze 3. Nichtlineares Support-Vektor-Lernen 4. Zusammenfassung

88 4.1 Multilayer Perzeptrone

89 Lernregeln für Multilayer Perzeptrone Merkmalsvektor: x R n Ausgabe: z k = j w jkf ( x c j 2 ). Material: M = {(x µ, T µ ) : µ = 1,..., M} x µ R n, T µ R m. Lernregel für die Ausgabeschicht: w jk = l(t µ k zµ k ) y µ j Lernregel für die Neuronen der Zwischenschicht: c ij = l m (T µ k zµ k ) w jk f (u µ j ) c ij. k=1

90 4.2 Radiale Basisfunktionen Netze

91 Lernregeln für Radiale Basisfunktionen Merkmalsvektor: x R n Ausgabe: z k = j w jkh( x c j 2 ). Material: M = {(x µ, T µ ) : µ = 1,..., M} x µ R n, T µ R m. Lernregel für die Ausgabeschicht: Lernregel für die RBF Neuronen c ij = l w jk = l(t µ k zµ k ) y µ j m (T µ k zµ k ) w jk ( h (u µ j )) (x µ i c ij ). k=1

92 Interpolation mit RBF M = {(x µ, t µ ) : µ = 1,..., M}, x µ R n, t µ R m. OBdA sei m = 1. Gesucht ist G : R n R mit G(x µ ) = t µ µ = 1,..., M. (11) Lösung bei RBF: G als Linearkomination von Funktionen H µ : R n R mit H µ (x) := h( x x µ 2 ) µ = 1,..., M. Dabei ist h : R + R eine (beliebig oft differenzierbare) Funktion. Eine Lösung des Interpolationsproblems hat die Form M G(x) = c µ h( x x µ 2 ) mit c R M µ=1 Die Interpolationsbedingungen G(x ν ) = t ν, ν geben das lineare Gleichungssystem: M M c µ H µ (x ν ) = c µ h( x ν x µ 2 ) = t ν µ=1 µ=1

93 Matrixnotation mit H νµ := H µ (x ν ), H := (H µν ), c = (c 1,..., c M ) und t = (t 1,..., t M ): Hc = t Falls H invertierbar ist, so ist c = H 1 t Die Funktion h : R + R heißt radiale Basisfunktion, wenn die Matrix H invertierbar ist, d.h. wenn das Interpolationsproblem eindeutig lösbar ist. Notwendig: x µ, µ = 1,..., M paarweise verschiedene Punkte. Die symmetrische Matrix H ist invertierbar, wenn sie positiv definit ist, d.h. wenn für alle c R M gilt: M i=1 j=1 M c i H ij c j > 0

94 Theorem: Ist h(x 2 ) eine positiv definite Funktion, so ist h(x) eine radiale Basisfunktion. Eine Funktion h : R + R heißt vollständig monoton auf (0, ), wenn h beliebig oft differenzierbar ist und wenn ( 1) (l) h (l) (x) 0 für alle x (0, ) und alle l 0 gilt. Theorem (Schoenberg 1938): Eine Funktion h(x) ist vollständig monoton, gdw. h(x 2 ) positiv definit ist. Theorem (Micchelli 1986): Ist h vollständig monoton und h positiv, so ist h eine radiale Basisfunktion. Beispiele radialer Basisfunktionen h(r) = e r/σ2, mit σ > 0 h(r) = (c 2 + r) α, mit c > 0 und α > 0 h(r) = (c 2 + r) β, mit c > 0 und 0 < β < 1 h(r) = r

95 4.3 Nichtlineares Support Vektor Lernen P = {x µ T µ = 1} und N = {x µ T µ = 1} linear nicht separierbar Transformieren x µ mit nichtlinearer Transformation φ : R d H, in einen Vektorraum mit Skalarprodukt (genauer ein Hilbertraum), z.b. H kann endlichdimensional sein, also H = R N, aber auch ein unendlichdimensonaler Raum, etwa der Folgenraum l 2 (R). Idee: Zuerst Transformation z µ := φ(x µ ) nach R N durchführen und dann das Support-Vektor-Lernproblem in R N lösen. Gesucht ist also w R N und w 0 R für die Entscheidungsfunktion Dann ergibt sich für w R N F (x) = sgn ( w, φ(x) + w 0 ) w = φ(x µ ) SV (und w0 R wie bereits beschrieben.) α µt µ φ(x µ )

96 Die Entscheidgungsfunktion hat dann die Gestalt F (x) = sgn αµt µ φ(x µ ), φ(x) + w0. Abbildungen der Form φ(x µ ) SV (x, y) R d R d (φ(x), φ(y)) H H φ(x), φ(y) H R lassen sich u.u. durch sogenannte Mercer Kernfunktionen k : R d R d R direkt darstellen. Satz von Mercer: Sei k : R d R d R symmetrisch und gelte f (x)k(x, y)f (y)dxdy > 0 R d R d für alle f L 2 (quadratische integrierbare Funktionen). Dann gibt es einen Hilbertraum H und eine Abbildung φ : R d H mit k(x, y) = φ(x), φ(y) für alle x, y R d

97 Damit läßt sich die Entscheidungsfunktion darstellen durch M F (x) = sgn αµt µ k(x µ, x) + w0. µ=1 Die Koeffizienten ergeben sich durch Maximierung von W (α) = M α µ 1 2 µ=1 M M α ν α µ T ν T µ k(x ν, x µ ) ν=1 µ=1 die mit 0 α µ C/M für alle µ = 1,..., M erreichen

98 Beispiele für Mercer Funktionen (eine kleine Auswahl) 1. ( k(x, y) = exp x ) y 2 2 2σ 2 σ 2 > 0 2. k(x, y) = tanh ( x, y + θ) θ R 3. k(x, y) = ( x, y + 1) d d 2

99 4.4 Zusammenfassung Trainingsdaten M = {(x µ, T µ ) : µ = 1,..., M} R d { 1, 1} Lineare Netze (Delta-Lernregel) Fehlerfunktion lautet: E(w) = T Xw 2 2 min w kann iterativ bestimmt werden durch (Batch Lernregel) w = l µ (T µ w, x µ )x µ (l > 0) Lernrate Die inkrementelle Lernregel lautet w = l(t µ w, x µ )x µ

100 Lineare Netze - Pseudoinverse Analytische Lösung falls es d linear unabhängige Trainingsbeispiele gibt, ist die eindeutige Lösung gegeben durch: w = (X t X ) 1 X t T Falls es nicht d linear unabhängige Trainingsbeispiele gibt, lässt ebenfalls die eindeutige Lösung angeben durch hierbei ist w = X + T X + = lim α 0 (X t X + α 2 I ) 1 X t X + ergibt sich aus der kombinierten Fehlerfunktion (Regularisierung) beim Grenzübergang α 0. E(w) = T Xw α 2 w 2 2 min

101 Perzeptron-Lernen Ziel ist es die Anzahl der Fehlklassifikationen zu minimieren: E(w) = T µ w, x µ min x µ M hier sei M die Menge der fehlklassifizierten Muster x µ (w und x µ als erweiterte Vektoren). Inkrementelle Perzeptron-Lernregel: w = l(t µ sgn w, x µ )x µ

102 Neuronale Assoziativspeicher Spezialfall: Muster binär mit Einschrittlernen. Additive Hebbregel: w = X t T Auch die binäre Hebbregel ist gebräuchlich w = min(1, X t T ) (komponentenweises Minimum), 1 die Matrix/Vektor mit Einsen in allen Komponenten.

103 Support Vektor Lernen (linear) Ziel: Trainingsdaten durch linearen Klasssifikator richtig klassifizieren und die Trennebene soll maximalen Rand haben. L(w, w 0, α) = w M α µ (T µ ( w, x µ + w 0 ) 1) µ=1 Die Lösung w ist eindeutig und liegt fest durch w = α µ T µ x µ x µ SV Die Entscheidungsfunktion lautet dann ( ) F (x) = sgn α µ T µ x µ, x + w 0. x µ SV

104 Backpropagation-Lernen in Mehrschichtnetze (MLP und RBF) Fehlerfunktion : E(w) = T Y 2 2 min Keine analytische Lösung gegeben. Iterative Bestimmung der Parameter (synaptische Kopplungsmatrizen) notwendig, z.b. Gradientenverfahren oder ähnliche Optimierungsverfahren (siehe Neuroinformatik I Vorlesung).

105 Interpolation in RBF-Netzen Ziel: Fehler auf den Trainingsdaten soll gleich Null sein. Gesucht ist eine Funktion φ : R d R M mit φ(x) = (h 1 (x),..., h M (x)), wobei h ν : R d R, für alle ν = 1,..., M. mit T µ = w, φ(x) = für alle µ = 1,..., M. Lösung ist: M w ν h ν (x µ ) ν=1 w = H 1 T mit H µ,ν = h ν (x µ ) = h( x ν x µ ).

106 Support Vektor Lernen (nichtlinear) Zielfunktion: L(w, w 0, α) = w M α µ (T µ ( w, φ(x µ ) + w 0 ) 1) µ=1 φ : R d R N und w R n (und w 0 R) gesucht. Die Entscheidungsfunktion lautet: F (x) = sgn α µ T µ φ(x µ ), φ(x) + w 0. φ(x µ ) SV Für Mercer-Kernfunktionen k(x, y): F (x) = sgn αµt µ k(x µ, x) + w0. φ(x µ ) SV

107 5. Rekurente Netze Jordan Netze Elman Netze BPTT Algorithmus Echo-State Netze

108 Jordan Netzwerke Feedback von der Ausgabeschicht auf die Eingabeschicht; Feedback-Kopplungen werden nicht trainiert (Jordan, 1986)

109 Elman Netzwerk Feedback von einem hidden layer (Elman 1990): Vorteile: interne Repräsentation einer Sequenz ist unabhängig von der Ausgabe y, Zahl der Kontextzellen ist unabhängig von der Ausgabedimension!

110 Training eines partiell rekurrenten Netzes Möglichkeit A: Modifikation eines Lernverfahrens für nichtrekurrente Netze, z.b. Error Backpropagation. Algorithmus (für Elman-Netzwerk): Seien w ki und v ki die Gewichte von Eingabeknoten u k bzw. Kontextknoten s k zum verdeckten Neuron i und c ij die Gewichte der zweiten Netzwerkschicht 1) Setze t = t 0, initialisiere Kontextzellen s(t 0 ) = 0 2) Berechne w ki (t), v ki (t) und c ij (t) gemäß Lernregel für eine Eingabe x(t) mit Sollwert T(t) ohne Beachtung rekurrenter Verbindungen 3) Setze t = t + 1, aktualisiere die Ausgabe s(t) der Kontextzellen und gehe zu 2) Eigenschaften: Fehler von y(t) = f (x(t)) wird minimiert, keine Klassifikation von Sequenzen möglich.

111 Möglichkeit B: Verwendung eines Lernverfahrens für rekurrente Netze (z.b. BPTT [Rumelhart 86], RTRL [Willliams 89]) Idee von BPTT ( Backpropagation Through Time ): Entfaltung des Netzwerks in der Zeit! t max Gradientenabstieg zur Minimierung von E = E(t) t=t 0 mit { E(t) = T(t) y(t) falls T(t) zum Zeitpunkt t vorliegt 0 sonst Eigenschaften: Fehler von y(t max ) = f (x(t 0 ),..., x(t max )) wird minimiert, auch Klassifikation von Sequenzen variabler Länge möglich!

112 BPTT Algorithmus für Elman Netzwerk Gegeben sei ein (m + h) h n Elman Netzwerk mit: w ki v ki c ij δ (y) j δ (s) i : Gewichte von Eingabeknoten u k zum verdeckten Neuron i : Gewichte von Kontextknoten s k zum verdeckten Neuron i : Gewichte vom verdeckten Neuron i zum Ausgabeneuron j : Fehler am Ausgabeneuron j : Fehler am verdeckten Neuron i Lineare Ausgabeneuronen j = 1,..., n : Annahme: E(t) = 0 für t t max für t = t max gilt: für t < t max gilt: δ (y) j (t) = T j (t) y j (t) c ij = s i (t + 1) δ (y) j (t) δ (y) j (t) = 0 c ij = 0

113 Sigmoide verdeckte Neuronen i = 1,..., h : für t = t max für t 0 t < t max δ (s) i (t) = n j=1 c ij δ (y) j (t) s i (t + 1) v ki (t) = s k (t) δ (s) i (t) w ki (t) = x k (t) δ (s) (t) δ (s) i (t) = h k=1 v ki (t) = s k (t) δ (s) i (t) w ki (t) = x k (t) δ (s) i (t) Resultierende Lernregeln: c ij = c ij + η 1 c ij t max w ki = w ki + η 2 w ki (t) t=t 0 t max v ki = v ki + η 2 v ki (t) t=t 0 i v ki δ (s) k (t + 1) s i (t + 1)

114 Echo-State Netzwerke ESN wurden von Herbert Jäger entwickelt (Jäger, 2004). Für Zeitschritte n = 1, 2,... U(n) = (u 1 (n),..., u K (n)) Eingabe zur Zeit n X (n) = (x 1 (n),..., x N (n)) Aktivität der Poolneuronen zur Zeit n Y (n) = (y 1 (n),..., y L (n)) Ausgabe zur Zeit n

115 Kopplungsmatrizen: N K Eingabematrix W in = (wij in) N N Kopplungsmatrix der Poolneuronen W = (w ij ) L (K + N + L) Ausgabematrix W out = (wij out ) N L Feedback-Matrix W back = (wij back ) von der Ausgabe zu den Poolneuronen. Berechnung der Aktivierung der Poolneuronen: X (n + 1) = f (W in U(n + 1) + WX (n) + W back Y (n)) (12) mit f = (f 1,..., f N ) Ausgabe des ESN: Y (n + 1) = f out (W out (U(n + 1), X (n + 1), Y (n))) (13) f out = (f1 out,..., fl out ) sigmoide Funktionen der Ausgabeneuronen. (U(n + 1), X (n + 1), Y (n)) nur W out wird trainiert.

116 Training von Echo-State Netzwerken 1. Gegeben Trainingssequenz (U(n), D(n)) 2. Bilde Zufallsmatrizen (W in, W, W back ). 3. Skaliere W, dass alle Eigenwerte λ max Netzwerk laufen lassen X (n + 1) = f (W in U(n + 1) + WX (n) + W back D(n)) (14) 5. Für jeden Zeitschritt n sammle als Eingaben X (n) in einer Matrix M und tanh 1 D(n) als Matrix der Lehrersignale T. 6. Berechne die Pseudo-Inverse von M und setze t sei die transponierte Matrix. W out = (M + T ) t (15)

117 6. Komplexität der Netze und des Lernens 1. Neuronale Schaltungen 2. NP-Vollständigkeit des Lernens

118 6.1 Neuronale Schaltungen Boolesche Funktion mit AND, OR und NOT:

119 Neuronale disjunktive Normalform

120 Exkurs: McCulloch-Pitts Neuron Struktur eines Neurons (McCulloch and Pitts, 1943): x {0, 1} m, w { 1, 1} m, θ Z u = m x i w i = x w = x, w i=1 y = { 1 für u θ 0 für sonst Satz: Jede beliebige logische Funktion ist mit Netzen aus McCulloch-Pitts Neuronen realisierbar. Beweis: mittes isjunktiver Normalform

121 Aussagen über Schaltnetze Schaltungen von polylogarithmischer Tiefe für Boole sche Funktionen {0, 1} n {0, 1}. Schaltungsklassen AC (Alternating Circuits) besteht aus UND-, ODER- und NICHT-Gattern (von beliebiger Stelligkeit). RC (Real threshold Circuits) besteht aus Schwellenneuronen mit beliebigen reellen Gewichten. T C (Threshold Circuits) besteht aus Schwellenneuronen mit polynomiellen (ganzzahligen) Gewichten. UC (Unitary threshold Circuits) besteht aus Schwellenneuronen mit Gewichten aus { 1, 1}.

122 Unterklassen Für Klasse X bezeichnet X k Schaltungen der Tiefe O(log k (n)) und X k Schaltungen der Tiefe k. Beobachtungen (1): Für X = AC, RC, T C, UC gilt: X k = X 0 k 1 (2): AC k UC k T C k RC k Spezielle Prädikate: X k = X k 1 PAR(x 1,..., x n ) = n x i mod 2 i=1 SPR(x 1,..., x 2n ) = n x i x i+n mod 2 i=1

123 Vergleich von Neuronen mit Logik Theorem: Für alle k gilt: AC k UC k = T C k = RC k AC k+1 Theorem: PAR AC 0 PAR T C 0 AC 1. Vergleich verschiedener Neuronen bei endlicher Tiefe: Theorem: Für alle k gilt: RC k T C k+1 UC k+2 Beobachtung: = UC k = T C k = RC k für alle k Theorem: PAR T C 2 \ T C 1 und SPR T C 3 \ T C 2. (Schwierig zu zeigen ist, daß SPR T C 2.) Bisher ist keine Funktion aus T C 1 bekannt, die nicht in T C 3 ist.

124 6.2 NP-Vollständigkeit des Lernens Three-Unit-Training Problem: Es sei G : {0, 1} n {0, 1} eine Boole sche Funktion, gegeben durch Paare (x i, y i ), i = 1,..., M mit x i {0, 1} n und y i {0, 1}. Frage: Gibt es ein neuronales 2-schichtiges Netz mit 3 Neuronen (2 in der versteckten Schicht, 1 Ausgabeneuron) mit F (x i ) = y i alle i = 1,..., M. F : {0, 1} n {0, 1} sei hierbei die Funktion, die das neuronale Netz realisiert. F ist durch 2n + 2 Gewichte und 3 Schwellwerte definiert

125 Entscheidungsprobleme: Entscheidungsproblem D heißt in Polynomzeit entscheidbar, kurz D P, wenn es eine Turingmaschine M und ein Polynom p gibt, so dass für jedes I D die Instanz I in höchstens p( II )) Schritten entscheidbar ist. Entscheidungsproblem D heißt in verifizierbarbar, kurz D NP, wenn es eine deterministische Turingmaschine M und ein Polynom p gibt, so dass für jedes I D eine Lösung für die Instanz I in höchstens p( II )) Schritten verifiziert ist.

126 Beispiele Mengensplitting: Es sei {s 1,..., s n } eine Menge und C = {c 1,..., c k } mit x j S. Frage: Gibt es A, B disjunkte, nichtleereteilmengen von S mit A B = S und c j A und c j B für alle j = 1,..., k? Bilineare Beschränkung: Es sei {(x i, y i )}, i = 1,..., M mit x i {0, 1} n und y i {0, 1} eine Menge von Paaren. Frage: Gibt es Halbräume Z 1 und Z 2 in R n, so dass der Durchschnitt Z 1 Z 2 genau die positiven Beispiele (mit y i = 1) enthält?

127 D heisst NP-vollständig wenn gilt: 1. D NP 2. Jedes Problem D NP ist polynomiell reduzierbar auf D. D NP heißt polynomiell reduzierbar auf D, gdw es eine Abbildung f : D D gibt (f mittels einer deterministischen Turingmaschine in Polynomzeit berechenbar), so dass für jede Instanz I D gilt: I hat Antwort ja/nein bzgl D gdw f (i) Antwort ja/nein bzgl D hat

128 Satz: Three-Unit-Training (TUT ) ist NP-vollständig. Beweis: 1. TUT NP 2. Bilineare Beschränkung (BE) ist polynomiell reduzierbar auf TUT 3. Mengensplitting ist polynomiell reduzierbar auf BE Beweis: 1. TUT NP 2. Bilineare Beschränkung (BE) ist polynomiell reduzierbar auf TUT 3. Mengensplitting ist polynomiell reduzierbar auf BE

129 7. Darstellung mit neuronalen Netzen 1. Satz von Cover 2. Satz von Cybenko/Hornik

130 7.1 Satz von Cover (1964) P und N heißen linear trennbare Mengen, gdw es w R n und α R gibt mit w, x > α falls x P und w, x < α falls x N Hyperebene ist dann die Menge der x mit w, x = α. P und N heißen 0-trennbare Mengen, falls sie linear trennbar sind mit α = 0. M Punkte im R n sind in allgemeiner Lage, falls jeweils k Punkte aus M linear unabhängig sind für k = 2, 3,..., n. ( x 1,..., x k heißen linear unabhängig, gdw aus k i=1 α ix i = 0 stets α 1 = α k = 0 folgt).

131 Separierbarkeit / Allgemeine Lage : M = 3, M = 4 Punkte im R2

132 ... Betrachten M paarweise verschiedene Punkte im R n in allgemeiner Lage. C(M, n) Zahl der 0-1-Belegungen die linear trennbar sind C 0 (M, n) Zahl der 0-1-Belegungen die 0-trennbar sind. Dann ist n 1 ( ) M 1 C 0 (M, n) = 2 k und C(M, n) = 2 k=0 n k=0 ( M 1 k Hierbei ist der Binomialkoeffizient ( { ) n! n k = (n k)!k! für 0 k n 0 für k > n. ).

133 Rekursionsgleichung 1. C(M + 1, n) = C(M, n) + C 0 (M, n) 2. C 0 (M + 1, n) = C 0 (M, n) + C 0 (M, n 1) Links: M = 4 Punkte (linear trennbar) und ein neuer Punkt (Quadrat) kommt hinzu Rechts: Belegung der 4 Punkte bzw die Trennebene ist so, dass die Belegung des neuen Punktes festgelegt ist

134 ... Belegung der 4 Punkte bzw Trennebene ist so, dass Belegung des Punktes nicht festgelegt ist; (OE neuer Punkt = Nullpunkt) C(M + 1, n) = #{Trennebene legt neuen Punkt fest} + 2#{Trennebene legt neuen Punkt nicht fest} #{Trennebene legt neuen Punkt nicht fest}, d.h. es sind 2 Belegungen möglich, d.h. neuer Punkt = Nullpunkt. Dies sind C 0 (M, n) Belegungen. #{Trennebene legt neuen Punkt fest}, dass sind dann C(M, n) C 0 (M, n)

135 .. Damit gilt: C(M + 1, n) = C(M, n) C 0 (M, n) + 2C 0 (M, n) = C(M, n) + C 0 (M, n). Wir betrachten nun die Rekursionsgleichung für C 0 (M, n): 0-Punkt 0-Punkt Links: M = 4 Punkte (0 trennbar) und ein neuer Punkt (Quadrat) kommt hinzu Rechts: Belegung der 4 Punkte bzw die Trennebene ist so, dass die Belegung des neuen Punktes festgelegt ist

136 .. 0-Punkt 0-Punkt Links: Belegung der 4 Punkte bzw Trennebene ist so, dass Belegung des Punktes nicht festgelegt ist (OE Trennebene geht durch den neuen Punkt und den 0-Punkt Rechts: Projektion auf den Orthogonalraum, der von 0 und dem neuen Punkt definiert wird. Projektionen sind wegen der allgemeinen Lage der Punkt, wieder in allgemeiner Lage und linear trennbar.

137 .. Es gilt für M = 1: C(1, n) = C 0 (1, n) = 2 für alle n N Außerdem gilt C 0 (M, 1) = 2 M M + 1: C 0 (M + 1, n) = C 0 (M, n) + C 0 (M, n 1) ( n 1 ( ) M 1 n 2 ( ) ) M 1 = 2 + k k k=0 k=0 ( n 1 ( ) ( ) ) M 1 M 1 = k k 1 k=1 ( n 1 ( ) ) M n 1 ( ) M = = 2 k k k=1 Damit ist die Formel für C 0 (M, n) bewiesen. k=0

138 .. Es gilt ferner C(M, n) = C 0 (M, n + 1) durch Induktion nach M: M = 1: C(1, n) = C 0 (1, n + 1) = 2 n M M + 1: C(M + 1, n) = C(M, n) + C 0 (M, n) = C 0 (M, n + 1) + C 0 (M, n) = C 0 (M + 1, n + 1) Damit ist die Formel C(M, n) bewiesen.

139 Häufigkeit linear separierbarer Dichotomien X = {x 1,..., x M } R n mit M Punkten in allgemeiner Lage C(M, d) die Anzahl der linear separierbaren Dichotomien von X (insgesamt gibt es 2 M Dichotomien). 1 Näherungen für n=10,50, C(M,n)/2^M n/m Für große n steiler Verlauf der Binomial-Verteilung. Falls M n + 1, dann immer linear trennbar. Falls M 2n dann mit hoher Wahrscheinlichkeit trennbar.

Neuroinformatik II. Günther Palm und Friedhelm Schwenker Institut für Neuroinformatik

Neuroinformatik II. Günther Palm und Friedhelm Schwenker Institut für Neuroinformatik Neuroinformatik II Günther Palm und Friedhelm Schwenker Institut für Neuroinformatik Vorlesung (3h) Übungen (1h): Di, Fr 10-12 Uhr H21 (1.Übung: 08.05.09) Schein: 50% der Punkte (6 übungsblätter) + aktive

Mehr

Neuroinformatik II Theorie neuronaler Netze

Neuroinformatik II Theorie neuronaler Netze Neuroinformatik II Theorie neuronaler Netze Günther Palm und Friedhelm Schwenker Institut für Neuroinformatik Vorlesung (3h) Übungen (1h): Di 12.00-13.30 und Fr 10.15-11.45 Uhr H21 (1.Übung: 7.5.) Schein:

Mehr

Neuroinformatik II Theorie neuronaler Netze

Neuroinformatik II Theorie neuronaler Netze Neuroinformati II Theorie neuronaler Netze Günther Palm und Friedhelm Schwener Institut für Neuroinformati Vorlesung (3h) Übungen (1h): Di 12.00-13.30 und Fr 10.15-11.45 Uhr H21 (1.Übung: 7.5.) Schein:

Mehr

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen

6.4 Neuronale Netze zur Verarbeitung von Zeitreihen 6.4 Neuronale Netze zur Verarbeitung von Zeitreihen Aufgabe: Erlernen einer Zeitreihe x(t + 1) = f(x(t), x(t 1), x(t 2),...) Idee: Verzögerungskette am Eingang eines neuronalen Netzwerks, z.b. eines m-h-1

Mehr

5. Lernregeln für neuronale Netze

5. Lernregeln für neuronale Netze 5. Lernregeln für neuronale Netze 1. Allgemeine Lokale Lernregeln 2. Lernregeln aus Zielfunktionen: Optimierung durch Gradientenverfahren 3. Beispiel: Überwachtes Lernen im Einschicht-Netz Schwenker NI1

Mehr

Adaptive Systeme. Mehrere Neuronen, Assoziative Speicher und Mustererkennung. Prof. Dr. rer. nat. Nikolaus Wulff

Adaptive Systeme. Mehrere Neuronen, Assoziative Speicher und Mustererkennung. Prof. Dr. rer. nat. Nikolaus Wulff Adaptive Systeme Mehrere Neuronen, Assoziative Speicher und Mustererkennung Prof. Dr. rer. nat. Nikolaus Wulff Modell eines Neuron x x 2 x 3. y y= k = n w k x k x n Die n binären Eingangssignale x k {,}

Mehr

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20

Computational Intelligence 1 / 20. Computational Intelligence Künstliche Neuronale Netze Perzeptron 3 / 20 Gliederung / Künstliche Neuronale Netze Perzeptron Einschränkungen Netze von Perzeptonen Perzeptron-Lernen Perzeptron Künstliche Neuronale Netze Perzeptron 3 / Der Psychologe und Informatiker Frank Rosenblatt

Mehr

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Mustererkennung: Neuronale Netze D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Feed-Forward Netze y 1 y 2 y m...... x 1 x 2 x n Output Schicht i max... Zwischenschicht i... Zwischenschicht 1

Mehr

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp

Optimal-trennende Hyperebenen und die Support Vector Machine. Volker Tresp Optimal-trennende Hyperebenen und die Support Vector Machine Volker Tresp 1 (Vapnik s) Optimal-trennende Hyperebenen (Optimal Separating Hyperplanes) Wir betrachten wieder einen linearen Klassifikator

Mehr

Praktische Optimierung

Praktische Optimierung Wintersemester 27/8 Praktische Optimierung (Vorlesung) Prof. Dr. Günter Rudolph Fakultät für Informatik Lehrstuhl für Algorithm Engineering Metamodellierung Inhalt Multilayer-Perceptron (MLP) Radiale Basisfunktionsnetze

Mehr

Ausgewählte Lösungen zu den Übungsblättern 9-10

Ausgewählte Lösungen zu den Übungsblättern 9-10 Fakultät für Luft- und Raumfahrttechnik Institut für Mathematik und Rechneranwendung Vorlesung: Lineare Algebra (ME), Prof. Dr. J. Gwinner Dezember Ausgewählte Lösungen zu den Übungsblättern 9- Übungsblatt

Mehr

Support Vector Machines (SVM)

Support Vector Machines (SVM) Universität Ulm 12. Juni 2007 Inhalt 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor- und Nachteile der SVM 1 2 3 Grundlegende Idee Der Kern-Trick 4 5 Multi-Klassen-Einteilung Vor-

Mehr

Linear nichtseparable Probleme

Linear nichtseparable Probleme Linear nichtseparable Probleme Mustererkennung und Klassifikation, Vorlesung No. 10 1 M. O. Franz 20.12.2007 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen

2. Dezember Lineare Algebra II. Christian Ebert & Fritz Hamm. Skalarprodukt, Norm, Metrik. Matrizen. Lineare Abbildungen Algebra und Algebra 2. Dezember 2011 Übersicht Algebra und Algebra I Gruppen & Körper Vektorräume, Basis & Dimension Algebra Norm & Metrik Abbildung & Algebra I Eigenwerte, Eigenwertzerlegung Singulärwertzerlegung

Mehr

Klausur Numerische Mathematik (für Elektrotechniker), 24. Februar 2016

Klausur Numerische Mathematik (für Elektrotechniker), 24. Februar 2016 Verständnisfragen-Teil ( Punkte) Jeder der Verständnisfragenblöcke besteht aus Verständnisfragen. Werden alle Fragen in einem Verständnisfragenblock richtig beantwortet, so gibt es für diesen Block Punkte.

Mehr

5 Lineare Algebra (Teil 3): Skalarprodukt

5 Lineare Algebra (Teil 3): Skalarprodukt 5 Lineare Algebra (Teil 3): Skalarprodukt Der Begriff der linearen Abhängigkeit ermöglicht die Definition, wann zwei Vektoren parallel sind und wann drei Vektoren in einer Ebene liegen. Daß aber reale

Mehr

Aufgabe I.1 (4 Punkte) Gegeben seien die Matrix H := und die Menge L := {A R 4 4 A HA = H} Zeigen Sie:

Aufgabe I.1 (4 Punkte) Gegeben seien die Matrix H := und die Menge L := {A R 4 4 A HA = H} Zeigen Sie: Aufgabe I (4 Punkte Gegeben seien die Matrix und die Menge Zeigen Sie: H := L := {A R 4 4 A HA = H} a L ist bezüglich der Matrizenmultiplikation eine Gruppe b Die Matrizen der Form ( E O, O B wobei E R

Mehr

Übungsblatt

Übungsblatt Übungsblatt 3 3.5.27 ) Die folgenden vier Matrizen bilden eine Darstellung der Gruppe C 4 : E =, A =, B =, C = Zeigen Sie einige Gruppeneigenschaften: a) Abgeschlossenheit: Berechnen Sie alle möglichen

Mehr

Eigenwerte. Ein Eigenwert einer quadratischen n n Matrix A ist ein Skalar λ C (eine komplexe Zahl) mit der Eigenschaft Ax = λx (1)

Eigenwerte. Ein Eigenwert einer quadratischen n n Matrix A ist ein Skalar λ C (eine komplexe Zahl) mit der Eigenschaft Ax = λx (1) Eigenwerte 1 Eigenwerte und Eigenvektoren Ein Eigenwert einer quadratischen n n Matrix A ist ein Skalar λ C (eine komplexe Zahl) mit der Eigenschaft Ax = λx (1) für einen Vektor x 0. Vektor x heißt ein

Mehr

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017

Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Mustererkennung Mathematische Werkzeuge R. Neubecker, WS 2016 / 2017 Optimierung: Lagrange-Funktionen, Karush-Kuhn-Tucker-Bedingungen Optimierungsprobleme Optimierung Suche nach dem Maximum oder Minimum

Mehr

Lineare Algebra: Determinanten und Eigenwerte

Lineare Algebra: Determinanten und Eigenwerte : und Eigenwerte 16. Dezember 2011 der Ordnung 2 I Im Folgenden: quadratische Matrizen Sei ( a b A = c d eine 2 2-Matrix. Die Determinante D(A (bzw. det(a oder Det(A von A ist gleich ad bc. Det(A = a b

Mehr

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0. Mehrdimensionale Dierenzialrechnung 9 Optimierung 9 Optimierung Definition Seien U R n oen, f : U R, x U x heiÿt lokales Maximum, falls eine Umgebung V U von x existiert mit y V : fx fy x heiÿt lokales

Mehr

Lineare Algebra II 11. Übungsblatt

Lineare Algebra II 11. Übungsblatt Lineare Algebra II Übungsblatt Fachbereich Mathematik SS Prof Dr Kollross 9 / Juni Susanne Kürsten Tristan Alex Gruppenübung Aufgabe G (Minitest (Bearbeitung innerhalb von Minuten und ohne Benutzung des

Mehr

1 Multivariate Zufallsvariablen

1 Multivariate Zufallsvariablen 1 Multivariate Zufallsvariablen 1.1 Multivariate Verteilungen Definition 1.1. Zufallsvariable, Zufallsvektor (ZV) Sei Ω die Ergebnismenge eines Zufallsexperiments. Eine (univariate oder eindimensionale)

Mehr

Klausur zur Vorlesung Lineare Algebra II, SoSe 2016,

Klausur zur Vorlesung Lineare Algebra II, SoSe 2016, Klausur zur Vorlesung Lineare Algebra II, SoSe 6, 6.7.6 Vokabelbuch In diesem Teil soll getestet werden, inwieweit Sie in der Lage sind, wichtige Definitionen und Sätze aus der Vorlesung korrekt zu formulieren

Mehr

Nichtlineare Klassifikatoren

Nichtlineare Klassifikatoren Nichtlineare Klassifikatoren Mustererkennung und Klassifikation, Vorlesung No. 11 1 M. O. Franz 12.01.2008 1 falls nicht anders vermerkt, sind die Abbildungen entnommen aus Duda et al., 2001. Übersicht

Mehr

Mathematische Methoden in der Systembiologie Universität Heidelberg, Sommer 2017

Mathematische Methoden in der Systembiologie Universität Heidelberg, Sommer 2017 Mathematische Methoden in der Systembiologie Universität Heidelberg, Sommer 2017 Dozent: Dr. M. V. Barbarossa (barbarossa@uni-heidelberg.de) Vorlesung+ Übung: Mo/Mi/Fr. 8:15-9:45Uhr, SR 1, INF 205 Termin

Mehr

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)

Mehr

und Unterdeterminante

und Unterdeterminante Zusammenfassung: Determinanten Definition: Entwicklungssätze: mit und Unterdeterminante (streiche Zeile i & Spalte j v. A, bilde dann die Determinante) Eigenschaften v. Determinanten: Multilinearität,

Mehr

und Unterdeterminante

und Unterdeterminante Zusammenfassung: Determinanten Definition: Entwicklungssätze: mit und Unterdeterminante (streiche Zeile i & Spalte j v. A, bilde dann die Determinante) Eigenschaften v. Determinanten: Multilinearität,

Mehr

Lösungsvorschlag zur Nachklausur zur Analysis

Lösungsvorschlag zur Nachklausur zur Analysis Prof Dr H Garcke, D Depner SS 09 NWF I - Mathematik 080009 Universität Regensburg Lösungsvorschlag zur Nachklausur zur Analysis Aufgabe Untersuchen Sie folgende Reihen auf Konvergenz und berechnen Sie

Mehr

Aufgaben zu Kapitel 20

Aufgaben zu Kapitel 20 Aufgaben zu Kapitel 20 Aufgaben zu Kapitel 20 Verständnisfragen Aufgabe 20 Sind die folgenden Produkte Skalarprodukte? (( R ) 2 ( R 2 )) R : v w,, v v 2 w w 2 (( R ) 2 ( R 2 )) R : v w, 3 v v 2 w w + v

Mehr

Lineare Algebra und analytische Geometrie II

Lineare Algebra und analytische Geometrie II Prof. Dr. H. Brenner Osnabrück SS 2016 Lineare Algebra und analytische Geometrie II Vorlesung 53 Norm von Endomorphismen und Matrizen Definition 53.1. Es seien V und W endlichdimensionale normierte K-

Mehr

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42

Kapitel 5. Eigenwerte. Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2017/18 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich

Mehr

Lösungsskizzen der Klausur zur Linearen Algebra im Herbst 2015

Lösungsskizzen der Klausur zur Linearen Algebra im Herbst 2015 sskizzen der Klausur zur Linearen Algebra im Herbst 5 Aufgabe I. Es sei (G, ) eine Gruppe mit neutralem Element e und M {x G x x e}. Zeigen Sie: (a) Ist G kommutativ, so ist M eine Untergruppe von G. (b)

Mehr

Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 2009

Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 2009 I. (4 Punkte) Gegeben sei die Menge Aufgaben und Lösungen zur Klausur Lineare Algebra im Frühjahr 9 G := { a c b a, b, c R }. (a) Zeigen Sie, dass G zusammen mit der Matrizenmultiplikation eine Gruppe

Mehr

Hauptachsentransformation: Eigenwerte und Eigenvektoren

Hauptachsentransformation: Eigenwerte und Eigenvektoren Hauptachsentransformation: Eigenwerte und Eigenvektoren die bisherigen Betrachtungen beziehen sich im Wesentlichen auf die Standardbasis des R n Nun soll aufgezeigt werden, wie man sich von dieser Einschränkung

Mehr

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit

Analysis 2, Woche 9. Mehrdimensionale Differentialrechnung I. 9.1 Differenzierbarkeit A Analysis, Woche 9 Mehrdimensionale Differentialrechnung I A 9. Differenzierbarkeit A3 =. (9.) Definition 9. Sei U R m offen, f : U R n eine Funktion und a R m. Die Funktion f heißt differenzierbar in

Mehr

Prof. Steinwart Höhere Mathematik I/II Musterlösung A =

Prof. Steinwart Höhere Mathematik I/II Musterlösung A = Prof. Steinwart Höhere Mathematik I/II Musterlösung 9.8.6 Aufgabe Punkte a Berechnen Sie die Eigenwerte der folgenden Matrix: A 3 b Es sei 4 A. 8 5 Bestimmen Sie P, P M, und eine Diagonalmatrix D M, so,

Mehr

8. Neuronale Assoziativspeicher

8. Neuronale Assoziativspeicher 8. Neuronale Assoziativspeicher 1. Architektur und Musterspeicherung 2. Hetero-Assoziation 3. Auto-Assoziation 4. Bidirektionale NAMS 5. Hopfield-Netze NI1 182 Architektur Eingabe x θ θ θ θ θ Ausgabe y

Mehr

Mathematik für Anwender. Testklausur mit Lösungen

Mathematik für Anwender. Testklausur mit Lösungen Fachbereich Mathematik/Informatik 4. Januar 0 Prof. Dr. H. Brenner Mathematik für Anwender Testklausur mit en Dauer: Zwei volle Stunden + 0 Minuten Orientierung, in denen noch nicht geschrieben werden

Mehr

(a), für i = 1,..., n.

(a), für i = 1,..., n. .4 Extremwerte Definition Sei M R n eine Teilmenge, f : M R stetig, a M ein Punkt. f hat in a auf M ein relatives (oder lokales) Maximum bzw. ein relatives (oder lokales) Minimum, wenn es eine offene Umgebung

Mehr

4 Funktionenfolgen und normierte Räume

4 Funktionenfolgen und normierte Räume $Id: norm.tex,v 1.57 2018/06/08 16:27:08 hk Exp $ $Id: jordan.tex,v 1.34 2018/07/12 20:08:29 hk Exp $ 4 Funktionenfolgen und normierte Räume 4.7 Kompakte Mengen Am Ende der letzten Sitzung hatten wir zwei

Mehr

2 k k 1 k(k + 1) = 2n+1. n = 0 = k(k + 1) = 2n+1 n n. = 2 n+1 n + 2 (n + 1)(n + 2) + n. (n + 1)(n + 2)

2 k k 1 k(k + 1) = 2n+1. n = 0 = k(k + 1) = 2n+1 n n. = 2 n+1 n + 2 (n + 1)(n + 2) + n. (n + 1)(n + 2) Prof. Hesse Höhere Mathematik I und II Musterlösung 7. 0. 0, 80min Aufgabe (3 Punkte) Zeigen Sie mit vollständiger Induktion: Für alle n N gilt n k= k k k(k + ) = n+ n +. Induktionsanfang: k= Induktionsschluss

Mehr

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor)

Neuronale Netze. Gehirn: ca Neuronen. stark vernetzt. Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) 29 Neuronale Netze Gehirn: ca. 10 11 Neuronen stark vernetzt Schaltzeit ca. 1 ms (relativ langsam, vgl. Prozessor) Mustererkennung in 0.1s 100 Schritte Regel 30 Was ist ein künstl. neuronales Netz? Ein

Mehr

Lineare Algebra II 8. Übungsblatt

Lineare Algebra II 8. Übungsblatt Lineare Algebra II 8. Übungsblatt Fachbereich Mathematik SS 11 Prof. Dr. Kollross 1./9. Juni 11 Susanne Kürsten Tristan Alex Gruppenübung Aufgabe G1 (Minitest) Sei V ein euklidischer oder unitärer Vektorraum.

Mehr

Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT

Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT Prof. N. Hungerbühler ETH Zürich, Sommer 4 Lösungen zu Prüfung Lineare Algebra I/II für D-MAVT. [ Punkte] Hinweise zur Bewertung: Jede Aussage ist entweder wahr oder falsch; machen Sie ein Kreuzchen in

Mehr

Fachbereich Mathematik/Informatik 16. Juni 2012 Prof. Dr. H. Brenner. Mathematik für Anwender II. Testklausur mit Lösungen

Fachbereich Mathematik/Informatik 16. Juni 2012 Prof. Dr. H. Brenner. Mathematik für Anwender II. Testklausur mit Lösungen Fachbereich Mathematik/Informatik 6. Juni 0 Prof. Dr. H. Brenner Mathematik für Anwender II Testklausur mit Lösungen Aufgabe. Definiere die folgenden (kursiv gedruckten) Begriffe. () Ein Skalarprodukt

Mehr

Lineare Algebra für Physiker 11. Übungsblatt

Lineare Algebra für Physiker 11. Übungsblatt Lineare Algebra für Physiker 11. Übungsblatt Fachbereich Mathematik SS 01 Prof. Dr. Matthias Schneider./. Juli 01 Dr. Silke Horn Dipl.-Math. Dominik Kremer Gruppenübung Aufgabe G1 (Minitest) (a) Welche

Mehr

Floquet Theorie II. 1 Einführung

Floquet Theorie II. 1 Einführung Vortrag zum Seminar Gewöhnliche Differentialgleichungen, 18.10.2011 Sebastian Monschang 1 Einführung Auf den Ergebnissen des ersten Vortrags basierend werden wir in diesem Vortrag gewöhnliche lineare Differentialgleichungssysteme

Mehr

Eigenwerte, Diagonalisierbarkeit, charakteristisches Polynom

Eigenwerte, Diagonalisierbarkeit, charakteristisches Polynom Eigenwerte, Diagonalisierbarkeit, charakteristisches Polynom Eine Fragestellung, die uns im weiteren beschäftigen wird, ist das Finden eines möglichst einfachen Repräsentanten aus jeder Äquivalenzklasse

Mehr

y (k) (0) = y (k) y(z) = c 1 e αz + c 2 e βz. c 1 + c 2 = y 0 k=1 k=1,...,m y k f k (x)

y (k) (0) = y (k) y(z) = c 1 e αz + c 2 e βz. c 1 + c 2 = y 0 k=1 k=1,...,m y k f k (x) 9 Ausgleichsrechnung 9.1 Problemstelllung Eine Reihe von Experimenten soll durchgeführt werden unter bekannten Versuchsbedingungen z Ê m. Es sollen Größen x Ê n bestimmt werden, für die ein Gesetz gelten

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik 8.11.2011 1 von 38 Gliederung 1 2 Lagrange-Optimierung 2 von 38 Übersicht über die Stützvektormethode (SVM) Eigenschaften

Mehr

Vorbereitung für die Prüfung Mathematik II für Informatiker

Vorbereitung für die Prüfung Mathematik II für Informatiker Technische Universität Ilmenau SS 2010 Institut für Mathematik Inf Prof. Dr. Michael Stiebitz Vorbereitung für die Prüfung Mathematik II für Informatiker 1 Lineare Algebra Aufgabe 1 Schauen Sie sich die

Mehr

Künstliche neuronale Netze

Künstliche neuronale Netze Künstliche neuronale Netze Eigenschaften neuronaler Netze: hohe Arbeitsgeschwindigkeit durch Parallelität, Funktionsfähigkeit auch nach Ausfall von Teilen des Netzes, Lernfähigkeit, Möglichkeit zur Generalisierung

Mehr

Stroppel Musterlösung , 180min. Aufgabe 1 (4 Punkte) Bestimmen Sie die folgenden Grenzwerte und Funktionengrenzwerte.

Stroppel Musterlösung , 180min. Aufgabe 1 (4 Punkte) Bestimmen Sie die folgenden Grenzwerte und Funktionengrenzwerte. Stroppel Musterlösung 3908, 80min Aufgabe 4 Punkte) Bestimmen Sie die folgenden Grenzwerte und Funktionengrenzwerte a) 4n 3 9 lim b) lim n n + n) n + )5n 4) c) lim x 0 sinlnx + )) sinhx) a) Es ist lim

Mehr

Thema 3: Radiale Basisfunktionen und RBF- Netze

Thema 3: Radiale Basisfunktionen und RBF- Netze Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung

Mehr

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 91 Optimierung ohne Nebenbedingungen Ein Optimum zu suchen heißt, den größten oder den kleinsten Wert zu suchen Wir suchen also ein x R n, sodass

Mehr

Eigenwerte und Eigenvektoren

Eigenwerte und Eigenvektoren Eigenwerte und Eigenvektoren Siehe Analysis (von der Hude, Folie 20: Definition 2.3. Ein Vektor x R n heißt Eigenvektor der quadratischen n n-matrix A zum Eigenwert λ R, wenn gilt Ax = λx Die Eigenwerte

Mehr

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h. Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,

Mehr

1 Analytische Geometrie und Grundlagen

1 Analytische Geometrie und Grundlagen $Id: vektor.tex,v 1.44 2018/05/17 14:11:13 hk Exp $ 1 Analytische Geometrie und Grundlagen 1.6 Bewegungen und Kongruenzbegriffe Wir untersuchen gerade die Spiegelung an einer Hyperebene h R d. Ist ein

Mehr

Hannah Wester Juan Jose Gonzalez

Hannah Wester Juan Jose Gonzalez Neuronale Netze Supervised Learning Proseminar Kognitive Robotik (SS12) Hannah Wester Juan Jose Gonzalez Kurze Einführung Warum braucht man Neuronale Netze und insbesondere Supervised Learning? Das Perzeptron

Mehr

Vorlesung Maschinelles Lernen

Vorlesung Maschinelles Lernen Vorlesung Maschinelles Lernen Stützvektormethode Katharina Morik LS 8 Informatik Technische Universität Dortmund 12.11.2013 1 von 39 Gliederung 1 Hinführungen zur SVM 2 Maximum Margin Methode Lagrange-Optimierung

Mehr

7.3 Unitäre Operatoren

7.3 Unitäre Operatoren Wir können jeden Operator T wie folgt schreiben: Dabei gilt T = 1 2 (T + T ) + i( 1 2 i (T T )) (T + T ) = T + T sowie ( 1 2 i (T T )) = 1 2 i (T T) = 1 2 i (T T ). Wir können T also in zwei lineare Operatoren

Mehr

3 Optimierung mehrdimensionaler Funktionen f : R n R

3 Optimierung mehrdimensionaler Funktionen f : R n R 3 Optimierung mehrdimensionaler Funktionen f : R n R 31 Optimierung ohne Nebenbedingungen Optimierung heißt eigentlich: Wir suchen ein x R n so, dass f(x ) f(x) für alle x R n (dann heißt x globales Minimum)

Mehr

Der CG-Algorithmus (Zusammenfassung)

Der CG-Algorithmus (Zusammenfassung) Der CG-Algorithmus (Zusammenfassung) Michael Karow Juli 2008 1 Zweck, Herkunft, Terminologie des CG-Algorithmus Zweck: Numerische Berechnung der Lösung x des linearen Gleichungssystems Ax = b für eine

Mehr

Mathematische Grundlagen

Mathematische Grundlagen Mathematische Grundlagen 1 / 16 Vektorraum u R n, u = (u 1,..., u n ), u k R Euklidisches Skalarprodukt Euklidische Vektornorm (u, v) = u k v k u 2 = (u, u) = n u 2 k Vektoren u, v R n heißen orthogonal,

Mehr

VF-2: 2. Es seien x = 1 3 und y = π Bei der Berechnung von sin(x) sin(y) in M(10, 12, 99, 99) tritt. Auslöschung auf.

VF-2: 2. Es seien x = 1 3 und y = π Bei der Berechnung von sin(x) sin(y) in M(10, 12, 99, 99) tritt. Auslöschung auf. IGPM RWTH Aachen Verständnisfragen-Teil NumaMB H11 (24 Punkte) Es gibt zu jeder der 12 Aufgaben vier Teilaufgaben. Diese sind mit wahr bzw. falsch zu kennzeichnen (hinschreiben). Es müssen mindestens zwei

Mehr

6 Hauptachsentransformation

6 Hauptachsentransformation 6 Hauptachsentransformation A Diagonalisierung symmetrischer Matrizen (6.1) Satz: Sei A M(n n, R) symmetrisch. Dann gibt es eine orthogonale n n-matrix U mit U t AU = D Diagonalmatrix Es folgt: Die Spalten

Mehr

Lineare Klassifikationsmethoden

Lineare Klassifikationsmethoden Verena Krieg Fakultät für Mathematik und Wirtschaftswissenschaften 08. Mai 2007 Inhaltsverzeichnis 1. Einführung 2. Lineare Regression 3. Lineare Diskriminanzanalyse 4. Logistische Regression 4.1 Berechnung

Mehr

a b Q = b a 0 ) existiert ein Element p Q, so dass gilt: q 1 q 2 = 2 b 1 b 2 a 1 b 2 a 2 b 1 a 1 a 2 b 1 b 2 a 1 b 2 a 2 b 1 a b p = 1 det(q) C 2 2,

a b Q = b a 0 ) existiert ein Element p Q, so dass gilt: q 1 q 2 = 2 b 1 b 2 a 1 b 2 a 2 b 1 a 1 a 2 b 1 b 2 a 1 b 2 a 2 b 1 a b p = 1 det(q) C 2 2, Aufgabe I Es sei Q die folgende Teilmenge von C 2 2 : { ( ) a b Q a, b C b a Hier bezeichnet der Querstrich die komplexe Konjugation Zeigen Sie: (a) Mit den üblichen Verknüpfungen + und für Matrizen ist

Mehr

Prof. Steinwart Höhere Mathematik I/II Musterlösung A =

Prof. Steinwart Höhere Mathematik I/II Musterlösung A = Prof. Steinwart Höhere Mathematik I/II Musterlösung 7..7 Aufgabe ( Punkte) (a) Bestimmen Sie die Eigenwerte und Eigenräume der Matrix A mit 3 3 A = 3 Ist die Matrix A diagonalisierbar? (b) Die Matrix A

Mehr

Eigenwerte und Diagonalisierung

Eigenwerte und Diagonalisierung Eigenwerte und Diagonalisierung Wir wissen von früher: Seien V und W K-Vektorräume mit dim V = n, dim W = m und sei F : V W linear. Werden Basen A bzw. B in V bzw. W gewählt, dann hat F eine darstellende

Mehr

Lineare Klassifikatoren. Volker Tresp

Lineare Klassifikatoren. Volker Tresp Lineare Klassifikatoren Volker Tresp 1 Einführung Lineare Klassifikatoren trennen Klassen durch eine lineare Hyperebene (genauer: affine Menge) In hochdimensionalen Problemen trennt schon eine lineare

Mehr

Systeme von Differentialgleichungen. Beispiel 1: Chemische Reaktionssysteme. Beispiel 2. System aus n Differentialgleichungen 1. Ordnung: y 1.

Systeme von Differentialgleichungen. Beispiel 1: Chemische Reaktionssysteme. Beispiel 2. System aus n Differentialgleichungen 1. Ordnung: y 1. Systeme von Differentialgleichungen Beispiel : Chemische Reaktionssysteme System aus n Differentialgleichungen Ordnung: y (x = f (x, y (x,, y n (x Kurzschreibweise: y y 2 (x = f 2(x, y (x,, y n (x y n(x

Mehr

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn.

Kapitel 5. Eigenwerte. Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich der Produktion ist, d.h. wenn. Kapitel 5 Eigenwerte Josef Leydold Mathematik für VW WS 2016/17 5 Eigenwerte 1 / 42 Geschlossenes Leontief-Modell Ein Leontief-Modell für eine Volkswirtschaft heißt geschlossen, wenn der Konsum gleich

Mehr

Wiederholung von Linearer Algebra und Differentialrechnung im R n

Wiederholung von Linearer Algebra und Differentialrechnung im R n Wiederholung von Linearer Algebra und Differentialrechnung im R n 1 Lineare Algebra 11 Matrizen Notation: Vektor x R n : x = x 1 x n = (x i ) n i=1, mit den Komponenten x i, i {1,, n} zugehörige Indexmenge:

Mehr

4.4 Simultane Diagonalisierbarkeit und Trigonalisierbarkeit

4.4 Simultane Diagonalisierbarkeit und Trigonalisierbarkeit 4.4 Simultane Diagonalisierbarkeit und Trigonalisierbarkeit Definition 4.41. Eine Familie F linearer Operatoren heißt vertauschbar oder kommutierend, wenn für je zwei Operatoren U,T in F gilt: UT = TU.

Mehr

Eigenwerte (Teschl/Teschl 14.2)

Eigenwerte (Teschl/Teschl 14.2) Eigenwerte Teschl/Teschl 4. Ein Eigenvektor einer quadratischen n nmatrix A ist ein Vektor x R n mit x 0, für den Ax ein skalares Vielfaches von x ist, es also einen Skalar λ gibt mit Ax = λ x Ax λ x =

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle

Mehr

Teil 6. Differentialrechnung mehrerer Veränderlicher

Teil 6. Differentialrechnung mehrerer Veränderlicher Teil 6 Differentialrechnung mehrerer Veränderlicher 95 96 6.1 Topologie von Mengen Umgebung ε-umgebung eines Punktes x R n : B ε (x) = {y : y x < ε} Umgebung U von x: Menge, die eine ε-umgebung von x enthält

Mehr

Analysis II. Aufgaben zum Stoff der Analysis I und II Lösungsvorschlag

Analysis II. Aufgaben zum Stoff der Analysis I und II Lösungsvorschlag Prof Dr H Garcke, D Depner SS 9 NWF I - Mathematik 1979 Universität Regensburg Aufgabe 1 Analysis II Aufgaben zum Stoff der Analysis I und II Lösungsvorschlag i Erinnern Sie sich an die Konvergenzkriterien

Mehr

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines

Mustererkennung. Support Vector Machines. R. Neubecker, WS 2018 / Support Vector Machines Mustererkennung R. Neubecker, WS 018 / 019 (SVM) kommen aus der statistischen Lerntheorie gehören zu den optimalen Klassifikatoren = SVMs minimieren nicht nur den Trainingsfehler, sondern auch den (voraussichtlichen)

Mehr

Lösung 23: Sylvesters Trägheitssatz & Singulärwertzerlegung

Lösung 23: Sylvesters Trägheitssatz & Singulärwertzerlegung D-MATH Lineare Algebra I/II HS 07/FS 08 Dr Meike Akveld Lösung 3: Sylvesters Trägheitssatz & Singulärwertzerlegung Wir wissen, dass eine Basis B von R n existiert, sodass p [β Q ] B I I q 0 n p q gilt

Mehr

18 λ 18 + λ 0 A 18I 3 = / Z 2 Z 2 Z Z Z 1

18 λ 18 + λ 0 A 18I 3 = / Z 2 Z 2 Z Z Z 1 UNIVERSITÄT KARLSRUHE Institut für Analysis HDoz. Dr. P. C. Kunstmann Dipl.-Math. M. Uhl Sommersemester 9 Höhere Mathematik II für die Fachrichtungen Elektroingenieurwesen, Physik und Geodäsie inklusive

Mehr

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Albayrak, Fricke (AOT) Oer, Thiel (KI) Wintersemester 2014 / 2015 8. Aufgabenblatt

Mehr

Institut für Geometrie und Praktische Mathematik

Institut für Geometrie und Praktische Mathematik RWTH Aachen Verständnisfragen-Teil Institut für Geometrie und Praktische Mathematik (24 Punkte) Es gibt zu jeder der 12 Aufgaben vier Teilaufgaben. Diese sind mit wahr bzw. falsch zu kennzeichnen (hinschreiben).

Mehr

Mathematische Grundlagen für die Vorlesung. Differentialgeometrie

Mathematische Grundlagen für die Vorlesung. Differentialgeometrie Mathematische Grundlagen für die Vorlesung Differentialgeometrie Dr. Gabriele Link 13.10.2010 In diesem Text sammeln wir die nötigen mathematischen Grundlagen, die wir in der Vorlesung Differentialgeometrie

Mehr

Übungsblatt

Übungsblatt Prof Dr Fabien Morel Lineare Algebra II Dr Anand Sawant Sommersemester 2018 Übungsblatt 11 20062018 Aufgabe 1 (2 Punkte) Berechnen Sie eine Jordan-Basis für die Matrix 3 1 1 M = 2 2 0 M 3 (R) 1 1 3 Wir

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

Einführung in die Neuroinformatik Lösungen zum 5. Aufgabenblatt

Einführung in die Neuroinformatik Lösungen zum 5. Aufgabenblatt Einführung in die Neuroinformatik Lösungen zum 5. Aufgabenblatt 7. Aufgabe : Summe {} Man sieht leicht ein, dass ein einzelnes Perzeptron mit Gewichten c, c 2, c 3 und Schwelle θ das Problem nicht lösen

Mehr

Henning Krause Lineare Algebra Julia Sauter SS 2017 Klausur mit Lösungsvorschlag Jan Geuenich

Henning Krause Lineare Algebra Julia Sauter SS 2017 Klausur mit Lösungsvorschlag Jan Geuenich Henning Krause Lineare Algebra Julia Sauter SS 27 Klausur 2.9.27 mit Lösungsvorschlag Jan Geuenich Aufgabe (4 Punkte: Sei n N und seien A und B zwei (n n-matrizen über einem Körper K. Wahr Falsch (a Es

Mehr

6 Symmetrische Matrizen und quadratische Formen

6 Symmetrische Matrizen und quadratische Formen Mathematik für Ingenieure II, SS 9 Freitag 9.6 $Id: quadrat.tex,v. 9/6/9 4:6:48 hk Exp $ 6 Symmetrische Matrizen und quadratische Formen 6. Symmetrische Matrizen Eine n n Matrix heißt symmetrisch wenn

Mehr

Proseminar Lineare Algebra II, SS 11. Blatt

Proseminar Lineare Algebra II, SS 11. Blatt Blatt 1 1. Berechnen Sie die Determinante der Matrix 0 0 4 1 2 5 1 7 1 2 0 3 1 3 0 α. 2. Stellen Sie folgende Matrix als Produkt von Elementarmatrizen dar: 1 3 1 4 2 5 1 3 0 4 3 1. 3 1 5 2 3. Seien n 2

Mehr

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010

Aufgabensammlung aus Mathematik 2 UMIT, SS 2010, Version vom 7. Mai 2010 Aufgabensammlung aus Mathematik 2 UMIT, SS 2, Version vom 7. Mai 2 I Aufgabe I Teschl / K 3 Zerlegen Sie die Zahl 8 N in ihre Primfaktoren. Aufgabe II Teschl / K 3 Gegeben sind die natürliche Zahl 7 und

Mehr

Konzepte der AI Neuronale Netze

Konzepte der AI Neuronale Netze Konzepte der AI Neuronale Netze Franz Wotawa Institut für Informationssysteme, Database and Artificial Intelligence Group, Technische Universität Wien Email: wotawa@dbai.tuwien.ac.at Was sind Neuronale

Mehr

Exponentialabbildung für Matrizen und Systeme von Differentialgleichungen

Exponentialabbildung für Matrizen und Systeme von Differentialgleichungen Proseminar Lineare Algebra SS10 Exponentialabbildung für Matrizen und Systeme von Differentialgleichungen Simon Strahlegger Heinrich-Heine-Universität Betreuung: Prof. Dr. Oleg Bogopolski Inhaltsverzeichnis:

Mehr

Holomorphe Funktionen

Holomorphe Funktionen 1 Kapitel 1 Holomorphe Funktionen 1 Komplexe Differenzierbarkeit Ist z = (z 1,..., z n ) ein Element des C n und z ν = x ν + i y ν, so können wir auch schreiben: z = x + i y, mit x = (x 1,..., x n ) und

Mehr