Neuronale Netzwerke. Neuronale Netzwerke 1 / 147
|
|
- Sven Hafner
- vor 5 Jahren
- Abrufe
Transkript
1 Neuronale Netzwerke Neuronale Netzwerke 1 / 147
2 Feedfoward-Netzwerke (1/2) Die Architektur A = (V, E, f ) eines Feedforward-Netzwerks besteht aus ( ) einem azyklischen, gerichteten und geschichteten Graphen G = (V, E), wobei V in die Schichten V 0,..., V T unterteilt ist 1 mit V t = { (t, j) : 1 j V t }. 2 Alle Kanten (v, w) verlaufen von einem Knoten v V t zu einem Knoten w V t+1 in der darauffolgenden Nachbarschicht. V 0 besteht nur aus Quellen und V T nur aus Senken. ( ) einer Zuweisung f (v) = γ v von Aktivierungsfunktionen zu Knoten v V. γ v : R R ( ) Nicht gezeigt werden Kanten, die einen Knoten mit einer Eingabe versorgen. Diese Kanten sind ebenfalls gewichtet. Neuronale Netzwerke 2 / 147
3 Feedforward-Netzwerke (2/2) Ein Feedforward-Netzwerk N = (A, w) besteht aus (a) der Architektur A (b) sowie einer Zuweisung w : E R von Gewichten w(u, v) zu Kanten (u, v) E. Neuronale Netzwerke 3 / 147
4 Feedforward-Netzwerke (2/2) Ein Feedforward-Netzwerk N = (A, w) besteht aus (a) der Architektur A (b) sowie einer Zuweisung w : E R von Gewichten w(u, v) zu Kanten (u, v) E. Wir können implizite mit Schwellenwerten arbeiten: Verbinde eine neue Quelle u = (t, 0) mit allen Knoten v V t. Weise der Kante (u, v) den Schwellenwert von v zu. Neuronale Netzwerke 3 / 147
5 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. Neuronale Netzwerke 4 / 147
6 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := Neuronale Netzwerke 4 / 147
7 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend aus t,j (x) := k:e=((t 1,k),(t,j)) E Neuronale Netzwerke 4 / 147
8 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend k:e=((t 1,k),(t,j)) E ( ) aus t,j (x) := γ t,j summe t,j (x). Neuronale Netzwerke 4 / 147
9 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend k:e=((t 1,k),(t,j)) E ( ) aus t,j (x) := γ t,j summe t,j (x). 3. Das Feedforward-Netzwerk berechnet die Funktion h w A : R n R m mit h w A(x) := (aus T,1 (x),..., aus T,m (x)). Neuronale Netzwerke 4 / 147
10 Architekturen und ihre Hypothesenklasse Sei A eine Architektur mit n Quellen, m Senken. Die Hypothesenklasse H A von A besteht aus allen Funktionen ha w : R n R m für Gewichtsvektoren w R n. Eine Zielverteilung p ist zu lernen. Die typische Lernsituation: Neuronale Netzwerke 5 / 147
11 Architekturen und ihre Hypothesenklasse Sei A eine Architektur mit n Quellen, m Senken. Die Hypothesenklasse H A von A besteht aus allen Funktionen ha w : R n R m für Gewichtsvektoren w R n. Eine Zielverteilung p ist zu lernen. Die typische Lernsituation: 1 Eine Architektur A ist vorgegeben. Wissen über p ist in die Konstruktion von A eingeflossen. 2 Lerne Gewichte: Approximiere p möglichst gut mit einer Hypothese h H A. Neuronale Netzwerke 5 / 147
12 Rekurrente Netzwerke (RNNs) Die Architektur A r = (V, E, f ) eines rekurrenten Netzwerks (RNN) besteht aus ( ) einem gerichteten Graphen G = (V, E), der möglicherweise Kreise besitzt und ( ) einer Zuweisung f (v) = γ v von Aktivierungsfunktionen γ v zu Knoten v V. Ein rekurrentes neuronales Netzwerk (RNN) R = (A r, w) besteht aus (a) der Architektur A r und (b) einer Zuweisung w : E R von Gewichten zu Kanten. Neuronale Netzwerke 6 / 147
13 Aktivierungsfunktionen Neuronale Netzwerke Aktivierungsfunktionen 7 / 147
14 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Neuronale Netzwerke Aktivierungsfunktionen 8 / 147
15 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Weitere Modelle in der Computational Neuroscience: Spikende Neuronen, Feuerraten,... Neuronale Netzwerke Aktivierungsfunktionen 8 / 147
16 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Weitere Modelle in der Computational Neuroscience: Spikende Neuronen, Feuerraten,... (b) Das Standard-Sigmoid σ(x) := exp x oder der hyperbolische Tangens tanh(x) := exp2x 1 exp 2x +1 (= 2σ(2x) 1) sind diffbare Varianten der Thresholdfunktion. Neuronale Netzwerke Aktivierungsfunktionen 8 / 147
17 Aktivierungsfunktionen (2/3) (c) Das ReLU-Gatter (oder rectified linear unit ) r(x) := max{0, x} Goodfellow et al: Stückweise lineare Gatterfunktionen gehören zu den wichtigsten algorithmischen Neuerungen. (d) Die Softplus-Funktion s(x) := ln(1 + exp x ) kann als eine differenzierbare Variante des Rectifiers angesehen werden. (Beachte, dass s = σ.) Experimentell: Schlechter als ReLU-Gatter! Neuronale Netzwerke Aktivierungsfunktionen 9 / 147
18 Aktivierungsfunktionen (2/3) (c) Das ReLU-Gatter (oder rectified linear unit ) r(x) := max{0, x} Goodfellow et al: Stückweise lineare Gatterfunktionen gehören zu den wichtigsten algorithmischen Neuerungen. (d) Die Softplus-Funktion s(x) := ln(1 + exp x ) kann als eine differenzierbare Variante des Rectifiers angesehen werden. (Beachte, dass s = σ.) Experimentell: Schlechter als ReLU-Gatter! (e) Für c R und Vektoren x, W R m die Radialbasis-Funktion r c,w (x) := exp 1 c 2 W x 2. x ist der Vektor der Eingaben des Gatters. Neuronale Netzwerke Aktivierungsfunktionen 9 / 147
19 Aktivierungsfunktionen (3/3) (f) Wie die Radialbasisfunktion sind auch Softmax-Gatter γ i (x 1,..., x k ) := exp x i k j=1 expx j keine konventionellen Aktivierungsfunktionen. Sie werden häufig als Ausgabegatter eingesetzt und produzieren eine Verteilung auf den k Eingabewerten des Gatters. γ i (x 1,..., x k ) Überzeugung hinter Option i. Neuronale Netzwerke Aktivierungsfunktionen 10 / 147
20 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde Neuronale Netzwerke Aktivierungsfunktionen 11 / 147
21 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. Neuronale Netzwerke Aktivierungsfunktionen 11 / 147
22 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und Neuronale Netzwerke Aktivierungsfunktionen 11 / 147
23 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und benötigt die Energie einer Glühbirne. Moderne Supercomputer verbrauchen mehrere Megawatt! Neuronale Netzwerke Aktivierungsfunktionen 11 / 147
24 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und benötigt die Energie einer Glühbirne. Moderne Supercomputer verbrauchen mehrere Megawatt! Ein Muß: Löse algorithmische Probleme in wenigen Schritten! Neuronale Netzwerke Aktivierungsfunktionen 11 / 147
25 Berechnungskraft Neuronale Netzwerke Berechnungskraft 12 / 147
26 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x Neuronale Netzwerke Berechnungskraft 13 / 147
27 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n Neuronale Netzwerke Berechnungskraft 13 / 147
28 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n n x i n 1 2 i=1 Neuronale Netzwerke Berechnungskraft 13 / 147
29 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n Zahl(x n 1,..., x 0 ) Zahl(y n 1,..., y 0 ) n x i n 1 2 i=1 n x i 1 2 i=1 Neuronale Netzwerke Berechnungskraft 13 / 147
30 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n Zahl(x n 1,..., x 0 ) Zahl(y n 1,..., y 0 ) n x i n 1 2 i=1 n x i 1 2 i=1 n 1 n 1 x i 2 i y i 2 i i=0 i=0 Und die Parität x 1 x n? Neuronale Netzwerke Berechnungskraft 13 / 147
31 Die Parität x 1 x n n x 1 x 2 x n Neuronale Netzwerke Berechnungskraft 14 / 147
32 Die Parität x 1 x n n x 1 x 2 x n n + 1 Knoten und Tiefe zwei genügen = {,, }-Schaltkreise der Tiefe t benötigen 2 Ω(n1/t ) Knoten. Neuronale Netzwerke Berechnungskraft 14 / 147
33 Neuronale Netzwerke und Turingmaschinen Die Funktion F : {0, 1} {0, 1} werde von einer Turingmaschine mit einem Lese-Schreib-Band in Zeit T (n) berechnet = Es gibt einen {,, }-Schaltkreis der Tiefe O(T (N)) und Größe O(T 2 ) für F. Neuronale Netzwerke Berechnungskraft 15 / 147
34 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. Neuronale Netzwerke Berechnungskraft 16 / 147
35 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). Neuronale Netzwerke Berechnungskraft 16 / 147
36 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = Neuronale Netzwerke Berechnungskraft 16 / 147
37 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). Neuronale Netzwerke Berechnungskraft 16 / 147
38 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Neuronale Netzwerke Berechnungskraft 16 / 147
39 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Neuronale Netzwerke Berechnungskraft 16 / 147
40 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Der Approximationsfehler ist höchstens 2r( x L )L2 γ (0) = Neuronale Netzwerke Berechnungskraft 16 / 147
41 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Der Approximationsfehler ist höchstens 2r( x L )L2 γ (0) = O( x 3 L ), denn r( x L ) = O( x 3 L 3 ). Neuronale Netzwerke Berechnungskraft 16 / 147
42 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. Neuronale Netzwerke Berechnungskraft 17 / 147
43 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147
44 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Neuronale Netzwerke Berechnungskraft 17 / 147
45 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Für jedes i und k teste, ob Rang(xi ) = k gilt. Dies gelingt in zwei Schichten und O(n 2 ) Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147
46 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Für jedes i und k teste, ob Rang(xi ) = k gilt. Dies gelingt in zwei Schichten und O(n 2 ) Knoten. (3) Berechnung des r-ten Bits des s-ten Ausgabeschlüssels durch n ) ((Rang(x i ) = s) x i,r. i=1 Dies gelingt in zwei Schichten mit O(n 3 )-vielen Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147
47 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? Neuronale Netzwerke Berechnungskraft 18 / 147
48 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. Neuronale Netzwerke Berechnungskraft 18 / 147
49 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Neuronale Netzwerke Berechnungskraft 18 / 147
50 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Neuronale Netzwerke Berechnungskraft 18 / 147
51 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Es ist n i=1 x i mod p l Neuronale Netzwerke Berechnungskraft 18 / 147
52 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Es ist n i=1 x i n i=1 mod p l g q i,l l mod p l. Neuronale Netzwerke Berechnungskraft 18 / 147
53 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. Neuronale Netzwerke Berechnungskraft 19 / 147
54 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse Neuronale Netzwerke Berechnungskraft 19 / 147
55 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, wie auch das multiplikative Inverse Neuronale Netzwerke Berechnungskraft 19 / 147
56 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j Neuronale Netzwerke Berechnungskraft 19 / 147
57 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l Neuronale Netzwerke Berechnungskraft 19 / 147
58 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l r l mod p l. Neuronale Netzwerke Berechnungskraft 19 / 147
59 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l r l mod p l. Die Rekonstruktion des Produkts aus den Resten ist auf eine Addition polynomiell vieler Zahlen zurückgeführt. Neuronale Netzwerke Berechnungskraft 19 / 147
60 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. Neuronale Netzwerke Berechnungskraft 20 / 147
61 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. Neuronale Netzwerke Berechnungskraft 20 / 147
62 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. Neuronale Netzwerke Berechnungskraft 20 / 147
63 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. (3) Ob Rectifier, Softplus, Standard Sigmoid oder Threshold-Funktion: Berechnungskraft ist unverändert. Neuronale Netzwerke Berechnungskraft 20 / 147
64 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. (3) Ob Rectifier, Softplus, Standard Sigmoid oder Threshold-Funktion: Berechnungskraft ist unverändert. TC 0 = alle Sprachen, die in konstanter Tiefe und polynomieller Größe mit einem Threshold-Schaltkreis berechenbar sind. Neuronale Netzwerke Berechnungskraft 20 / 147
65 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? Neuronale Netzwerke Berechnungskraft 21 / 147
66 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. Neuronale Netzwerke Berechnungskraft 21 / 147
67 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Neuronale Netzwerke Berechnungskraft 21 / 147
68 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Jetzt simuliere ein Threshold-Gatter durch einen {,, }-Schaltkreis in logarithmischer Tiefe. Neuronale Netzwerke Berechnungskraft 21 / 147
69 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Jetzt simuliere ein Threshold-Gatter durch einen {,, }-Schaltkreis in logarithmischer Tiefe. In NC 1 kann man (wahrscheinlich) nicht feststellen, ob ein gerichteter Graph einen Weg zwischen zwei festgelegten Knoten besitzt. Neuronale Netzwerke Berechnungskraft 21 / 147
70 Beispielkomplexität Neuronale Netzwerke Beispielkomplexität 22 / 147
71 Dürfen wir bei fehlerfreiem Training jubeln? Neuronale Netzwerke Beispielkomplexität 23 / 147
72 Dürfen wir bei fehlerfreiem Training jubeln? Zumindest wenn die Gatterzahl mit S skaliert, besteht selbst bei beliebigen reellwertigen Klassifikationen kein Anlass zum Jubel. Sei S R d eine Menge von n Beispielen und sei f : S R eine beliebige Funktion. Dann gibt es Gewichte a R d, w, b R n, so dass f (x) = n w j max{ a, x b j, 0 } j=1 für alle x S gilt. Neuronale Netzwerke Beispielkomplexität 23 / 147
73 Dürfen wir bei fehlerfreiem Training jubeln? Zumindest wenn die Gatterzahl mit S skaliert, besteht selbst bei beliebigen reellwertigen Klassifikationen kein Anlass zum Jubel. Sei S R d eine Menge von n Beispielen und sei f : S R eine beliebige Funktion. Dann gibt es Gewichte a R d, w, b R n, so dass f (x) = n w j max{ a, x b j, 0 } j=1 für alle x S gilt. Ein neuronales Netz aus ReLU-Gattern mit nur 2n + d Gewichten genügt. Neuronale Netzwerke Beispielkomplexität 23 / 147
74 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Neuronale Netzwerke Beispielkomplexität 24 / 147
75 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n Neuronale Netzwerke Beispielkomplexität 24 / 147
76 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = Neuronale Netzwerke Beispielkomplexität 24 / 147
77 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = ( f (x 1 ),..., f (x n ) ). Neuronale Netzwerke Beispielkomplexität 24 / 147
78 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = ( f (x 1 ),..., f (x n ) ). A ist eine obere Dreiecksmatrix Neuronale Netzwerke Beispielkomplexität 24 / 147
79 Beispielkomplexität Wieviele Beispiele müssen angefordert werden, wenn eine Architektur A aus Threshold-Gattern vorgegeben ist? 1 Für eine Klasse F von Funktionen h : X Y definiere Π F (S) := { f S : f F } als die Menge der auf S eingeschränkten Funktionen aus F. 2 Die Definition der Wachstumsfunktion Π F (m) ist wie üblich, d.h. Π F (m) := max{ Π F (S) : S = m }. Neuronale Netzwerke Beispielkomplexität 25 / 147
80 Beispielkomplexität Wieviele Beispiele müssen angefordert werden, wenn eine Architektur A aus Threshold-Gattern vorgegeben ist? 1 Für eine Klasse F von Funktionen h : X Y definiere Π F (S) := { f S : f F } als die Menge der auf S eingeschränkten Funktionen aus F. 2 Die Definition der Wachstumsfunktion Π F (m) ist wie üblich, d.h. Π F (m) := max{ Π F (S) : S = m }. Wie verhält sich die Wachstumsfunktion Π F (m) bei kartesischen Produkten bzw. bei der Komposition von Funktionen? Neuronale Netzwerke Beispielkomplexität 25 / 147
81 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Neuronale Netzwerke Beispielkomplexität 26 / 147
82 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). (b) Für Mengen F 1, F 2 von Funktionen h 1 : X 1 X 2 bzw h 2 : X 2 X 3 ist F 1 F 2 := { h : h(x) = f 2 (f 1 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Neuronale Netzwerke Beispielkomplexität 26 / 147
83 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). (b) Für Mengen F 1, F 2 von Funktionen h 1 : X 1 X 2 bzw h 2 : X 2 X 3 ist F 1 F 2 := { h : h(x) = f 2 (f 1 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). Neuronale Netzwerke Beispielkomplexität 26 / 147
84 Die VC-Dimension einer Architektur (1/3) Sei A = (V, E, f ) eine Architektur aus Thresholdgattern = VC(H A ) = O( E log 2 E ). 1. Für einen Knoten v V sei H v die Menge aller Funktionen h : R ingrad(v) R, die von v (als einem Knoten der Tiefe Eins) berechnet werden. 2. Die VC-Dimension von H v stimmt überein mit Neuronale Netzwerke Beispielkomplexität 27 / 147
85 Die VC-Dimension einer Architektur (1/3) Sei A = (V, E, f ) eine Architektur aus Thresholdgattern = VC(H A ) = O( E log 2 E ). 1. Für einen Knoten v V sei H v die Menge aller Funktionen h : R ingrad(v) R, die von v (als einem Knoten der Tiefe Eins) berechnet werden. 2. Die VC-Dimension von H v stimmt überein mit ingrad(v). 3. Mit Sauers Lemma folgt Π Hv (m) (e m) ingrad(v) Wie verhält sich die Wachstumsfunktion, wenn der Schaltkreis rechnet? Neuronale Netzwerke Beispielkomplexität 27 / 147
86 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = Neuronale Netzwerke Beispielkomplexität 28 / 147
87 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 Neuronale Netzwerke Beispielkomplexität 28 / 147
88 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt H A = Neuronale Netzwerke Beispielkomplexität 28 / 147
89 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} V i+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt und damit H A = H T H 1. H A (m) Neuronale Netzwerke Beispielkomplexität 28 / 147
90 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt H A = H T H 1. und damit H A (m) (m) (m) (e m) E. H T H 1 Neuronale Netzwerke Beispielkomplexität 28 / 147
91 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) Neuronale Netzwerke Beispielkomplexität 29 / 147
92 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) (e d) E und deshalb d = Neuronale Netzwerke Beispielkomplexität 29 / 147
93 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) (e d) E und deshalb d = O(( E ) ln(d)) 7. Wird die Threshold-Funktion durch das Standard Sigmoid ersetzt: Die VC-Dimension steigt an auf Ω( E 2 ). Aber, Gewichte sind nur mit beschränkter Präzision B darstellbar: Höchstens B E verschiedene Hypothesen = die praktische VC-Dimension ist höchstens O( E ). Neuronale Netzwerke Beispielkomplexität 29 / 147
94 Und wenn es zu wenige Beispiele gibt? Erzeuge künstliche Beispiele Data Augmentation bzw. erschwere Auswendiglernen durch Hardware oder durch Software. 1 Hardware-Methoden: Wende Dimensionsreduktion an, um zum Beispiel eine große Schicht von Knoten auf eine kleine Schicht zu komprimieren. 2 Software-Methoden: Wende Dropout-Verfahren an, die in jedem Schritt einen konstanten Bruchteil aller Knoten zufällig auswählen und ausschalten. Wie auch immer: Eine größtmögliche Anzahl qualitativ hochwertiger Beispiele ist entscheidend. Neuronale Netzwerke Beispielkomplexität 30 / 147
95 Lernen mit Gradientenabstieg Algorithmische Komplexität Gradientenabstieg 31 / 147
96 Lernen = Minimierung einer Loss-Funktion Sei H A die Hypothesenklasse einer Architektur A und S = { (x 1, y 1 ),..., (x s, y s ) } eine Menge klassifizierter Beispiele. Sei l eine Loss-Funktion. Wir suchen eine ERM-Hypothese h w A H A mit kleinstem Trainingsfehler Loss S (h w A) = min u R n LossS (h u A ) 1 = min u R n s s l(u, x i, y i ). i=1 } {{ } =:f (u) Algorithmische Komplexität Gradientenabstieg 32 / 147
97 Lernen = Minimierung einer Loss-Funktion Sei H A die Hypothesenklasse einer Architektur A und S = { (x 1, y 1 ),..., (x s, y s ) } eine Menge klassifizierter Beispiele. Sei l eine Loss-Funktion. Wir suchen eine ERM-Hypothese h w A H A mit kleinstem Trainingsfehler Loss S (h w A) = min u R n LossS (h u A ) 1 = min u R n s s l(u, x i, y i ). i=1 } {{ } =:f (u) Ein erfolgreicher Lerner versucht die Funktion f : R N R zu minimieren: Ein Minimierungsproblem ohne Restriktionen. Algorithmische Komplexität Gradientenabstieg 32 / 147
98 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Algorithmische Komplexität Gradientenabstieg 33 / 147
99 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Approximiere f durch sein lineares Taylor-Polynom im Punkt a: f (a + z) = f (a) + f (a) T z + O(z T z) gilt, falls z genügend klein ist. Algorithmische Komplexität Gradientenabstieg 33 / 147
100 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Approximiere f durch sein lineares Taylor-Polynom im Punkt a: f (a + z) = f (a) + f (a) T z + O(z T z) gilt, falls z genügend klein ist. Setze z = η f (a) für hinreichend kleines η > 0: f (a η f (a)) = f (a) η f (a) 2 + η 2 O( f (a) 2 ). Algorithmische Komplexität Gradientenabstieg 33 / 147
101 Die Methode des Gradientenabstiegs Sei f : R n R eine zweimal im Punkt a R n stetig differenzierbare Funktion mit f (a) 0. Dann gilt für hinreichend kleine η > 0 f (a η f (a)) < f (a), wobei f (a) der Gradient von f an der Stelle a ist. Algorithmische Komplexität Gradientenabstieg 34 / 147
102 Die Methode des Gradientenabstiegs Sei f : R n R eine zweimal im Punkt a R n stetig differenzierbare Funktion mit f (a) 0. Dann gilt für hinreichend kleine η > 0 f (a η f (a)) < f (a), wobei f (a) der Gradient von f an der Stelle a ist. Die Methode des Gradientenabstiegs verfolgt die Iteration w (i+1) = w (i) η f (w (i) ). 1. Die Lernrate η muss in jedem Schritt neu bestimmt werden, da sonst die Gefahr droht, über das Ziel hinaus zu schießen. 2. Aber selbst wenn die Schrittweite stets hinreichend klein ist, dann konvergiert lim n N w (n) mgl. gegen ein lokales Minimum. Algorithmische Komplexität Gradientenabstieg 34 / 147
103 Gradientenabstieg: Die Fragen (a) Sollten die Gewichte für alle Beispiele auf einmal oder nacheinander für jedes einzelne Beispiel aktualisiert werden? (b) Wie ist die Lernrate zu wählen? (c) Vermeide ein wildes Gehüpfe : Sollten auch frühere Richtungen in der Wahl der neuen Richtung eine Rolle spielen? Um diese Fragen zu beantworten, untersuche den Gradientenabstieg an einem einfachen, aber nicht-trivialem Minimierungsproblem, der Minimierung konvexer Funktionen. Algorithmische Komplexität Gradientenabstieg 35 / 147
104 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Algorithmische Komplexität Gradientenabstieg 36 / 147
105 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Wenn a, b K lokale Minima von f sind, dann gilt f (a) = f (b), und alle Punkte auf der Geraden von a nach b sind globale Minima. Algorithmische Komplexität Gradientenabstieg 36 / 147
106 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Wenn a, b K lokale Minima von f sind, dann gilt f (a) = f (b), und alle Punkte auf der Geraden von a nach b sind globale Minima. Wenn f differenzierbar ist, dann gilt: ( ) f ist konvex f (x) f (a) + f (a) T (x a) für alle Punkte a, x K. /* Die Funktion liegt stets oberhalb einer Tangente. */ ( ) Jeder Punkt a K mit f (a) = 0 ist ein globales Minimum. /* Suche einen Punkt mit verschwindender Gradiente. */ Algorithmische Komplexität Gradientenabstieg 36 / 147
107 Komplexitätsparameter konvexer Funktionen (1/2) Die Funktion f : K R heißt genau dann stark konvex (mit Parameter mindestens m > 0), wenn für alle a, x K gilt f (x) f (a) + f (a) T (x a) + m 2 x a 2. (m ist die Krümmung der quadratischen Funktion f (x) = f (a) + f (a) T (x a) + m 2 x a 2. Algorithmische Komplexität Gradientenabstieg 37 / 147
108 Komplexitätsparameter konvexer Funktionen (1/2) Die Funktion f : K R heißt genau dann stark konvex (mit Parameter mindestens m > 0), wenn für alle a, x K gilt f (x) f (a) + f (a) T (x a) + m 2 x a 2. (m ist die Krümmung der quadratischen Funktion ) f (x) = f (a) + f (a) T (x a) + m 2 x a 2. Die Funktion f sei zweifach stetig differenzierbar. (a) f ist konvex die Hesse-Matrix 2 f (a) ist in jedem Punkt a positiv semi-definit, d.h. es gilt u T 2 f (a) u 0 für alle u K. (b) f ist stark konvex 2 f (a) ist in jedem Punkt a 0 positiv definit und es gilt u T 2 f (a) u m u 2 für alle u K. Algorithmische Komplexität Gradientenabstieg 37 / 147
109 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y Algorithmische Komplexität Gradientenabstieg 38 / 147
110 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. Algorithmische Komplexität Gradientenabstieg 38 / 147
111 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. (b) Definiere ψ(x) := x η f (x) als den auf x im Gradientenabstieg folgenden Punkt. Wir zeigen, dass ψ mit Kontraktionsfaktor β L m L+m kontrahierend ist, d.h. es gilt ψ(x) ψ(z) β x z. Algorithmische Komplexität Gradientenabstieg 38 / 147
112 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. (b) Definiere ψ(x) := x η f (x) als den auf x im Gradientenabstieg folgenden Punkt. Wir zeigen, dass ψ mit Kontraktionsfaktor β L m L+m kontrahierend ist, d.h. es gilt ψ(x) ψ(z) β x z. Wenn m nicht viel kleiner als L ist (d.h. f ist fast-quadratisch), dann ist β klein und ψ ist stark kontrahierend. Algorithmische Komplexität Gradientenabstieg 38 / 147
113 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) Algorithmische Komplexität Gradientenabstieg 39 / 147
114 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) ( ) = (x y) η f (y + γ (x y)) (x y) dγ Algorithmische Komplexität Gradientenabstieg 39 / 147
115 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) ( ) = (x y) η ( = E η f (y + γ (x y)) (x y) dγ 2 f (y + γ (x y)) dγ } 0 {{ } =:A ) (x y). Denn: f (x + γ(y x)) ist Stammfunktion von 2 f (x + γ (y x)) (y x). Algorithmische Komplexität Gradientenabstieg 39 / 147
116 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. Algorithmische Komplexität Gradientenabstieg 40 / 147
117 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. (b) f ist L-glatt und deshalb ( gilt u T 2 f (a) ) u L u. Als Konsequenz folgt u T E η 2 f (a) u (1 ηl) u 2 für alle u (= m L.) Zusammenfassung: Für a = y + γ(x y) gilt für alle u Algorithmische Komplexität Gradientenabstieg 40 / 147
118 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. (b) f ist L-glatt und deshalb ( gilt u T 2 f (a) ) u L u. Als Konsequenz folgt u T E η 2 f (a) u (1 ηl) u 2 für alle u (= m L.) Zusammenfassung: Für a = y + γ(x y) gilt für alle u ( ) (1 η L) u 2 u T }{{} λ min (A) E η 2 f (a) }{{} =A u (1 η m) u 2. }{{} λ max(a) Algorithmische Komplexität Gradientenabstieg 40 / 147
119 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. Algorithmische Komplexität Gradientenabstieg 41 / 147
120 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) Algorithmische Komplexität Gradientenabstieg 41 / 147
121 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) max{ 1 η L, 1 η m } x y. Algorithmische Komplexität Gradientenabstieg 41 / 147
122 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) max{ 1 η L, 1 η m } x y. Für β := L m 2 L+m und η := L+m gilt β = 1 η L 1 η m = β. Also ist ψ(x) ψ(y) β x y. Algorithmische Komplexität Gradientenabstieg 41 / 147
123 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Algorithmische Komplexität Gradientenabstieg 42 / 147
124 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) Algorithmische Komplexität Gradientenabstieg 42 / 147
125 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) Algorithmische Komplexität Gradientenabstieg 42 / 147
126 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) β x (k 1) x Algorithmische Komplexität Gradientenabstieg 42 / 147
127 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) β x (k 1) x β k x (0) x. Algorithmische Komplexität Gradientenabstieg 42 / 147
Feedforward-Netzwerke: Die Architektur. Neuronale Netzwerke 1 / 57
Feedforward-Netzwerke: Die Architektur Neuronale Netzwerke 1 / 57 Eine Architektur A = (V,E,f ) besteht aus - einem azyklischen, gerichteten und geschichteten Graphen G = (V,E), wobei V in die Schichten
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial
MehrVon schwachen zu starken Lernern
Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von
MehrNeural Networks: Architectures and Applications for NLP
Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap
MehrPerzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg
Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)
MehrWissensentdeckung in Datenbanken
Wissensentdeckung in Datenbanken Deep Learning Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 20.07.2017 1 von 11 Überblick Künstliche Neuronale Netze Motivation Formales Modell Aktivierungsfunktionen
MehrKlausur zu Analysis II - Lösungen
Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Dr. Axel Grünrock WS 1/11 11..11 Klausur zu Analysis II - Lösungen 1. Entscheiden Sie, ob die folgenden Aussagen richtig oder falsch sind.
MehrLösungsskizzen zu den Klausuraufgaben zum Kurs 1142 Algorithmische Mathematik. a 0 = 0 =
Lösungsskizzen zu den Klausuraufgaben zum Kurs 4 Algorithmische Mathematik 4KSL3 6 Punkte Aufgabe. Die Folge (a n ) n N natürlicher Zahlen a n sei rekursiv definiert durch a 0 = 0, a n = a n + n falls
Mehr(a), für i = 1,..., n.
.4 Extremwerte Definition Sei M R n eine Teilmenge, f : M R stetig, a M ein Punkt. f hat in a auf M ein relatives (oder lokales) Maximum bzw. ein relatives (oder lokales) Minimum, wenn es eine offene Umgebung
MehrKonvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.
Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,
MehrTechnische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt
Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Albayrak, Fricke (AOT) Oer, Thiel (KI) Wintersemester 2014 / 2015 8. Aufgabenblatt
MehrVorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)
Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 3/) Kapitel : Optimierung ohne Nebenbedingungen Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom. Oktober 3) Gliederung
MehrVorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)
Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 3/4) Kapitel : Optimierung ohne Nebenbedingungen Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom. Oktober 3) Gliederung
MehrFortgeschrittene Netzwerk- und Graph-Algorithmen
Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester
Mehr1 0, x C X (A). = 1 χ A(x).
Aufgabe 1 a) Wir müssen nur zeigen, dass χ A B (x) = χ A (x) χ B (x) für alle x X gilt. (Dass χ A χ B Abbildung von X in {0, 1} ist, ist klar.) Sei also x X beliebig. Fall 1: x A B. Dies bedeutet x A und
MehrMATHEMATIK 2 FÜR DIE STUDIENGÄNGE CHE- MIE UND LEBENSMITTELCHEMIE
Mathematik und Naturwissenschaften Fachrichtung Mathematik, Institut für Numerische Mathematik MATHEMATIK 2 FÜR DIE STUDIENGÄNGE CHE- MIE UND LEBENSMITTELCHEMIE Differentialrechnung für Funktionen mehrerer
Mehr55 Lokale Extrema unter Nebenbedingungen
55 Lokale Extrema unter Nebenbedingungen Sei f : O R mit O R n differenzierbar. Notwendige Bescheinigung für ein lokales Extremum in p 0 ist dann die Bedingung f = 0 (siehe 52.4 und 49.14). Ist nun F :
Mehr2. Hausübung Algorithmen und Datenstrukturen
Prof. Dr. Gerd Stumme, Folke Eisterlehner, Dominik Benz Fachgebiet Wissensverarbeitung 7.4.009. Hausübung Algorithmen und Datenstrukturen Sommersemester 009 Abgabetermin: Montag, 04.05.009, 10:00 Uhr 1
MehrÜbungsaufgaben zu den mathematischen Grundlagen von KM
TUM, Institut für Informatik WS 2003/2004 Prof Dr Thomas Huckle Andreas Krahnke, MSc Dipl-Inf Markus Pögl Übungsaufgaben zu den mathematischen Grundlagen von KM 1 Bestimmen Sie die Darstellung von 1 4
MehrOptimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS2/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren
MehrTeil 6. Differentialrechnung mehrerer Veränderlicher
Teil 6 Differentialrechnung mehrerer Veränderlicher 95 96 6.1 Topologie von Mengen Umgebung ε-umgebung eines Punktes x R n : B ε (x) = {y : y x < ε} Umgebung U von x: Menge, die eine ε-umgebung von x enthält
MehrOperations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung
Operations Research Rainer Schrader Konvexe Funktionen Zentrum für Angewandte Informatik Köln 4. Juni 2007 1 / 84 2 / 84 wir haben uns bereits mit linearen Optimierungsproblemen beschäftigt wir werden
MehrMustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12
Mustererkennung: Neuronale Netze D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Feed-Forward Netze y 1 y 2 y m...... x 1 x 2 x n Output Schicht i max... Zwischenschicht i... Zwischenschicht 1
MehrAlgorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck. 10 Matching-Probleme
10 Matching-Probleme 10.1 Definition von Matching-Probleme Definition 21 [2-dimensionales Matching] Sei G = (V, E) ein ungerichteter Graph und E E. E ist ein Matching, wenn für alle Kantenpaare e 1, e
Mehr5 Numerische Mathematik
6 5 Numerische Mathematik Die Numerische Mathematik setzt sich aus mehreren Einzelmodulen zusammen Für alle Studierenden ist das Modul Numerische Mathematik I: Grundlagen verpflichtend In diesem Modul
Mehra 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:
Matrizen Betrachten wir das nachfolgende Rechteckschema: a 12 a 1(m 1 a 1m a n1 a n2 a n(m 1 a nm Ein solches Schema nennt man (n m-matrix, da es aus n Zeilen und m Spalten besteht Jeder einzelne Eintrag
MehrSeminar Gewöhnliche Differentialgleichungen
Seminar Gewöhnliche Differentialgleichungen Dynamische Systeme I 1 Einleitung 1.1 Nichtlineare Systeme In den vorigen Vorträgen haben wir uns mit linearen Differentialgleichungen beschäftigt. Nun werden
MehrOptimierung. Optimierung. Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 1 Newton Verfahren Taylor Approximation 1. Ordnung von Newton Verfahren! 0 Setze 0und berechne Löse lineares Gleichungssystem für : 2
MehrDas Trust-Region-Verfahren
Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein
MehrAlgorithmen und Datenstrukturen (für ET/IT)
Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 2015 Dr. Tobias Lasser Computer Aided Medical Procedures Technische Universität München Programm heute 7 Fortgeschrittene Datenstrukturen 8 Such-Algorithmen
Mehr9.2 Invertierbare Matrizen
34 9.2 Invertierbare Matrizen Die Division ist als Umkehroperation der Multiplikation definiert. Das heisst, für reelle Zahlen a 0 und b gilt b = a genau dann, wenn a b =. Übertragen wir dies von den reellen
MehrNachklausur zur Analysis 2, SoSe 2017
BERGISCHE UNIVERSITÄT WUPPERTAL 18.9.17 Fakultät 4 - Mathematik und Naturwissenschaften Prof. N. V. Shcherbina Dr. T. P. Pawlaschyk www.kana.uni-wuppertal.de Nachklausur zur Analysis 2, SoSe 217 Aufgabe
MehrKapitel III Ringe und Körper
Kapitel III Ringe und Körper 1. Definitionen und Beispiele Definition 117 Eine Algebra A = S,,, 0, 1 mit zwei zweistelligen Operatoren und heißt ein Ring, falls R1. S,, 0 eine abelsche Gruppe mit neutralem
MehrExtrema multivariater Funktionen
Extrema multivariater Funktionen Ist f (x ) ein Minimum (Maximum) einer stetig differenzierbaren skalaren Funktion f auf einer Umgebung U von x, so gilt grad f (x ) = (0,..., 0) t. Extrema multivariater
MehrNICHTRESTRINGIERTE OPTIMIERUNG
3 NICHTRESTRINGIERTE OPTIMIERUNG Die Aufgabe, mit der wir uns im Folgen beschäftigen werden, ist die Lösung von Minimierungsproblemen der Form minimiere f(x) in R n, (3.1) wobei f : R n R eine gegebene
MehrNewton- und und Quasi-Newton-Methoden in der Optimierung. János Mayer
Newton- und und Quasi-Newton-Methoden in der Optimierung János Mayer 1 GLIEDERUNG Newton-Methode für nichtlineare Gleichungen nichtlineare Gleichungssysteme freie Minimierung. Quasi-Newton-Methoden für
Mehr19.2 Mittelwertsatz der Differentialrechnung
19 Mittelwertsätze der Differentialrechnung mit Anwendungen 19.1 Satz von Rolle 19.2 Mittelwertsatz der Differentialrechnung 19.4 Globaler Wachstumssatz 19.6 Verallgemeinerter Mittelwertsatz der Differentialrechnung
MehrThema 3: Radiale Basisfunktionen und RBF- Netze
Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung
MehrDie Größe A(n, d) und optimale Codes
Die Größe A(n, d) und optimale Codes Definition Optimaler Code Wir definieren A(n, d) = max{m binärer (n, M, d) Code} Ein (n, M, d)-code heißt optimal, falls M = A(n, d). Bestimmung von A(n, d) ist offenes
Mehr8 Extremwerte reellwertiger Funktionen
8 Extremwerte reellwertiger Funktionen 34 8 Extremwerte reellwertiger Funktionen Wir wollen nun auch Extremwerte reellwertiger Funktionen untersuchen. Definition Es sei U R n eine offene Menge, f : U R
MehrNeuronale Netze mit mehreren Schichten
Neuronale Netze mit mehreren Schichten Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Neuronale Netze mit mehreren
MehrLineare Regression. Volker Tresp
Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M
MehrTheoretische Grundlagen der Informatik
Theoretische Grundlagen der Informatik Übung am 16.12.2010 INSTITUT FÜR THEORETISCHE INFORMATIK 0 KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft
Mehr9 Differentialrechnung für Funktionen in n Variablen
$Id: diff.tex,v.7 29/7/2 3:4:3 hk Exp $ $Id: ntaylor.tex,v.2 29/7/2 3:26:42 hk Exp $ 9 Differentialrechnung für Funktionen in n Variablen 9.6 Lagrange Multiplikatoren Die Berechnung von Maxima und Minima
MehrMathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016
und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 5. Juni 2016 Definition 5.21 Ist a R, a > 0 und a 1, so bezeichnet man die Umkehrfunktion der Exponentialfunktion x a x als
MehrBanach scher Fixpunktsatz. 1) D ist abgeschlossen und konvex; 2) f ist selbstabbildend, d.h. f(d) D;
Institut für Geometrie und Praktische Mathematik Höhere Mathematik IV (für Elektrotechniker und Technische Informatiker) - Numerik - SS 2007 Dr. S. Börm, Dr. M. Larin Banach scher Fixpunktsatz Gegeben
MehrKLAUSUR zur Numerik I mit Lösungen. Aufgabe 1: (10 Punkte) [ wahr falsch ] 1. Die maximale Ordnung einer s-stufigen Quadraturformel ist s 2.
MATHEMATISCHES INSTITUT PROF. DR. ACHIM SCHÄDLE 9.8.7 KLAUSUR zur Numerik I mit Lösungen Aufgabe : ( Punkte) [ wahr falsch ]. Die maximale Ordnung einer s-stufigen Quadraturformel ist s. [ ]. Der Clenshaw
Mehr1 Umkehrfunktionen und implizite Funktionen
Mathematik für Physiker III WS 2012/2013 Freitag 211 $Id: implizittexv 18 2012/11/01 20:18:36 hk Exp $ $Id: lagrangetexv 13 2012/11/01 1:24:3 hk Exp hk $ 1 Umkehrfunktionen und implizite Funktionen 13
Mehr384 = = = =
Aufgabe 1 (a) Sei n N. Charakterisieren Sie die Einheiten im Ring Z/nZ auf zwei verschiedene Arten. (b) Bestimmen Sie das inverse Element zur Restklasse von 119 in der Einheitengruppe von Z/384Z. (a) Die
MehrDeterministische Kommunikation. Deterministische Kommunikation 1 / 32
Deterministische Kommunikation Deterministische Kommunikation 1 / 32 Das Kommunikationsproblem Alice und Bob möchten die Funktion f : X Y Z durch den Austausch binärer Nachrichten mit minimaler Gesamtlänge
MehrM U = {x U f 1 =... = f n k (x) = 0}, (1)
Aufgabe 11. a) Es sei M = {(x, y, z) R 3 f 1 = xy = 0; f = yz = 0}. Der Tangentialraum T x M muss in jedem Punkt x M ein R-Vektorraum sein und die Dimension 1 besitzen, damit diese Menge M eine Untermannigfaltigkeit
MehrAM3: Differenzial- und Integralrechnung im R n. 1 Begriffe. 2 Norm, Konvergenz und Stetigkeit. x 1. x 2. f : x n. aus Platzgründen schreibt man:
AM3: Differenzial- und Integralrechnung im R n 1 Begriffe f : x 1 f 1 x 1, x 2,..., x n ) x 2... f 2 x 1, x 2,..., x n )... x n f m x 1, x 2,..., x n ) }{{}}{{} R n R m aus Platzgründen schreibt man: f
MehrAlgorithmen und Datenstrukturen (für ET/IT)
Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 2017 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München Programm heute 7 Fortgeschrittene Datenstrukturen 8
MehrName: Matr.-Nr.: 2. Aufgabe 1. Gegeben sei die Matrix
Name: Matr.-Nr.: 2 Aufgabe 1. Gegeben sei die Matrix 1 1 1 A = 3 3 3 2 2 2 (a) Bestimmen Sie Rang(A), Kern(A) und Bild(A). Ist A invertierbar? Geben Sie zwei verschiedene rechte Seiten b 1, b 2 an, so
MehrNichtlineare Gleichungssysteme
Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung
MehrKünstliche Neuronale Netze
Inhalt (Biologische) Neuronale Netze Schwellenwertelemente Allgemein Neuronale Netze Mehrschichtiges Perzeptron Weitere Arten Neuronaler Netze 2 Neuronale Netze Bestehend aus vielen Neuronen(menschliches
Mehr9 Höhere partielle Ableitungen und die Taylorformel
Vorlesung SS 29 Analsis 2 Prof Dr Siegfried Echterhoff 9 Höhere partielle Ableitungen und die Talorformel Definition 91 Sei U R n offen, f : U R m eine Funktion Dann heißt f 2-mal partiell differenzierbar,
MehrGrundlagen: Algorithmen und Datenstrukturen
Grundlagen: Algorithmen und Datenstrukturen Sommersemester 2018 Tobias Lasser Computer Aided Medical Procedures Technische Universität München Multiplikation langer Zahlen Schulmethode: gegeben Zahlen
MehrOptimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren
MehrParallelisierbarkeit. - Was soll parallelisierbar überhaupt bedeuten? 2 / 38
Parallelität 1 / 38 Parallelisierbarkeit - Welche Probleme in P sind parallelisierbar? Gibt es vom Standpunkt der Parallelisierbarkeit schwierigste Probleme in P? Gibt es dazu einen Reduktionsbegriff?
MehrKapitel 9: Lineare Programmierung Gliederung
Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen
MehrComputational Learning Theory. Sommersemester 2018
Computational Learning Theory Sommersemester 2018 Prof. Dr. Georg Schnitger AG Theoretische Informatik Goethe-Universität Frankfurt am Main 1 / 163 Computational Learning Theory Sommersemester 2018 Prof.
MehrTheoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme
Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien
Mehrx x y x y Informatik II Schaltkreise Schaltkreise Schaltkreise Rainer Schrader 3. November 2008
Informatik II Rainer Schrader Zentrum für Angewandte Informatik Köln 3. November 008 1 / 47 / 47 jede Boolesche Funktion lässt mit,, realisieren wir wollen wir uns jetzt in Richtung Elektrotechnik und
Mehr7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012)
Technische Universität München Zentrum Mathematik, M1 Prof. Dr. Boris Vexler Dr. Ira Neitzel Dipl.-Math. Alana Kirchner 7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012) Diese Auswahl
MehrKlassische Polynom Interpolation.
Klassische Polynom Interpolation. Bestimme ein Polynom (höchstens) n ten Grades p n (x) = a 0 + a 1 x + a 2 x 2 +... + a n x n, das die gegebenen Daten interpoliert, d.h. p n (x i ) = f i, 0 i n. Erster
MehrNEXTLEVEL im WiSe 2011/12
Fachbereich Mathematik der Universität Hamburg Dr. H. P. Kiani NEXTLEVEL im WiSe 2011/12 Vorlesung 5, Teil 2 Linearisierung, einige Eigenschaften differenzierbarer Funktionen Die ins Netz gestellten Kopien
Mehr3 Optimierung mehrdimensionaler Funktionen f : R n R
3 Optimierung mehrdimensionaler Funktionen f : R n R 31 Optimierung ohne Nebenbedingungen Optimierung heißt eigentlich: Wir suchen ein x R n so, dass f(x ) f(x) für alle x R n (dann heißt x globales Minimum)
MehrMaschinelles Lernen: Neuronale Netze. Ideen der Informatik
Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale
MehrMathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018
(Analysis und lineare Algebra) im Sommersemester 2018 5. April 2018 Zu der Vorlesung wird ein Skript erstellt, welches auf meiner Homepage veröffentlicht wird: http://www.math.uni-hamburg.de/home/geschke/lehre.html
MehrAnwendungen der Differentialrechnung
KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle
MehrNachklausur Analysis 2
Nachklausur Analysis 2. a) Wie ist der Grenzwert einer Folge in einem metrischen Raum definiert? Antwort: Se (a n ) n N eine Folge in dem metrischen Raum (M, d). Diese Folge besitzt den Grenzwert g M,
Mehr9 Optimierung mehrdimensionaler reeller Funktionen f : R n R
9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 91 Optimierung ohne Nebenbedingungen Ein Optimum zu suchen heißt, den größten oder den kleinsten Wert zu suchen Wir suchen also ein x R n, sodass
MehrDie Komplexitätsklassen P und NP
Die Komplexitätsklassen P und NP Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen November 2011 Berthold Vöcking, Informatik 1 () Vorlesung Berechenbarkeit und
MehrMathematik zum Mitnehmen
Mathematik zum Mitnehmen Zusammenfassungen und Übersichten aus Arens et al., Mathematik Bearbeitet von Tilo Arens, Frank Hettlich, Christian Karpfinger, Ulrich Kockelkorn, Klaus Lichtenegger, Hellmuth
MehrNeuronale Netze. Anna Wallner. 15. Mai 2007
5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente
MehrStreaming Data: Das Modell
Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer
MehrT n (1) = 1 T n (cos π n )= 1. deg T n q n 1.
KAPITEL 3. INTERPOLATION UND APPROXIMATION 47 Beweis: Wir nehmen an qx) für alle x [, ] und führen diese Annahme zu einem Widerspruch. Es gilt nach Folgerung ii) T n ) T n cos π n ). Wir betrachten die
MehrEigenwerte und Eigenvektoren
Eigenwerte und Eigenvektoren Siehe Analysis (von der Hude, Folie 20: Definition 2.3. Ein Vektor x R n heißt Eigenvektor der quadratischen n n-matrix A zum Eigenwert λ R, wenn gilt Ax = λx Die Eigenwerte
Mehr1 Körper. Wir definieren nun, was wir unter einem Körper verstehen, und sehen dann, dass es noch andere, ganz kleine Körper gibt:
1 Körper Sie kennen bereits 2 Beispiele von Zahlkörpern: (Q, +, ) (R, +, ) die rationalen Zahlen mit ihrer Addition und Multiplikation die reellen Zahlen mit ihrer Addition und Multiplikation Vielleicht
MehrLösungshinweise zur Klausur
Höhere Mathematik 1 und 4..14 Lösungshinweise zur Klausur für Studierende der Fachrichtungen el, kyb,mecha,phys Aufgabe 1 Entscheiden Sie, welche der folgenden Aussagen richtig und welche falsch sind.
Mehr10 Ableitungen höherer Ordnung
Mathematik für Ingenieure II, SS 9 Freitag 47 $Id: ntaylortex,v 3 9/7/4 8:6:56 hk Exp $ Ableitungen höherer Ordnung Partielle Ableitungen beliebiger Ordnung Nachdem wir das letzte Mal einige Beispiele
MehrDas Gradientenverfahren
Das Gradientenverfahren - Proseminar: Algorithmen der Nichtlinearen Optimierung - David Beisel December 10, 2012 David Beisel Das Gradientenverfahren December 10, 2012 1 / 28 Gliederung 0 Einführung 1
MehrÜbung zur Vorlesung Berechenbarkeit und Komplexität
RWTH Aachen Lehrgebiet Theoretische Informatik Reidl Ries Rossmanith Sanchez Tönnis WS 2012/13 Übungsblatt 7 26.11.2012 Übung zur Vorlesung Berechenbarkeit und Komplexität Aufgabe T15 Entwickeln Sie ein
MehrWirtschaftsmathematik Formelsammlung
Wirtschaftsmathematik Formelsammlung Binomische Formeln Stand März 2019 (a + b) 2 = a 2 + 2ab + b 2 (a b) 2 = a 2 2ab + b 2 (a + b) (a b) = a 2 b 2 Fakultät (Faktorielle) n! = 1 2 3 4 (n 1) n Intervalle
Mehr3 Lineare Gleichungssysteme
Lineare Gleichungssysteme Wir wissen bereits, dass ein lineares Gleichungssystem genau dann eindeutig lösbar ist, wenn die zugehörige Matrix regulär ist. In diesem Kapitel lernen wir unterschiedliche Verfahren
MehrAnalysis II 14. Übungsblatt
Jun.-Prof. PD Dr. D. Mugnolo Wintersemester 01/13 F. Stoffers 04. Februar 013 Analysis II 14. Übungsblatt 1. Aufgabe (8 Punkte Man beweise: Die Gleichung z 3 + z + xy = 1 besitzt für jedes (x, y R genau
MehrPerzeptronen. Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004
Perzeptronen Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004 1/25 Gliederung Vorbilder Neuron McCulloch-Pitts-Netze Perzeptron
MehrPrüfungsfragen zur Vorlesung Algebra und Diskrete Mathematik. Sommersemester 2018
Prüfungsfragen zur Vorlesung Algebra und Diskrete Mathematik Sommersemester 2018 Erläutern Sie die Sätze über die Division mit Rest für ganze Zahlen und für Polynome (mit Koeffizienten in einem Körper).
MehrKlausur Numerische Mathematik (für Elektrotechniker), 24. Februar 2016
Verständnisfragen-Teil ( Punkte) Jeder der Verständnisfragenblöcke besteht aus Verständnisfragen. Werden alle Fragen in einem Verständnisfragenblock richtig beantwortet, so gibt es für diesen Block Punkte.
MehrPseudo-Zufallsgeneratoren basierend auf dem DLP
Seminar Codes und Kryptografie SS 2004 Struktur des Vortrags Struktur des Vortrags Ziel Motivation 1 Einleitung Ziel Motivation 2 Grundlegende Definitionen Zufallsgeneratoren 3 Generator Sicherheit 4 Generator
MehrKAPITEL 10 DIE INNERE-PUNKTE-METHODE
KAPITEL DIE INNERE-PUNKTE-METHODE F. VALLENTIN, A. GUNDERT Vorteile: + Löst effizient lineare Programme (in Theorie und Praxis) + erweiterbar (zu einer größeren Klasse von Optimierungsproblemen) + einfach
MehrDatenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität
Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte
MehrD-MAVT/D-MATL Analysis I HS 2017 Dr. Andreas Steiger. Lösung - Serie 6. (n+1)!. Daraus folgt, dass e 1/x < (n+
D-MAVT/D-MATL Analysis I HS 2017 Dr. Andreas Steiger Lösung - Serie 6 1. MC-Aufgaben (Online-Abgabe) 1. Für alle ganzen Zahlen n 1 gilt... (a) e 1/x = o(x n ) für x 0 + (b) e 1/x = o(x n ) für x 0 + (c)
MehrFür die Matrikelnummer M = Dann sind durch A =
Musterlösung zum. Blatt 9. Aufgabe: Gegeben seien m 3 + 2 m m 3 m 2 m 4 + m 7 m 3 A := m m 2 m 2 + 2 m 2 m 4 + m 5 und b := m 6 m 4 + a) Finden Sie eine Lösung x R 7 für die Gleichung Ax =. b) Finden Sie
MehrProf. Schneider Höhere Mathematik I/II Musterlösung A = x 1 = 6x 1 + x 3 x 2 = 2x 2 x 3 = x 1 + 6x 3
Aufgabe ( Punkte) a) Bestimmen Sie die Eigenwerte und Eigenvektoren der Matrix 6 A = 6 b) Bestimmen Sie die allgemeine Lösung des Differentialgleichungssystems x = 6x + x 3 x = x x 3 = x + 6x 3 c) Bestimmen
MehrMusterlösung zu Blatt 1
Musterlösung zu Blatt Analysis III für Lehramt Gymnasium Wintersemester 0/4 Überprüfe zunächst die notwendige Bedingung Dfx y z = 0 für die Existenz lokaler Extrema Mit x fx y z = 8x und y fx y z = + z
MehrTraining von RBF-Netzen. Rudolf Kruse Neuronale Netze 134
Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches
Mehr