Neuronale Netzwerke. Neuronale Netzwerke 1 / 147

Größe: px
Ab Seite anzeigen:

Download "Neuronale Netzwerke. Neuronale Netzwerke 1 / 147"

Transkript

1 Neuronale Netzwerke Neuronale Netzwerke 1 / 147

2 Feedfoward-Netzwerke (1/2) Die Architektur A = (V, E, f ) eines Feedforward-Netzwerks besteht aus ( ) einem azyklischen, gerichteten und geschichteten Graphen G = (V, E), wobei V in die Schichten V 0,..., V T unterteilt ist 1 mit V t = { (t, j) : 1 j V t }. 2 Alle Kanten (v, w) verlaufen von einem Knoten v V t zu einem Knoten w V t+1 in der darauffolgenden Nachbarschicht. V 0 besteht nur aus Quellen und V T nur aus Senken. ( ) einer Zuweisung f (v) = γ v von Aktivierungsfunktionen zu Knoten v V. γ v : R R ( ) Nicht gezeigt werden Kanten, die einen Knoten mit einer Eingabe versorgen. Diese Kanten sind ebenfalls gewichtet. Neuronale Netzwerke 2 / 147

3 Feedforward-Netzwerke (2/2) Ein Feedforward-Netzwerk N = (A, w) besteht aus (a) der Architektur A (b) sowie einer Zuweisung w : E R von Gewichten w(u, v) zu Kanten (u, v) E. Neuronale Netzwerke 3 / 147

4 Feedforward-Netzwerke (2/2) Ein Feedforward-Netzwerk N = (A, w) besteht aus (a) der Architektur A (b) sowie einer Zuweisung w : E R von Gewichten w(u, v) zu Kanten (u, v) E. Wir können implizite mit Schwellenwerten arbeiten: Verbinde eine neue Quelle u = (t, 0) mit allen Knoten v V t. Weise der Kante (u, v) den Schwellenwert von v zu. Neuronale Netzwerke 3 / 147

5 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. Neuronale Netzwerke 4 / 147

6 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := Neuronale Netzwerke 4 / 147

7 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend aus t,j (x) := k:e=((t 1,k),(t,j)) E Neuronale Netzwerke 4 / 147

8 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend k:e=((t 1,k),(t,j)) E ( ) aus t,j (x) := γ t,j summe t,j (x). Neuronale Netzwerke 4 / 147

9 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend k:e=((t 1,k),(t,j)) E ( ) aus t,j (x) := γ t,j summe t,j (x). 3. Das Feedforward-Netzwerk berechnet die Funktion h w A : R n R m mit h w A(x) := (aus T,1 (x),..., aus T,m (x)). Neuronale Netzwerke 4 / 147

10 Architekturen und ihre Hypothesenklasse Sei A eine Architektur mit n Quellen, m Senken. Die Hypothesenklasse H A von A besteht aus allen Funktionen ha w : R n R m für Gewichtsvektoren w R n. Eine Zielverteilung p ist zu lernen. Die typische Lernsituation: Neuronale Netzwerke 5 / 147

11 Architekturen und ihre Hypothesenklasse Sei A eine Architektur mit n Quellen, m Senken. Die Hypothesenklasse H A von A besteht aus allen Funktionen ha w : R n R m für Gewichtsvektoren w R n. Eine Zielverteilung p ist zu lernen. Die typische Lernsituation: 1 Eine Architektur A ist vorgegeben. Wissen über p ist in die Konstruktion von A eingeflossen. 2 Lerne Gewichte: Approximiere p möglichst gut mit einer Hypothese h H A. Neuronale Netzwerke 5 / 147

12 Rekurrente Netzwerke (RNNs) Die Architektur A r = (V, E, f ) eines rekurrenten Netzwerks (RNN) besteht aus ( ) einem gerichteten Graphen G = (V, E), der möglicherweise Kreise besitzt und ( ) einer Zuweisung f (v) = γ v von Aktivierungsfunktionen γ v zu Knoten v V. Ein rekurrentes neuronales Netzwerk (RNN) R = (A r, w) besteht aus (a) der Architektur A r und (b) einer Zuweisung w : E R von Gewichten zu Kanten. Neuronale Netzwerke 6 / 147

13 Aktivierungsfunktionen Neuronale Netzwerke Aktivierungsfunktionen 7 / 147

14 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Neuronale Netzwerke Aktivierungsfunktionen 8 / 147

15 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Weitere Modelle in der Computational Neuroscience: Spikende Neuronen, Feuerraten,... Neuronale Netzwerke Aktivierungsfunktionen 8 / 147

16 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Weitere Modelle in der Computational Neuroscience: Spikende Neuronen, Feuerraten,... (b) Das Standard-Sigmoid σ(x) := exp x oder der hyperbolische Tangens tanh(x) := exp2x 1 exp 2x +1 (= 2σ(2x) 1) sind diffbare Varianten der Thresholdfunktion. Neuronale Netzwerke Aktivierungsfunktionen 8 / 147

17 Aktivierungsfunktionen (2/3) (c) Das ReLU-Gatter (oder rectified linear unit ) r(x) := max{0, x} Goodfellow et al: Stückweise lineare Gatterfunktionen gehören zu den wichtigsten algorithmischen Neuerungen. (d) Die Softplus-Funktion s(x) := ln(1 + exp x ) kann als eine differenzierbare Variante des Rectifiers angesehen werden. (Beachte, dass s = σ.) Experimentell: Schlechter als ReLU-Gatter! Neuronale Netzwerke Aktivierungsfunktionen 9 / 147

18 Aktivierungsfunktionen (2/3) (c) Das ReLU-Gatter (oder rectified linear unit ) r(x) := max{0, x} Goodfellow et al: Stückweise lineare Gatterfunktionen gehören zu den wichtigsten algorithmischen Neuerungen. (d) Die Softplus-Funktion s(x) := ln(1 + exp x ) kann als eine differenzierbare Variante des Rectifiers angesehen werden. (Beachte, dass s = σ.) Experimentell: Schlechter als ReLU-Gatter! (e) Für c R und Vektoren x, W R m die Radialbasis-Funktion r c,w (x) := exp 1 c 2 W x 2. x ist der Vektor der Eingaben des Gatters. Neuronale Netzwerke Aktivierungsfunktionen 9 / 147

19 Aktivierungsfunktionen (3/3) (f) Wie die Radialbasisfunktion sind auch Softmax-Gatter γ i (x 1,..., x k ) := exp x i k j=1 expx j keine konventionellen Aktivierungsfunktionen. Sie werden häufig als Ausgabegatter eingesetzt und produzieren eine Verteilung auf den k Eingabewerten des Gatters. γ i (x 1,..., x k ) Überzeugung hinter Option i. Neuronale Netzwerke Aktivierungsfunktionen 10 / 147

20 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

21 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

22 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

23 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und benötigt die Energie einer Glühbirne. Moderne Supercomputer verbrauchen mehrere Megawatt! Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

24 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und benötigt die Energie einer Glühbirne. Moderne Supercomputer verbrauchen mehrere Megawatt! Ein Muß: Löse algorithmische Probleme in wenigen Schritten! Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

25 Berechnungskraft Neuronale Netzwerke Berechnungskraft 12 / 147

26 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x Neuronale Netzwerke Berechnungskraft 13 / 147

27 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n Neuronale Netzwerke Berechnungskraft 13 / 147

28 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n n x i n 1 2 i=1 Neuronale Netzwerke Berechnungskraft 13 / 147

29 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n Zahl(x n 1,..., x 0 ) Zahl(y n 1,..., y 0 ) n x i n 1 2 i=1 n x i 1 2 i=1 Neuronale Netzwerke Berechnungskraft 13 / 147

30 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n Zahl(x n 1,..., x 0 ) Zahl(y n 1,..., y 0 ) n x i n 1 2 i=1 n x i 1 2 i=1 n 1 n 1 x i 2 i y i 2 i i=0 i=0 Und die Parität x 1 x n? Neuronale Netzwerke Berechnungskraft 13 / 147

31 Die Parität x 1 x n n x 1 x 2 x n Neuronale Netzwerke Berechnungskraft 14 / 147

32 Die Parität x 1 x n n x 1 x 2 x n n + 1 Knoten und Tiefe zwei genügen = {,, }-Schaltkreise der Tiefe t benötigen 2 Ω(n1/t ) Knoten. Neuronale Netzwerke Berechnungskraft 14 / 147

33 Neuronale Netzwerke und Turingmaschinen Die Funktion F : {0, 1} {0, 1} werde von einer Turingmaschine mit einem Lese-Schreib-Band in Zeit T (n) berechnet = Es gibt einen {,, }-Schaltkreis der Tiefe O(T (N)) und Größe O(T 2 ) für F. Neuronale Netzwerke Berechnungskraft 15 / 147

34 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. Neuronale Netzwerke Berechnungskraft 16 / 147

35 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). Neuronale Netzwerke Berechnungskraft 16 / 147

36 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = Neuronale Netzwerke Berechnungskraft 16 / 147

37 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). Neuronale Netzwerke Berechnungskraft 16 / 147

38 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Neuronale Netzwerke Berechnungskraft 16 / 147

39 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Neuronale Netzwerke Berechnungskraft 16 / 147

40 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Der Approximationsfehler ist höchstens 2r( x L )L2 γ (0) = Neuronale Netzwerke Berechnungskraft 16 / 147

41 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Der Approximationsfehler ist höchstens 2r( x L )L2 γ (0) = O( x 3 L ), denn r( x L ) = O( x 3 L 3 ). Neuronale Netzwerke Berechnungskraft 16 / 147

42 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. Neuronale Netzwerke Berechnungskraft 17 / 147

43 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147

44 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Neuronale Netzwerke Berechnungskraft 17 / 147

45 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Für jedes i und k teste, ob Rang(xi ) = k gilt. Dies gelingt in zwei Schichten und O(n 2 ) Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147

46 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Für jedes i und k teste, ob Rang(xi ) = k gilt. Dies gelingt in zwei Schichten und O(n 2 ) Knoten. (3) Berechnung des r-ten Bits des s-ten Ausgabeschlüssels durch n ) ((Rang(x i ) = s) x i,r. i=1 Dies gelingt in zwei Schichten mit O(n 3 )-vielen Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147

47 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? Neuronale Netzwerke Berechnungskraft 18 / 147

48 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. Neuronale Netzwerke Berechnungskraft 18 / 147

49 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Neuronale Netzwerke Berechnungskraft 18 / 147

50 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Neuronale Netzwerke Berechnungskraft 18 / 147

51 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Es ist n i=1 x i mod p l Neuronale Netzwerke Berechnungskraft 18 / 147

52 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Es ist n i=1 x i n i=1 mod p l g q i,l l mod p l. Neuronale Netzwerke Berechnungskraft 18 / 147

53 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. Neuronale Netzwerke Berechnungskraft 19 / 147

54 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse Neuronale Netzwerke Berechnungskraft 19 / 147

55 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, wie auch das multiplikative Inverse Neuronale Netzwerke Berechnungskraft 19 / 147

56 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j Neuronale Netzwerke Berechnungskraft 19 / 147

57 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l Neuronale Netzwerke Berechnungskraft 19 / 147

58 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l r l mod p l. Neuronale Netzwerke Berechnungskraft 19 / 147

59 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l r l mod p l. Die Rekonstruktion des Produkts aus den Resten ist auf eine Addition polynomiell vieler Zahlen zurückgeführt. Neuronale Netzwerke Berechnungskraft 19 / 147

60 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. Neuronale Netzwerke Berechnungskraft 20 / 147

61 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. Neuronale Netzwerke Berechnungskraft 20 / 147

62 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. Neuronale Netzwerke Berechnungskraft 20 / 147

63 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. (3) Ob Rectifier, Softplus, Standard Sigmoid oder Threshold-Funktion: Berechnungskraft ist unverändert. Neuronale Netzwerke Berechnungskraft 20 / 147

64 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. (3) Ob Rectifier, Softplus, Standard Sigmoid oder Threshold-Funktion: Berechnungskraft ist unverändert. TC 0 = alle Sprachen, die in konstanter Tiefe und polynomieller Größe mit einem Threshold-Schaltkreis berechenbar sind. Neuronale Netzwerke Berechnungskraft 20 / 147

65 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? Neuronale Netzwerke Berechnungskraft 21 / 147

66 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. Neuronale Netzwerke Berechnungskraft 21 / 147

67 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Neuronale Netzwerke Berechnungskraft 21 / 147

68 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Jetzt simuliere ein Threshold-Gatter durch einen {,, }-Schaltkreis in logarithmischer Tiefe. Neuronale Netzwerke Berechnungskraft 21 / 147

69 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Jetzt simuliere ein Threshold-Gatter durch einen {,, }-Schaltkreis in logarithmischer Tiefe. In NC 1 kann man (wahrscheinlich) nicht feststellen, ob ein gerichteter Graph einen Weg zwischen zwei festgelegten Knoten besitzt. Neuronale Netzwerke Berechnungskraft 21 / 147

70 Beispielkomplexität Neuronale Netzwerke Beispielkomplexität 22 / 147

71 Dürfen wir bei fehlerfreiem Training jubeln? Neuronale Netzwerke Beispielkomplexität 23 / 147

72 Dürfen wir bei fehlerfreiem Training jubeln? Zumindest wenn die Gatterzahl mit S skaliert, besteht selbst bei beliebigen reellwertigen Klassifikationen kein Anlass zum Jubel. Sei S R d eine Menge von n Beispielen und sei f : S R eine beliebige Funktion. Dann gibt es Gewichte a R d, w, b R n, so dass f (x) = n w j max{ a, x b j, 0 } j=1 für alle x S gilt. Neuronale Netzwerke Beispielkomplexität 23 / 147

73 Dürfen wir bei fehlerfreiem Training jubeln? Zumindest wenn die Gatterzahl mit S skaliert, besteht selbst bei beliebigen reellwertigen Klassifikationen kein Anlass zum Jubel. Sei S R d eine Menge von n Beispielen und sei f : S R eine beliebige Funktion. Dann gibt es Gewichte a R d, w, b R n, so dass f (x) = n w j max{ a, x b j, 0 } j=1 für alle x S gilt. Ein neuronales Netz aus ReLU-Gattern mit nur 2n + d Gewichten genügt. Neuronale Netzwerke Beispielkomplexität 23 / 147

74 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Neuronale Netzwerke Beispielkomplexität 24 / 147

75 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n Neuronale Netzwerke Beispielkomplexität 24 / 147

76 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = Neuronale Netzwerke Beispielkomplexität 24 / 147

77 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = ( f (x 1 ),..., f (x n ) ). Neuronale Netzwerke Beispielkomplexität 24 / 147

78 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = ( f (x 1 ),..., f (x n ) ). A ist eine obere Dreiecksmatrix Neuronale Netzwerke Beispielkomplexität 24 / 147

79 Beispielkomplexität Wieviele Beispiele müssen angefordert werden, wenn eine Architektur A aus Threshold-Gattern vorgegeben ist? 1 Für eine Klasse F von Funktionen h : X Y definiere Π F (S) := { f S : f F } als die Menge der auf S eingeschränkten Funktionen aus F. 2 Die Definition der Wachstumsfunktion Π F (m) ist wie üblich, d.h. Π F (m) := max{ Π F (S) : S = m }. Neuronale Netzwerke Beispielkomplexität 25 / 147

80 Beispielkomplexität Wieviele Beispiele müssen angefordert werden, wenn eine Architektur A aus Threshold-Gattern vorgegeben ist? 1 Für eine Klasse F von Funktionen h : X Y definiere Π F (S) := { f S : f F } als die Menge der auf S eingeschränkten Funktionen aus F. 2 Die Definition der Wachstumsfunktion Π F (m) ist wie üblich, d.h. Π F (m) := max{ Π F (S) : S = m }. Wie verhält sich die Wachstumsfunktion Π F (m) bei kartesischen Produkten bzw. bei der Komposition von Funktionen? Neuronale Netzwerke Beispielkomplexität 25 / 147

81 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Neuronale Netzwerke Beispielkomplexität 26 / 147

82 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). (b) Für Mengen F 1, F 2 von Funktionen h 1 : X 1 X 2 bzw h 2 : X 2 X 3 ist F 1 F 2 := { h : h(x) = f 2 (f 1 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Neuronale Netzwerke Beispielkomplexität 26 / 147

83 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). (b) Für Mengen F 1, F 2 von Funktionen h 1 : X 1 X 2 bzw h 2 : X 2 X 3 ist F 1 F 2 := { h : h(x) = f 2 (f 1 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). Neuronale Netzwerke Beispielkomplexität 26 / 147

84 Die VC-Dimension einer Architektur (1/3) Sei A = (V, E, f ) eine Architektur aus Thresholdgattern = VC(H A ) = O( E log 2 E ). 1. Für einen Knoten v V sei H v die Menge aller Funktionen h : R ingrad(v) R, die von v (als einem Knoten der Tiefe Eins) berechnet werden. 2. Die VC-Dimension von H v stimmt überein mit Neuronale Netzwerke Beispielkomplexität 27 / 147

85 Die VC-Dimension einer Architektur (1/3) Sei A = (V, E, f ) eine Architektur aus Thresholdgattern = VC(H A ) = O( E log 2 E ). 1. Für einen Knoten v V sei H v die Menge aller Funktionen h : R ingrad(v) R, die von v (als einem Knoten der Tiefe Eins) berechnet werden. 2. Die VC-Dimension von H v stimmt überein mit ingrad(v). 3. Mit Sauers Lemma folgt Π Hv (m) (e m) ingrad(v) Wie verhält sich die Wachstumsfunktion, wenn der Schaltkreis rechnet? Neuronale Netzwerke Beispielkomplexität 27 / 147

86 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = Neuronale Netzwerke Beispielkomplexität 28 / 147

87 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 Neuronale Netzwerke Beispielkomplexität 28 / 147

88 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt H A = Neuronale Netzwerke Beispielkomplexität 28 / 147

89 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} V i+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt und damit H A = H T H 1. H A (m) Neuronale Netzwerke Beispielkomplexität 28 / 147

90 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt H A = H T H 1. und damit H A (m) (m) (m) (e m) E. H T H 1 Neuronale Netzwerke Beispielkomplexität 28 / 147

91 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) Neuronale Netzwerke Beispielkomplexität 29 / 147

92 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) (e d) E und deshalb d = Neuronale Netzwerke Beispielkomplexität 29 / 147

93 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) (e d) E und deshalb d = O(( E ) ln(d)) 7. Wird die Threshold-Funktion durch das Standard Sigmoid ersetzt: Die VC-Dimension steigt an auf Ω( E 2 ). Aber, Gewichte sind nur mit beschränkter Präzision B darstellbar: Höchstens B E verschiedene Hypothesen = die praktische VC-Dimension ist höchstens O( E ). Neuronale Netzwerke Beispielkomplexität 29 / 147

94 Und wenn es zu wenige Beispiele gibt? Erzeuge künstliche Beispiele Data Augmentation bzw. erschwere Auswendiglernen durch Hardware oder durch Software. 1 Hardware-Methoden: Wende Dimensionsreduktion an, um zum Beispiel eine große Schicht von Knoten auf eine kleine Schicht zu komprimieren. 2 Software-Methoden: Wende Dropout-Verfahren an, die in jedem Schritt einen konstanten Bruchteil aller Knoten zufällig auswählen und ausschalten. Wie auch immer: Eine größtmögliche Anzahl qualitativ hochwertiger Beispiele ist entscheidend. Neuronale Netzwerke Beispielkomplexität 30 / 147

95 Lernen mit Gradientenabstieg Algorithmische Komplexität Gradientenabstieg 31 / 147

96 Lernen = Minimierung einer Loss-Funktion Sei H A die Hypothesenklasse einer Architektur A und S = { (x 1, y 1 ),..., (x s, y s ) } eine Menge klassifizierter Beispiele. Sei l eine Loss-Funktion. Wir suchen eine ERM-Hypothese h w A H A mit kleinstem Trainingsfehler Loss S (h w A) = min u R n LossS (h u A ) 1 = min u R n s s l(u, x i, y i ). i=1 } {{ } =:f (u) Algorithmische Komplexität Gradientenabstieg 32 / 147

97 Lernen = Minimierung einer Loss-Funktion Sei H A die Hypothesenklasse einer Architektur A und S = { (x 1, y 1 ),..., (x s, y s ) } eine Menge klassifizierter Beispiele. Sei l eine Loss-Funktion. Wir suchen eine ERM-Hypothese h w A H A mit kleinstem Trainingsfehler Loss S (h w A) = min u R n LossS (h u A ) 1 = min u R n s s l(u, x i, y i ). i=1 } {{ } =:f (u) Ein erfolgreicher Lerner versucht die Funktion f : R N R zu minimieren: Ein Minimierungsproblem ohne Restriktionen. Algorithmische Komplexität Gradientenabstieg 32 / 147

98 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Algorithmische Komplexität Gradientenabstieg 33 / 147

99 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Approximiere f durch sein lineares Taylor-Polynom im Punkt a: f (a + z) = f (a) + f (a) T z + O(z T z) gilt, falls z genügend klein ist. Algorithmische Komplexität Gradientenabstieg 33 / 147

100 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Approximiere f durch sein lineares Taylor-Polynom im Punkt a: f (a + z) = f (a) + f (a) T z + O(z T z) gilt, falls z genügend klein ist. Setze z = η f (a) für hinreichend kleines η > 0: f (a η f (a)) = f (a) η f (a) 2 + η 2 O( f (a) 2 ). Algorithmische Komplexität Gradientenabstieg 33 / 147

101 Die Methode des Gradientenabstiegs Sei f : R n R eine zweimal im Punkt a R n stetig differenzierbare Funktion mit f (a) 0. Dann gilt für hinreichend kleine η > 0 f (a η f (a)) < f (a), wobei f (a) der Gradient von f an der Stelle a ist. Algorithmische Komplexität Gradientenabstieg 34 / 147

102 Die Methode des Gradientenabstiegs Sei f : R n R eine zweimal im Punkt a R n stetig differenzierbare Funktion mit f (a) 0. Dann gilt für hinreichend kleine η > 0 f (a η f (a)) < f (a), wobei f (a) der Gradient von f an der Stelle a ist. Die Methode des Gradientenabstiegs verfolgt die Iteration w (i+1) = w (i) η f (w (i) ). 1. Die Lernrate η muss in jedem Schritt neu bestimmt werden, da sonst die Gefahr droht, über das Ziel hinaus zu schießen. 2. Aber selbst wenn die Schrittweite stets hinreichend klein ist, dann konvergiert lim n N w (n) mgl. gegen ein lokales Minimum. Algorithmische Komplexität Gradientenabstieg 34 / 147

103 Gradientenabstieg: Die Fragen (a) Sollten die Gewichte für alle Beispiele auf einmal oder nacheinander für jedes einzelne Beispiel aktualisiert werden? (b) Wie ist die Lernrate zu wählen? (c) Vermeide ein wildes Gehüpfe : Sollten auch frühere Richtungen in der Wahl der neuen Richtung eine Rolle spielen? Um diese Fragen zu beantworten, untersuche den Gradientenabstieg an einem einfachen, aber nicht-trivialem Minimierungsproblem, der Minimierung konvexer Funktionen. Algorithmische Komplexität Gradientenabstieg 35 / 147

104 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Algorithmische Komplexität Gradientenabstieg 36 / 147

105 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Wenn a, b K lokale Minima von f sind, dann gilt f (a) = f (b), und alle Punkte auf der Geraden von a nach b sind globale Minima. Algorithmische Komplexität Gradientenabstieg 36 / 147

106 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Wenn a, b K lokale Minima von f sind, dann gilt f (a) = f (b), und alle Punkte auf der Geraden von a nach b sind globale Minima. Wenn f differenzierbar ist, dann gilt: ( ) f ist konvex f (x) f (a) + f (a) T (x a) für alle Punkte a, x K. /* Die Funktion liegt stets oberhalb einer Tangente. */ ( ) Jeder Punkt a K mit f (a) = 0 ist ein globales Minimum. /* Suche einen Punkt mit verschwindender Gradiente. */ Algorithmische Komplexität Gradientenabstieg 36 / 147

107 Komplexitätsparameter konvexer Funktionen (1/2) Die Funktion f : K R heißt genau dann stark konvex (mit Parameter mindestens m > 0), wenn für alle a, x K gilt f (x) f (a) + f (a) T (x a) + m 2 x a 2. (m ist die Krümmung der quadratischen Funktion f (x) = f (a) + f (a) T (x a) + m 2 x a 2. Algorithmische Komplexität Gradientenabstieg 37 / 147

108 Komplexitätsparameter konvexer Funktionen (1/2) Die Funktion f : K R heißt genau dann stark konvex (mit Parameter mindestens m > 0), wenn für alle a, x K gilt f (x) f (a) + f (a) T (x a) + m 2 x a 2. (m ist die Krümmung der quadratischen Funktion ) f (x) = f (a) + f (a) T (x a) + m 2 x a 2. Die Funktion f sei zweifach stetig differenzierbar. (a) f ist konvex die Hesse-Matrix 2 f (a) ist in jedem Punkt a positiv semi-definit, d.h. es gilt u T 2 f (a) u 0 für alle u K. (b) f ist stark konvex 2 f (a) ist in jedem Punkt a 0 positiv definit und es gilt u T 2 f (a) u m u 2 für alle u K. Algorithmische Komplexität Gradientenabstieg 37 / 147

109 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y Algorithmische Komplexität Gradientenabstieg 38 / 147

110 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. Algorithmische Komplexität Gradientenabstieg 38 / 147

111 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. (b) Definiere ψ(x) := x η f (x) als den auf x im Gradientenabstieg folgenden Punkt. Wir zeigen, dass ψ mit Kontraktionsfaktor β L m L+m kontrahierend ist, d.h. es gilt ψ(x) ψ(z) β x z. Algorithmische Komplexität Gradientenabstieg 38 / 147

112 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. (b) Definiere ψ(x) := x η f (x) als den auf x im Gradientenabstieg folgenden Punkt. Wir zeigen, dass ψ mit Kontraktionsfaktor β L m L+m kontrahierend ist, d.h. es gilt ψ(x) ψ(z) β x z. Wenn m nicht viel kleiner als L ist (d.h. f ist fast-quadratisch), dann ist β klein und ψ ist stark kontrahierend. Algorithmische Komplexität Gradientenabstieg 38 / 147

113 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) Algorithmische Komplexität Gradientenabstieg 39 / 147

114 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) ( ) = (x y) η f (y + γ (x y)) (x y) dγ Algorithmische Komplexität Gradientenabstieg 39 / 147

115 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) ( ) = (x y) η ( = E η f (y + γ (x y)) (x y) dγ 2 f (y + γ (x y)) dγ } 0 {{ } =:A ) (x y). Denn: f (x + γ(y x)) ist Stammfunktion von 2 f (x + γ (y x)) (y x). Algorithmische Komplexität Gradientenabstieg 39 / 147

116 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. Algorithmische Komplexität Gradientenabstieg 40 / 147

117 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. (b) f ist L-glatt und deshalb ( gilt u T 2 f (a) ) u L u. Als Konsequenz folgt u T E η 2 f (a) u (1 ηl) u 2 für alle u (= m L.) Zusammenfassung: Für a = y + γ(x y) gilt für alle u Algorithmische Komplexität Gradientenabstieg 40 / 147

118 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. (b) f ist L-glatt und deshalb ( gilt u T 2 f (a) ) u L u. Als Konsequenz folgt u T E η 2 f (a) u (1 ηl) u 2 für alle u (= m L.) Zusammenfassung: Für a = y + γ(x y) gilt für alle u ( ) (1 η L) u 2 u T }{{} λ min (A) E η 2 f (a) }{{} =A u (1 η m) u 2. }{{} λ max(a) Algorithmische Komplexität Gradientenabstieg 40 / 147

119 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. Algorithmische Komplexität Gradientenabstieg 41 / 147

120 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) Algorithmische Komplexität Gradientenabstieg 41 / 147

121 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) max{ 1 η L, 1 η m } x y. Algorithmische Komplexität Gradientenabstieg 41 / 147

122 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) max{ 1 η L, 1 η m } x y. Für β := L m 2 L+m und η := L+m gilt β = 1 η L 1 η m = β. Also ist ψ(x) ψ(y) β x y. Algorithmische Komplexität Gradientenabstieg 41 / 147

123 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Algorithmische Komplexität Gradientenabstieg 42 / 147

124 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) Algorithmische Komplexität Gradientenabstieg 42 / 147

125 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) Algorithmische Komplexität Gradientenabstieg 42 / 147

126 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) β x (k 1) x Algorithmische Komplexität Gradientenabstieg 42 / 147

127 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) β x (k 1) x β k x (0) x. Algorithmische Komplexität Gradientenabstieg 42 / 147

Feedforward-Netzwerke: Die Architektur. Neuronale Netzwerke 1 / 57

Feedforward-Netzwerke: Die Architektur. Neuronale Netzwerke 1 / 57 Feedforward-Netzwerke: Die Architektur Neuronale Netzwerke 1 / 57 Eine Architektur A = (V,E,f ) besteht aus - einem azyklischen, gerichteten und geschichteten Graphen G = (V,E), wobei V in die Schichten

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning (II) Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 25.07.2017 1 von 14 Überblick Faltungsnetze Dropout Autoencoder Generative Adversarial

Mehr

Von schwachen zu starken Lernern

Von schwachen zu starken Lernern Von schwachen zu starken Lernern Wir nehmen an, dass ein schwacher Lernalgorithmus L mit vielen Beispielen, aber großem Fehler ε = 1 2 θ gegeben ist. - Wie lässt sich der Verallgemeinerungsfehler ε von

Mehr

Neural Networks: Architectures and Applications for NLP

Neural Networks: Architectures and Applications for NLP Neural Networks: Architectures and Applications for NLP Session 02 Julia Kreutzer 8. November 2016 Institut für Computerlinguistik, Heidelberg 1 Overview 1. Recap 2. Backpropagation 3. Ausblick 2 Recap

Mehr

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg

Perzeptronen. Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg Perzeptronen Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Perzeptronen 1 / 22 Gliederung 1 Schwellwert-Logik (MCCULLOCH-PITTS-Neuron)

Mehr

Wissensentdeckung in Datenbanken

Wissensentdeckung in Datenbanken Wissensentdeckung in Datenbanken Deep Learning Nico Piatkowski und Uwe Ligges Informatik Künstliche Intelligenz 20.07.2017 1 von 11 Überblick Künstliche Neuronale Netze Motivation Formales Modell Aktivierungsfunktionen

Mehr

Klausur zu Analysis II - Lösungen

Klausur zu Analysis II - Lösungen Mathematisches Institut der Heinrich-Heine-Universität Düsseldorf Dr. Axel Grünrock WS 1/11 11..11 Klausur zu Analysis II - Lösungen 1. Entscheiden Sie, ob die folgenden Aussagen richtig oder falsch sind.

Mehr

Lösungsskizzen zu den Klausuraufgaben zum Kurs 1142 Algorithmische Mathematik. a 0 = 0 =

Lösungsskizzen zu den Klausuraufgaben zum Kurs 1142 Algorithmische Mathematik. a 0 = 0 = Lösungsskizzen zu den Klausuraufgaben zum Kurs 4 Algorithmische Mathematik 4KSL3 6 Punkte Aufgabe. Die Folge (a n ) n N natürlicher Zahlen a n sei rekursiv definiert durch a 0 = 0, a n = a n + n falls

Mehr

(a), für i = 1,..., n.

(a), für i = 1,..., n. .4 Extremwerte Definition Sei M R n eine Teilmenge, f : M R stetig, a M ein Punkt. f hat in a auf M ein relatives (oder lokales) Maximum bzw. ein relatives (oder lokales) Minimum, wenn es eine offene Umgebung

Mehr

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h.

Konvexe Menge. Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, d.h. Konvexe Menge Eine Menge D R n heißt konvex, wenn für zwei beliebige Punkte x, y D auch die Verbindungsstrecke dieser Punkte in D liegt, dh Kapitel Extrema konvex: h x + h y D für alle h [0, ], und x,

Mehr

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt

Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik. 8. Aufgabenblatt Technische Universität Berlin Fakultät IV Elektrotechnik und Informatik Künstliche Intelligenz: Grundlagen und Anwendungen Albayrak, Fricke (AOT) Oer, Thiel (KI) Wintersemester 2014 / 2015 8. Aufgabenblatt

Mehr

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14) Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 3/) Kapitel : Optimierung ohne Nebenbedingungen Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom. Oktober 3) Gliederung

Mehr

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14)

Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 2013/14) Vorlesung Einführung in die Mathematische Optimierung (Wintersemester 3/4) Kapitel : Optimierung ohne Nebenbedingungen Volker Kaibel Otto-von-Guericke Universität Magdeburg (Version vom. Oktober 3) Gliederung

Mehr

Fortgeschrittene Netzwerk- und Graph-Algorithmen

Fortgeschrittene Netzwerk- und Graph-Algorithmen Fortgeschrittene Netzwerk- und Graph-Algorithmen Prof. Dr. Hanjo Täubig Lehrstuhl für Effiziente Algorithmen (Prof. Dr. Ernst W. Mayr) Institut für Informatik Technische Universität München Wintersemester

Mehr

1 0, x C X (A). = 1 χ A(x).

1 0, x C X (A). = 1 χ A(x). Aufgabe 1 a) Wir müssen nur zeigen, dass χ A B (x) = χ A (x) χ B (x) für alle x X gilt. (Dass χ A χ B Abbildung von X in {0, 1} ist, ist klar.) Sei also x X beliebig. Fall 1: x A B. Dies bedeutet x A und

Mehr

MATHEMATIK 2 FÜR DIE STUDIENGÄNGE CHE- MIE UND LEBENSMITTELCHEMIE

MATHEMATIK 2 FÜR DIE STUDIENGÄNGE CHE- MIE UND LEBENSMITTELCHEMIE Mathematik und Naturwissenschaften Fachrichtung Mathematik, Institut für Numerische Mathematik MATHEMATIK 2 FÜR DIE STUDIENGÄNGE CHE- MIE UND LEBENSMITTELCHEMIE Differentialrechnung für Funktionen mehrerer

Mehr

55 Lokale Extrema unter Nebenbedingungen

55 Lokale Extrema unter Nebenbedingungen 55 Lokale Extrema unter Nebenbedingungen Sei f : O R mit O R n differenzierbar. Notwendige Bescheinigung für ein lokales Extremum in p 0 ist dann die Bedingung f = 0 (siehe 52.4 und 49.14). Ist nun F :

Mehr

2. Hausübung Algorithmen und Datenstrukturen

2. Hausübung Algorithmen und Datenstrukturen Prof. Dr. Gerd Stumme, Folke Eisterlehner, Dominik Benz Fachgebiet Wissensverarbeitung 7.4.009. Hausübung Algorithmen und Datenstrukturen Sommersemester 009 Abgabetermin: Montag, 04.05.009, 10:00 Uhr 1

Mehr

Übungsaufgaben zu den mathematischen Grundlagen von KM

Übungsaufgaben zu den mathematischen Grundlagen von KM TUM, Institut für Informatik WS 2003/2004 Prof Dr Thomas Huckle Andreas Krahnke, MSc Dipl-Inf Markus Pögl Übungsaufgaben zu den mathematischen Grundlagen von KM 1 Bestimmen Sie die Darstellung von 1 4

Mehr

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS2/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

Teil 6. Differentialrechnung mehrerer Veränderlicher

Teil 6. Differentialrechnung mehrerer Veränderlicher Teil 6 Differentialrechnung mehrerer Veränderlicher 95 96 6.1 Topologie von Mengen Umgebung ε-umgebung eines Punktes x R n : B ε (x) = {y : y x < ε} Umgebung U von x: Menge, die eine ε-umgebung von x enthält

Mehr

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung

Operations Research. Konvexe Funktionen. konvexe Funktionen. konvexe Funktionen. Rainer Schrader. 4. Juni Gliederung Operations Research Rainer Schrader Konvexe Funktionen Zentrum für Angewandte Informatik Köln 4. Juni 2007 1 / 84 2 / 84 wir haben uns bereits mit linearen Optimierungsproblemen beschäftigt wir werden

Mehr

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12

Mustererkennung: Neuronale Netze. D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Mustererkennung: Neuronale Netze D. Schlesinger ()Mustererkennung: Neuronale Netze 1 / 12 Feed-Forward Netze y 1 y 2 y m...... x 1 x 2 x n Output Schicht i max... Zwischenschicht i... Zwischenschicht 1

Mehr

Algorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck. 10 Matching-Probleme

Algorithmik WS 07/ Vorlesung, Andreas Jakoby Universität zu Lübeck. 10 Matching-Probleme 10 Matching-Probleme 10.1 Definition von Matching-Probleme Definition 21 [2-dimensionales Matching] Sei G = (V, E) ein ungerichteter Graph und E E. E ist ein Matching, wenn für alle Kantenpaare e 1, e

Mehr

5 Numerische Mathematik

5 Numerische Mathematik 6 5 Numerische Mathematik Die Numerische Mathematik setzt sich aus mehreren Einzelmodulen zusammen Für alle Studierenden ist das Modul Numerische Mathematik I: Grundlagen verpflichtend In diesem Modul

Mehr

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema:

a 11 a 12 a 1(m 1) a 1m a n1 a n2 a n(m 1) a nm Matrizen Betrachten wir das nachfolgende Rechteckschema: Matrizen Betrachten wir das nachfolgende Rechteckschema: a 12 a 1(m 1 a 1m a n1 a n2 a n(m 1 a nm Ein solches Schema nennt man (n m-matrix, da es aus n Zeilen und m Spalten besteht Jeder einzelne Eintrag

Mehr

Seminar Gewöhnliche Differentialgleichungen

Seminar Gewöhnliche Differentialgleichungen Seminar Gewöhnliche Differentialgleichungen Dynamische Systeme I 1 Einleitung 1.1 Nichtlineare Systeme In den vorigen Vorträgen haben wir uns mit linearen Differentialgleichungen beschäftigt. Nun werden

Mehr

Optimierung. Optimierung. Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 4 Newton und Quasi Newton Verfahren (Teil II) 1 Newton Verfahren Taylor Approximation 1. Ordnung von Newton Verfahren! 0 Setze 0und berechne Löse lineares Gleichungssystem für : 2

Mehr

Das Trust-Region-Verfahren

Das Trust-Region-Verfahren Das Trust-Region-Verfahren Nadine Erath 13. Mai 2013... ist eine Methode der Nichtlinearen Optimierung Ziel ist es, das Minimum der Funktion f : R n R zu bestimmen. 1 Prinzip 1. Ersetzen f(x) durch ein

Mehr

Algorithmen und Datenstrukturen (für ET/IT)

Algorithmen und Datenstrukturen (für ET/IT) Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 2015 Dr. Tobias Lasser Computer Aided Medical Procedures Technische Universität München Programm heute 7 Fortgeschrittene Datenstrukturen 8 Such-Algorithmen

Mehr

9.2 Invertierbare Matrizen

9.2 Invertierbare Matrizen 34 9.2 Invertierbare Matrizen Die Division ist als Umkehroperation der Multiplikation definiert. Das heisst, für reelle Zahlen a 0 und b gilt b = a genau dann, wenn a b =. Übertragen wir dies von den reellen

Mehr

Nachklausur zur Analysis 2, SoSe 2017

Nachklausur zur Analysis 2, SoSe 2017 BERGISCHE UNIVERSITÄT WUPPERTAL 18.9.17 Fakultät 4 - Mathematik und Naturwissenschaften Prof. N. V. Shcherbina Dr. T. P. Pawlaschyk www.kana.uni-wuppertal.de Nachklausur zur Analysis 2, SoSe 217 Aufgabe

Mehr

Kapitel III Ringe und Körper

Kapitel III Ringe und Körper Kapitel III Ringe und Körper 1. Definitionen und Beispiele Definition 117 Eine Algebra A = S,,, 0, 1 mit zwei zweistelligen Operatoren und heißt ein Ring, falls R1. S,, 0 eine abelsche Gruppe mit neutralem

Mehr

Extrema multivariater Funktionen

Extrema multivariater Funktionen Extrema multivariater Funktionen Ist f (x ) ein Minimum (Maximum) einer stetig differenzierbaren skalaren Funktion f auf einer Umgebung U von x, so gilt grad f (x ) = (0,..., 0) t. Extrema multivariater

Mehr

NICHTRESTRINGIERTE OPTIMIERUNG

NICHTRESTRINGIERTE OPTIMIERUNG 3 NICHTRESTRINGIERTE OPTIMIERUNG Die Aufgabe, mit der wir uns im Folgen beschäftigen werden, ist die Lösung von Minimierungsproblemen der Form minimiere f(x) in R n, (3.1) wobei f : R n R eine gegebene

Mehr

Newton- und und Quasi-Newton-Methoden in der Optimierung. János Mayer

Newton- und und Quasi-Newton-Methoden in der Optimierung. János Mayer Newton- und und Quasi-Newton-Methoden in der Optimierung János Mayer 1 GLIEDERUNG Newton-Methode für nichtlineare Gleichungen nichtlineare Gleichungssysteme freie Minimierung. Quasi-Newton-Methoden für

Mehr

19.2 Mittelwertsatz der Differentialrechnung

19.2 Mittelwertsatz der Differentialrechnung 19 Mittelwertsätze der Differentialrechnung mit Anwendungen 19.1 Satz von Rolle 19.2 Mittelwertsatz der Differentialrechnung 19.4 Globaler Wachstumssatz 19.6 Verallgemeinerter Mittelwertsatz der Differentialrechnung

Mehr

Thema 3: Radiale Basisfunktionen und RBF- Netze

Thema 3: Radiale Basisfunktionen und RBF- Netze Proseminar: Machine Learning 10 Juli 2006 Thema 3: Radiale Basisfunktionen und RBF- Netze Barbara Rakitsch Zusammenfassung: Aufgabe dieses Vortrags war es, die Grundlagen der RBF-Netze darzustellen 1 Einführung

Mehr

Die Größe A(n, d) und optimale Codes

Die Größe A(n, d) und optimale Codes Die Größe A(n, d) und optimale Codes Definition Optimaler Code Wir definieren A(n, d) = max{m binärer (n, M, d) Code} Ein (n, M, d)-code heißt optimal, falls M = A(n, d). Bestimmung von A(n, d) ist offenes

Mehr

8 Extremwerte reellwertiger Funktionen

8 Extremwerte reellwertiger Funktionen 8 Extremwerte reellwertiger Funktionen 34 8 Extremwerte reellwertiger Funktionen Wir wollen nun auch Extremwerte reellwertiger Funktionen untersuchen. Definition Es sei U R n eine offene Menge, f : U R

Mehr

Neuronale Netze mit mehreren Schichten

Neuronale Netze mit mehreren Schichten Neuronale Netze mit mehreren Schichten Lehrstuhl für Künstliche Intelligenz Institut für Informatik Friedrich-Alexander-Universität Erlangen-Nürnberg (Lehrstuhl Informatik 8) Neuronale Netze mit mehreren

Mehr

Lineare Regression. Volker Tresp

Lineare Regression. Volker Tresp Lineare Regression Volker Tresp 1 Die Lernmaschine: Das lineare Modell / ADALINE Wie beim Perzeptron wird zunächst die Aktivierungsfunktion gewichtete Summe der Eingangsgrößen x i berechnet zu h i = M

Mehr

Theoretische Grundlagen der Informatik

Theoretische Grundlagen der Informatik Theoretische Grundlagen der Informatik Übung am 16.12.2010 INSTITUT FÜR THEORETISCHE INFORMATIK 0 KIT Universität des Landes Baden-Württemberg und nationales Forschungszentrum in der Helmholtz-Gemeinschaft

Mehr

9 Differentialrechnung für Funktionen in n Variablen

9 Differentialrechnung für Funktionen in n Variablen $Id: diff.tex,v.7 29/7/2 3:4:3 hk Exp $ $Id: ntaylor.tex,v.2 29/7/2 3:26:42 hk Exp $ 9 Differentialrechnung für Funktionen in n Variablen 9.6 Lagrange Multiplikatoren Die Berechnung von Maxima und Minima

Mehr

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016

Mathematik II für Studierende der Informatik. Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 und Wirtschaftsinformatik (Analysis und lineare Algebra) im Sommersemester 2016 5. Juni 2016 Definition 5.21 Ist a R, a > 0 und a 1, so bezeichnet man die Umkehrfunktion der Exponentialfunktion x a x als

Mehr

Banach scher Fixpunktsatz. 1) D ist abgeschlossen und konvex; 2) f ist selbstabbildend, d.h. f(d) D;

Banach scher Fixpunktsatz. 1) D ist abgeschlossen und konvex; 2) f ist selbstabbildend, d.h. f(d) D; Institut für Geometrie und Praktische Mathematik Höhere Mathematik IV (für Elektrotechniker und Technische Informatiker) - Numerik - SS 2007 Dr. S. Börm, Dr. M. Larin Banach scher Fixpunktsatz Gegeben

Mehr

KLAUSUR zur Numerik I mit Lösungen. Aufgabe 1: (10 Punkte) [ wahr falsch ] 1. Die maximale Ordnung einer s-stufigen Quadraturformel ist s 2.

KLAUSUR zur Numerik I mit Lösungen. Aufgabe 1: (10 Punkte) [ wahr falsch ] 1. Die maximale Ordnung einer s-stufigen Quadraturformel ist s 2. MATHEMATISCHES INSTITUT PROF. DR. ACHIM SCHÄDLE 9.8.7 KLAUSUR zur Numerik I mit Lösungen Aufgabe : ( Punkte) [ wahr falsch ]. Die maximale Ordnung einer s-stufigen Quadraturformel ist s. [ ]. Der Clenshaw

Mehr

1 Umkehrfunktionen und implizite Funktionen

1 Umkehrfunktionen und implizite Funktionen Mathematik für Physiker III WS 2012/2013 Freitag 211 $Id: implizittexv 18 2012/11/01 20:18:36 hk Exp $ $Id: lagrangetexv 13 2012/11/01 1:24:3 hk Exp hk $ 1 Umkehrfunktionen und implizite Funktionen 13

Mehr

384 = = = =

384 = = = = Aufgabe 1 (a) Sei n N. Charakterisieren Sie die Einheiten im Ring Z/nZ auf zwei verschiedene Arten. (b) Bestimmen Sie das inverse Element zur Restklasse von 119 in der Einheitengruppe von Z/384Z. (a) Die

Mehr

Deterministische Kommunikation. Deterministische Kommunikation 1 / 32

Deterministische Kommunikation. Deterministische Kommunikation 1 / 32 Deterministische Kommunikation Deterministische Kommunikation 1 / 32 Das Kommunikationsproblem Alice und Bob möchten die Funktion f : X Y Z durch den Austausch binärer Nachrichten mit minimaler Gesamtlänge

Mehr

M U = {x U f 1 =... = f n k (x) = 0}, (1)

M U = {x U f 1 =... = f n k (x) = 0}, (1) Aufgabe 11. a) Es sei M = {(x, y, z) R 3 f 1 = xy = 0; f = yz = 0}. Der Tangentialraum T x M muss in jedem Punkt x M ein R-Vektorraum sein und die Dimension 1 besitzen, damit diese Menge M eine Untermannigfaltigkeit

Mehr

AM3: Differenzial- und Integralrechnung im R n. 1 Begriffe. 2 Norm, Konvergenz und Stetigkeit. x 1. x 2. f : x n. aus Platzgründen schreibt man:

AM3: Differenzial- und Integralrechnung im R n. 1 Begriffe. 2 Norm, Konvergenz und Stetigkeit. x 1. x 2. f : x n. aus Platzgründen schreibt man: AM3: Differenzial- und Integralrechnung im R n 1 Begriffe f : x 1 f 1 x 1, x 2,..., x n ) x 2... f 2 x 1, x 2,..., x n )... x n f m x 1, x 2,..., x n ) }{{}}{{} R n R m aus Platzgründen schreibt man: f

Mehr

Algorithmen und Datenstrukturen (für ET/IT)

Algorithmen und Datenstrukturen (für ET/IT) Algorithmen und Datenstrukturen (für ET/IT) Sommersemester 2017 Dr. Stefanie Demirci Computer Aided Medical Procedures Technische Universität München Programm heute 7 Fortgeschrittene Datenstrukturen 8

Mehr

Name: Matr.-Nr.: 2. Aufgabe 1. Gegeben sei die Matrix

Name: Matr.-Nr.: 2. Aufgabe 1. Gegeben sei die Matrix Name: Matr.-Nr.: 2 Aufgabe 1. Gegeben sei die Matrix 1 1 1 A = 3 3 3 2 2 2 (a) Bestimmen Sie Rang(A), Kern(A) und Bild(A). Ist A invertierbar? Geben Sie zwei verschiedene rechte Seiten b 1, b 2 an, so

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

Künstliche Neuronale Netze

Künstliche Neuronale Netze Inhalt (Biologische) Neuronale Netze Schwellenwertelemente Allgemein Neuronale Netze Mehrschichtiges Perzeptron Weitere Arten Neuronaler Netze 2 Neuronale Netze Bestehend aus vielen Neuronen(menschliches

Mehr

9 Höhere partielle Ableitungen und die Taylorformel

9 Höhere partielle Ableitungen und die Taylorformel Vorlesung SS 29 Analsis 2 Prof Dr Siegfried Echterhoff 9 Höhere partielle Ableitungen und die Talorformel Definition 91 Sei U R n offen, f : U R m eine Funktion Dann heißt f 2-mal partiell differenzierbar,

Mehr

Grundlagen: Algorithmen und Datenstrukturen

Grundlagen: Algorithmen und Datenstrukturen Grundlagen: Algorithmen und Datenstrukturen Sommersemester 2018 Tobias Lasser Computer Aided Medical Procedures Technische Universität München Multiplikation langer Zahlen Schulmethode: gegeben Zahlen

Mehr

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

Parallelisierbarkeit. - Was soll parallelisierbar überhaupt bedeuten? 2 / 38

Parallelisierbarkeit. - Was soll parallelisierbar überhaupt bedeuten? 2 / 38 Parallelität 1 / 38 Parallelisierbarkeit - Welche Probleme in P sind parallelisierbar? Gibt es vom Standpunkt der Parallelisierbarkeit schwierigste Probleme in P? Gibt es dazu einen Reduktionsbegriff?

Mehr

Kapitel 9: Lineare Programmierung Gliederung

Kapitel 9: Lineare Programmierung Gliederung Gliederung 1. Grundlagen 2. Zahlentheoretische Algorithmen 3. Sortierverfahren 4. Ausgewählte Datenstrukturen 5. Dynamisches Programmieren 6. Graphalgorithmen 7. String-Matching 8. Kombinatorische Algorithmen

Mehr

Computational Learning Theory. Sommersemester 2018

Computational Learning Theory. Sommersemester 2018 Computational Learning Theory Sommersemester 2018 Prof. Dr. Georg Schnitger AG Theoretische Informatik Goethe-Universität Frankfurt am Main 1 / 163 Computational Learning Theory Sommersemester 2018 Prof.

Mehr

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme

Theoretische Informatik. Exkurs: Komplexität von Optimierungsproblemen. Optimierungsprobleme. Optimierungsprobleme. Exkurs Optimierungsprobleme Theoretische Informatik Exkurs Rainer Schrader Exkurs: Komplexität von n Institut für Informatik 13. Mai 2009 1 / 34 2 / 34 Gliederung Entscheidungs- und Approximationen und Gütegarantien zwei Greedy-Strategien

Mehr

x x y x y Informatik II Schaltkreise Schaltkreise Schaltkreise Rainer Schrader 3. November 2008

x x y x y Informatik II Schaltkreise Schaltkreise Schaltkreise Rainer Schrader 3. November 2008 Informatik II Rainer Schrader Zentrum für Angewandte Informatik Köln 3. November 008 1 / 47 / 47 jede Boolesche Funktion lässt mit,, realisieren wir wollen wir uns jetzt in Richtung Elektrotechnik und

Mehr

7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012)

7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012) Technische Universität München Zentrum Mathematik, M1 Prof. Dr. Boris Vexler Dr. Ira Neitzel Dipl.-Math. Alana Kirchner 7. Übungs-/Wiederholungsblatt zu Einführung in die Numerik (SS 2012) Diese Auswahl

Mehr

Klassische Polynom Interpolation.

Klassische Polynom Interpolation. Klassische Polynom Interpolation. Bestimme ein Polynom (höchstens) n ten Grades p n (x) = a 0 + a 1 x + a 2 x 2 +... + a n x n, das die gegebenen Daten interpoliert, d.h. p n (x i ) = f i, 0 i n. Erster

Mehr

NEXTLEVEL im WiSe 2011/12

NEXTLEVEL im WiSe 2011/12 Fachbereich Mathematik der Universität Hamburg Dr. H. P. Kiani NEXTLEVEL im WiSe 2011/12 Vorlesung 5, Teil 2 Linearisierung, einige Eigenschaften differenzierbarer Funktionen Die ins Netz gestellten Kopien

Mehr

3 Optimierung mehrdimensionaler Funktionen f : R n R

3 Optimierung mehrdimensionaler Funktionen f : R n R 3 Optimierung mehrdimensionaler Funktionen f : R n R 31 Optimierung ohne Nebenbedingungen Optimierung heißt eigentlich: Wir suchen ein x R n so, dass f(x ) f(x) für alle x R n (dann heißt x globales Minimum)

Mehr

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik

Maschinelles Lernen: Neuronale Netze. Ideen der Informatik Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn Adrian Neumann 16. Januar 2014 Übersicht Biologische Inspiration Stand der Kunst in Objekterkennung auf Bildern Künstliche Neuronale

Mehr

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018

Mathematik II für Studierende der Informatik (Analysis und lineare Algebra) im Sommersemester 2018 (Analysis und lineare Algebra) im Sommersemester 2018 5. April 2018 Zu der Vorlesung wird ein Skript erstellt, welches auf meiner Homepage veröffentlicht wird: http://www.math.uni-hamburg.de/home/geschke/lehre.html

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 3 Anwendungen der Differentialrechnung 3.1 Lokale Maxima und Minima Definition 16: Sei f : D R eine Funktion von n Veränderlichen. Ein Punkt x heißt lokale oder relative Maximalstelle bzw. Minimalstelle

Mehr

Nachklausur Analysis 2

Nachklausur Analysis 2 Nachklausur Analysis 2. a) Wie ist der Grenzwert einer Folge in einem metrischen Raum definiert? Antwort: Se (a n ) n N eine Folge in dem metrischen Raum (M, d). Diese Folge besitzt den Grenzwert g M,

Mehr

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 91 Optimierung ohne Nebenbedingungen Ein Optimum zu suchen heißt, den größten oder den kleinsten Wert zu suchen Wir suchen also ein x R n, sodass

Mehr

Die Komplexitätsklassen P und NP

Die Komplexitätsklassen P und NP Die Komplexitätsklassen P und NP Prof. Dr. Berthold Vöcking Lehrstuhl Informatik 1 Algorithmen und Komplexität RWTH Aachen November 2011 Berthold Vöcking, Informatik 1 () Vorlesung Berechenbarkeit und

Mehr

Mathematik zum Mitnehmen

Mathematik zum Mitnehmen Mathematik zum Mitnehmen Zusammenfassungen und Übersichten aus Arens et al., Mathematik Bearbeitet von Tilo Arens, Frank Hettlich, Christian Karpfinger, Ulrich Kockelkorn, Klaus Lichtenegger, Hellmuth

Mehr

Neuronale Netze. Anna Wallner. 15. Mai 2007

Neuronale Netze. Anna Wallner. 15. Mai 2007 5. Mai 2007 Inhalt : Motivation Grundlagen Beispiel: XOR Netze mit einer verdeckten Schicht Anpassung des Netzes mit Backpropagation Probleme Beispiel: Klassifikation handgeschriebener Ziffern Rekurrente

Mehr

Streaming Data: Das Modell

Streaming Data: Das Modell Streaming Data: Das Modell Berechnungen, bei fortlaufend einströmenden Daten (x t t 0), sind in Echtzeit zu erbringen. Beispiele sind: - Verkehrsmessungen im Internet, - Datenanalyse in der Abwehr einer

Mehr

T n (1) = 1 T n (cos π n )= 1. deg T n q n 1.

T n (1) = 1 T n (cos π n )= 1. deg T n q n 1. KAPITEL 3. INTERPOLATION UND APPROXIMATION 47 Beweis: Wir nehmen an qx) für alle x [, ] und führen diese Annahme zu einem Widerspruch. Es gilt nach Folgerung ii) T n ) T n cos π n ). Wir betrachten die

Mehr

Eigenwerte und Eigenvektoren

Eigenwerte und Eigenvektoren Eigenwerte und Eigenvektoren Siehe Analysis (von der Hude, Folie 20: Definition 2.3. Ein Vektor x R n heißt Eigenvektor der quadratischen n n-matrix A zum Eigenwert λ R, wenn gilt Ax = λx Die Eigenwerte

Mehr

1 Körper. Wir definieren nun, was wir unter einem Körper verstehen, und sehen dann, dass es noch andere, ganz kleine Körper gibt:

1 Körper. Wir definieren nun, was wir unter einem Körper verstehen, und sehen dann, dass es noch andere, ganz kleine Körper gibt: 1 Körper Sie kennen bereits 2 Beispiele von Zahlkörpern: (Q, +, ) (R, +, ) die rationalen Zahlen mit ihrer Addition und Multiplikation die reellen Zahlen mit ihrer Addition und Multiplikation Vielleicht

Mehr

Lösungshinweise zur Klausur

Lösungshinweise zur Klausur Höhere Mathematik 1 und 4..14 Lösungshinweise zur Klausur für Studierende der Fachrichtungen el, kyb,mecha,phys Aufgabe 1 Entscheiden Sie, welche der folgenden Aussagen richtig und welche falsch sind.

Mehr

10 Ableitungen höherer Ordnung

10 Ableitungen höherer Ordnung Mathematik für Ingenieure II, SS 9 Freitag 47 $Id: ntaylortex,v 3 9/7/4 8:6:56 hk Exp $ Ableitungen höherer Ordnung Partielle Ableitungen beliebiger Ordnung Nachdem wir das letzte Mal einige Beispiele

Mehr

Das Gradientenverfahren

Das Gradientenverfahren Das Gradientenverfahren - Proseminar: Algorithmen der Nichtlinearen Optimierung - David Beisel December 10, 2012 David Beisel Das Gradientenverfahren December 10, 2012 1 / 28 Gliederung 0 Einführung 1

Mehr

Übung zur Vorlesung Berechenbarkeit und Komplexität

Übung zur Vorlesung Berechenbarkeit und Komplexität RWTH Aachen Lehrgebiet Theoretische Informatik Reidl Ries Rossmanith Sanchez Tönnis WS 2012/13 Übungsblatt 7 26.11.2012 Übung zur Vorlesung Berechenbarkeit und Komplexität Aufgabe T15 Entwickeln Sie ein

Mehr

Wirtschaftsmathematik Formelsammlung

Wirtschaftsmathematik Formelsammlung Wirtschaftsmathematik Formelsammlung Binomische Formeln Stand März 2019 (a + b) 2 = a 2 + 2ab + b 2 (a b) 2 = a 2 2ab + b 2 (a + b) (a b) = a 2 b 2 Fakultät (Faktorielle) n! = 1 2 3 4 (n 1) n Intervalle

Mehr

3 Lineare Gleichungssysteme

3 Lineare Gleichungssysteme Lineare Gleichungssysteme Wir wissen bereits, dass ein lineares Gleichungssystem genau dann eindeutig lösbar ist, wenn die zugehörige Matrix regulär ist. In diesem Kapitel lernen wir unterschiedliche Verfahren

Mehr

Analysis II 14. Übungsblatt

Analysis II 14. Übungsblatt Jun.-Prof. PD Dr. D. Mugnolo Wintersemester 01/13 F. Stoffers 04. Februar 013 Analysis II 14. Übungsblatt 1. Aufgabe (8 Punkte Man beweise: Die Gleichung z 3 + z + xy = 1 besitzt für jedes (x, y R genau

Mehr

Perzeptronen. Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004

Perzeptronen. Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004 Perzeptronen Katrin Dust, Felix Oppermann Universität Oldenburg, FK II - Department für Informatik Vortrag im Rahmen des Proseminars 2004 1/25 Gliederung Vorbilder Neuron McCulloch-Pitts-Netze Perzeptron

Mehr

Prüfungsfragen zur Vorlesung Algebra und Diskrete Mathematik. Sommersemester 2018

Prüfungsfragen zur Vorlesung Algebra und Diskrete Mathematik. Sommersemester 2018 Prüfungsfragen zur Vorlesung Algebra und Diskrete Mathematik Sommersemester 2018 Erläutern Sie die Sätze über die Division mit Rest für ganze Zahlen und für Polynome (mit Koeffizienten in einem Körper).

Mehr

Klausur Numerische Mathematik (für Elektrotechniker), 24. Februar 2016

Klausur Numerische Mathematik (für Elektrotechniker), 24. Februar 2016 Verständnisfragen-Teil ( Punkte) Jeder der Verständnisfragenblöcke besteht aus Verständnisfragen. Werden alle Fragen in einem Verständnisfragenblock richtig beantwortet, so gibt es für diesen Block Punkte.

Mehr

Pseudo-Zufallsgeneratoren basierend auf dem DLP

Pseudo-Zufallsgeneratoren basierend auf dem DLP Seminar Codes und Kryptografie SS 2004 Struktur des Vortrags Struktur des Vortrags Ziel Motivation 1 Einleitung Ziel Motivation 2 Grundlegende Definitionen Zufallsgeneratoren 3 Generator Sicherheit 4 Generator

Mehr

KAPITEL 10 DIE INNERE-PUNKTE-METHODE

KAPITEL 10 DIE INNERE-PUNKTE-METHODE KAPITEL DIE INNERE-PUNKTE-METHODE F. VALLENTIN, A. GUNDERT Vorteile: + Löst effizient lineare Programme (in Theorie und Praxis) + erweiterbar (zu einer größeren Klasse von Optimierungsproblemen) + einfach

Mehr

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität

Datenstrukturen und Algorithmen. Christian Sohler FG Algorithmen & Komplexität Datenstrukturen und Algorithmen Christian Sohler FG Algorithmen & Komplexität 1 Clustering: Partitioniere Objektmenge in Gruppen(Cluster), so dass sich Objekte in einer Gruppe ähnlich sind und Objekte

Mehr

D-MAVT/D-MATL Analysis I HS 2017 Dr. Andreas Steiger. Lösung - Serie 6. (n+1)!. Daraus folgt, dass e 1/x < (n+

D-MAVT/D-MATL Analysis I HS 2017 Dr. Andreas Steiger. Lösung - Serie 6. (n+1)!. Daraus folgt, dass e 1/x < (n+ D-MAVT/D-MATL Analysis I HS 2017 Dr. Andreas Steiger Lösung - Serie 6 1. MC-Aufgaben (Online-Abgabe) 1. Für alle ganzen Zahlen n 1 gilt... (a) e 1/x = o(x n ) für x 0 + (b) e 1/x = o(x n ) für x 0 + (c)

Mehr

Für die Matrikelnummer M = Dann sind durch A =

Für die Matrikelnummer M = Dann sind durch A = Musterlösung zum. Blatt 9. Aufgabe: Gegeben seien m 3 + 2 m m 3 m 2 m 4 + m 7 m 3 A := m m 2 m 2 + 2 m 2 m 4 + m 5 und b := m 6 m 4 + a) Finden Sie eine Lösung x R 7 für die Gleichung Ax =. b) Finden Sie

Mehr

Prof. Schneider Höhere Mathematik I/II Musterlösung A = x 1 = 6x 1 + x 3 x 2 = 2x 2 x 3 = x 1 + 6x 3

Prof. Schneider Höhere Mathematik I/II Musterlösung A = x 1 = 6x 1 + x 3 x 2 = 2x 2 x 3 = x 1 + 6x 3 Aufgabe ( Punkte) a) Bestimmen Sie die Eigenwerte und Eigenvektoren der Matrix 6 A = 6 b) Bestimmen Sie die allgemeine Lösung des Differentialgleichungssystems x = 6x + x 3 x = x x 3 = x + 6x 3 c) Bestimmen

Mehr

Musterlösung zu Blatt 1

Musterlösung zu Blatt 1 Musterlösung zu Blatt Analysis III für Lehramt Gymnasium Wintersemester 0/4 Überprüfe zunächst die notwendige Bedingung Dfx y z = 0 für die Existenz lokaler Extrema Mit x fx y z = 8x und y fx y z = + z

Mehr

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134

Training von RBF-Netzen. Rudolf Kruse Neuronale Netze 134 Training von RBF-Netzen Rudolf Kruse Neuronale Netze 34 Radiale-Basisfunktionen-Netze: Initialisierung SeiL fixed ={l,...,l m } eine feste Lernaufgabe, bestehend ausmtrainingsbeispielenl=ı l,o l. Einfaches

Mehr