Neuronale Netzwerke. Neuronale Netzwerke 1 / 147

Transkript

1 Neuronale Netzwerke Neuronale Netzwerke 1 / 147

2 Feedfoward-Netzwerke (1/2) Die Architektur A = (V, E, f ) eines Feedforward-Netzwerks besteht aus ( ) einem azyklischen, gerichteten und geschichteten Graphen G = (V, E), wobei V in die Schichten V 0,..., V T unterteilt ist 1 mit V t = { (t, j) : 1 j V t }. 2 Alle Kanten (v, w) verlaufen von einem Knoten v V t zu einem Knoten w V t+1 in der darauffolgenden Nachbarschicht. V 0 besteht nur aus Quellen und V T nur aus Senken. ( ) einer Zuweisung f (v) = γ v von Aktivierungsfunktionen zu Knoten v V. γ v : R R ( ) Nicht gezeigt werden Kanten, die einen Knoten mit einer Eingabe versorgen. Diese Kanten sind ebenfalls gewichtet. Neuronale Netzwerke 2 / 147

3 Feedforward-Netzwerke (2/2) Ein Feedforward-Netzwerk N = (A, w) besteht aus (a) der Architektur A (b) sowie einer Zuweisung w : E R von Gewichten w(u, v) zu Kanten (u, v) E. Neuronale Netzwerke 3 / 147

4 Feedforward-Netzwerke (2/2) Ein Feedforward-Netzwerk N = (A, w) besteht aus (a) der Architektur A (b) sowie einer Zuweisung w : E R von Gewichten w(u, v) zu Kanten (u, v) E. Wir können implizite mit Schwellenwerten arbeiten: Verbinde eine neue Quelle u = (t, 0) mit allen Knoten v V t. Weise der Kante (u, v) den Schwellenwert von v zu. Neuronale Netzwerke 3 / 147

5 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. Neuronale Netzwerke 4 / 147

6 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := Neuronale Netzwerke 4 / 147

7 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend aus t,j (x) := k:e=((t 1,k),(t,j)) E Neuronale Netzwerke 4 / 147

8 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend k:e=((t 1,k),(t,j)) E ( ) aus t,j (x) := γ t,j summe t,j (x). Neuronale Netzwerke 4 / 147

9 Wie rechnet ein Feedforward-Netz? 1. Es ist n := V 0 und m := V T. Die einzelnen Komponenten der Eingabe x werden an die Quellen (0, i) V 0 angelegt: Setze aus 0,i (x) := x i. 2. Für alle Schichten t = 1,..., T in aufsteigender Reihenfolge und für alle Knoten (t, j) V t : 1 Setze summe t,j (x) := w(e) aus t 1,k (x) 2 und anschließend k:e=((t 1,k),(t,j)) E ( ) aus t,j (x) := γ t,j summe t,j (x). 3. Das Feedforward-Netzwerk berechnet die Funktion h w A : R n R m mit h w A(x) := (aus T,1 (x),..., aus T,m (x)). Neuronale Netzwerke 4 / 147

10 Architekturen und ihre Hypothesenklasse Sei A eine Architektur mit n Quellen, m Senken. Die Hypothesenklasse H A von A besteht aus allen Funktionen ha w : R n R m für Gewichtsvektoren w R n. Eine Zielverteilung p ist zu lernen. Die typische Lernsituation: Neuronale Netzwerke 5 / 147

11 Architekturen und ihre Hypothesenklasse Sei A eine Architektur mit n Quellen, m Senken. Die Hypothesenklasse H A von A besteht aus allen Funktionen ha w : R n R m für Gewichtsvektoren w R n. Eine Zielverteilung p ist zu lernen. Die typische Lernsituation: 1 Eine Architektur A ist vorgegeben. Wissen über p ist in die Konstruktion von A eingeflossen. 2 Lerne Gewichte: Approximiere p möglichst gut mit einer Hypothese h H A. Neuronale Netzwerke 5 / 147

12 Rekurrente Netzwerke (RNNs) Die Architektur A r = (V, E, f ) eines rekurrenten Netzwerks (RNN) besteht aus ( ) einem gerichteten Graphen G = (V, E), der möglicherweise Kreise besitzt und ( ) einer Zuweisung f (v) = γ v von Aktivierungsfunktionen γ v zu Knoten v V. Ein rekurrentes neuronales Netzwerk (RNN) R = (A r, w) besteht aus (a) der Architektur A r und (b) einer Zuweisung w : E R von Gewichten zu Kanten. Neuronale Netzwerke 6 / 147

13 Aktivierungsfunktionen Neuronale Netzwerke Aktivierungsfunktionen 7 / 147

14 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Neuronale Netzwerke Aktivierungsfunktionen 8 / 147

15 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Weitere Modelle in der Computational Neuroscience: Spikende Neuronen, Feuerraten,... Neuronale Netzwerke Aktivierungsfunktionen 8 / 147

16 Aktivierungsfunktionen (1/3) (a) Die (binäre) Threshold-Funktion { 1 x 0 γ(x) := 0 sonst wurde 1943 von McCulloch und Pitts vorgeschlagen. Das erste Integrate-and-Fire Modell: Die Ausgaben der Nachbarneuronen u mit (u, v) E bestimmen, ob v feuert. Hemmende Impulse, bzw. verstärkende Impulse werden gewichtet summiert und mit dem Schwellenwert des Neurons verglichen. Weitere Modelle in der Computational Neuroscience: Spikende Neuronen, Feuerraten,... (b) Das Standard-Sigmoid σ(x) := exp x oder der hyperbolische Tangens tanh(x) := exp2x 1 exp 2x +1 (= 2σ(2x) 1) sind diffbare Varianten der Thresholdfunktion. Neuronale Netzwerke Aktivierungsfunktionen 8 / 147

17 Aktivierungsfunktionen (2/3) (c) Das ReLU-Gatter (oder rectified linear unit ) r(x) := max{0, x} Goodfellow et al: Stückweise lineare Gatterfunktionen gehören zu den wichtigsten algorithmischen Neuerungen. (d) Die Softplus-Funktion s(x) := ln(1 + exp x ) kann als eine differenzierbare Variante des Rectifiers angesehen werden. (Beachte, dass s = σ.) Experimentell: Schlechter als ReLU-Gatter! Neuronale Netzwerke Aktivierungsfunktionen 9 / 147

18 Aktivierungsfunktionen (2/3) (c) Das ReLU-Gatter (oder rectified linear unit ) r(x) := max{0, x} Goodfellow et al: Stückweise lineare Gatterfunktionen gehören zu den wichtigsten algorithmischen Neuerungen. (d) Die Softplus-Funktion s(x) := ln(1 + exp x ) kann als eine differenzierbare Variante des Rectifiers angesehen werden. (Beachte, dass s = σ.) Experimentell: Schlechter als ReLU-Gatter! (e) Für c R und Vektoren x, W R m die Radialbasis-Funktion r c,w (x) := exp 1 c 2 W x 2. x ist der Vektor der Eingaben des Gatters. Neuronale Netzwerke Aktivierungsfunktionen 9 / 147

19 Aktivierungsfunktionen (3/3) (f) Wie die Radialbasisfunktion sind auch Softmax-Gatter γ i (x 1,..., x k ) := exp x i k j=1 expx j keine konventionellen Aktivierungsfunktionen. Sie werden häufig als Ausgabegatter eingesetzt und produzieren eine Verteilung auf den k Eingabewerten des Gatters. γ i (x 1,..., x k ) Überzeugung hinter Option i. Neuronale Netzwerke Aktivierungsfunktionen 10 / 147

20 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

21 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

22 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

23 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und benötigt die Energie einer Glühbirne. Moderne Supercomputer verbrauchen mehrere Megawatt! Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

24 Neuronale Netzwerke: Das Vorbild Das zentrale Nervensystem + besteht aus Nervenzellen mit insgesamt ca Schaltvorgängen pro Sekunde Moderne Parallelrechner: Zwischen Schaltvorgängen pro Sekunde + mit durchschnittlich Verbindungen pro Nervenzelle Moderne Parallelrechner mit Verbindungszahl im kleinen zweistelligen Bereich. - mit einer erbärmlichen Schaltzeit im Millisekundenbereich Moderne Rechner: Im Bereich einer Nanosekunde + und benötigt die Energie einer Glühbirne. Moderne Supercomputer verbrauchen mehrere Megawatt! Ein Muß: Löse algorithmische Probleme in wenigen Schritten! Neuronale Netzwerke Aktivierungsfunktionen 11 / 147

25 Berechnungskraft Neuronale Netzwerke Berechnungskraft 12 / 147

26 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x Neuronale Netzwerke Berechnungskraft 13 / 147

27 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n Neuronale Netzwerke Berechnungskraft 13 / 147

28 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n n x i n 1 2 i=1 Neuronale Netzwerke Berechnungskraft 13 / 147

29 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n Zahl(x n 1,..., x 0 ) Zahl(y n 1,..., y 0 ) n x i n 1 2 i=1 n x i 1 2 i=1 Neuronale Netzwerke Berechnungskraft 13 / 147

30 Was können Threshold-Funktionen? Betrachte Threshold-Funktionen über X = {0, 1} n. x 1 x 1 2 x 1 x 2 x n x 1 x 2 x n Zahl(x n 1,..., x 0 ) Zahl(y n 1,..., y 0 ) n x i n 1 2 i=1 n x i 1 2 i=1 n 1 n 1 x i 2 i y i 2 i i=0 i=0 Und die Parität x 1 x n? Neuronale Netzwerke Berechnungskraft 13 / 147

31 Die Parität x 1 x n n x 1 x 2 x n Neuronale Netzwerke Berechnungskraft 14 / 147

32 Die Parität x 1 x n n x 1 x 2 x n n + 1 Knoten und Tiefe zwei genügen = {,, }-Schaltkreise der Tiefe t benötigen 2 Ω(n1/t ) Knoten. Neuronale Netzwerke Berechnungskraft 14 / 147

33 Neuronale Netzwerke und Turingmaschinen Die Funktion F : {0, 1} {0, 1} werde von einer Turingmaschine mit einem Lese-Schreib-Band in Zeit T (n) berechnet = Es gibt einen {,, }-Schaltkreis der Tiefe O(T (N)) und Größe O(T 2 ) für F. Neuronale Netzwerke Berechnungskraft 15 / 147

34 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. Neuronale Netzwerke Berechnungskraft 16 / 147

35 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). Neuronale Netzwerke Berechnungskraft 16 / 147

36 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = Neuronale Netzwerke Berechnungskraft 16 / 147

37 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). Neuronale Netzwerke Berechnungskraft 16 / 147

38 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Neuronale Netzwerke Berechnungskraft 16 / 147

39 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Neuronale Netzwerke Berechnungskraft 16 / 147

40 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Der Approximationsfehler ist höchstens 2r( x L )L2 γ (0) = Neuronale Netzwerke Berechnungskraft 16 / 147

41 Die Berechnungskraft von Sigmoid-Schaltkreisen γ sei 2-fach stetig differenzierbar und es gelte γ (0) 0. Wir konstruieren einen γ-schaltkreis der Tiefe 2, der eine Eingabe x [ 1, 1] approximativ quadriert. (1) Das quadratische Taylorpolynom von γ ist γ(x) = γ(0) + xγ (0) + x 2 2 γ (0) + r(x) mit r(x) = O( x 3 ). (2) Setze γ (x) = ( γ(x) xγ (0) γ(0) ) 2 γ (0). Es ist γ (x) = x 2 + 2r(x) γ (0). (3) Berechne L 2 γ ( x L ): Es ist L2 γ ( x L ) = x 2 + 2r( x L )L2 γ (0). Der Approximationsfehler ist höchstens 2r( x L )L2 γ (0) = O( x 3 L ), denn r( x L ) = O( x 3 L 3 ). Neuronale Netzwerke Berechnungskraft 16 / 147

42 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. Neuronale Netzwerke Berechnungskraft 17 / 147

43 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147

44 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Neuronale Netzwerke Berechnungskraft 17 / 147

45 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Für jedes i und k teste, ob Rang(xi ) = k gilt. Dies gelingt in zwei Schichten und O(n 2 ) Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147

46 Sortieren mit Threshold-Schaltkreisen in 5 Schritten n Zahlen x 1,... x n mit jeweils n Bits sind zu sortieren. Ein Thresholdgatter kann zwei Zahlen vergleichen. (1) Wir vergleichen alle Paare (x i, x j ) mit i j in der ersten Schicht mit n (n 1)/2 Knoten. (2) Rang(x i ) ist definiert als die Position, an der der Schlüssel x i in der sortierten Folge steht. Für jedes i und k teste, ob Rang(xi ) = k gilt. Dies gelingt in zwei Schichten und O(n 2 ) Knoten. (3) Berechnung des r-ten Bits des s-ten Ausgabeschlüssels durch n ) ((Rang(x i ) = s) x i,r. i=1 Dies gelingt in zwei Schichten mit O(n 3 )-vielen Knoten. Neuronale Netzwerke Berechnungskraft 17 / 147

47 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? Neuronale Netzwerke Berechnungskraft 18 / 147

48 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. Neuronale Netzwerke Berechnungskraft 18 / 147

49 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Neuronale Netzwerke Berechnungskraft 18 / 147

50 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Neuronale Netzwerke Berechnungskraft 18 / 147

51 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Es ist n i=1 x i mod p l Neuronale Netzwerke Berechnungskraft 18 / 147

52 Neuronale Netze als Number Cruncher (1/3) Addiere und multipliziere n n-bit Zahlen mit einem Threshold-Schaltkreis konstanter Tiefe und polynomieller Größe. Wie funktioniert die Multiplikation? (1) Arbeite mit kleinen Primzahlen p 1,..., p k n 2. (2) Bestimme die Reste x i mod p l : Da xi n 1 j=0 2j x i,j mod p l, wird die Bestimmung der Reste durch die Addition von n Zahlen mit O(log n) Bits gelöst. (3) Ein primitives Element g l modulo p l erzeugt alle Reste: Für jedes i und l bestimme die Potenz q i,l mit x i g q i,l k mod p l durch Table Lookup. Es ist n i=1 x i n i=1 mod p l g q i,l l mod p l. Neuronale Netzwerke Berechnungskraft 18 / 147

53 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. Neuronale Netzwerke Berechnungskraft 19 / 147

54 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse Neuronale Netzwerke Berechnungskraft 19 / 147

55 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, wie auch das multiplikative Inverse Neuronale Netzwerke Berechnungskraft 19 / 147

56 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j Neuronale Netzwerke Berechnungskraft 19 / 147

57 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l Neuronale Netzwerke Berechnungskraft 19 / 147

58 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l r l mod p l. Neuronale Netzwerke Berechnungskraft 19 / 147

59 Neuronale Netze als Number Cruncher (2/3) Wir kennen n i=1 x i r l mod p l für jedes l. Rekonstruiere n i=1 x i mit dem chinesischen Restsatz. (1) Kodiere die Zahlen P l = p 1 p k p l P 1 l von P l modulo p l in den Schaltkreis. wie auch das multiplikative Inverse (2) n i=1 x i k l=1 P l P 1 l r l mod k i=1 p i, denn modulo p l k j=1 P j P 1 j r j P l P 1 l r l r l mod p l. Die Rekonstruktion des Produkts aus den Resten ist auf eine Addition polynomiell vieler Zahlen zurückgeführt. Neuronale Netzwerke Berechnungskraft 19 / 147

60 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. Neuronale Netzwerke Berechnungskraft 20 / 147

61 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. Neuronale Netzwerke Berechnungskraft 20 / 147

62 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. Neuronale Netzwerke Berechnungskraft 20 / 147

63 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. (3) Ob Rectifier, Softplus, Standard Sigmoid oder Threshold-Funktion: Berechnungskraft ist unverändert. Neuronale Netzwerke Berechnungskraft 20 / 147

64 Neuronale Netze als Number Cruncher (3/3) n Zahlen mit n Bits können in konstanter Tiefe und polynomieller Größe addiert und multipliziert werden. (1) = Threshold-Schaltkreise können schnell und effizient Polynome berechnen. (2) = Approximiere analytische Funktionen wie ln(x), e x 1 und σ(x) = 1 + e x durch ihr Taylorpolynome: Scharfe Approximation analytischer Funktionen in konstanter Tiefe und polynomieller Größe. (3) Ob Rectifier, Softplus, Standard Sigmoid oder Threshold-Funktion: Berechnungskraft ist unverändert. TC 0 = alle Sprachen, die in konstanter Tiefe und polynomieller Größe mit einem Threshold-Schaltkreis berechenbar sind. Neuronale Netzwerke Berechnungskraft 20 / 147

65 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? Neuronale Netzwerke Berechnungskraft 21 / 147

66 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. Neuronale Netzwerke Berechnungskraft 21 / 147

67 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Neuronale Netzwerke Berechnungskraft 21 / 147

68 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Jetzt simuliere ein Threshold-Gatter durch einen {,, }-Schaltkreis in logarithmischer Tiefe. Neuronale Netzwerke Berechnungskraft 21 / 147

69 Die Grenzen der Rechenkraft Was können kleine neuronale Netzwerke in konstanter Tiefe nicht? (1) NC 1 = alle Sprachen, die {,, }-Schaltkreise in logarithmischer Tiefe, Fan-in zwei (und polynomieller Größe) berechnen können. (2) TC 0 NC 1 : Man kann zeigen, dass ganzzahlige Gewichte und Schwellenwerte in { n O(n),..., n O(n) } für Eingaben aus {0, 1} n ausreichend sind. Jetzt simuliere ein Threshold-Gatter durch einen {,, }-Schaltkreis in logarithmischer Tiefe. In NC 1 kann man (wahrscheinlich) nicht feststellen, ob ein gerichteter Graph einen Weg zwischen zwei festgelegten Knoten besitzt. Neuronale Netzwerke Berechnungskraft 21 / 147

70 Beispielkomplexität Neuronale Netzwerke Beispielkomplexität 22 / 147

71 Dürfen wir bei fehlerfreiem Training jubeln? Neuronale Netzwerke Beispielkomplexität 23 / 147

72 Dürfen wir bei fehlerfreiem Training jubeln? Zumindest wenn die Gatterzahl mit S skaliert, besteht selbst bei beliebigen reellwertigen Klassifikationen kein Anlass zum Jubel. Sei S R d eine Menge von n Beispielen und sei f : S R eine beliebige Funktion. Dann gibt es Gewichte a R d, w, b R n, so dass f (x) = n w j max{ a, x b j, 0 } j=1 für alle x S gilt. Neuronale Netzwerke Beispielkomplexität 23 / 147

73 Dürfen wir bei fehlerfreiem Training jubeln? Zumindest wenn die Gatterzahl mit S skaliert, besteht selbst bei beliebigen reellwertigen Klassifikationen kein Anlass zum Jubel. Sei S R d eine Menge von n Beispielen und sei f : S R eine beliebige Funktion. Dann gibt es Gewichte a R d, w, b R n, so dass f (x) = n w j max{ a, x b j, 0 } j=1 für alle x S gilt. Ein neuronales Netz aus ReLU-Gattern mit nur 2n + d Gewichten genügt. Neuronale Netzwerke Beispielkomplexität 23 / 147

74 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Neuronale Netzwerke Beispielkomplexität 24 / 147

75 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n Neuronale Netzwerke Beispielkomplexität 24 / 147

76 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = Neuronale Netzwerke Beispielkomplexität 24 / 147

77 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = ( f (x 1 ),..., f (x n ) ). Neuronale Netzwerke Beispielkomplexität 24 / 147

78 ReLU-Interpolation Bestimme w 1,..., w n, b 1,..., b n und a 1,..., a d s.d. für alle x S f (x) = n w j max{ a, x b j, 0 } j=1 Wähle a R d zufällig. Es gelte o.b.d.a. a, x 1 < a, x 2 < < a, x n. Wähle b so, dass b 1 < a, x 1 < b 2 < a, x 2 < b 3 < a, x 3 < < b n < a, x n { 0 i < j, Für die n n Matrix A mit A i,j = a, x i b j sonst löse das Gleichungssystem A w = ( f (x 1 ),..., f (x n ) ). A ist eine obere Dreiecksmatrix Neuronale Netzwerke Beispielkomplexität 24 / 147

79 Beispielkomplexität Wieviele Beispiele müssen angefordert werden, wenn eine Architektur A aus Threshold-Gattern vorgegeben ist? 1 Für eine Klasse F von Funktionen h : X Y definiere Π F (S) := { f S : f F } als die Menge der auf S eingeschränkten Funktionen aus F. 2 Die Definition der Wachstumsfunktion Π F (m) ist wie üblich, d.h. Π F (m) := max{ Π F (S) : S = m }. Neuronale Netzwerke Beispielkomplexität 25 / 147

80 Beispielkomplexität Wieviele Beispiele müssen angefordert werden, wenn eine Architektur A aus Threshold-Gattern vorgegeben ist? 1 Für eine Klasse F von Funktionen h : X Y definiere Π F (S) := { f S : f F } als die Menge der auf S eingeschränkten Funktionen aus F. 2 Die Definition der Wachstumsfunktion Π F (m) ist wie üblich, d.h. Π F (m) := max{ Π F (S) : S = m }. Wie verhält sich die Wachstumsfunktion Π F (m) bei kartesischen Produkten bzw. bei der Komposition von Funktionen? Neuronale Netzwerke Beispielkomplexität 25 / 147

81 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Neuronale Netzwerke Beispielkomplexität 26 / 147

82 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). (b) Für Mengen F 1, F 2 von Funktionen h 1 : X 1 X 2 bzw h 2 : X 2 X 3 ist F 1 F 2 := { h : h(x) = f 2 (f 1 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Neuronale Netzwerke Beispielkomplexität 26 / 147

83 Die Wachstumsfunktion (a) Für Mengen F 1, F 2 von Funktionen h : X Y ist F 1 F 2 := { h : h(x) = (h 1 (x), h 2 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). (b) Für Mengen F 1, F 2 von Funktionen h 1 : X 1 X 2 bzw h 2 : X 2 X 3 ist F 1 F 2 := { h : h(x) = f 2 (f 1 (x)) für h 1 F 1, h 2 F 2 }. = Π F1 F 2 (m) Π F1 (m) Π F2 (m). Neuronale Netzwerke Beispielkomplexität 26 / 147

84 Die VC-Dimension einer Architektur (1/3) Sei A = (V, E, f ) eine Architektur aus Thresholdgattern = VC(H A ) = O( E log 2 E ). 1. Für einen Knoten v V sei H v die Menge aller Funktionen h : R ingrad(v) R, die von v (als einem Knoten der Tiefe Eins) berechnet werden. 2. Die VC-Dimension von H v stimmt überein mit Neuronale Netzwerke Beispielkomplexität 27 / 147

85 Die VC-Dimension einer Architektur (1/3) Sei A = (V, E, f ) eine Architektur aus Thresholdgattern = VC(H A ) = O( E log 2 E ). 1. Für einen Knoten v V sei H v die Menge aller Funktionen h : R ingrad(v) R, die von v (als einem Knoten der Tiefe Eins) berechnet werden. 2. Die VC-Dimension von H v stimmt überein mit ingrad(v). 3. Mit Sauers Lemma folgt Π Hv (m) (e m) ingrad(v) Wie verhält sich die Wachstumsfunktion, wenn der Schaltkreis rechnet? Neuronale Netzwerke Beispielkomplexität 27 / 147

86 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = Neuronale Netzwerke Beispielkomplexität 28 / 147

87 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 Neuronale Netzwerke Beispielkomplexität 28 / 147

88 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt H A = Neuronale Netzwerke Beispielkomplexität 28 / 147

89 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} V i+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt und damit H A = H T H 1. H A (m) Neuronale Netzwerke Beispielkomplexität 28 / 147

90 Die VC-Dimension einer Architektur (2/3) Sei V i V die Menge aller Knoten v V der Tiefe i. Für den Graphen (V, E) ist H i+1 die Menge aller Funktionen h : R V i {0, 1} Vi+1, zu allen möglichen Rechnungen zwischen Schicht i und Schicht i Dann ist H i+1 = H v = v V i+1 (m) (e m) ingrad(v). H i+1 v V i+1 5. Wenn die Architektur aus den Schichten V 0,..., V T besteht, folgt H A = H T H 1. und damit H A (m) (m) (m) (e m) E. H T H 1 Neuronale Netzwerke Beispielkomplexität 28 / 147

91 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) Neuronale Netzwerke Beispielkomplexität 29 / 147

92 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) (e d) E und deshalb d = Neuronale Netzwerke Beispielkomplexität 29 / 147

93 Die VC-Dimension einer Architektur (3/3) 6. Wenn VC(H A ) = d, dann gilt 2 d H A (d) (e d) E und deshalb d = O(( E ) ln(d)) 7. Wird die Threshold-Funktion durch das Standard Sigmoid ersetzt: Die VC-Dimension steigt an auf Ω( E 2 ). Aber, Gewichte sind nur mit beschränkter Präzision B darstellbar: Höchstens B E verschiedene Hypothesen = die praktische VC-Dimension ist höchstens O( E ). Neuronale Netzwerke Beispielkomplexität 29 / 147

94 Und wenn es zu wenige Beispiele gibt? Erzeuge künstliche Beispiele Data Augmentation bzw. erschwere Auswendiglernen durch Hardware oder durch Software. 1 Hardware-Methoden: Wende Dimensionsreduktion an, um zum Beispiel eine große Schicht von Knoten auf eine kleine Schicht zu komprimieren. 2 Software-Methoden: Wende Dropout-Verfahren an, die in jedem Schritt einen konstanten Bruchteil aller Knoten zufällig auswählen und ausschalten. Wie auch immer: Eine größtmögliche Anzahl qualitativ hochwertiger Beispiele ist entscheidend. Neuronale Netzwerke Beispielkomplexität 30 / 147

95 Lernen mit Gradientenabstieg Algorithmische Komplexität Gradientenabstieg 31 / 147

96 Lernen = Minimierung einer Loss-Funktion Sei H A die Hypothesenklasse einer Architektur A und S = { (x 1, y 1 ),..., (x s, y s ) } eine Menge klassifizierter Beispiele. Sei l eine Loss-Funktion. Wir suchen eine ERM-Hypothese h w A H A mit kleinstem Trainingsfehler Loss S (h w A) = min u R n LossS (h u A ) 1 = min u R n s s l(u, x i, y i ). i=1 } {{ } =:f (u) Algorithmische Komplexität Gradientenabstieg 32 / 147

97 Lernen = Minimierung einer Loss-Funktion Sei H A die Hypothesenklasse einer Architektur A und S = { (x 1, y 1 ),..., (x s, y s ) } eine Menge klassifizierter Beispiele. Sei l eine Loss-Funktion. Wir suchen eine ERM-Hypothese h w A H A mit kleinstem Trainingsfehler Loss S (h w A) = min u R n LossS (h u A ) 1 = min u R n s s l(u, x i, y i ). i=1 } {{ } =:f (u) Ein erfolgreicher Lerner versucht die Funktion f : R N R zu minimieren: Ein Minimierungsproblem ohne Restriktionen. Algorithmische Komplexität Gradientenabstieg 32 / 147

98 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Algorithmische Komplexität Gradientenabstieg 33 / 147

99 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Approximiere f durch sein lineares Taylor-Polynom im Punkt a: f (a + z) = f (a) + f (a) T z + O(z T z) gilt, falls z genügend klein ist. Algorithmische Komplexität Gradientenabstieg 33 / 147

100 Lokale Suche und Gradientenabstieg Eine zweifach-differenzierbare Zielfunktion f : R n R ist über einer kompakten Teilmenge des R n zu minimieren. Wir befinden uns im Punkt a R n : In welcher Richtung befinden sich kleinere Funktionswerte? Approximiere f durch sein lineares Taylor-Polynom im Punkt a: f (a + z) = f (a) + f (a) T z + O(z T z) gilt, falls z genügend klein ist. Setze z = η f (a) für hinreichend kleines η > 0: f (a η f (a)) = f (a) η f (a) 2 + η 2 O( f (a) 2 ). Algorithmische Komplexität Gradientenabstieg 33 / 147

101 Die Methode des Gradientenabstiegs Sei f : R n R eine zweimal im Punkt a R n stetig differenzierbare Funktion mit f (a) 0. Dann gilt für hinreichend kleine η > 0 f (a η f (a)) < f (a), wobei f (a) der Gradient von f an der Stelle a ist. Algorithmische Komplexität Gradientenabstieg 34 / 147

102 Die Methode des Gradientenabstiegs Sei f : R n R eine zweimal im Punkt a R n stetig differenzierbare Funktion mit f (a) 0. Dann gilt für hinreichend kleine η > 0 f (a η f (a)) < f (a), wobei f (a) der Gradient von f an der Stelle a ist. Die Methode des Gradientenabstiegs verfolgt die Iteration w (i+1) = w (i) η f (w (i) ). 1. Die Lernrate η muss in jedem Schritt neu bestimmt werden, da sonst die Gefahr droht, über das Ziel hinaus zu schießen. 2. Aber selbst wenn die Schrittweite stets hinreichend klein ist, dann konvergiert lim n N w (n) mgl. gegen ein lokales Minimum. Algorithmische Komplexität Gradientenabstieg 34 / 147

103 Gradientenabstieg: Die Fragen (a) Sollten die Gewichte für alle Beispiele auf einmal oder nacheinander für jedes einzelne Beispiel aktualisiert werden? (b) Wie ist die Lernrate zu wählen? (c) Vermeide ein wildes Gehüpfe : Sollten auch frühere Richtungen in der Wahl der neuen Richtung eine Rolle spielen? Um diese Fragen zu beantworten, untersuche den Gradientenabstieg an einem einfachen, aber nicht-trivialem Minimierungsproblem, der Minimierung konvexer Funktionen. Algorithmische Komplexität Gradientenabstieg 35 / 147

104 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Algorithmische Komplexität Gradientenabstieg 36 / 147

105 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Wenn a, b K lokale Minima von f sind, dann gilt f (a) = f (b), und alle Punkte auf der Geraden von a nach b sind globale Minima. Algorithmische Komplexität Gradientenabstieg 36 / 147

106 Die Minimierung konvexer Funktionen ist einfach Zur Erinnerung: 1. Eine Teilmenge K R n heißt genau dann konvex, wenn für alle x, y K auch alle Punkte der Geraden von x nach y in K liegen. 2. Die Funktion f : K R über der konvexen Menge K heißt genau dann konvex, wenn für alle λ [0, 1], x, y K gilt f (λ x + (1 λ)y) λf (x) + (1 λ) f (y). Wenn a, b K lokale Minima von f sind, dann gilt f (a) = f (b), und alle Punkte auf der Geraden von a nach b sind globale Minima. Wenn f differenzierbar ist, dann gilt: ( ) f ist konvex f (x) f (a) + f (a) T (x a) für alle Punkte a, x K. /* Die Funktion liegt stets oberhalb einer Tangente. */ ( ) Jeder Punkt a K mit f (a) = 0 ist ein globales Minimum. /* Suche einen Punkt mit verschwindender Gradiente. */ Algorithmische Komplexität Gradientenabstieg 36 / 147

107 Komplexitätsparameter konvexer Funktionen (1/2) Die Funktion f : K R heißt genau dann stark konvex (mit Parameter mindestens m > 0), wenn für alle a, x K gilt f (x) f (a) + f (a) T (x a) + m 2 x a 2. (m ist die Krümmung der quadratischen Funktion f (x) = f (a) + f (a) T (x a) + m 2 x a 2. Algorithmische Komplexität Gradientenabstieg 37 / 147

108 Komplexitätsparameter konvexer Funktionen (1/2) Die Funktion f : K R heißt genau dann stark konvex (mit Parameter mindestens m > 0), wenn für alle a, x K gilt f (x) f (a) + f (a) T (x a) + m 2 x a 2. (m ist die Krümmung der quadratischen Funktion ) f (x) = f (a) + f (a) T (x a) + m 2 x a 2. Die Funktion f sei zweifach stetig differenzierbar. (a) f ist konvex die Hesse-Matrix 2 f (a) ist in jedem Punkt a positiv semi-definit, d.h. es gilt u T 2 f (a) u 0 für alle u K. (b) f ist stark konvex 2 f (a) ist in jedem Punkt a 0 positiv definit und es gilt u T 2 f (a) u m u 2 für alle u K. Algorithmische Komplexität Gradientenabstieg 37 / 147

109 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y Algorithmische Komplexität Gradientenabstieg 38 / 147

110 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. Algorithmische Komplexität Gradientenabstieg 38 / 147

111 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. (b) Definiere ψ(x) := x η f (x) als den auf x im Gradientenabstieg folgenden Punkt. Wir zeigen, dass ψ mit Kontraktionsfaktor β L m L+m kontrahierend ist, d.h. es gilt ψ(x) ψ(z) β x z. Algorithmische Komplexität Gradientenabstieg 38 / 147

112 Komplexitätsparameter konvexer Funktionen (2/2) f : K R heißt L-glatt, falls für alle x, y K gilt. f (x) f (y) L x y (a) Die Funktion f sei L-glatt. Wenn f stark konvex mit Parameter mindestens m ist, dann ist u T 2 f (a) u L u für alle u. (b) Definiere ψ(x) := x η f (x) als den auf x im Gradientenabstieg folgenden Punkt. Wir zeigen, dass ψ mit Kontraktionsfaktor β L m L+m kontrahierend ist, d.h. es gilt ψ(x) ψ(z) β x z. Wenn m nicht viel kleiner als L ist (d.h. f ist fast-quadratisch), dann ist β klein und ψ ist stark kontrahierend. Algorithmische Komplexität Gradientenabstieg 38 / 147

113 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) Algorithmische Komplexität Gradientenabstieg 39 / 147

114 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) ( ) = (x y) η f (y + γ (x y)) (x y) dγ Algorithmische Komplexität Gradientenabstieg 39 / 147

115 ψ ist kontrahierend: Die Analyse (1/3) Für eine reellwertige Konstante η > 0 ist ψ(x) := x η f (x) T Für die Einheitsmatrix E gilt: ψ(x) ψ(y) = (x y) η ( f (x) f (y)) ( ) = (x y) η ( = E η f (y + γ (x y)) (x y) dγ 2 f (y + γ (x y)) dγ } 0 {{ } =:A ) (x y). Denn: f (x + γ(y x)) ist Stammfunktion von 2 f (x + γ (y x)) (y x). Algorithmische Komplexität Gradientenabstieg 39 / 147

116 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. Algorithmische Komplexität Gradientenabstieg 40 / 147

117 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. (b) f ist L-glatt und deshalb ( gilt u T 2 f (a) ) u L u. Als Konsequenz folgt u T E η 2 f (a) u (1 ηl) u 2 für alle u (= m L.) Zusammenfassung: Für a = y + γ(x y) gilt für alle u Algorithmische Komplexität Gradientenabstieg 40 / 147

118 ψ ist kontrahierend: Die Analyse (2/3) Bestimme Schranken für die Größe von u T A u, wobei A := E η f (y + γ (x y)) dγ ( ) (a) Für jedes a ist u T E η 2 f (a) u (1 ηm) u 2, denn f ist stark konvex, und deshalb gilt u T 2 f (a) u m u für alle u. (b) f ist L-glatt und deshalb ( gilt u T 2 f (a) ) u L u. Als Konsequenz folgt u T E η 2 f (a) u (1 ηl) u 2 für alle u (= m L.) Zusammenfassung: Für a = y + γ(x y) gilt für alle u ( ) (1 η L) u 2 u T }{{} λ min (A) E η 2 f (a) }{{} =A u (1 η m) u 2. }{{} λ max(a) Algorithmische Komplexität Gradientenabstieg 40 / 147

119 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. Algorithmische Komplexität Gradientenabstieg 41 / 147

120 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) Algorithmische Komplexität Gradientenabstieg 41 / 147

121 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) max{ 1 η L, 1 η m } x y. Algorithmische Komplexität Gradientenabstieg 41 / 147

122 ψ ist kontrahierend: Die Analyse (3/3) Zur Erinnerung: ( ψ(x) ψ(y) = E η (1 η L) u 2 u T für jedes a. 1 0 ) 2 f (y + γ(x y)) dγ ) ( E η 2 f (a) Da A z max{ λ min (A), λ max (A) } z folgt (x y) und u (1 η m) u 2. ψ(x) ψ(y) = A (x y) max{ 1 η L, 1 η m } x y. Für β := L m 2 L+m und η := L+m gilt β = 1 η L 1 η m = β. Also ist ψ(x) ψ(y) β x y. Algorithmische Komplexität Gradientenabstieg 41 / 147

123 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Algorithmische Komplexität Gradientenabstieg 42 / 147

124 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) Algorithmische Komplexität Gradientenabstieg 42 / 147

125 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) Algorithmische Komplexität Gradientenabstieg 42 / 147

126 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) β x (k 1) x Algorithmische Komplexität Gradientenabstieg 42 / 147

127 Lineare Konvergenzgeschwindigkeit! Die Funktion f : K R sei stark konvex mit Parameter mindestens m. Wenn f L-glatt ist, dann gilt für β = L m 2 L+m und η := L+m x (k) x β k x (0) x. (x (k) ist der kte von Gradientenabstieg berechnete Vektor.) = Lineare Konvergenzgeschwindigkeit :-)) Wir wissen: ψ(x) = x η f (x) ist kontrahierend mit Faktor β. Sei x das globale Minimum. Wegen f (x ) = 0 folgt ( ) ( ) x (k) x = x (k 1) η f (x (k 1) ) x η f (x ) = ψ(x (k 1) ) ψ(x ) β x (k 1) x β k x (0) x. Algorithmische Komplexität Gradientenabstieg 42 / 147