Optimierung I. Wintersemester 2008/09

Transkript

1 Optimierung I Wintersemester 2008/09 Literatur: C. Geiger, C. Kanzow: Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben, Springer, 1999 Page 1 of 111

2 Inhalt Einleitung (Begriffsbildung, Beispiele) ng Konvergenzraten Quasi Newton Verfahren CG- Verfahren Trust Region Verfahren Page 2 of 111

3 1. Einleitung: Begriffsbildung und Beispiele Auswahl der besten aus einer Vielzahl vom möglichen Entscheidungen. Optimierung (optimization, programming) Zulässigkeitsbereich (feasible set): Menge der möglichen Entscheidungen X Zielfunktion (cost function, objective): Bewertung jeder möglichen Entscheidung f : X R (Fall mehrerer konkurrierender Zielfunktionen f : X R k, k 2: Vektoroptimierung, multicriteria optimization) allgemeines Optimierungsproblem (k = 1): kurz: Gegeben: Menge X, Funktion f : X R Gesucht: x X so dass für alle x X : f(x ) f(x) min f(x) u.d.n. x X (Behandlung von Maximierungsproblemen durch f f.) Page 3 of 111

4 Nebenbedingungen X X, X (un)endlichdim. Raum (un)endlichdimensionale Opt. im weiteren: X = R n : X = R n... freie (unrestringierte) Optimierung X R n... restringierte Optimierung (Opt. mit Nebenbedingungen) (weitgehend) allg. Form der Nebenbedingungen in R n : X = X 1 X 2 X 3 X 1 = {x R n : c i (x) = 0, i I 1 }... Gleichungsrestriktionen X 2 = {x R n : c i (x) 0, i I 2 }... Ungleichungsrestriktionen X 3 = {x R n : x i Z, i I 3 }... Ganzzahligkeitsrestriktionen I 1 {1,... n}, I 2 N (falls card(i 2 ) =... semi-infinite Optimierung), I 3 {1,... n} (falls I 3... gemischt-ganzzahlige Opt.), c i : R n R, i {1,... n} card(x) <... diskrete Optimierung, sonst stetige Optimierung Page 4 of 111

5 Klassifizierung stetiger Optimierungsprobleme Klasse Zielfunktion f Restriktionen c i Lineare Optimierung linear linear Quadratische Optimierung quadratisch linear Nichtlin.Opt. mit lin. Restr. nichtlinear linear Nichtlin.Opt. mit nichtlin. Restr. nichtlinear nichtlinear Eine Funktion f : R n R heißt linear f(x) = g T x + f 0 g R n, f 0 R quadratisch f(x) = x T Gx + g T x + f 0 G R n n, g R n, f 0 R nichtlinear sonst f oder c i nicht differenzierbar... nichtdifferenzierbare (nonsmooth) Optimierung Optimierung I: freie nichtlineare Optimierung Optimierung II: restringierte Optimierung... weitere Spezialvorlesungen Page 5 of 111

6 Beispiele Optimierung eines Speicherkraftwerks: Unendlichdimensionale Optimierung (Kontrollproblem) Approximation einer Funktion durch endlichdim. Ansatz: semi-infinite Opt. Routenplanung: diskrete Optimierung Wählerstromanalyse: lineare Optimierung (lineares Ausgleichsproblem mit NB) Page 6 of 111

7 Lösungsbegriffe Definition 1. Sei f : X R mit X R n. Ein Punkt x X heißt (i) (globales) Minimum von f (auf X) wenn gilt x X : f(x ) f(x) (ii) striktes globales Minimum von f (auf (X) wenn gilt x X, x x : f(x ) < f(x) (iii) lokales Minimum von f (auf (X) wenn gilt U Umgebung von x : x U : f(x ) f(x) (iv) striktes lokales Minimum von f (auf (X) wenn gilt U Umgebung von x : x U, x x : f(x ) < f(x) Page 7 of 111

8 x striktes globales Minimum x globales Minimum x striktes lokales Minimum x lokales Minimum x globales Minimum x lokales Minimum x striktes globales Minimum x striktes lokales Minimum Definition 2. Sei X R n offen und f : X R stetig differenzierbar. Ein Punkt x X heißt stationärer Punkt wenn f(x ) = 0 d.h., i {1,..., n} f x i (x ) = 0 x lokales Minimum x stationärer Punkt (siehe nächster Abschnitt) Veranschaulichung in 1-d:,,Kurvendiskussion ; in 2-d: Niveaulinien Page 8 of 111

9 Optimalitätskriterien Kriterium erster Ordnung ( f... Gradient von f): Satz 1.* Sei X R n offen und f : X R stetig differenzierbar. ( U Umgebung von x : x U : f(x ) f(x)) f(x ) = 0 i.e. Jedes lokale Minimum ist stationärer Punkt. Achtung: die Implikation gilt nicht wenn x X. Die Umkehrung des Satzes gilt nicht (lokale Maxima, Sattelpunkte) Notwendige Bedingung zweiter Ordnung ( 2 f... Hessematrix v. f): Satz 2.* Sei X R n offen, f : X R zweimal st. diff.bar. x lokales Minimum 2 f(x ) positiv semidefinit. Hinreichende Bedingung zweiter Ordnung: Satz 3.* Sei X R n offen, f : X R zweimal st. diff.bar. f(x ) = 0 und 2 f(x ) positiv definit x striktes lokales Minimum Page 9 of 111

10 2. Definition 3.. X R n konvex : x, y X λ (0, 1) : λx + (1 λ)y X Definition 4. X R n konvex,f : X R. (a) f konvex : x, y X λ (0, 1) : f(λx + (1 λ)y) λf(x) + (1 λ)f(y); (b) f strikt konvex : x y X λ (0, 1) : f(λx + (1 λ)y) < λf(x) + (1 λ)f(y); (c) f gleichmäßig konvex : µ > 0 x, y X λ (0, 1) : f(λx + (1 λ)y) λf(x) + (1 λ)f(y) µλ(1 λ) x y 2 ; Satz 4. X R n offen und konvex, f : X R stet.diffb. (a) f konvex x, y X : f(x) f(y) f(y) T (x y); (b) f str. konv. x y X : f(x) f(y) > f(y) T (x y); (c) f glm. konv. µ > 0 x, y X : f(x) f(y) f(y) T (x y) + µ x y 2 ; Page 10 of 111

11 Monotonie und Definition 5. X R n, F : X R n. (a) F monoton : x, y X : (x y) T (F (x) F (y)) 0; (b) F strikt monoton : x y X : (x y) T (F (x) F (y)) > 0; (a) F gleichmäßig monoton : µ > 0 x, y X : (x y) T (F (x) F (y)) µ x y 2 ; Satz 5. X R n offen und konvex, f : X R stet.diffb. f (strikt/gleichmäßig) konvex f (strikt/gleichmäßig) monoton Satz 6. X R n offen und konvex, f : X R zweimal stet.diffb. (a) x X : 2 f pos.semidef. (b) x X : 2 f pos.def. (c) 2 f glm. pos.def. f konvex; f str. konvex; f glm. konvex; 2 f glm. pos.def. : µ > 0 x X, d R n : d T 2 f(x)d µ d 2 Page 11 of 111

12 Optimierung mit konvexer Zielfunktion ( ) min f(x) u.d.n. x X Satz 7.* X R n konvex, f : R n R stet.diffb. (a) f konvex auf X Die Lösungsmenge von ( ) ist konvex; (b) f str. konvex auf X Es gibt höchstens eine Lösung von ( ). } f glm. konvex auf X (c) Es gibt genau eine Lsg von ( ). X, X abgeschlossen Korollar 1. f : R n R stet.diffb., x 0 R n, L(x 0 ) konvex, f glm. konvex auf L(x 0 ), x das (s.o.) globale Minimum von f. Dann existiert µ > 0 sodass x L(x 0 ) : f(x) f(x ) + µ x x 2 Lemma 1. f : R n R stet.diffb., x 0 R n, L(x 0 ) := {x R n : f(x) f(x 0 )} konvex, f glm. konvex auf L(x 0 ). Dann ist L(x 0 ) kompakt. Page 12 of 111

13 Satz 8.* f : R n R stet.diffb. und konvex, x stationärer Pkt. v. f x glob. Min von f. Jeder stat. Pkt. einer konvexen Funktion ist schon glob. Min. Definition 6. X R n offen, f : R n R stet.diffb. f pseudokonvex : x, y X : ( f(y) T (x y) 0 f(x) f(y). Offenbar gilt: Jeder stat. Punkt einer pseudokonvexen Funktion ist glob. Min. Lemma 2. Sei X R n offen, f : X R zweimal st. diff.bar. f(x ) = 0 und 2 f(x ) pos.def. ( ρ > 0 : f Bρ (x ) glm. konvex) Lokal um eine Minimum das die hinreichenden Bedingungen 2.Ordnung erfüllt, ist die Zielfunktion gleichmäßig konvex Page 13 of 111

14 3. von nun an X = R n (unrestringierte Optimierung) Definition 7. Seien f : R n R, x R n. Ein Vektor d R n heißt Abstiegsrichtung im Punkt x : t > 0 t (0, t) : f(x + td) < f(x) Lemma 3.* Seien f : R n R stetig diffbar, x R n, d R n. Dann gilt: f(x) T d < 0 d Abstiegsrichtung. Wenn x noch kein stationärer Punkt ist, ist z.b. d = f(x) oder allg. d = B f(x) mit B pos. def. Abstiegsrichtung. Definition 8. Sei x k Folge. eine durch obigen Abstiegsalgoritmus erzeugte (a) Winkelbedingung : c > 0 k N : f(xk ) T d k f(x k ) d k c Schrittweitensteuer Page 14 of 111 (b) Zoutendijk-Bedingung : ( 2 f(x k ) T d k k=1 f(x k ) d ) =. k

15 Allgemeiner Liniensuchalgoritmus: Wähle x 0 R n For k = 0, 1, 2... (bis Abbruchkriterium erfüllt) Bestimme eine Abstiegsrichtung d k von f in x k. Bestimme eine Schrittweite t k > 0 mit f(x k + t k d k ) < f(x k ). Setze x k+1 = x k + t k d k. Wahl von t k... Schrittweitenstrategie T : R n R n P (R + ), (x, d) T (x, d) R +. T wohldefiniert (x, d) mit d Abstiegsrichtung von f in x : T (x, d). Definition 9. Sei f : R n R, T wohldefiniert. T effizient : θ x R n, d R n Abstr. t T (x, d) : f(x + td) f(x) θ ( ) 2 f(x) T d d Page 15 of 111

16 Zwei allgemeine Konvergenzaussagen Satz 9.* Seien f : R n R stetig differenzierbar und auf L(x 0 ) beschränkt und (x k ) k N eine durch obigen Algoritmus erzeugte Folge sodass die Suchrichtungen d k die Winkelbedingung erfüllen; die Schrittweiten t k effizient sind. Dann ist jeder Häufungspunkt von (x k ) k N stationärer Punkt von f. Satz 10. Seien f : R n R stetig differenzierbar, die Levelmenge L(x 0 ) = {x R n : f(x) f(x 0 )} konvex, f gleichmäßig konvex auf L(x 0 ) und (x k ) k N eine durch obigen Algoritmus erzeugte Folge sodass die Suchrichtungen d k die Zoutendijk-Bedingung erfüllen; die Schrittweiten t k effizient sind. Dann konvergiert die Folge (x k ) k N gegen das eindeutig bestimmte globale Minimum von f. Page 16 of 111

17 4. ng Definition 10. Sei f : R n R, σ (0, 1 2 ), ρ (σ, 1), β (0, 1) Armijo-Goldstein-Regel: T (x, d) := {t > 0 : f(x + td) f(x) + σt f(x) T d Wolfe-Powell-Regel: f(x + td) f(x) + (1 σ)t f(x) T d} T (x, d) := {t > 0 : f(x + td) f(x) + σt f(x) T d f(x + td) T d > ρ f(x) T d} Armijo-Regel mit Aufweitung: T (x, d) := {t} = max{β l : l Z f(x+td) f(x)+σt f(x) T d} Page 17 of 111

18 Satz 11. Sei f : R n R stetig diffbar, x 0 R n, dann gilt (a) Ist f nach unten beschränkt, dann sind die drei genannten Schrittweitenstrategien (Armijo-Goldstein, Wolfe-Powell, Armijo mit Aufweitung) wohldefiniert. (b) Ist zusätzlich der Gradient f Lipschitz-stetig auf L(x 0 ) dann sind die drei genannten Schrittweitenstrategien auf L(x 0 ) effizient. Korollar 2. Seien f : R n R stetig differenzierbar und auf L(x 0 ) beschränkt und (x k ) k N eine durch den Liniensuchalgoritmus erzeugte Folge sodass die Suchrichtungen d k die Winkelbedingung erfüllen; alle Schrittweiten t k nach der Armijo-Goldstein-Regel oder alle Schrittweiten t k nach der Wolfe-Powell-Regel oder alle Schrittweiten t k nach der Armijo-Regel mit Aufweitung gewählt sind. Dann ist jeder Häufungspunkt von (x k ) k N stationärer Punkt von f. Page 18 of 111

19 Berechnung einer Wolfe-Powell-Schrittweite geg.: x, d R n, mit f(x) T d < 0. finde t sodass φ(t) = f(x + td), ψ(t) = φ(t) φ(0) σtφ (0) ψ(t ) 0 φ (t ) ρφ (0) Lemma 4. Sei 0 < σ < ρ, φ stetig diffbar, φ (0) < 0, ψ(t) := φ(t) φ(0) σtφ (0), t 0, a < b ψ(a) 0 ψ(b) 0 ψ (a) < 0 ( ) t > 0 : ψ( t) < 0 ψ ( t) = 0 ɛ > 0 ( t ɛ, t + ɛ) : ψ(t) 0 φ (t) ρφ (0) Page 19 of 111

20 Algoritmus Phase A: (A.0) Wähle t 0 > 0, γ > 1, setze i = 0. (A.1) Falls ψ(t i ) 0: Phase B: setze a = 0, b = t i, goto (B.0) Falls ψ(t i ) < 0 φ (t i ) ρφ (0): setze t = t i, STOP1 Falls ψ(t i ) < 0 φ (t i ) < ρφ (0): setze t i+1 = γt i, i = i + 1, goto (A.1) (B.0) Wähle τ 1, τ 2 (0, 1 2 ), setze j = 0, [a 0, b 0 ] := [a, b]. (B.1) Wähle t j [a j + τ 1 (b j a j ), b j τ 2 (b j a j )]. (B.2) Falls ψ(t j ) 0: Falls ψ(t j ) < 0 φ (t j ) ρφ (0): a j+1 := a j, b j+1 := t j, j := j + 1, goto (B.1) setze t = t j, STOP2 Falls ψ(t j ) < 0 φ (t j ) < ρφ (0): setze a j+1 = t j, b j+1 = b j, j = j + 1, goto (B.1) Page 20 of 111

21 Satz 12. Sei f : R n R stetig diffbar und nach unten beschränkt, σ (0, 1 2 ), ρ (σ, 1). Dann bricht der Algoritmus nach endlich vielen Schritten bei STOP1 or STOP2 mit einer Wolfe-Powell-Schrittweite t ab. Page 21 of 111

22 5. Motivation: Winkelbedingung: ist erfüllt mit c = 1 wenn c (0, 1] k N : f(xk ) T d k f(x k ) d k c d k = f(x k ) Gradient = Richtung des steilsten Abstiegs d k = f(x k ) + Armijo-Goldstein oder Wolfe Powell oder Armijo mit Aufweitung ( ) globale Konvergenz im Sinne von: Jeder Häufungspunkt von (x k ) k N ist stationärer Punkt von f. Es genügt sogar die Armijo-Regel ohne Aufweitung (einfach zu implementieren): Schrittweitensteuer Page 22 of 111

23 Algoritmus: k = 0: Wähle x 0 R n, σ (0, 1), β (0, 1), ε 0 While f(x k ) > ε do d k = f(x k ). t k = 1. While f(x k + t k d k ) > f(x k ) + σt k f(x k ) T d k do t k = βt k x k+1 = x k + t k d k, k = k + 1 Lemma 5. f : R n R stetig diffbar, x, d R n, (x k ) k N, (d k ) k N R n, (t k ) k N R + \ {0, }, x k x, d k d,t k 0 für k. Dann gilt f(x k + t k d k ) f(x k ) lim = f(x) T d. k t k Satz 13.* f : R n R stetig diffbar, dann gilt für obigen Algoritmus: Jeder Häufungspunkt von (x k ) k N ist stationärer Punkt von f. Page 23 of 111

24 Konvergenz bei quadratischer Zielfunktion f(x) = f q (x) = 1 2 xt Qx + c T x + γ Q R n n symmetrisch positiv definit, c R n, γ R. d k... steilster Abstieg: d k = f(x k ) = (Qx k + c) =: g k t k... exakte Liniensuche: t k = so dass f(x k + t k d k ) = min t>0 f(x k + td k ) t k = (Qxk +c) T d k d kt Qd k = gkt g k g kt Qg k Algoritmus: k = 0: Wähle x 0 R n, σ (0, 1), β (0, 1), ε 0, g 0 = Qx k + c While g k > ε do x k+1 = x k gkt g k g kt Qg k gk, g k+1 = Qx k+1 + c, k = k + 1. Anmerkung: dieser Algoritmus kann auch zur Lösung des linearen Gleichungssytems Qx + c verwendet werden (vgl. CG) Page 24 of 111

25 Lemma 6. (Kantorovich- Ungleichung) Q R n n symm.pos.def., λ min / max := min / max{λ R : λew v. Q}. Dann gilt: x R n, x 0 : (x T x) 2 (x T Qx)(x T (Q 1 x) 4λ minλ max (λ min + λ max ) 2 Satz 14. Für obigen Algoritmus gilt: x k konvergiert gegen das eindeutige globale Minimum x von f q und ( ) 2 f q (x k+1 ) f q (x λmax λ min ) (f q (x k ) f q (x )) λ max + λ min und mit κ = λ max λ min x k+1 x κ ( ) k κ 1 x 0 x κ + 1 Page 25 of 111

26 6. Konvergenzraten und Charakterisierung (a k ) k N, (b k ) k N R a k = O(b k ) : C > 0, K N : k K : a k Cb k a k = o(b k ) : (c k ) k N R + NF, K N : k K : a k c k b k Definition 11. (x k ) k N R n, x R n x k konvergiert Q-linear gegen x : c (0, 1), K N : k K : x k+1 x c x k x x k konvergiert Q-superlinear gegen x : (c k ) k N R + NF, K N : k K : x k+1 x c k x k x x k konvergiert Q-quadratisch gegen x : x k x C > 0, K N : k K : x k+1 x C x k x 2 x k x = q k... Q-linear Beispiele: q (0, 1): x k x = q k2... Q-superlinear x k x = q 2k... Q-quadratisch Page 26 of 111

27 Definition im Fall k N : x k konvergiert Q-linear gegen x : x k x 0: (x k ) k N R n, x R n lim sup k x k+1 x x k x < 1 x k+1 x k konvergiert Q-superlinear gegen x x k : lim sup 0 k x k x x k+1 x k konvergiert Q-quadratisch gegen x x : lim sup k x k x 2 < x k x { R-lineare Konvergenz k < 1 : lim sup x R-superlineare Konvergenz k x k = 0 Q... quotient, R... root Q-lineare Konvergenz ist normabhängig!! Page 27 of 111

28 Hilfsresultate zur Charakterisierung superlin. Konv. f : R n R, f C 2 (R n ), (x k ) k N R n, x k x. Lemma 7. f(x k ) f(x ) 2 f(x k )(x k x ) = o( x k x ) 2 f lok.lip. f(x k ) f(x ) 2 f(x k )(x k x ) = O( x k x 2 ) Lemma 8. 2 f(x ) regulär ɛ > 0, C > 0 x B ɛ (x ) : 2 f(x) regulär und 2 f(x) 1 C. Lemma 9. 2 f(x ) regulär und f(x ) = 0 K N, β > 0 k K : f(x k ) β x k x Lemma f(x k + τ(x k+1 x k )) 2 f(x ) dτ 0 für k 2 f(x + τ(x k x )) 2 f(x ) dτ 0 für k Page 28 of 111

29 Charakterisierungssätze für superlineare Konvergenz f : R n R, f C 2 (R n ), (x k ) k N R n, x k x. Lemma 11. x k konv. superlin. gg. x, k N : x k x x k+1 x k lim k x k x = 1 Satz 15.* 2 f(x ) regulär, k N : x k x, dann sind äquivalent (a) x k x superlinear und f(x ) = 0 (b) f(x k ) + 2 f(x k )(x k+1 x k ) = o( x k+1 x k ) (c) f(x k ) + 2 f(x )(x k+1 x k ) = o( x k+1 x k ) Page 29 of 111

30 Korollar 3. 2 f(x ) regulär, k N : x k x, (H k ) k N R n n, k N : H k regulär, dann sind äquivalent x k+1 = x k H 1 k f(xk ), (a) x k x superlinear und f(x ) = 0 (b) (Hk 2 f(x k ))(x k+1 x k ) = o( x k+1 x k ) (c) (H k 2 f(x ))(x k+1 x k ) = o( x k+1 x k ) Satz f(x ) regulär, 2 f lok.lip., k N : x k x, dann sind äquivalent (a) x k x quadratisch und f(x ) = 0 (b) f(x k ) + 2 f(x k )(x k+1 x k ) = O( x k+1 x k 2 ) (c) f(x k ) + 2 f(x )(x k+1 x k ) = O( x k+1 x k 2 ) Page 30 of 111

31 7. Motivation: Charakterisierung der superlinearen/quadratischen Konvergenz: f(x k ) + 2 f(x k )(x k+1 x k ) = o( x k+1 x k ) / O( x k+1 x k 2 ) sukzessive Lösung quadratischer Näherungsprobleme min q k (x) := f(x k ) + f(x k ) T (x x k ) (x xk ) T 2 f(x k )(x x k ) Falls 2 f(x k ) pos def. (z.b. hinr. Bed. 2.Ord. in x und x k nahe bei x ) globales Min gegeben durch stationären Punkt x k+1 = x k + d k mit 2 f(x k ) T d k = f(x k ) Page 31 of 111

32 Lokale Konvergenz Algoritmus: (lokales ) k = 0: Wähle x 0 R n, ε 0 While f(x k ) > ε do d k Lösung von 2 f(x k )d k = f(x k ) (NG). x k+1 = x k + d k, k = k + 1 Satz 17.*. f : R n R, f C 2 (R n ), x R n, f(x ) = 0, 2 f(x ) regulär. Dann existiert ein ρ > 0 sodass für alle x 0 B ρ (x ) (a) x k durch das lokale NV wohldefiniert und x k x für k. (b) superlineare Konvergenz (c) falls 2 f lokal Lipschitz: quadratische Konvergenz Page 32 of 111

33 Globale Konvergenz Algoritmus:(globalisiertes ) k = 0: Wähle x 0 R n, ρ > 0, p > 2, σ (0, 1 2 ), β (0, 1), ε 0 While f(x k ) > ε do d k Lösung von 2 f(x k ) T d k = f(x k ) (NG). Falls (NG) unlösbar oder f(x k ) T d k > ρ d k p : d k = f(x k ). t k = 1. While f(x k + t k d k ) > f(x k ) + σt k f(x k ) T d k do t k = βt k x k+1 = x k + t k d k, k = k + 1 Satz 18.. f : R n R, f C 2 (R n ), (x k ) k N durch das globalisierte NV erzeugt. Dann ist jeder Häufungspunkt von (x k ) k N stationärer Punkt von f. Page 33 of 111

34 Lemma 12. x isolierter Häufungspunkt einer Folge (x k ) k N und für alle gegen x konvergenten Teilfolgen (x k l ) k N von (x k ) k N gelte x kl+1 x k l 0 für l. Dann konvergiert die ganze Folge (x k ) k N gegen x. Satz 19. f : R n R, f C 2 (R n ), (x k ) k N durch das globalisierte NV erzeugt,x isolierter HP von (x k ) k N. Dann ist x stationärer Punkt von f und die ganze Folge (x k ) k N konvergiert gegen x. Page 34 of 111

35 Lokal schnelle Konvergenz des globalisierten NV Lemma 13. f : R n R, f C 2 (R n ), 2 f(x ) pos def. ɛ > 0, α > 0 x B ɛ (x ), d R n : α d 2 d T 2 f(x)d Lemma 14. σ (0, 1 2 ), f : Rn R, f C 2 (R n ), f(x ) = 0, 2 f(x ) pos def. (x k ) k N R n, x k x, d k := 2 f(x k ) 1 f(x k ) Dann gilt: K N : k K : f(x k + d k ) f(x k ) + σ f(x k ) T d k Satz 20.* f : R n R, f C 2 (R n ), (x k ) k N durch das glob. NV erzeugt, x HP von (x k ) k N, 2 f(x ) pos def., dann gilt: (a) x k x und x ist striktes lokales Minimum. (b) K N : k K : d k = 2 f(x k ) 1 f(x k ). (c) K N : k K : t k = 1. (d) superlineare Konvergenz (e) falls 2 f lokal Lipschitz: quadratische Konvergenz Page 35 of 111

36 Lösung der Newtongleichung 2 f(x k ) T d k = f(x k ) (NG) Systemmatrix 2 f(x k ) symmetrisch direkte oder iterative Verfahren, die die Symmetrie berücksichtigen. Systemmatrix 2 f(x k ) pos. def. für x k nahe bei x mit 2 f(x ) pos def. Choleski (direkt) CG (iterativ); Vorkonditionierung affine Invarianz des NV (Übungen) Falls 2 f(x k ) nicht pos.def (x k noch zu weit entfernt von x ): LDL T Zerlegung GMRES Levenberg-Marquardt: pos.def. Ersatz-Sys.Mat. 2 f(x k ) + µ k I mod. Choleski: pos.def. Ersatz-Sys.Mat. 2 f(x k ) + diag(e k ) Page 36 of 111

37 Algoritmus: (Modifizierte Choleskizerlegung) gegeben: A = (a ij ) i,j {1,...n} R n n symmetrisch, µ > 0 For j = 1 : n l jj = max{µ, a jj j 1 m=1 l2 jm } for i = j + 1 : n l ij = (a ij j 1 m=1 l jml im )/l jj endfor endfor Page 37 of 111

38 Inexaktes Motivation: Kriterien für superlineare/quadratische Konvergenz: f(x k ) + 2 f(x k )(x k+1 x k ) = o( x k+1 x k ) / O( x k+1 x k 2 ) Es genügt, die Newtongleichung nur bis zu einer gewissen Genauigkeit zu lösen Algoritmus: (lokales inexaktes ) k = 0: Wähle x 0 R n, ε 0 While f(x k ) > ε do Wähle η k > 0 berechne d k so dass f(x k ) + 2 f(x k ) T d k η k f(x k ). x k+1 = x k + d k, k = k + 1 Page 38 of 111

39 Lemma 15. Sei A R n n regulär. Dann ist durch eine Norm definiert. v A := Av Satz 21.. f : R n R, f C 2 (R n ), x R n, f(x ) = 0, 2 f(x ) regulär. Dann existiert ein ρ > 0 sodass für alle x 0 B ρ (x ) (a) η k η, η (0, 1) x k durch das lokale inexakte NV wohldefiniert und x k x linear bzgl. 2 f(x ). (b) η k 0 mit k superlineare Konvergenz (c) η k = O( f(x k ) ), 2 f lokal Lipschitz quadratische Konvergenz Page 39 of 111

40 Algoritmus:(globalisiertes inexaktes ) k = 0: Wähle x 0 R n, ρ > 0, p > 2, σ (0, 1 2 ), β (0, 1), ε 0 While f(x k ) > ε do Wähle η k > 0 berechne d k so dass f(x k ) + 2 f(x k ) T d k η k f(x k ) Falls dies nicht möglich oder f(x k ) T d k > ρ d k p : d k = f(x k ). t k = 1. While f(x k + t k d k ) > f(x k ) + σt k f(x k ) T d k do t k = βt k x k+1 = x k + t k d k, k = k + 1 Satz 22. (ohne Beweis) Die Aussagen von Satz 20 bleiben für das inexakte glob. NV anstelle des glob. NV gültig, wenn (a), (b) η k 0, mit k (Wohldefiniertheit, superlin. Konv.) (c) η k = O( f(x k ) ), (quadrat. Konv., falls 2 f lok Lipsch.) Page 40 of 111

41 8. Quasi Newton Verfahren Spare Rechenaufwand für die Berechnung der Hessematrix bzw. die Lösung der Newtongleichung Ersatzgleichung x k+1 = x k H 1 k f(xk ), Motivation I: Kriterien für superlineare Konvergenz: (H k 2 f(x k ))(x k+1 x k ) = o( x k+1 x k ) ( ) mit H k H k+1 Es genügt, die Hessematrix in gewisse Richtungen zu approximieren Sekantenbedingung (Quasi-Newton-Gleichung) Lemma 16. f : R n R, f C 2 (R n ), (x k ) k N R n, x k x. ( k N : H k+1 (x k+1 x k ) = f(x k+1 ) f(x k )) ( ) mit H k H k+1 Motivation II: Rang-1 oder Rang-2 Korrekturen regulärer Matritzen sind mit wenig Aufwand auszuwerten und zu invertieren Sherman-Morrison-Formel Lemma 17. A R n n regulär, v, w R n, 1 + w T A 1 v 0. A + vw T regulär und (A + vw T ) 1 = A w T A 1 v A 1 vw T A 1 Page 41 of 111

42 Herleitung einiger wichtiger Quasi-Newton Formeln Lemma 18. Lemma 19. w R n : w = max x =1 wt x v, w R n : vw T = v w Definition 12. (und Lemma): v 1,..., v n ONB, dann gilt n n A R n n : A F := A 2 ij tr(a = T A) = n Av k 2 i=1 j=1 Satz 23.* Broyden-Formel: H R n n, s, y R n, s 0. Dann ist die eindeutige Lösung des Problems gegeben durch min H + R n n H + H F u.d.n. H + s = y H Broyden + = H + 1 (y s T Hs)sT s k=1 Page 42 of 111

43 Satz 24.* PSB (Powell symmetric Broyden)-Formel: H R n n symmetrisch, s, y R n, s 0. Dann ist die eindeutige Lösung des Problems min H + H F u.d.n. H + s = y H + symmetrisch H + R n n gegeben durch H P SB + = H + 1 s T s ((y Hs)sT + s(y Hs) T ) (y Hs)T s (s T s) 2 ss T Korollar 4.*. H R n n symmetrisch, s, y R n, s 0, W R n n symm. pos.def., s := (W 2 s) Dann ist die eindeutige Lösung des Problems min W (H + H)W F u.d.n. H + s = y H + symmetrisch H + R n n gegeben durch H + = H + 1 s T s ((y Hs) st + s(y Hs) T ) (y Hs)T s s s T ( s T s) 2 Page 43 of 111

44 Lemma 20. s, y R n, s 0 : ( Q R n n symm.pos.def : Qs = y) s T y > 0 Korollar 5.* DFP (Davidon-Fletcher-Powell) H R n n symm. pos.def, s, y R n, y T s > 0, Q symm. pos.def. mit Qs = y, W := Q 1/2, s := Qs = y Dann ist die eindeutige Lösung des Problems min W (H + H)W F u.d.n. H + s = y H + symmetrisch H + R n n gegeben durch H DF P + = H + 1 y T s ((y Hs)yT + y(y Hs) T ) (y Hs)T s (y T s) 2 yy T M := H 1, M + := H 1 + M DF P + = M + 1 y T s sst 1 y T My MyyT M Page 44 of 111

45 Vertauschung y s, H M: Korollar 6.* BFGS (Broyden-Fletcher-Goldfarb-Shanno) M R n n symm. pos.def, s, y R n, y T s > 0, Q symm. pos.def. mit Qy = s, W := Q, s := Qy = s Dann ist die eindeutige Lösung des Problems min W (M + M)W F u.d.n. M + y = s M + symmetrisch M + R n n gegeben durch BF GS M+ = M + 1 y T s ((s My)sT + s(s My) T ) (s My)T y ss T (y T s) 2 BF GS H+ = H + 1 y T s yyt 1 s T Hs HssT H Broyden-Familie: H + (λ) = H + 1 y T s yyt 1 s T Hs HssT H + λvv T wobei v = ( s T Hs 1 y T s y 1 s T Hs Hs ), λ > 0. Page 45 of 111

46 Lokales PSB-Verfahren Algoritmus: (lokales PSB-Verfahren) k = 0: Wähle x 0 R n, H 0 R n n symm. pos. def., ε 0 While f(x k ) > ε do d k Lösung von H k d k = f(x k ) (QNG). x k+1 = x k + d k, s k = x k+1 x k, y k = f(x k+1 ) f(x k ) H k+1 = H k + 1 s kt s ((yk H k s k )s kt + s k (y k H k s k ) T ) + (yk H k s k ) T s k s k s kt k (s kt s k ) 2 k = k + 1 Satz 25.. f C 2 (R n ), 2 f lok. Lip., x R n, f(x ) = 0, 2 f(x ) symm.pos.def. Dann existierten ρ, δ > 0 sodass für alle x 0 B ρ (x ) und für alle H 0 symm. pos. def. mit H 0 2 f(x ) F δ (a) x k wohldefiniert und x k x Q-linear für k. (b) superlineare Konvergenz Page 46 of 111

47 Hilfsresultate zum lokalen Konvergenzbeweis für PSB Lemma 21. H, A R n n symm., s, y R n, s 0. Dann gilt H P SB + A = P T (H A)P + (y As)sT + s(y As) T P s T s mit P = I sst s T s Lemma 22. Für alle u, v R n gilt: uv T F = u v Lemma 23. Für alle s 0 R n mit n > 1 gilt: I sst = 1. Lemma 24. Für alle A, B R n n gilt: AB F min{ A F B, A B F } Lemma 25. Für alle E R n n, s 0 R n gilt: ( { E I sst F Es E s s) T F (1 1 2 θ2 ) mit θ = E F s falls E 0 0 falls E = 0 s T s Page 47 of 111

48 Lemma 26. H, A R n n symm., s k, y k R n, s k 0. Dann gilt H+ P SB A F H A F (1 1 y As 2 θ2 ) + 2 s mit θ = { (H A)s H A F s f. H A 0 f. H = A Lemma 27. f C 2 (R n ), 2 f lok. Lip., x R n. Dann existieren L > 0, ɛ > 0 sodass für alle x k, x k+1 B ɛ (x ) f(x k+1 ) f(x k ) 2 f(x )(x k+1 x k ) L 2 ( xk+1 x + x k x ) x k+1 x k Lemma 28. f C 2 (R n ), 2 f lok. Lip., x R n, H k, A := 2 f(x ) symm.pos.def. Dann gilt H k+1 A F H k A F + 2L max{ x k+1 x, x k x } Page 48 of 111

49 Lokales BFGS-Verfahren Algoritmus: (lokales BFGS-Verfahren) k = 0: Wähle x 0 R n, M 0 R n n symm. pos. def., ε 0 While f(x k ) > ε do d k = M k f(x k ). x k+1 = x k + d k, s k = x k+1 x k, y k = f(x k+1 ) f(x k ) M k+1 = M k + 1 y kt s ((sk M k y k )s kt + s k (s k M k y k ) T ) + (sk M k y k ) T y k s k s kt k (y kt s k ) 2 k = k + 1 Satz 26. (Beweis: siehe Geiger-Kanzow (14 Seiten, 9 Lemmas)). f C 2 (R n ), 2 f lok. Lip., x R n, f(x ) = 0, 2 f(x ) symm.pos.def. Dann existierten ρ, δ > 0 sodass für alle x 0 B ρ (x ) und für alle M 0 symm. pos. def. mit M 0 2 f(x ) 1 F δ (a) x k wohldefiniert und x k x Q-linear für k. (b) superlineare Konvergenz Page 49 of 111

50 Globalisiertes BFGS-Verfahren Algoritmus: (globalisiertes BFGS-Verfahren) k = 0: Wähle x 0 R n, M 0 R n n spd, σ (0, 1 2 ), ρ (σ, 1), ε 0 While f(x k ) > ε do d k = M k f(x k ). Bestimme t k so dass (Wolfe-Powell) f(x k + t k d k ) f(x k ) + σt k f(x k ) T d k f(x k + t k d k ) T d k > ρ f(x k ) T d k x k+1 = x k + t k d k, s k = x k+1 x k, y k = f(x k+1 ) f(x k ) M k+1 = M k + 1 y kt s ((sk M k y k )s kt + s k (s k M k y k ) T ) + (sk M k y k ) T y k s k s kt k (y kt s k ) 2 k = k + 1 Lemma 29. M R n n symm.pos.def., s, y R n, y T s > 0 BF GS M+ symm.pos.def. Lemma 30. M R n n symm.pos.def., d = M f, t erfüllt Wolfe-Powell-Kriterien, s = td, y = f(x + td) f(x) y T s > 0 Page 50 of 111

51 Satz 27. f C 1 (R n ) nach unten beschränkt. Dann gilt für das globalisierte BFGS-Verfahren: (a) k : y kt s k > 0 und k : M k symm.pos.def. (b) Das Verfahren ist wohldefiniert Page 51 of 111

52 Konvergenz des globalisierten BFGS-Verfahrens bei glm. konvexer Zielfunktion Lemma 31. u, v R n : det(i + uv T ) = 1 + u T v Lemma 32. H symm.pos.def., s, y R n, y T s > 0 Lemma 33. α 0,..., α k 0, a > 0 BF GS det(h+ ) = yt s s T Hs det(h) k α j (k + 1)a J k {0,... k} : ( j J k : α j 3a) card(j k ) 2 3 (k + 1) j=0 Satz 28. f C 2 (R n ), die Levelmenge L(x 0 ) = {x R n : f(x) f(x 0 )} konvex, f gleichmäßig konvex auf L(x 0 ), dann gilt für beiliebigen Startwert x 0 und eine beliebige symm.pos.def. Startmatrix M 0 : Das globalisierte BFGS-Verfahren ist wohldefiniert und x k x für k. Page 52 of 111

53 Limited-Memory-BFGS Lemma 34. BF GS M+ = V T MV + ρss T mit ρ = 1 y T s, V = I ρyst Korollar 7. Sei für j {0,..., k} M j+1 Formel definiert. Dann gilt M k+1 = V T k V T k 1 V T 0 M 0 V 0 V k 1 V k durch die BFGS update- +ρ 0 V T k V T k 1 V T 1 s 0 s 0T V 1 V k 1 V k. +ρ k 2 V T k V T k 1s k 2 s k 2T V k 1 V k +ρ k 1 V T k s k 1 s k 1T V k +ρ k s k s kt Page 53 of 111

54 Um Speicherplatz und Rechenaufwand zu sparen, fixiere m N und definiere (mit m ersetzt durch k + 1 falls k < m 1) M k+1 = V T k V T k 1 V T k m+1 M k 0 V k m+1 V k 1 V k +ρ k m+1 V T k V T k 1 V T k m+2s k m+1 s k m+1t V k m+2 V k 1 V k. +ρ k 2 V T k V T k 1s k 2 s k 2T V k 1 V k +ρ k 1 V T k s k 1 s k 1T V k +ρ k s k s kt Eine gängige Wahl von M k 0 ist M j 0 = ykt s k y k 2 I. Satz 29. (ohne Beweis) Satz 28 (globale Konvergenz des globalisierten BFGS für glm. konvexes f) bleibt gültig, wenn man M k+1 durch M k+1 ersetzt, und es Konstante c 1, c 2 gibt sodass tr(( M 0 k ) 1 ) c 1, det( M 0 k ) c 2 Page 54 of 111

55 Effiziente Berechung der Suchrichtung beim limited memory BFGS Algoritmus: (Berechung von p = M k+1 q) Gegeben: s j, y j R n, ρ j R, j = k m + 1,... k Setze q k+1 = q For i = k : 1 : k m + 1 α i = ρ i s it q i+1 q i = q i+1 α i y i Setze p k m+1 = M k 0 q k m+1 For i = k m + 1 : +1 : k β i = ρ i y it p i p i+1 = p i + (α i β i )s i Setze p = p k+1. Die Vektoren p i, q i und die Skalare β i können jeweils überschrieben werden. Page 55 of 111

56 9. CG für lineare Gleichungssysteme/ quadratische Optimierung A R n n symm.pos.def. Ax = b min ( 1 2 xt Ax b T x ) Lemma 35. d 0,..., d n 1 R n, d j 0 (d it Ad j = 0 für alle i, j {0,... n 1}, i j x k+1 = x k +t k d k mit t k = gkt d k d kt Ad, k gk = Ax k b (exakte Liniensuche) Dann gilt: k n : Ax k = b und g k+1t d j = 0 j {0,... k}. Page 56 of 111

57 Wahl der A-orthogonalen Suchrichtungen: Ansatz d l+1 = g l+1 + l βjd l j A-Orth. βj l = gl+1t Ad j = gl+1t (g j+1 g j ) =: β = g l 2 l f. j = l ( d jt Ad j t j d jt Ad j 0 f. j < l j 1 ) g l+1t g j = g l+1t β j 1 i d i d j L35 = 0, j = 0,... l,,konjugierte Gradienten i=0 { g l+1 2 Algoritmus: (CG für lin. Glsys./ quad. Opt) k = 0: Wähle x 0 R n, ε 0, setze g 0 = Ax 0 b, d 0 = g 0 While g k > ε do z k = Ad k. t k = g k 2 /d kt z k. x k+1 = x k + t k d k. g k+1 = g k + t k z k. β k = g k+1 2 / g k 2. d k+1 = g k+1 + β k d k. k = k + 1 j=0 Page 57 of 111

58 Satz 30. Sei x k nach obigem Algoritmus erzeugt. Dann gilt und k n : d kt Ad j = 0 g kt g j = 0 g kt d j = 0 g kt d k = g k 2 Ax k = b 0 j < k k Lemma 36. Es gelten folgende äquivalente Darstellungen für β l : β k = gk+1 2 g k 2 β k = gk+1t (g k+1 g k ) g k 2 ( Fletcher&Reeves) ( Polak&Ribière) β k = gk+1t (g k+1 g k ) (g k+1 g k ) T d k ( Hestenes&Stiefel) β k = gk+1 2 g kt d k ( Myers) Page 58 of 111

59 Satz 31. (ohne Beweis) x k x 2 ( ) k κ 1 κ x 0 x κ + 1 Algoritmus: (vorkond. CG für lin. Glsys./ quad. Opt) k = 0: Wähle x 0 R n, ε 0, B A 1, setze g 0 = Ax 0 b, d 0 = Bg 0 While g k > ε do z k = Ad k. t k = g kt Bg k /d kt z k. x k+1 = x k + t k d k. g k+1 = g k + t k z k. β k = g k+1t Bg k+1 /g kt Bg k. d k+1 = Bg k+1 + β k d k. k = k + 1 Page 59 of 111

60 Das Fletcher-Reeves Verfahren Algoritmus: (Fletcher-Reeves-CG mit strikter Wolfe-Powell-Schrittweite) k = 0: Wähle x 0 R n, ε 0, 0 < σ < ρ < 1/2 setze g 0 = f(x 0 ), d 0 = g 0 While g k > ε do Bestimme t k so dass (strikte Wolfe-Powell-Bed.) f(x k + t k d k ) f(x k ) + σt k g kt d k g k+1t d k < ρg kt d k für g k+1 = f(x k + t k d k ) x k+1 = x k + t k d k, βk F R = g k+1 2 / g k 2. d k+1 = g k+1 + βk F R d k. k = k + 1 Satz 32. f C 1 (R n ) und f nach unten beschränkt. Dann ist obiger Algoritmus wohldefiniert. Page 60 of 111

61 Satz 33. f C 1 (R n ), und f nach unten beschränkt, f Lipschitzstetig auf der Levelmenge L(x 0 ) = {x R n : f(x) f(x 0 )} Dann gilt für das Fletcher-Reeves-Verfahren mit strikter Wolfe-Powell- Schrittweite lim inf k f(x k ) = 0 Satz 34. f C 2 (R n ), die Levelmenge L(x 0 ) = {x R n : f(x) f(x 0 )} konvex, f gleichmäßig konvex auf L(x 0 ), dann gilt: Das Fletcher-Reeves-Verfahren mit strikter Wolfe-Powell-Schrittweite konvergiert gegen das eindeutig bestimmte Minimum: x k x für k. Page 61 of 111

62 Das Polak-Ribière Verfahren Algoritmus: (Polak-Ribière-CG mit Curry-Schrittweite) k = 0: Wähle x 0 R n, ε 0, setze g 0 = f(x 0 ), d 0 = g 0 While g k > ε do Bestimme t k so dass (Curry-Regel) t k = min{t > 0 : g k+1t d k = 0} für g k+1 = f(x k + t k d k ) x k+1 = x k + t k d k, βk P R = g k+1t (g k+1 g k )/ g k 2. d k+1 = g k+1 + βk P R d k. k = k + 1 Satz 35. f C 1 (R n ) und f nach unten beschränkt. Dann ist obiger Algoritmus wohldefiniert. Page 62 of 111

63 Lemma 37. (ohne Beweis, vgl. Satz 11) Sei f C 1 (R n ), f nach unten beschränkt, f Lipschitz auf L(x 0 ). Dann ist die Curry-Regel eine wohldefinierte effiziente Schrittweitenstrategie. Bemerkung zur Curry-Schrittweite: 1-d nichtlin Glng. Berechnung in i.a. vielen Schritten (z.b Bisektion). Näherung durch strenge Wolfe-Powell-Schrittweitenstrategie mit kleinem ρ. Satz 36. f C 1 (R n ), und f nach unten beschränkt, f Lipschitzstetig auf der Levelmenge L(x 0 ) = {x R n : f(x) f(x 0 )} Wenn das Polak-Ribière-Verfahren mit Curry-Schrittweite lim x k+1 x k = 0 erfüllt, dann gilt k lim inf k f(x k ) = 0. Satz 37. (ohne Beweis) f C 2 (R n ), die Levelmenge L(x 0 ) konvex, f gleichmäßig konvex auf L(x 0 ), dann gilt: Das Polak-Ribière-Verfahren mit Curry-Schrittweite konvergiert gegen das eindeutig bestimmte Minimum: x k x für k. Page 63 of 111

64 Vergleich Fletcher-Reeves Polak-Ribière Fletcher-Reeves: + Konvergenztheorie Polak-Ribière: Konvergenztheorie (Curry-Regel, Bed. lim k x k+1 x k = 0, Ggbsp. v. Powell) + numerische Effizienz in Anwendungen modifiziertes Polak-Ribière Verfahren nach Grippo und Lucidi Page 64 of 111

65 Das Hestenes-Stiefel Verfahren β k = gk+1t (g k+1 g k ) (g k+1 g k ) T d k Lemma 38. Bei gleichen Startwerten x 0 erzeugt das Hestenes-Stiefel Verfahren mit Curry-Schrittweite die gleiche Folge (x k ) wie das Polak-Ribière Verfahren mit Curry-Schrittweite. Lemma 39. (Beweis: Übungen) Bei gleichen Startwerten x 0 erzeugt das Hestenes-Stiefel Verfahren mit Curry-Schrittweite die gleiche Folge (x k ) wie das limited memory BFGS Verfahren mit m = 1 und Curry-Schrittweite. Das Myers-Verfahren β k = gk+1 2 g kt d k Lemma 40. Bei gleichen Startwerten x 0 erzeugt das Myers Verfahren mit Curry-Schrittweite die gleiche Folge (x k ) wie das Fletcher-Reeves Verfahren mit Curry-Schrittweite. Page 65 of 111

66 10. Trust-Region Verfahren Motivation: quadratische Approximation nach Taylor gilt nur in einem gewissen Bereich um die aktuelle Iterierte, der trust region. löse in jedem Schritt das restringierte quadratische Problem mit min q k (d) u.d.n. d k q k (d) = f(x k ) + f(x k ) T d dt H k d f(x k + d) und setze x k+1 = x k + d k. Vergleich zu bisherigem Zugang: löse in jedem Schritt unrestringiertes quadratisches Problem und mache Liniensuche. H k H k H k = 2 f(x k )... 2 f(x k )... Quasi- = I... Page 66 of 111

67 Trust-Region Teilproblem Die Lagrange-Funktion zu dem restringierten quadratischen Minimierungsproblem min q(d) = f + g T d dt Hd u.d.n. d (T RT P ) mit > 0, f R, g R n, H R n n symmetrisch ist L(d, λ) = f + g T d dt Hd + λ( d ) Ein KKT (Karush-Kuhn-Tucker) Punkt von (TRTP) ist ein Paar (d, λ ) R n R das (a) λ 0, d, λ ( d ) = 0 (b) (H + 2λ I)d = g erfüllt. λ heißt Lagrange-Multiplikator, die Gleichung λ ( d ) = 0 Komplementaritätsbedingung. Page 67 of 111

68 Lemma 41.. Seien (d, λ ), (d, λ ) zwei KKT-Punkte von (TRTP), mit λ = λ. Dann ist q(d ) = q(d ). Satz 38. (ohne Beweis) Die symmetrische Matrix H habe m verschiedene negative Eigenwerte. Dann hat (TRTP) höchstens 2m+2 KKT-Punkte mit verschiedenen Lagrangemuliplikatoren. (Sind alle Eigenwerte von H negativ, so kann die Schranke 2m + 2 durch 2m + 1 ersetzt werden.) Korollar 8. (ohne Beweis) Unter den Voraussetzungen des vorangegangenen Satzes gibt es höchsten 2m + 2 (2m + 1) verschiedene Zielfunktionswerte q(d) auf der Menge der KKT-Punkte. Page 68 of 111

69 Satz 39.* > 0, f R, g R n, H R n n symmetrisch. Dann ist d R n genau dann globales Minimum von (TRTP) wenn ein λ R existiert sodass folgende drei Bedingungen erfüllt sind (a) λ 0, d, λ ( d ) = 0 (b) (H + 2λ I)d = g (c) (H + 2λ I) positiv semidefinit Dieses λ ist eindeutig bestimmt. Korollar 9. Sei d R n globales Minimum von (TRTP) und λ R (eindeutig) so dass (a), (b), (c) in Satz 39 erfüllt sind. Dann gilt: (H+2λ I) positiv definit d R n eindeutiges glob. Min. von (TRTP). Korollar 10. Sei d R n globales Minimum von (TRTP). Dann sind äquivalent: (i) q(d ) = f. Page 69 of 111 (ii) g = 0 und H positiv semidefinit.

70 Satz 40. Sei (d, λ ) KKT-Punkt von (TRTP) sodass d nicht globales Minimum von (TRTP) ist. Dann gilt für das wie folgt definierte ˆd ˆd und q( ˆd) < q(d ): (a) Falls g T d > 0: ˆd := d d (b) Falls g T d 0: berechne z R n mit z T (H + 2λ I)z < 0 g T z 0 (b.i) Falls zus. d < ˆd := d + αz (b.ii) Falls zus. d = z T d 0 ˆd := d 2 zt d z 2 z (b.iii) Falls zus. d = z T d = 0 ˆd := d 2 2 (d + αz) 2 +α 2 z 2 wobei im Fall (b.i) α R die betragsgrößere der beiden Zahlen α 12 = zt d ± (z T d ) 2 + ( 2 d 2 ) z 2 z 2 und im Fall (b.iii) α R so dass ω(α) negativ (und möglichst klein) mit ( 2 ) 2 ω(α) = α 2 z 2 ( α 2 z T (H + 2λ I)z 2αg T z + g T d ). Page 70 of 111

71 Exakte Penalty-Funktion erweiterte Lagrange-Funktion, 0 < α < α max := (8 H +3)+5 g 2 : L(d, λ; α) = q(d) + 1 ( [ max {0, ( d 2 2 ) + α }] 2 [ α ] ) 2 α 2 λ 2 λ Multiplikator-Funktion λ : R n R Lemma 42.. λ(d) = 1 2 2(dT Hd + g T d) (a) λ : R n R stetig diffbar mit λ(d) = (2Hd + g) (b) (d, λ ) KKT-Punkt von (TRTP) λ(d ) = λ Page 71 of 111

72 Einsetzen der Multiplikator-Funktion in die erweiterte Lagrange-Funktion penalty- Funktion p α (d) = L(d, λ(d); α) = q(d) + 1 ( [ max {0, ( d 2 2 ) + α }] 2 [ α ] ) 2 α 2 λ(d) 2 λ(d) Lemma 43. Die beiden folgenden Aussagen sind äquivalent: (a) λ 0, d, λ ( d ) = 0 } (b) max {( d 2 2 ), α2 λ = 0 Lemma 44.. (a) p α : R n R stetig diffbar mit p α (d) = Hd+g α 2 λ(d) λ(d)+max { 0, ( d 2 2 ) + α 2 λ(d) } ( 4 α d+ λ(d)) Page 72 of 111 (b) d R n, d : p α (d) q(d)

73 (c) c R : L c = {d R n : p α (d) c} kompakt. (d) p α hat mindestens ein globales Minimum. Satz 41.. (a) d stationärer Punkt von p α (d, λ(d )) KKT-Punkt von (TRTP). (b) d stationärer Punkt von p α p α (d ) = q(d ). Lemma 45. (ohne Beweis) d R n : M(d, α) > 0 wobei } M(d; α) = αd T λ(d) max {0, ( d 2 2 ) + α2 λ(d) Satz 42.*. d globales Minimum von p α p α exakte Penalty-Funktion. d globales Minimum von (TRTP). Satz 43.. d lokales Minimum von p α d lokales Minimum von (TRTP). Page 73 of 111

74 Lösung des Trust-Region Teilproblems 1.Idee: Minimiere exakte Penalty-Funktion (unrestringiertes Minimierungsproblem) aber: Zielfunktion nicht C 2 keine schnelle lokale Konvergenz. 2.Idee: Lokal quadratisch konvergentes Verfahren zur Lösung der KKT-Bed. ( ) (H + 2λI)d + g F (d, λ) = } max {( d 2 2 ), α2 λ mit (Armijo-) Liniensuche basierend auf exakter Penalty-Funktion: ( [ { }] ) 2 p α (d) = q(d) + 1 α max 0, ( d 2 2 ) + α 2 λ(d) [ α 2 λ(d)] 2 mit der Multiplikator-Funktion λ(d) = 1 2 2(dT Hd + g T d) Page 74 of 111

75 Algoritmus: (Lösung von (T RT P )) i = 0: Wähle d 0 R n, λ 0 = max{0, λ(d 0 )}, α (0, α max ), ρ > 0, p > 2, σ (0, 1 2 ), β (0, 1), ε 0 While ( p α (d i ) > ε (H + 2λ i I) nicht pos.semidef.) do If ( p α (d i ) ε (H + 2λ i I) nicht pos.semidef.) Setze d i+1 so dass d i+1 und q(d i+1 ) < q(d i ) (vgl. Satz 40) elseif (( d i 2 2 ) α 2 λi ) ( H + 2λ i I 2d i ) ( ) ( z i (H + 2λ i I)d i ) + g Löse 2d it 0 ζ i = d i 2 2 (NG A ) elseif (( d i 2 2 ) < α 2 λi ) Löse (H + 2λ i I)z = ((H + 2λ i I)d i + g) (NG I ). Falls (NG A ) bzw. (NG I ) unlösbar oder p α (d i ) T z i > ρ z i p : Setze z i = p α (d i ). t i = 1. While p α (d i + t i z i ) > p α (d i ) + σt i p α (d i ) T z i do t i = βt i d i+1 = d i + t i z i, Setze λ i+1 = max{0, λ(d i+1 )}, i = i + 1 Page 75 of 111

76 ε = 0 Lemma 46.. Wenn obiger Algoritmus nach endlich vielen Schritten mit ( p α (d i ) ε (H + 2λ i I) pos.semidef.) abbricht, dann ist d i globales Minimum von (T RT P ). Satz 44.. Sei (d i, λ i ) i N, eine durch obigen Algoritmus erzeugte Folge mit p α (d i ) 0, i N. Dann hat die Folge (d i, λ i ) i N einen Häufungspunkt und jeder Häufungspunkt (d, λ ) ist KKT-Punkt von (T RT P ). Page 76 of 111

77 Trust-Region-Newton-Verfahren Wahl von k : vergleiche vorausgesagte Reduktion im Zielfunktionswert mit tatsächlicher Reduktion im Zielfunktionswert. r k = f(xk ) f(x k + d k ) f(x k ) q k (d k ) Schrittweitensteuer Algoritmus: (Trust-Region-Newton-Verfahren) k = 0: Wähle x 0 R n, 0 > 0, min > 0, 0 < ρ 1 < ρ 2 < 1, 0 < σ 1 < 1 < σ 2, ε 0 While f(x k ) > ε do Mit q k (d) = f(x k ) + f(x k ) T d dt 2 f(x k )d berechne d k Lsg.v. min q k (d) u.d.n. d k (T RT P ) Berechne r k Falls r k ρ 1 Schritt erfolgreich: x k+1 = x k + d k sonst: x k+1 = x k max{ min, σ 2 k } falls r k ρ 2 k+1 = max{ min, k } falls ρ 2 > r k ρ 1 σ 1 k falls ρ 1 > r k k = k + 1 Page 77 of 111

78 Hilfsresultate zur Konvergenz des Trust-Region-Newton-Verfahrens Lemma 47.* f C 1 (R n ) f(x k ) q k (d k ) 1 2 f(x k ) min{ k, f(x k ) / H k } Lemma 48. f C 2 (R n ), (x k ) k N nach obigem Algo., (x k l ) l N (x k ) k N x k l x, l. f(x ) 0 lim inf l k l > 0 Lemma 49. f C 2 (R n ), (x k ) k N nach obigem Algo. Dann gibt es unendl. viele erfolgreiche Schritte. Page 78 of 111

79 Konvergenz des Trust-Region-Newton-Verfahrens Satz 45.* f C 2 (R n ), (x k ) k N nach obigem Algo. Dann ist jeder Häufungspunkt stationärer Punkt. Satz 46. f C 2 (R n ), (x k ) k N nach obigem Algo., x HP, 2 f(x ) pos.def. Dann gilt (a) x k x für k. (b) K N : k K : Schritt k erfolgreich. (c) > 0 : k N, : k. Satz 47.* f C 2 (R n ), (x k ) k N nach obigem Algo., x HP, 2 f(x ) pos.def. Dann gilt (a) x k x für k. (b) superlineare Konvergenz (c) falls 2 f lokal Lipschitz: quadratische Konvergenz Page 79 of 111

80 Teilraum-Trust-Region-Newton-Verfahren Motivation: Lösung von (T RT P ) numerisch aufwändiger als Liniensuche. V k Teilraum von R n Algoritmus: (Teilraum-Trust-Region-Newton-Verfahren) k = 0: Wähle x 0 R n, 0 > 0, min > 0, 0 < ρ 1 < ρ 2 < 1, 0 < σ 1 < 1 < σ 2, ε 0 While f(x k ) > ε do Mit q k (d) = f(x k ) + f(x k ) T d dt 2 f(x k )d berechne d k Lsg.v. min q k (d) u.d.n. d k d V k (T T RT P ) Berechne r k Falls r k ρ 1 Schritt erfolgreich: x k+1 = x k + d k sonst: x k+1 = x k max{ min, σ 2 k } falls r k ρ 2 k+1 = max{ min, k } falls ρ 2 > r k ρ 1 σ 1 k falls ρ 1 > r k k = k + 1 Page 80 of 111

81 Satz 48. Mit r k := dim(v k ), V k = span{v k,1,..., v k,r k }, {vk,1,..., v k,r k } ONB f := f(x k ), ḡ i := f(x k ) T v k,i, Hij = v k,it 2 f(x k )v k,j, i, j {1,... r k } d = ist r k i=1 α i v k,i min f(x k )+ f(x k ) T d+ 1 2 dt 2 f(x k )d u.d.n. d k, d V k (T T RT P ) äquivalent zu min f + ḡ T α αt Hα u.d.n. α k (T RT P ). Typischerweise r k = 2, V k = span{d k G, dk N }, vk,1, v k,2 mittels Gram-Schmidt, d k G = f(x k ), d k N = 2 f(x k ) 1 f(x k ). Lemma 50. f C 1 (R n ), d k G V k, dann gilt: f(x k ) q k (d k ) 1 2 f(x k ) min{ k, f(x k ) / H k } Page 81 of 111

82 Konvergenz des Teilraum-Trust-Region-Newton-Verfahrens Satz 49. f C 2 (R n ), (x k ) k N nach obigem Algo, d k G V k. Dann ist jeder Häufungspunkt stationärer Punkt. Satz 50. f C 2 (R n ), (x k ) k N nach obigem Algo., x HP, 2 f(x ) pos.def., d k G V k. Dann gilt (a) x k x für k. (b) K N : k K : Schritt k erfolgreich. (c) > 0 : k N, : k. Satz 51. f C 2 (R n ), (x k ) k N nach obigem Algo., x HP, 2 f(x ) pos.def., d k G, dk N V k. Dann gilt (a) x k x für k. (b) superlineare Konvergenz (c) falls 2 f lokal Lipschitz: quadratische Konvergenz Page 82 of 111

83 Inexaktes Trust-Region-Newton-Verfahren Idee: Inexakte Lösung des (TRTP) mittels CG, wobei mit f k = f(x k ), g k = f(x k ),H k = 2 f(x k ) min q k (d) = f k + g kt d dt H k d u.d.n. d k (T RT P ) Algoritmus: (CG zur inexakten Lösung von (TRTP)) i = 0: Setze d k,0 = 0, r 0 = g k, p 0 = r 0, γ 0 = p 0T H k p 0 For i = 0, 1, 2, 3,... do Falls γ i 0, setze d k := d k,i + τp i ( ) STOP t i = r it r i /γ i, d k,i+1 = d k,i + t i p i Falls d k,i+1 k, setze d k := d k,i + τp i ( ) STOP r i+1 = r i + t i H k p i Falls r i η k g k setze d k := d k,i+1 STOP β i = r i+1t r i+1 /r it r i, p i+1 = r i+1 + β i p i, γ i+1 = p i+1t H k p i+1 ( ) τ > 0 so dass d k,i + τp i = k, d.h. τ = 1 ( (p it d k,i ) 2 + p i 2 ( 2 p i 2 k dk,i 2 ) 2 p it d k,i ). Page 83 of 111

84 Lemma 51. Bricht der obige Algoritmus nach m Schritten ab so gilt: (a) r it p j = 0 (b) r it p i = r i 2 0 j < i m (c) r i = H k d k,i + g k (d) q k (d k,i ) T p i < 0 Lemma 52. Bricht der obige Algoritmus nach m Schritten ab so gilt: (a) d k,i+1 > d k,i, 0 i m 1 (bzw. 0 i m, wenn der Algo nicht mit γ i 0 abbricht.) (b) d k > d k,i, 0 i m Lemma 53. Bricht der obige Algoritmus nach m Schritten ab so gilt: (a) q k (d k,i+1 ) < q k (d k,i ), 0 i m 1 (bzw. 0 i m, wenn der Algo nicht mit γ i 0 abbricht.) (b) q k (d k ) < q k (d k,i ), 0 i m Page 84 of 111

85 Algoritmus: (Inexaktes Trust-Region-Newton-Verfahren) k = 0: Wähle x 0 R n, 0 > 0, min > 0, 0 < ρ 1 < ρ 2 < 1, 0 < σ 1 < 1 < σ 2, ε 0 While f(x k ) > ε do Mit q k (d) = f(x k ) + f(x k ) T d dt 2 f(x k )d berechne d k Lsg.v. min q k (d) u.d.n. d k (T RT P ) mittels CG zur inexakten Lösung von (TRTP) Berechne r k = f(xk ) f(x k +d k ) f(x k ) q k (d k ) Falls r k ρ 1 Schritt erfolgreich: x k+1 = x k + d k sonst: x k+1 = x k max{ min, σ 2 k } falls r k ρ 2 k+1 = max{ min, k } falls ρ 2 > r k ρ 1 σ 1 k falls ρ 1 > r k k = k + 1 Lemma 54. f C 1 (R n ), dann gilt: f(x k ) q k (d k ) 1 2 f(x k ) min{ k, f(x k ) / H k } Page 85 of 111

86 Konvergenz des Inexakten Trust-Region-Newton-Verfahrens Satz 52. f C 2 (R n ), (x k ) k N nach obigem Algo. Dann ist jeder Häufungspunkt stationärer Punkt. Satz 53. f C 2 (R n ), (x k ) k N nach obigem Algo., x HP, 2 f(x ) pos.def. Dann gilt (a) x k x für k. (b) K N : k K : Schritt k erfolgreich. (c) > 0 : k N, : k. Satz 54. f C 2 (R n ), (x k ) k N nach obigem Algo., x HP, 2 f(x ) pos.def.. Dann gilt (a) η k η, η (0, 1) x k durch das inexakte TRNV wohldefiniert und x k x linear bzgl. 2 f(x ). (b) η k 0 mit k superlineare Konvergenz (c) η k = O( f(x k ) ), 2 f lokal Lipschitz quadratische Konvergenz Page 86 of 111

87 11. ng Symbolische Ableitung Ableitung geschlossener Formeln nach gegebenen Ableitungsregeln von Hand oder mit Programmen (Mathematica, Maple, Matlab) Beispiel: f(x, y) = (xy + sin x + 4)(3y 2 + 6) f x (x, y) = (y + cos x)(3y2 + 6) f y (x, y) = (xy + sin x + 4)6y + x(3y2 + 6) Page 87 of 111

88 Automatisches Differenzieren Prinzip: sukzessives Anwenden der Kettenregel und von elementaren Ableitungsregeln; automatisches Differenzieren eines Computerprogramms, bestehend aus den elemtaren Operationen (code list) Beispiel: f(x, y) = (xy + sin x + 4)(3y 2 + 6) t 1 = x t 1 = (1, 0) T t 2 = y t 2 = (0, 1) T t 3 = t 1 t 2 t 3 = t 1 t 2 + t 2 t 1 t 4 = sin t 1 t 4 = cos t 1 t 1 t 5 = t 3 + t 4 t 5 = t 3 + t 4 t 6 = t t 6 = t 5 t 7 = t 2 2 t 7 = 2t 2 t 2 t 8 = 3t 7 t 8 = 3 t 7 t 9 = t t 9 = t 8 t 10 = t 6 t 9 t 10 = t 6 t 9 + t 9 t 6 Page 88 of 111

89 weitere Anwendungen neben der Optimierung: Differentialgleichungen, Sensitivitätsanalysis, Intervallarithmatik forward mode (s.o.): alle Gradienten werden ausgerechnet; reverse mode: erst nach Abarbeiten der code list (t 1..., t N ) werden die einzelnen pariellen Ableitungen rückwärts von t N bis t 1 berechnet. Vorteil: In den Zwischenschritten werden nur die für t N tatsächlich erforderlichen partiellen Ableitungen berechnet. weiterführende Literatur: Corliss, Griewank, Iri, Rall,... Page 89 of 111

90 Adjungiertes Verfahren min f(x) u.d.n. φ(x, u) = 0 mit f : R n R, φ : R n R m R n regulärer Matrix A x,u = φ x (x, u) und damit nach u auflösbarem φ : R n R m R k (impliziter Funktionensatz) φ(s(u), u) = 0 φ S (S(u), u) + φ (S(u), u) = 0 ( ) } x {{}}{{} u } u {{} =A S(u),u =:J =:B Reduktion auf ein unrestringiertes Optimierungsproblem min f(u) = f(s(u)) Berechnung des Gradienten: f n f (u) = (S(u)) S i (u) = x f(s(u)) T w j u j x i u j i=1 mit w j... j-te Spalte von J, implizit gegeben durch das lin. Glsys. (*): A S(u),u w j = b j mit b j... jte Spalte von B Für jede Komponente der Gradienten muss ein lin. Glsys gelöst werden insgesamt m lin.glsys. der Dim. n n zur Berechnung des Gradienten! Page 90 of 111

91 Berechnung des Gradienten (Wiederholung): f n f (u) = (S(u)) S i (u) = x f(s(u)) T w j u j x i u j i=1 mit w j... j-te Spalte von J implizit gegeben durch das lin. Glsys. (*) A S(u),u w j = b j mit z Lösung des lin Glsys. also mit b j... jte Spalte von B f u j (u) = x f(s(u)) T (A S(u),u ) 1 b j = b jt ((A S(u),uT ) 1 x f(s(u))) = (B T z) j A S(u),uT z = x f(s(u)) u f(u) = B T z adjungierte Gleichung nur 1 lin Glsys (das adjungierte) der Dim. n n zur Berechnung des Gradienten! Page 91 of 111

92 Numerisches Differenzieren / Differenzenquotienten 1-d Modellproblem: Gegeben: gestörte Werte f 1, f 2, f 3,..., f n einer differenzierbaren Funktion f mit f i f(x i ) δ, x i = i h, i = 1, 2,..., n Gesucht: f Sekantenapproximation: f (x i ) f(x i+1) f(x i 1 ) =: f 2h h(x i ) Einsetzen der gegebenen Messdaten: f (x i ) f i+1 f i 1 2h = f h(x i ) h h x i 1 x i x i+1 Page 92 of 111

93 Exakte Daten: Sekantenapproximation mit h = 1 10 : Page 93 of 111

94 Exakte Daten: Sekantenapproximation mit h = 1 10 : Sekantenapproximation mit h = : Page 94 of 111

95 Gestörte Daten (1% Datenfehler): Sekantenapproximation mit h = : Page 95 of 111

96 Gestörte Daten (1% Datenfehler): Sekantenapproximation mit h = : Page 96 of 111

97 Was geht hier schief? Page 97 of 111

103 Was geht hier schief? f h(x i ) f h(x i ) = f i+1 f i 1 2h = 1 2h f i 1 f }{{ i 1 } δ f i+1 f }{{ i+1 } δ f i+1 f i 1 2h 2δ 2h = δ h Page 103 of 111

104 Gestörte Daten (1% Datenfehler): Sekantenapproximation mit h = : Sekantenapproximation mit h opt : Page 104 of 111

105 Wie groß ist die Abweichung von der tatsächlichen Ableitung? f h (x i) f (x i ) f h(x i ) f (x i ) }{{} Approximationsfehler h f h(x i ) f h(x i ) }{{} Datenfehlereffekt δ/h h 0 Instabilität Regularisierung: Wahl von h = h(δ) so dass h(δ) δ 0 0 und δ/h(δ) δ 0 0 f h (x i) f (x i ) δ 0 0 d.h.: kleinerer Datenfehler besseres Ergebnis optimales h bei zusätzlicher a-priori Glattheitsinformation: max x [a,b] f (x) C f h (x i) f (x i ) C 6 h2 h opt (δ) = ( 3δ C f h opt (δ) (x i) f (x i ) = O(δ 2 3 ) Achtung: geringere Genauigkeit δ 2 3 statt δ muss beim Abbruchkriterium f(x k ) ɛ berücksichtigt werden (ɛ = δ nicht erreichbar)! ) 1 3 Page 105 of 111

106 12. Skalierung / Abbruchkriterien / Genauigkeit Skalierung der Variable und der Funktionswerte: y = T x + b ˆf(x) = αf(x) + β mit T R n n regulär, b R n, α, β R n, α > 0. min f(y) min x y f(y) = αf(t 1 (y b)) + β f(y) Verfahren und Abbruchkriterium sollten invariant gegenüber Skalierung sein. (lokales) skalierungsinvariant; (lokales) skal.inv. falls T orthogonal und α = 1. Abbruchkriterium an die absolute Gradientennorm f(x k ) ɛ ist nicht skalierungsinvariant! Abbruchkriterium an die relative Gradientennorm f(x k )diag(x k ) f(x k ) ɛ ist skalierungsinvariant, falls b = 0, β = 0, T Diagonalmatrix. Page 106 of 111

107 Funktionsauswertung mit Genauigkeit δ: f(x) f(x) δ akzeptierbare Lösung x, wenn f( x) f opt δ 2δ x x p T Hp mit f(x ) = f opt, H = 2 f(x ), p = f( x) 2δ w T Hw x x x x, w = H1/2 p H 1/2 p. halb so viele signifikante Stellen in x, f(x) wie in f(x). Vorfaktor hängt von der Kondition der Hessematrix ab. Page 107 of 111