4 Nichtlineare Minimierung

Transkript

1 4 Nichtlineare Minimierung 41 Minimierung skalarer Funktionen (Direkte Suchverfahren) Definition 41 Eine Funktion f : [a, b] IR heißt unimodal : ξ [a, b] : f [a,ξ] ist streng monoton fallend und f [ξ,b] ist streng monoton steigend Bemerkung: ξ ist Minimum von f auf [a, b] Das Verfahren des goldenen Schnitts zur Bestimmung des Minimums einer unimodalen Funktion Bemerkung: Seien a < x 1 < x 2 < b Aus den Monotonieeigenschaften von f folgt falls f(x 1 ) < f(x 2 ) ξ [a, x 2 ] (i) f(x 1 ) > f(x 2 ) ξ [x 1, b] (ii) f(x 1 ) = f(x 2 ) ξ [x 1, x 2 ] (iii) Übung: Wenn f konvex ist, gilt die Bemerkung auch; man braucht dann keine strenge Monotonie Idee: Wir vernachlässigen den Fall (iii), der zum einen bei willkürlich erzeugten Punkten x i sehr unwahrscheinlich ist, und sich zum anderen in (i) oder (ii) mit eingliedert Wir suchen eine Folge kleiner werdender Intervalle, in denen ξ enthalten ist: Zur Effektivität des Verfahrens: [a 0, b 0 ] := { [a, b] [a, [a 1, b 1 x2 ] im Fall (i) ] := [x 1, b] im Fall (ii) Der schon bekannte Stützpunkt (dh x 1 im Fall (i) und x 2 im Fall (ii)) soll mit benutzt werden, so daß in jedem Schritt nur eine Funktionsauswertung nötig ist (Die Funktionsauswertungen können in der Praxis sehr teuer sein) Die Länge der Intervalle b i a i soll rasch abnehmen, b i a i = τ(b i 1 a i 1 ) mit demselben (kleinen) τ (0, 1), egal, ob nun der Fall (i) oder der Fall (ii) oben auftritt Aus diesen beiden Forderungen ergibt sich folgendes Bild, in welchem die Länge des linken und des rechten Intervalles gleich sein soll, und die Unterteilung nach einem Schritt ähnlich (streckengleich) zur Ausgangsunterteilung sein soll a b } {{ }} {{ } 1 τ τ } {{ } τ(1 τ) } {{ } τ 2 Aus der Zeichnung liest man ab: 1 τ = τ 2 Die positive Nullstelle dieser Gleichung liegt bei τ =

2 Algorithmus 42 Gegeben sei [a 0, b 0 ] und ein auf [a 0, b 0 ] unimodales f Setze τ := ( 5 1)/2 x 1 := b τ(b a) x 2 := a + τ(b a) Berechne f 0 a := f(a 0 ) f 0 b := f(b0 ) f 0 1 := f(x 1) f 0 2 := f(x 2) Setze k = 0 Solange b k a k > ɛ wiederhole: Ende falls f1 k f 2 k: ak+1 := x k 1 fa k+1 := f1 k b k+1 := b k fb k+1 := fb k x k+1 1 := x k 2 f k+1 1 := f k 2 x k+1 2 := a k+1 + τ(b k+1 a k+1 ) f k+1 2 := f(x k+1 sonst a k+1 := a k f k+1 a := fa k b k+1 := x k 2 fb k+1 := f2 k x k+1 2 := x k 1 f k+1 2 := f k 1 2 ) x k+1 1 := b k+1 τ(b k+1 a k+1 ) f k+1 1 := f(x k+1 Nach Konstruktion ist das Verfahren linear konvergent mit Rate τ 0618, dh (b k+1 a k+1 ) = τ(b k a k ), und es gilt lim a k = lim b k = ξ Bemerkung: Das Verfahren benötigt keine Ableitungen von f, daher der Name direkte Suchverfahren Obiger Algorithmus ist lediglich theoretisch interessant, da er in dieser Form nur wenige Anwendungen in der Praxis besitzt (die meisten Funktionen sind entweder nicht unimodal und/oder sie sind differenzierbar; in letzterem Fall gibt es wesentlich schnellere Verfahren) 1 ) Verallgemeinerung auf stetiges f : [a, b] IR Wir betrachten nun eine Funktion f C(I) wobei C(I) die Menge der stetigen Funktionen auf I sei und I ein Intervall I IR 1 Definition 43 Ein Punkt ξ heißt ein lokales Minimum der Funktion f, falls es eine Umgebung U von ξ gibt, so daß f(x) f(ξ) für alle x U gilt Bemerkung: Sei a < x < b gegeben mit f(x) min{f(a), f(b)} Dann hat f ein lokales Minimum in (a, b) Beweis: Da f stetig, besitzt es auf dem kompakten [a, b] ein globales Minimum ξ 69

3 1 ist ξ (a, b), so ist nichts zu zeigen 2 ist obda ξ = a, so gilt f(a) = f(ξ) f(x) f(a), also f(x) = f(ξ) und damit ist auch x (a, b) ein globales Minimum Bemerkung: Die Tatsache, daß ξ in einem offenen Intervall liegt, ist wichtig, denn für differenzierbares f folgt daraus sofort f (ξ) = 0 Algorithmus 44 (zur Berechnung eines lokalen Minimum für stetiges f) Gegeben a < x < b mit f(x) min{f(a), f(b)} und τ := 1 2 ( 5 1) { x + (1 τ)(b x) falls x 1 1 Setze u := 2 (a + b) x (1 τ)(x a) sonst 2 Berechne f(u) Falls f(x) f(u) setze Falls f(u) < f(x) setze x + := { x a falls x < u a + := u sonst { u falls x < u b + := b sonst x + := { u x falls x < u a + := a sonst { b falls x < u b + := x sonst 3 Solange b + a + > ɛ wiederhole das Verfahren mit a = a +, x = x +, b = b + Beispiel: Wir nehmen ohne Einschränkung an, daß x (a + b)/2 (Der andere Fall ist symmetrisch zu dieser Situation) Dann ist (b x) 1 2 (b a) Falls f(x) f(u) gilt, folgt a + = a und b + = u und somit gilt b + a + (1 τ 2 ) b a Nach der Vorbemerkung }{{} 0691 liegt auch in (a +, b + ) ein lokales Minimum Daraus ergibt sich in diesem Fall eine lineare Konvergenzrate mit einem Faktor 0691 a x u b } {{ } (1 τ) b x } {{ } τ b x Im Fall f(x) > f(u) und a + = x sowie b + = b kann die Konvergenzrate kleiner sein (wie hier im Bild), jedoch erhält man dann eine Unterteilung nach dem goldenen Schnitt und danach für den Rest des Verfahrens in jedem Schritt eine Verkleinerung des Intervalls mit der Rate τ 0618 Behauptung: Falls f C 1 ([a, b]), so gilt für lim a k = ξ = lim b k die notwendige Optimalitätsbedingung f (ξ) = 0 Falls f C 2 ([a, b]), so gilt f (ξ) 0 Beweis: Nach Definition des Verfahrens gilt f(a k ) f(x k ) f(b k ), 70

4 mit a k < x k < b k und lim a k = lim x k = lim b k = ξ Damit f (ξ) = lim k f(x k ) f(a k ) x k a k }{{} 0 f(b k ) f(x k ) = lim k b k x }{{ k = 0 } 0 Nach dem Mittelwertsatz der Differentialrechnung gibt es ein σ k (a k, x k ) mit f (σ k ) = f(x k ) f(a k ) 0 sowie ein τ k (x k, b k ) mit f (τ k ) = f(bk ) f(x k ) 0 Aus σ k < τ k und x k a k b k x k lim σ k = ξ = lim τ k folgt daher f (ξ) = lim f (τ k ) f (σ k ) 0 τ k σ k Es gibt noch wesentliche Verbesserungen dieses Verfahrens, die die Funktion f in gewisser Weise interpolieren und daraus Approximationen an ein lokales Minimum berechnen Diese Varianten konvergieren auch ohne Kenntnis der Ableitungen unter schwachen Voraussetzungen lokal superlinear Ausführliche Beschreibungen findet man zb in [1] 42 Unbeschränkte Minimierung, Abstiegsmethoden Wir betrachten das Problem, eine stetig differenzierbare Funktion zu minimieren und bezeichnen mit f : IR n IR g(x) := Df(x) T den Gradienten von f als Spaltenvektor aufgefaßt Notwendige Bedingung dafür, daß ξ IR n ein lokales Minimum von f ist, ist g(ξ) = 0 Der folgende Algorithmus dient zur Berechnung eines Punktes ξ mit g(ξ) = 0 Dabei ist das Wort Berechnung so zu verstehen, daß der Algorithmus den Punkt ξ entweder nach endlich vielen Schritten findet, oder eine Folge von Iterierten liefert, von denen eine Teilfolge gegen ξ konvergiert Wir stellen zunächst den Algorithmus vor und beweisen seine Konvergenz Algorithmus 45 (Zur Minimierung von stetig differenzierbarem f : IR n IR) Man wähle 0 < c 1 c 2 < 1 (in der Regel c ) und 0 < γ 1 Gegeben sei ein beliebiger Startvektor x 0 IR n Für k = 0, 1, 1 Falls g k = g(x k ) = 0, STOP, x k ist stationärer Punkt von f (dh für kleine Störungen von x k bleibt f in erster Näherng konstant) 2 Sonst wähle eine Suchrichtung s k IR n mit s k 2 = 1 und g T k s k γ g k 2 (Dies besagt, daß der Winkel zwischen s k und der Richtung des steilsten Abstiegs g k kleiner als 90 ist und nach Definition von γ sogar von 90 weg beschränkt ist) Falls γ = 1 folgt s k = g k / g k 2 3 Bestimme ein λ k > 0 und x k+1 := x k + λ k s k so, daß folgende Bedingungen erfüllt sind: { f(xk+1 ) f(x (A) k ) + λ k c 1 gk T s k gk+1 T s k c 2 gk T s k (Die erste Bedingung fordert eine gewisse Reduzierung von f entlang λ k s k, die zweite Bedingung impliziert, daß λ k nicht zu klein ist) 71

5 Die Wahl der Suchrichtung ist in obigem Algorithmus sehr großzügig geregelt; falls γ sehr nahe bei 0 ist, so erfüllt offenbar für fast jeden Vektor v mit v 2 = 1 entweder s k := v oder s k := v die Bedingung g T k s k γ g k 2 Die Richtung s k hat also unter Umständen sehr wenig mit der gesuchten Richtung von x k zu einem lokalen Minimum gemeinsam Von daher hängt die Konvergenz des Verfahrens also sehr an der Wahl von λ k, dh an der Bedingung (A) Wir illustrieren die Bedingung (A) zunächst und bezeichnen mit ϕ(t) := f(x k + ts k ) die Funktion, die angibt, wie f entlang ts k fällt (bzw wächst) Dazu nehmen wir an, daß f zweimal stetig differenzierbar ist Mit g(x) = Df(x) T folgt aus der Definition von ϕ ϕ (t) = g(x k + ts k ) T s k und ϕ (t) = s T k Dg(x k + ts k )s k Somit ist ϕ (0) = gk T s k < 0 nach Wahl von s k Die Bedingung (A) kann damit auch geschrieben werden als { ϕ(λk ) ϕ(0) + λ (A) k c 1 ϕ (0) ϕ (λ k ) c 2 ϕ (0) In dem Bild unten sehen wir an einem Beispiel die kleinste Zahl λ, die die zweite Bedingung erfüllt (natürlich hängt λ von c 2 ab, rechts von λ fällt ϕ nur noch wenig bzw wächst sogar) ϕ(0) + λc 1 ϕ (0) ϕ(λ) λ λ Weiter sehen wir den Schnittpunkt, links dessen die erste Bedingung erfüllt ist Dick markiert ist der Bereich, in dem beide Bedingungen gelten Daß dieser Bereich (bei beschränktem f) nie leer ist, ist Aussage des nächsten Lemmas: Lemma 46 Sei f C 2 (IR n ), 0 < c 1 c 2 < 1, 0 < γ 1 und x IR n mit g := g(x) 0 Weiter sei s IR n mit s 2 = 1 und g T s γ g sowie inf x IR n f(x) >, dann gilt: 72

6 Es gibt ein λ > 0 mit (A) Unter allen λ mit (A) gibt es ein kleinstes λ > 0, so daß ϕ (t) < c 2 ϕ (0) < 0 für t (0, λ) Sei L max t [0, λ] Dg(x + ts) 2, dann gilt für alle λ mit (A): inf f(x + τs) f(x + λs) f(x) c 1(1 c 2 )γ 2 g 2 τ 0 2 L (41) Bemerkung: Mit M 2 für eine Matrix M (hier M = Dg(x+ts) = D 2 f(x+ts)) bezeichnen wir die lub 2 -Norm, Mx M 2 = max 2 x 0 x 2 ( Die Frobeniusnorm bezeichnen wir mit M F := i,j M i,j 2) 1/2 Beweis von Lemma 46: Nach Voraussetzung ist ϕ für λ IR zweimal stetig differenzierbar; die Ableitungen sind wie oben Zunächst gibt es ein λ > 0, so daß ϕ (λ) > c 2 ϕ (0), denn sonst wäre ϕ(λ) ϕ(0) = λ 0 ϕ (t)dt λ 0 c 2 ϕ (0)dt = λc 2 ϕ (0) für λ Dies ist ein Widerspruch, da ϕ(λ) = f(x + λs) nach unten beschränkt ist Aus der Stetigkeit von ϕ folgt damit aus ϕ (0) < c 2 ϕ (0), daß es ein (kleinstes) λ > 0 gibt mit ϕ ( λ) = c 2 ϕ (0) und ϕ (λ) < c 2 ϕ (0) für λ [0, λ) Offenbar erfüllt λ die zweite Bedingung aus (A) Aus λ λ ϕ( λ) = ϕ(0) + ϕ (t)dt ϕ(0) + c 2 ϕ (0)dt 0 0 ϕ(0) + λc 2 ϕ (0) ϕ(0) + λc 1 ϕ (0) folgt, daß λ auch die erste Bedingung in (A) erfüllt Wir schätzen nun die Größe von λ nach unten ab Es ist nach Definition von L λ λl λ max ϕ (λ) ϕ (t)dt = ϕ ( λ) ϕ (0) 0 λ λ 0 = (c 2 1)ϕ (0) = (c 2 1)g T s (1 c 2 )γ g 2, wobei die zweite Zeile aus der Wahl von λ und der Bedingung g T s γ g 2 folgt Da g(x + ts) 2 const muß L > 0 gelten Nach Division durch L erhält man λ (1 c 2)γ g 2 L Setzen wir diese untere Schranke für λ λ in den ersten Teil von (A) ein, so folgt wegen ϕ (0) = g T s γ g 2, ϕ(λ) ϕ(0) + λc 1 ϕ (0) ϕ(0) c 1(1 c 2 )γ 2 g 2 2 L, und somit die letzte Behauptung (Die erste Ungleichung in (41) ist trivial, wird aber später noch gebraucht) Es gilt folgender Satz: 73

7 Satz 47 Sei f C 2 (IR n ), x 0 IR n und K := {x f(x) f(x 0 )} kompakt Dann läßt sich das Verfahren 45 anwenden und es bricht entweder nach endlich vielen Schritten mit einem x k mit g(x k ) = 0 ab, oder es erzeugt eine Folge {x k } k mit 1) f(x k+1 ) < f(x k ) 2) {x k } k besitzt mindestens einen Häufungspunkt x 3) jeder Häufungspunkt x erfüllt g( x) = 0 Beweis: Die Eigenschaften 1) und 2) sind offensichtlich Zum Nachweis von 3) sei L := max x K Dg(x) Dann folgt aus Lemma 46 f(x k+1 ) f(x k ) c 1(1 c 2 )γ 2 g k 2 2 L f(x 0) c 1(1 c 2 )γ 2 L k g j 2 2 j=0 Dabei ist die linke Seite eine monoton fallende Folge in k, die von unten beschränkt ist, und also konvergiert (für k ) Folglich konvergiert die Summe j g j 2 2 (der Faktor c 1(1 c 2 )γ 2 L ist positiv!) Die g j 2 2 = g(x j) 2 2 bilden daher eine Nullfolge, und aus der Stetigkeit von g folgt, daß alle Häufungspunkte x von {x j } den Wert g( x) = 0 haben Bemerkungen: In obigem Resultat sind die Voraussetzungen an f sehr schwach, das Verfahren ist einfach und recht allgemein, aber dafür ist das Konvergenzresultat zu diesem Algorithmus in gewisser Hinsicht enttäuschend Wir können nicht beweisen, daß das gefundene x eindeutig ist, oder daß unter den gefundenen Punkten x ein lokales Minimum ist ( x kann zb auch ein Sattelpunkt sein), und insbesondere nicht, daß x ein globales Minimum ist Auch praktisch hat das Resultat in dieser Allgemeinheit einige Mängel Die Eindeutigkeit von x spielt in der Praxis zwar keine große Rolle, wohl aber die Geschwindigkeit mit der der Algorithmus konvergiert und auch die Frage nach dem globalen Minimum Zu beiden Punkten wird hier keine Aussage gemacht Es sei hier auch angemerkt, daß die scheinbar sinnvolle Wahl γ = 1, mit der erzwungen wird, daß die Suchrichtung genau die Richtung des steilsten Abstiegs ist, selbst für konvexe quadratische Funktionen im allgemeinen nicht sinnvoll ist Die Richtung des steilsten Abstiegs kann auch in sehr großer Nähe zum Minimum immer noch einen Winkel von nahezu 90 zur gesuchten Richtung von x zum Minimum einschließen (dh entlang dieser Richtung kann man sich dann nur unwesentlich dem gesuchten Minimum nähern) Darüberhinaus bleibt diese ungünstige Situation typischerweise über viele Iterationen erhalten, dh der Winkel bleibt stets nahe bei 90 Bildlich kann man sich das etwa wie eine Badewanne vorstellen Sei der Abfluß der Wanne am Fußende Läßt man an der steilen Seitenwand des Kopfendes eine Murmel runterrollen (entlang des steilsten Abstiegs), so rollt sie in der Talsole zunächst links und rechts die Wände hoch und zurück, bevor sie langsam in Richtung Abfluß rollt Der Vergleich hinkt etwas, das vor und zurück in der Talsohle ist aber für die Methode des steilsten Abstiegs ein typisches Verhalten (Leider bleibt die Endphase, in der die Murmel zielstrebig zum Minimum (Abfluß) rollt, beim Verfahren des steilsten Abstiegs typischerweise aus) Wir stellen noch zwei Varianten der Bedingung (A) zur linesearch vor Korollar 48 Satz 47 gilt auch, falls im Algorithmus die Bedingung (A) zur Schrittweite λ k durch eine der beiden folgenden Regeln ersetzt wird Die erste Regel ist (B) λ k = argmin{f(x + λs) λ 0}, 74

8 wobei argmin ein solches λ bezeichne, für das f(x + λs) das Minimum annimmt Die zweite Regel wird mit (C) Armijo linesearch bezeichnet Sei σ > 0 fest gewählt Wähle λ 0 σ g Bestimme unter allen Zahlen λ j := 2 j λ0 das kleinste j so daß f(x k + λ j s k ) f(x k ) + λ j c 1 g T k s k (42) gilt und setze λ k = λ j oder λ k = argmin{f(x k + λ i s) λ i = λ 0,, λ j } Beweis: Im Fall (B) folgt die Existenz der Schrittweite λ k aus der Kompaktheit von K; die Ungleichung (41) erlaubt wieder den gleichen Beweis wie in zu Satz 47 Im Fall (C) läßt sich die Existenz von λ j zb durch Widerspruch zeigen Wäre für alle j, dann folgte aus λ j c 1 ϕ (0) < ϕ( λ j ) ϕ(0) c 1 ϕ (0) < ϕ( λ j ) ϕ(0) λ j ϕ (0) ein Widerspruch Um den Beweis von Satz 47 anzuwenden, genügt es wieder zu zeigen, daß es ein festes α > 0 gibt mit f(x k+1 ) f(x k + λ j s k ) f(x k ) α g 2 2 Wir unterscheiden dazu zwei Fälle: (i) Es ist j > 0 Dann gilt λ j 1 λ wobei λ wieder das größte λ > 0 ist, für das ϕ (t) < c 2 ϕ (0) für alle t (0, λ) Denn wäre λ j 1 < λ, so folgte aus ϕ( λ j 1 ) ϕ(0) = λj 1 0 ϕ (t)dt λj 1 0 c 2 ϕ (0)dt = λ j 1 c 2 ϕ (0) λ j 1 c 1 ϕ (0), daß λ j 1 die Bedingung (42) erfüllt, im Widerspruch zur Definition von j Somit ist λ j λ j 1 2 wie im Beweis von Lemma 46 und weiter (ii) Falls j = 0, so ist λ 2 (c 2 1)ϕ (0) 2L ϕ( λ j ) ϕ(0) c 1(1 c 2 )γ 2 g 2 2 2L ϕ( λ 0 ) ϕ(0) c 1 λ0 ϕ (0) c 1 σ g 2 γ g 2 Mit α := min{ c 1(1 c 2 )γ 2 2L, c 1 σγ} folgt die Behauptung 75

9 Wir betrachten nun speziell die Anwendung des Algorithmus des steilsten Abstiegs auf die Funktion f(x) := 1 2 xt Ax + b T x + γ mit einer symmetrischen positiv definiten Matrix A (spd-matrix) Obige Funktion f ist ein besonders einfacher Spezialfall der unbeschränkten Minimierung, das Minimum ist durch g( x) = Df( x) T = A x + b = 0 = x = A 1 b gegeben Es gilt f(x) = 1 2 (x x)t A(x x) + γ 1 2 xt A x (Ausmultiplizieren und die Definition von x einsetzen!) Da die konstanten Terme (γ bzw γ 1 2 xt A x) für die Minimierung keine Rolle spielen, lassen wir sie im folgenden außer acht Die Gradienten und die linesearch sind translationsinvariant in dem Sinne, daß das Verfahren angewendet auf f(x) mit Startpunkt x 0 und angewendet auf f(x) := f(x+ x) mit Startpunkt x 0 := x 0 x jeweils die gleichen Iterierten liefert, nämlich x k = x k x Wir können daher für die Untersuchung des Verfahrens ohne Einschränkung x = 0 annehmen, und x 0 IR n Als geeignetes Maß für den Abstand von x k zum Optimalpunkt x = 0 stellt sich die Norm x A := x T Ax heraus Da A positiv definit ist, ist die Norm stets definiert, und die Dreiecksungleichung folgt aus der CSU (Cauchy-Schwarzsche Ungleichung, politisches Gegengewicht zur spd- Matrix) Weiter definieren wir c := cond 2 (A) Der folgende Satz gilt nur bezüglich der Norm A Satz 49 Sei A positiv definit mit Eigenwerten 0 < µ 1 µ n, dann liefert das Verfahren des steilsten Abstiegs mit γ = 1 und Variante (B) angewandt auf f(x) = 1 2 xt Ax+b T x+c eine Folge von x k mit x k+1 x A (1 2 c + 1 ) x k x A für k = 0, 1, 2,, wobei c := µ n /µ 1 die Kondition von A ist Beweis: Wie zuvor begründet, können wir ohne Einschränkung b = 0, dh x = 0 für den Beweis annehmen Dann ist f(x) = 1 2 xt Ax = 1 2 x 2 A, g(x) = Ax Es folgt x k+1 = x k λ k g k = x k λ k Ax k = (I λ k A)x k, (43) wobei λ k so gewählt ist, daß f(x k+1 ) = (I λ k A)x k 2 A minimal ist Seien v 1,, v n Eigenvektoren von A zu µ 1,, µ n mit v i 2 = 1 Da A symmetrisch ist, sind die Eigenvektoren paarweise orthogonal Dies gilt zunächt für die Eigenvektoren zu verschiedenen Eigenwerten; wir nehmen an, auch die Eigenvektoren zu mehrfachen Eigenwerten seien so gewählt, daß { vi T 0 für i j v j = (44) 1 sonst 76

10 Nun besitze x k die Darstellung x k = n i=1 α i v i Dann ist ( n ) 2f(x k ) = x k 2 A = T ( n n ) T n n α i v i A α j v j = α i v i α j µ j v j = αi 2 µ i i=1 j=1 i=1 j=1 i=1 In der letzten Gleichung wurden die beiden Fälle aus (44) verwendet Analog folgt natürlich aus (43) n n 2f(x k+1 ) = αi 2 (1 λ k µ i ) 2 µ i max (1 λ kµ i ) 2 αi 2 µ i 1 i n i=1 Aus n i=1 α 2 i µ i = 2f(x k ) = x k 2 A folgt, daß max 1 i n 1 λ k µ i eine obere Schranke für die Reduzierung von x A ist Wir zeigen, daß diese Schranke kleiner als 1 2/(1 + c) ist Dazu wählen wir willkürlich den Wert λ k := 2 µ 1 +µ n Für diesen Wert verifiziert man leicht i=1 1 λ k µ 1 1 λ k µ i 1 λ k µ n = (1 λ k µ 1 ) Die Beträge von 1 λ k µ i sind also alle kleiner oder gleich 1 λ k µ 1 Mit 1 λ k µ 1 = 1 2µ 1 µ 1 + µ n = 1 2 c + 1 folgt die Behauptung, denn λ k war so gewählt, daß f(x) und somit auch x A minimiert werden Insbesondere ist f(x k+1 ) f(x k λ k g k ) In obigem Beweis kommen eine Reihe von Abschätzungen vor, die für allgemeine Punkte x k nicht scharf sind Man könnte daher glauben, das Konvergenzresultat sei eher pessimistisch am worst case orientiert, und in der Praxis konvergiere das Verfahren im allgemeinen wesentlich besser Dies ist leider nicht der Fall Umfangreiche numerische Beispiele belegen, daß das Verfahren des steilsten Abstiegs in der Praxis kaum schneller ist als in dem Satz bewiesen (Etwas vereinfacht gesprochen konvergieren die Koeffizienten α i in der Präsentation von x k für 2 i n 1 recht rasch gegen Null, da für sie die Werte 1 λ k µ i klein sind, und für α 1 und α n werden dann die worst-case-abschätzungen aus dem Beweis tatsächlich angenommen) 43 Konjugierte Gradienten-Verfahren (cg-verfahren) Definition 410 Sei A IR n n symmetrisch positiv definit Die Vektoren s 1,, s m IR n heißen A-konjugiert, falls s i 0 für 1 i m und s T i As j = 0 für i j Bemerkung: A-konjugierte Vektoren s i für 1 i m sind stets linear unabhängig Denn sei s j = k j α i s i 0 = s T j As k = α i s T i As k = α k s T k As k }{{} i j i j >0 und somit α k = 0 für k j, dh s j = 0, im Widerspruch zur obigen Definition Satz 411 Sei f(x) = 1 2 xt Ax + b T x + γ, A IR n n spd, s 0,, s n 1 seien A-konjugiert und x 0 IR n beliebig Für k = 0, 1,, n 1 setze x k+1 := x k + λ k s k mit λ k = argmin λ IR {f(x k + λs k )} Dann gilt f(x n ) = min x IR n f(x) 77

11 Beweis: Sei v IR n beliebig, dann α i IR : v = und somit nach Division durch s T i As i n 1 α i s i s T i Av = α i s T i As i, }{{} i=0 >0 v = s T i A v s T i As s i (45) i Im Minimum λ k gilt ϕ (λ k ) = Df(x k + λ k s k )s k = 0, wobei wieder ϕ(λ) := f(x k + λs k ) sei Es folgt: k 1 0 = s T k f(x k+1 ) = s T k (Ax k+1 + b) = s T k (A(x 0 + λ i s i + λ k s k ) + b) = s T k (Ax 0 + b) + λ k s T k As k }{{} >0 i=0 Also: Eingesetzt ergibt sich: λ k = st k (Ax 0 + b) s T k As k n 1 x n = x 0 i=0 s T i (Ax n b) s T i As s i = x 0 i i=0 {}}{ s T i A (x 0 + A 1 b) s T i As i v s i wobei wir auf der rechten Seite die Koeffizienten aus (45) ablesen, und somit folgern = x 0 (x 0 + A 1 b) = A 1 b = argmin x IR nf(x) Dieses Resultat ist wesentlich stärker als das Konvergenzresultat zum Verfahren des steilsten Abstiegs Es zeigt sich nun, daß solche A-konjugierten Vektoren sogar mit geringem Aufwand erzeugt werden können Dies wird im folgenden Algorithmus ausgenutzt Algorithmus 412 cg-algorithmus von Hestenes & Stiefel (1952) zur Minimierung einer konvexen quadratischen Funktion f(x) = 1 2 xt Ax+b T x [cg-verfahren zur Lösung von Ax = b] Start Wähle x 0 IR n, g 0 := Df(x 0 ), s 0 := g 0 Für i = 0, 1, 1) Falls g i = g(x i ) = Df(x i ) = 0 : STOP, x i ist Minimum von f 2) Sonst setze x i+1 = x i + λ i s i, λ i = argmin λ 0 f(x i + λs i ) 3) s i+1 := g i+1 + γ i+1 s i mit γ i+1 := gt i+1 g i+1 g T i g i > 0 78

12 Notation: Die Wahl von λ i im Schritt 2) oben wird als exakte line search bezeichnet, da das Minimum von f entlang x i + λs i exakt bestimmt wird Hier ist λ i durch λ i = g T i s i/s T i As i gegeben Bei allgemeinen Funktionen f spricht man von exakter line search, wenn x i + λ i s i ein lokales Minimum von f entlang x i + λs i ist Bemerkung: Das cg-verfahren war zunächst als direktes Verfahren in Verruf geraten, denn durch den Einfluß von Rundungsfehlern ist es ia nicht nach n Schritten fertig Ein Vorteil der Methode liegt darin, daß sie die (eventuell sehr dünne) Struktur von A nutzt Versucht man das Gleichungssystem Ax = b mittels der Cholesky-Zerlegung A = LL T zu lösen, so ist L oft sehr viel voller besetzt als A Als iteratives Verfahren ist das cg-verfahren heute daher sehr weit verbreitet, insbesondere da mit der Einführung leistungsfähigerer Rechner (seit 1952) wesentlich größere Beispiele gerechnet werden können, bei denen die Ausnutzung der Nullstruktur durch das cg-verfahren zum tragen kommt Satz 413 Sei f(x) = 1 2 xt Ax + b T x + c mit A IR n n spd und x 0 IR n beliebig Dann gibt es ein kleinstes m n, so daß g m = 0 Weiter gelten in jedem Schritt l m die Aussagen 1) s T i g k = 0 für 0 i < k l 2) g T i g k = 0 für 0 i < k l 3) s T i As k = 0 für 0 i < k l Beweis: Induktion nach l: l = 0 : (A 0 ) ist als leere Aussage stets wahr (A l ) Es gelte (A l ) und g i 0 für i l, wir zeigen die Gültigkeit von (A l+1 ) 1) Wegen s T l g l+1 = 0 (exakte line search) können wir i < l annehmen 2) Sei i l 3) s T i g l+1 = s T i (Ax l+1 + b) = s T i (A(x i+1 + l j=i+1 = s T i (Ax i+1 + b) + 0 wegen (A l ) 3) = s T i g i+1 = 0 (line search) 0 = s T i g l+1 = ( g i + γ i s i 1 ) T g l+1 = g T i g l+1 λ j s j ) + b) Hier wurden der Reihe nach (A l+1 ) 1), dann die Definition von s i und nochmals (A l+1 ) 1) benutzt (Um den Induktionsanfang korrekt zu verankern, setzen wir hier s 1 = 0) Fall a) i l 1 Dann ist (falls λ i 0) s T i As l+1 = s T i A( g l+1 + γ l+1 s l ) = s T i Ag l+1 (wegen (A l ) 3) = 1 λ i (Ax i Ax i+1 ) T g l+1 (verwende s i = x i+1 x i λ i ) = 1 λ i (g i g i+1 ) T g l+1 = 0 (wegen (A l+1 ) 2) 79

13 Wäre λ i = 0, so wären x i+1 = x i und g i+1 = g i und damit g 0,, g l linear abhängig im Widerspruch zu (A l ) 2) und g 0,, g l 0 Fall b) i = l s T l As l+1 = s T l A( g l+1 + γ l+1 s l ) = 0, wenn γ l+1 = st l Ag l+1 s T l As l α ) Falls g l+1 = 0, so ist γ l+1 = 0 und das Verfahren hält (In diesem Fall gibt es kein s l+1 ) β ) Sei g i 0 für 0 i l + 1 Nach (A l+1 ) 2) sind die g i linear unabhängig, damit ist g l g l+1 und λ l 0 Unter Verwendung von x l+1 = x l + λ l s l, also s l = x l+1 x l λ l folgt s T l Ag l+1 s T l As l = ((x l+1 x l )A) T g l+1 ((x l+1 x l )A) T s l = (g l+1 g l ) T g l+1 (g l+1 g l ) T ( g l + γ l s l 1 ) = gt l+1 g l+1 g T l g l = γ l+1 Bemerkung: Man kann zeigen, daß Im vorletzten Schritt wurden wieder (A l+1 ) 1) und (A l+1 ) 2) benutzt ( ) x k x A 2 k 2 1, x 0 x A c + 1 wobei c die Kondition von A bezüglich der lub 2 -Norm ist Dies ist eine wesentlich bessere lineare Konvergenz als beim steepest-descent-verfahren Trotzdem erkennt man auch hier, daß es günstig wäre, wenn man die Konditionszahl von A verkleinern könnte Dieses Ziel soll im folgenden besprochen werden Präkonditionierung Anstelle von Ax = b löst man auch häufig Ax = b { L 1 AL T z = L 1 b L T z = x, ( ) dh man wendet das cg-verfahren auf Ã = L 1 AL T an Dies hat dann Vorteile, wenn die Kondition von Ã wesentlich besser ist als die von A Wählt man die Matrix L so, daß LL T A ist, dann ist Ã = L 1 AL T I Darüberhinaus ist, wie man leicht zeigt, A genau dann spd wenn dies auch für Ã = L 1 AL T gilt (Dies ist eine Kongruenztransformation, keine Ähnlichkeitstransformation!) Dabei braucht im folgenden der approximative Cholesky-Faktor L zur Durchführung des cg-verfahrens für ( ) nicht explizit bekannt zu sein; es genügt, in jeder Iteration des cg- Verfahrens für ( ) ein Gleichungssystem der Form Mx = b zu lösen, wobei M = LL T Man bezeichnet M als Präkonditionierer und wählt dabei M A so, daß Mx = b leicht gelöst werden kann und M spd ist 80

14 Bemerkung: Die Anwendung des cg-verfahrens auf ( ) L T L 1 Ax = L T L 1 b ist grundsätzlich nicht möglich, da L T L 1 A ia nicht symmetrisch ist Allerdings kann man die Iterierten z k aus ( ) so umschreiben, daß sie wie bei ( ) im ursprünglichen Raum x k = L T z k liegen Dazu bezeichnen wir die Suchrichtungen und Gradienten im z-raum mit s z bzw g z und die entsprechenden Richtungen im x-raum mit s x (s x = L T s z ) bzw g x = L T g z Wir erhalten 1) g x := L T L 1 Ax L T L 1 b = M 1 (Ax b) aus g z := L 1 AL T z + L 1 b (Dann gilt g x = L T g z, falls x = L T z) 2) λ x := st x (Ax b) s T x As x aus λ z := g T z s z s T z L 1 AL T s z (Falls auch s x = L T s z, so folgt λ x = st z L 1 (Ax b) s T z L 1 AL T s z = λ z ) 3) γ x := g+ T x (Ax + b) g x(ax b) = γ z := g+ z T g + z g T z g z Im Vergleich zu den Größen, die beim cg-verfahren zur Lösung von Ax = b benötigt werden, ist hier also eine zusätzliche Größe M 1 (Ax b) nötig Selbstverständlich wird dabei M nicht wirklich invertiert, sondern nur das zugehörige Gleichungssystem gelöst Die zugehörigen Formeln können noch etwas kompakter und effizienter geschrieben werden, siehe zb [3] 431 Das Verfahren von Polak-Ribière (1971) zur Minimierung einer konvexen Funktion f(x) Wir stellen hier eine Variante des cg-verfahrens zur Minimierung einer konvexen Funktion f vor Ein erster solcher Ansatz geht auf Fletcher und Reeves zurück, die hier vorgestellte Variante von Polak und Ribière ist in der Regel deutlich besser als das ursprüngliche Fletcher-Reeves Verfahren Wir setzen g(x) := Df(x) und suchen eine Nullstelle von g(x) Dazu sei s 0 := g 0 x k+1 := x k + λ k s k λ k argmin λ 0 f(x k + λs k ) s k+1 := g k+1 + β k s k β k := (g k+1 g k ) T g k+1 g T k g k λ k erfülle also die Bedingung (B) (exakte line search) näherungsweise Problem: Die Abstiegseigenschaft kann bei inexakter line search verlorengehen Da eine exakte line search recht teuer ist, gibt man sich in der Praxis mit einer inexakten line search zufrieden Konvergenzresultat Unter den Voraussetzungen einer asymptotisch exakten line search sowie der positiven Definitheit von D 2 f( x) und der Lipschitzstetigkeit von D 2 f(x) bei x kann man für kleines 81

15 x 0 x zeigen, daß das Verfahren n-schritt quadratisch konvergent ist, dh es gibt eine Konstante c > 0 mit x n 1 x 2 c x 0 x 2 2 Modifikationen: Verwendung von Restarts: Um das obige Konvergenzresultat auszunutzen wird das cg-verfahren alle n Schritte neu gestartet, dh man setzt s kn = g kn (anstelle von s kn = g kn + γ kn s kn 1 ) für k = 0, 1, 2, ) In der Praxis hat dieser Restart kaum Vorteile Präkonditionierung Obiges Verfahren ist wesentlich besser als das Verfahren des steilsten Abstieges, aber nicht viel teurer Trotzdem sind Varianten des Newton-Verfahrens mit dünner Faktorisierung oft noch geeigneter Ein anderer Ansatz zur Minimierung einer konvexen Funktion, der vor allem bei teuren und voll besetzten Hessematrizen von Vorteil ist sind die Quasi-Newton- Verfahren, die als nächstes besprochen werden Wir merken hier noch kurz an, daß die Verfahren cg, Quasi-Newton und Newton eigentlich keine Minimierungsmethoden, sondern Verfahren zur Berechnung einer Nullstelle sind Angewendet auf eine konkave quadratische Funktion liefern sie ein Maximum, sofern die Schrittweite 1 (für Newton und Quasi-Newton) bzw st k g k s T k As (für cg) gewählt wird Insofern k unterscheiden sich diese Verfahren grundsätzlich von den Abstiegsverfahren 44 Quasi-Newton-Verfahren Problem: Löse die Gleichung F (x) = 0 für eine Funktion F : IR n IR n Anwendungsbeispiel: Minimiere oder maximiere eine Funktion f : IR n IR Setze dazu F (x) := Df(x) T Im folgenden benutzen wir Voraussetzung (V): F ist auf D IR n stetig differenzierbar, F C 1 (D) D ist konvex und offen Es gibt ein x D mit F ( x) = 0 und nichtsingulärem F ( x) = DF ( x) F (x) F ( x) Λ x x x D (Lipschitzbedingung in x) Quasi-Newton-Verfahren, falls F (x k ) 1 zu teuer ist Im Newton-Verfahren berechnet man x k+1 := x k F (x k ) 1 F (x k ) (sofern F (x k ) nichtsingulär ist) Ersetze nun F (x k ) durch B k bzw F (x k ) 1 durch H k = Bk 1 Damit formuliert man die Iterationsvorschrift Wir führen noch folgende Notation ein: x k+1 := x k λ k B 1 k F (x k) bzw x k+1 := x k λ k H k F (x k ) x k+1 x k =: s k F (x k+1 ) F (x k ) =: y k (46) 82

16 Satz 414 (Dennis, Moré) Voraussetzungen: B k sei für alle k nichtsingulär λ k = 1 für alle k lim x n = x, x k x k (man setzt also die Konvergenz der Folge voraus!) x k werde durch (46) erzeugt Voraussetzung (V) sei erfüllt Dann sind äquivalent: 1 lim k x k+1 x x k x = 0 2 lim k (B k F ( x))s k s k = 0 3 lim k B k s k y k s k = 0 Beweis: Wir beweisen die Äquivalenz von 1 und 3, (wegen y k = F (x k+1 ) F (x k ) F ( x)(x k+1 x k ) = F ( x)s k ist damit auch 2 plausibel) 1 3 Wegen (46) ist Damit und aus der Definition von y k folgt B k s k = F (x k ) F (x k+1 ) = y k + F (x k ) = y k B k s k ; dies ist der Zähler des Bruches in 3 Aus den Voraussetzungen (V) folgt dann mit M = F ( x) F (x k+1 ) = F (x k+1 ) F ( x) 1 = F ( x + t(x k+1 x))(x k+1 x)dt 0 [ 1 ] = F ( x + t(x k+1 x))dt (x k+1 x) F ( x) + F ( x + t(x k+1 x)) F ( x) dt x k+1 x (M + x k+1 x Λ) x k+1 x, also F (x k+1 ) c x k+1 x mit einer Konstanten c Desweiteren gilt s k = x k+1 x + x x k x k x x k+1 x = (1 c k ) x k x, 83

17 wobei nach 1 gilt: c k := x k+1 x x k x Zusammen ergibt sich damit die Aussage 3: k 0 F (x k+1 ) s k c x k+1 x (1 c k ) x k x = cc k 1 c k k Nach Voraussetzung ist d k := F (x k+1) s k k 0 Zunächst ist 1 F (x k+1 ) = F (x k+1 ) F ( x) = F ( x + t(x k+1 x))(x k+1 x)dt ( 1 0 ) = F ( x + t(x k+1 x))dt (x k+1 x) } 0 {{ } =:G k Da x k+1 nahe bei x und F ( x) nichtsingulär ist, folgt aus der Stetigkeit von F, daß G k F ( x) Zusammen mit der Abschätzung [2, Korollar 832, S 423] für die Singulärwerte einer Matrix σ k (A + E) σ k (A) E 2 folgt zusätzlich die Existenz von G 1 k großes k ist also und dessen Beschränktheit G 1 c Für k x k+1 x G 1 k F (x k+1) c F (x k+1 ) = cd k x k+1 x k cd k ( x k+1 x + x x k ) Da für große k der Term (1 cd k ) > 0 ist, kann man aus die Behauptung folgern: (1 cd k ) x k+1 x cd k x k x x k+1 x x k x cd k 1 cd k k 0 Im folgenden lassen wir den Iterationsindex k fort und schreiben B = B k, B + = B k+1, s = s k = x + x x = x k, x + = x k+1, y = y k = F (x + ) F (x) Mit dieser Notation lautet die Iterationsvorschrift (46) mit λ k 1 x + = x B 1 F (x) 84

18 Satz 414 verlangt Bs y um superlineare Konvergenz zu garantieren Dies ist wegen F (x) = B( B 1 F (x)) = Bs y = F (x + ) F (x) äquivalent zu 0 F (x + ) und von daher ist Satz 414 in gewissem Sinne eine Tautologie ( wenn F (x + ) stets ganz klein ist verglichen mit x + x, dann konvergiert das Verfahren superlinear ) Der Satz motiviert aber die folgende Bedingung, B + s = y, (47) die Quasi-Newton-Bedingung an B + genannt wird Versucht man nun, den Abstand zwischen B und B + unter Beachtung von (47) klein zu halten, so besteht die Hoffnung, daß die Matrizen B k konvergieren, und somit auch die Bedingung Bs y erfüllen Eine weitere Motivation für die Bedingung (47) ergibt sich aus dem Newtonverfahren Die Konvergenz des Newtonverfahrens (mit line search) ist in den meisten Anwendungen sehr zufriedenstellend, nur der Aufwand (gemessen an der Anzahl der arithmethischen Operationen), um DF (x) 1 zu berechnen ist oft sehr groß Um die gute Konvergenz des Newtonverfahren zu übertragen, hätte man in (46) daher gerne B DF (x) Die Forderung (47) B + (x + x) = y = F (x + ) F (x) F (x + )(x + x) verlangt, daß B + zumindest in Richtung x + x sich ähnlich wie F (x + ) verhält Verfahren (46), die (47) erfüllen, heißen Quasi-Newton-Verfahren Eine erste Variante, die in erster Linie historisch von Bedeutung ist, ist das Broydensche Rang-1-Verfahren, in dem B + (y Bs)sT = B + s T (48) s gesetzt wird Wir sehen dabei, daß B und B + in allen Richtungen z mit s T z = 0 übereinstimmen Darüberhinaus gilt der Satz Satz 415 B + ist die eindeutig bestimmte Lösung von min{ ˆB B ˆBs = y} ˆB F Beweis: Zum Beweis beachten wir B + B (y Bs)s T ( F = s T = ˆB B)ss T s F s T s ˆB ss T B F F s T = s ˆB B F F Die zweite Gleichung folgt aus ˆBs = y und die letzte aus ss T 2 = (s i s j ) 2 = ( F i,j i s 2 i )( j s 2 j) = s T s s T s Die Eindeutigkeit folgt, da die Menge der ˆB, die ˆBs = y erfüllen eine affine (konvexe) Menge ist, und die Zielfunktion 2 F streng konvex ist Wir überlassen die exakte Ausarbeitung dazu als Übung Es gilt nun der folgende Satz, der hier ohne Beweis zitiert wird: 85

19 Satz 416 Unter der Voraussetzung (V ) gibt es ein ɛ > 0, so daß für alle x 0 x ɛ und B 0 F ( x) ɛ das Verfahren (46) mit λ k 1 und der update-formel (48) eine wohldefinierte Folge x k liefert, die superlinear gegen x konvergiert In obigem Satz gilt aber nicht immer lim k B k = F ( x) Die Formel (48) bewahrt offenbar nicht die Symmetrie von B +, falls B symmetrisch sein sollte Die Symmetrie von B F (x) ist insbesondere dann natürlich gegeben, wenn F = f die Ableitung einer Funktion f ist, deren Minimum (Maximum oder Sattelpunkt) gesucht ist, also B D 2 f(x) gelten soll Für diesen Fall stellen wir einen anderen Zugang vor Quasi-Newton-Verfahren zur Minimierung min x IR n f(x) Wir fordern nun die Voraussetzung (V ): Es gelte (V ) für F (x) = Df(x) und f sei konvex Die Voraussetzung (V ) impliziert, daß x Minimum von f ist, und daß D 2 f( x) spd ist Setzen wir g k = f (x k ) = F (x k ), so schreibt sich die Iterationsvorschrift (46) als wobei λ k gemäß x k+1 := x k λ k Bk 1 bzw x k+1 := x k λ k H k g k, g k f(x k+1 ) min λ 0 f(x k + λ s k ), s k = Bk 1 g k = H k g k gewählt wird Zusätzlich zu (47) fordern wir nun noch, daß (B + ) T = B + falls B = B T gilt, bzw (H + ) T = H + falls H = H T Es gilt der folgende Satz: Satz 417 Sei M = M T nichtsingulär, y, s IR n mit s 0, und c := M 2 s Sei weiter B = B T, dann wird min{ M( ˆB B)M ˆB = ˆB T, ˆBs = y} (49) ˆB F angenommen durch B + = B + (y Bs)cT + c(y Bs) T c T s (y Bs)T s (c T s) 2 cc T, (50) die Rang-2-update-Formel Beweis: Die Symmetrie von B + liest man in (50) direkt ab Ebenso verifiziert man B + s = Bs + (y Bs) + c (y Bs)T s c T s (y Bs)T s c T c = y s Seien nun u 1,, u n eine beliebige ON-Basis im IR n, (also paarweise senkrecht und von Euklidscher Norm 1) Für E IR n n gilt dann E 2 n F = Eu i 2 2 (51) i=1 86

20 Wenn wir die Spalten von E T mit e i bezeichnen und mit U die orthogonale Matrix mit Spalten u i, dann folgt obige Gleichung aus E 2 E F = T 2 = (e 1, e 2,, e n ) 2 n F F = e i 2 n 2 = U T 2 e i 2 = (U T e 1,, U T e n ) 2 U = T E T 2 = F F EU 2 F = (Eu 1,, Eu n ) 2 n F = Eu i 2 2 Sei nun ˆB beliebig, aber zulässig für (49) Wir bezeichnen die Matrizen, deren Norm in (49) minimiert wird, mit i=1 i=1 Ê := M( ˆB B)M, bzw E + := M(B + B)M Um die Darstellung von E + in der Form (50) auszudrücken, definieren wir z := Mc = M 1 s und beachten Weiter ist Aus (50) folgt somit (y Bs) T M = s T ( ˆB B)M = s T M 1 M( ˆB B)M = z T Ê c T s = (M 2 s) T s = (s T M 1 )(M 1 s) = z T z und Mcc T M = zz T i=1 (y Bs) T M Mc {}}{{}}{ E + = ÊzzT + z z T Ê z T z (y Bs) T M {}}{ M 1 s z T {}}{ Ê z (z T z) 2 zz T Für einen beliebigen Vektor v mit v T z = 0 folgt aus dieser Darstellung E + v 2 = wobei in der Ungleichung rechts zz T x 2 Nach Definition von z gilt weiter z zt Êv z T z 2 zz T 2 x 2 und E + z = E + M 1 s = M(B + B)s = M( ˆB B)s = Êz Êv 2, (52) zz T 2 = z T z benutzt wurde und insbesondere E + z 2 = Êz 2 (53) Baut man aus z/ z 2 und den Vektoren v mit v T z = 0 eine ON-Basis auf, so folgt aus (51), (52) und (53) daß E + F Ê F Es gilt auch der folgende Satz: 87

21 Satz 418 Sei N = N T nichtsingulär, y, s IR n mit y 0, und d := N 2 y Sei weiter H = H T, dann wird min{ N(Ĥ H)N F Ĥ = ĤT, Ĥy = s} Ĥ angenommen durch H + = H + (s Hy)dT + d(s Hy) T d T y (s Hy)T y (d T y) 2 dd T (54) Beweis: Der Satz folgt aus Satz 417 durch Übergang B H, B + H +, s y, c d, M N Die Idee der Sätze 417 und 418 ist, einfach handhabbare Matrizen M bzw N für den update zu wählen Je nach Wahl von M und N ergeben sich dabei verschieden Verfahren Spezialfälle der obigen Formel sind zb das PSB-Verfahren (Powell symmetric Broyden) und das DFP-Verfahren (Davidon, Fletcher, Powell), die hier nur dem Namen nach zitiert werden sollen Eine weitere Variante, die sich in den Anwendungen bewährt hat, beruht auf folgendem Ansatz Falls s T y > 0 so existiert eine positiv definite Matrix N mit s = N 2 y Für ein solches N ist d = s in (54) und (54) reduziert sich auf H + = H + (s Hy)sT + s(s Hy) T s T y (s Hy)T y (s T y) 2 ss T, (55) die BFGS-update Formel Wir schreiben dann auch H + = H + BF GS Die Existenz einer positiv definiten Matrix N 2 mit N 2 s = y folgt zum Beispiel aus dem Ansatz N 2 = (I + µss T + νyy T ) mit passenden Zahlen µ und ν, so daß N 2 s = y gilt Es folgt µ = 1/s T s und ν = 1/y T s > 0 Außerdem ist z T N 2 z = z T z (z T s) 2 s T s }{{} z 2 2 s 2 2 /st s=z T z + (yt z) 2 y T s } {{ } 0 Dabei ist die Abschätzung von z T s (nach der CSU) genau dann scharf, wenn z ein Vielfaches von s ist, und dann ist (y T z) 2 > 0 Es gilt also stets z T N 2 z > 0 Zieht man die symmetrische Wurzel aus N 2 so erhält man die gesuchte Matrix N Da die Matrix N für den Update nicht explizit gebraucht wird, ist diese Herleitung ausreichend Es gilt nun folgender Satz: Satz 419 Sei H spd, y T s > 0 und H + = H + BF GS, dann ist auch H+ spd und es gilt H + = (I syt yst s T )H(I y s T y ) + sst y T s sowie ( ) wobei B := H 1 und B + := (H + ) 1 B + = B + yyt s T y BssT B s T Bs, 88

22 Der Beweis dieses Satzes ergibt sich durch ausmultiplizieren Die erste Formel in Satz 419 zeigt auch die positive Definitheit von H + Die zweite Formel in Satz 419 ist die ursprüngliche BFGS-update Formel, und wird auch in der Praxis verwendet Wie alle Quasi- Newton-Verfahren ist das BFGS-Verfahren hauptsächlich für voll besetzte Probleme mit teurer Hessematrix interessant In solchen Anwendungen wird dann eine Zerlegung B = LL T mitgeführt, deren Faktor L unter ( ) in O(n 2 ) Operationen nachkorrigiert werden kann In der Literatur wird auch die Broydensche β-klasse von Rang-2-update-Verfahren viel zitiert, die eine Mischung aus BFGS-Verfahren und DFP-Verfahren ist Das DFP-Verfahren erhält man, wenn man den BFGS-update (55) auf B anstelle von H anwendet Die Broydensche β-klasse ist für einen Parameter θ 0 durch H + = H + (1 + θ yt Hy s T y ) sst s T y (1 θ)hyyt H y T Hy θ s T y (syt H + Hys T ) (56) definiert Für θ = 1 erkennen wir dabei nach kleineren Umformungen das BFGS-Verfahren wieder Für θ = 0 erhalten wir die zweite Formel aus Satz 419 mit H anstelle von B, und den Rollen von y und s vertauscht (das DFP-Verfahren) Man kann für alle Verfahren der Broydenschen β-klasse mit 0 θ 1 ein Analogon zum Satz 416 (lokale superlineare Konvergenz) zeigen Eine Verallgemeinerung der Broydenschen β-klasse ist die Oren-Luenberger-Klasse, bei der jedes H auf der rechten Seite von (56) noch mit einem positiven Faktor γ multipliziert wird Damit soll zusätzliche Information, die man vielleicht über die Größe B oder H hat, auch in die update-formel mit aufgenommen werden können Zum Abschluß dieses Kapitels soll noch eine Brücke zwischen dem BFGS-Verfahren und dem cg-verfahren geschlagen werden Satz 420 Sei f(x) = 1 2 xt Ax + b T x + c mit spd-matrix A IR n n Sei weiter x 0 IR n beliebig und H 0 beliebig, spd Dann liefert das BFGS-Verfahren ausgehend von x 0, H 0 bei exakter line search (λ k = argmin λ 0 f(x k + λs k )) Folgen x k, H k mit a) Es gibt ein kleinstes m n mit x m = x = A 1 b b) Für l m gelten folgende Aussagen: α) s T k y i = s T i y k = s T i As k = 0 (0 i < k l 1) s T i y i > 0 (0 i l 1) (A l ) H i ist positiv definit (0 i l) β) s T i g k = 0 (0 i < k l) γ) H k y i = s i (0 i < k l) c) Falls m = n, dann ist H m = A 1 Beweis: Wir zeigen (A l ) durch Induktion nach l Für l = 0 ist lediglich festzuhalten, daß H 0 spd ist Seien also g 0,, g l 0 und es gelte (A l ) Wir zeigen (A l+1 ) α): Da H l spd ist und g l 0, ist die Suchrichtung d l := H l g l 0 Aus der line search entlang x l + λd l erhalten wir wieder 0 = g T l+1d l = (Ax l λ l Ad l + b) T d l = g T l d l λ l d T l Ad l 89

23 und somit λ l = g T l d l/d T l Ad l = g T l Hg l/d T l Ad l > 0 Für s l := λ l d l folgt aus obiger Gleichung g l+1 s l = 0 und s T l y l = λ l d T l (g l+1 g l ) = λ l d T l g l = λ l g T l H l g l > 0 Dies ist die zweite Aussage von (A l+1 ), α) Nach Satz 419 ist somit auch H l+1 positiv definit (die dritte Aussage von (A l+1 ), α)) Schließlich ist für i < l (A l ),β) (A }{{} l ),γ) 0 = λ l gl T }{{} s i = λ l gl T H l y i = s T l y i = s T l (g i+1 g i ) = s T l A(x i+1 x i ) = s T l As i Genauso folgt s T l As i = s T i y l und damit die erste Aussage von (A l+1 ), α) β): Für i < l + 1 ist s T i g l+1 = s T i (g i+1 + l j=i+1 l y j ) = s T i g i+1 + s T i y j = 0 }{{} j=i+1 =0, (line search) }{{} =0, (A l+1 ),α) γ): Aus der Quasi-Newton-Bedingung folgt H l+1 y l = s l Es genügt daher, H l+1 y i = s i für i < l zu zeigen Wegen (A l+1 ), α) ist s T l y i = 0 Weiter ist wegen (A l ), γ und (A l+1 ), α) auch y T l H ly i = y T l s i = 0 Aus der Update-Formel (55) folgt daher H l+1 y i = H l y i + ( (sl H l y l )s T l + s l (s l H l y l ) T s T l y l und letzteres ist wegen (A l ), γ) gleich = s i (s l H l y l ) T ) y l (s T l y l) 2 s l s T l y i = H l y i Die Aussage a) folgt aus b) aufgrund der A-Konjugiertheit der s i, die Aussage c) bleibt dem Leser zum Beweis überlassen Unter den Voraussetzungen von Satz 420 läßt sich für den Fall H 0 = I zeigen (Übung), daß das BFGS-Verfahren die gleichen Iterierten wie das cg-verfahren erzeugt 45 Nichtlineare Ausgleichsprobleme In diesem Abschnitt betrachten wir 2-mal stetig differenzierbare Funktionen mit m n Wir setzen und suchen f 1 (x) f(x) = f m (x) : IR n IR m Φ(x) := 1 2 f(x) 2 2 = 1 m f i (x) 2 2 i=1 min Φ(x) (57) x IR n Dies ist ein allgemeines Ausgleichsproblem oder nichtlineares least-squares-problem Wir lassen im Folgenden den Index 2 bei f(x) 2 fort und bezeichnen mit stets die Euklidische Norm 90

24 Falls f(x) = Ax b mit einer m n-matrix A, so erhalten wir ein lineares least-squares- Problem In Anwendungen sind die f i häufig von der Form f i (x) = η i (x) y i wobei η i irgendwelche Ansatzfunktionen und y i Meßwerte sind Man rechnet leicht nach, daß Φ(x) = J(x) T f(x) mit J(x) = Df(x) Hierbei bezeichnen wir mit den Gradienten als Spaltenvektor aufgefaßt Df(x) ist die Jacobimatrix von f der Dimension m n und hat die Form eines stehenden Handtuchs, dh mehr Zeilen als Spalten Weiter ist m D 2 Φ(x) = J(x) T J(x) + f i (x)d 2 f i (x) i=1 } {{ } =:B(x) Es mögen folgende Voraussetzungen (V ) gelten: 1) Es gibt eine offene, konvexe Menge D mit f i C 2 (D) 2) Es gibt eine Optimallösung x = argmin Φ(x) in D 3) Rang(J( x)) = n und D 2 Φ( x) ist positiv definit 4) D 2 f i (x) sind in x Lipschitz-stetig für 1 i m, dh es gibt ein Λ > 0 mit D 2 f i (x) D 2 f i ( x) Λ x x x D Das Newtonverfahren zur Lösung von (57) schreibt sich als wobei x k+1 = x k λ k D 2 Φ(x k ) 1 Φ(x k ), }{{} =: d k Φ(x k+1 ) min Φ(x k + λd k ) λ (line search) Die Berechnung von D 2 Φ(x) kann wegen des B(x)-Anteils dabei recht aufwendig sein Wir kürzen im folgenden J(x k ) = J k und f(x k ) = f k ab An sich ist es zunächst nicht gerechtfertigt, den B(x)-Anteil beim Newton-Verfahren ohne weiteres wegzulassen und blind zu hoffen, daß das Verfahren trotzdem konvergiert Die folgenden Überlegungen führen aber trotzdem zu diesem Vorgehen Wir überlegen, nicht nur DΦ linear zu approximieren (genau das tut das Newtonverfahren ja), sondern auch die f i zu linearisieren Setzt man und f(x) f(x k ) + J(x k )(x x k ) Φ k (x) := 1 2 f(x k) + J(x k )(x x k ) 2 = 1 2 (f k + J k (x x k )) T (f k + J k (x x k )), so erhält man Φ k (x) = J T k (f k + J k (x x k )), D 2 Φ k (x) = J T k J k 91

25 Diese Formeln legen das folgende Verfahren nahe x k+1 = x k + λ k ( (J T k J k )) 1 J T k f k ) }{{} =:d k, wobei Φ(x k+1 ) min λ Φ(x k + λd k ) (line search), welches Gauß-Newton-Verfahren genannt wird Unter der Voraussetzung (V ) existiert d k für kleine x k x, denn dann hat J(x k ) vollen Rang Weiter ist d k stets eine Abstiegsrichtung für Φ, sofern x k kein stationärer Punkt von Φ ist Denn setzt man ϕ(λ) := Φ(x k +λd k ) so ist ϕ (0) = d T k (Jk T f k ) = d T k Jk T J k d k = J k d k 2 < 0 }{{} = J k f k In der letzten Ungleichung nutzen wir, daß J k d k = J k (J T k J k) 1 J k f k = 0 genau dann, wenn J k f k = 0 ist, dh wenn x k stationärer Punkt von Φ ist Schließlich ist d k Lösung des linearen Ausgleichsproblems (der Normalengleichungen) 1 min d 2 f(x k) + J k d 2 Algorithmus 421 (Gauß-Newton-Verfahren) Sei x 0 IR n beliebig Für k = 0, 1, : 1 d k := (J T k J k) 1 J T k f k mit J k = J(x k ), f k = f(x k ) 2 Setze x k+1 = x k + λ k d k derart, daß Φ(x k+1 ) min λ Φ(x k + λd k ) Falls λ k wie in Satz 47 zu den Abstiegsverfahren bestimmt wird, K := {x Φ(x) Φ(x 0 )} kompakt und J(x) T J(x) auf K invertierbar ist, so erzeugt Algorithmus 421 eine Folge, deren Häufungspunkte stationäre Punkte von Φ sind Dies folgt aus Satz 47: Es sind J(x) T J(x) und (J(x) T J(x)) 1 als stetige Funktionen auf der kompakten Menge K durch eine Konstante M beschränkt Kürzen wir mit λ max = λ max ((J T J) 1 ) und λ min = λ min ((J T J) 1 ) den maximalen und den minimalen Eigenwert von (J(x) T J(x)) 1 im Punkt x ab, so ist für alle x K λ max = (J(x) T J(x)) 1 1 M und = J(x) λ T J(x) M min Wir erinnern, daß für eine symmetrische Matrix A stets x T Ax λ min (A)x T x gilt Es folgt mit der Abkürzung Φ k := Φ k (x k ) = Φ(x k ) Φ T k d k = Φ T k (Jk T J k ) 1 Φ k λ min Φ k 2 = λ min Φ k (Jk T J k )(Jk T J k ) 1 Φ k λ min Φ k λ min (J T k J k ) (J T k J k ) 1 Φ k = λmin Φ k 1 λ max d k 1 M 2 Φ k d k, womit d k / d k die Voraussetzung von Schritt 2) an die Wahl der Suchrichtung s k im Verfahren 45 erfüllt und Satz 47 anwendbar ist 92

26 Wir bezeichnen mit ( ) 1 J T J J T =: J + die Pseudoinverse von J Für diese gelten J + J = I und JJ + = (JJ + ) T Bemerkung: Für beliebige m n-matrizen J definieren die folgenden vier Bedingungen eindeutig die Pseudoinverse J +, JJ + = (JJ + ) T J + J = (J + J) T JJ + J = J J + JJ + = J +, siehe zb [3] In Algorithmus 421 werde stets λ k 1 gewählt, und mit Ψ(x) := x J(x) + f(x) ( 1 = x J(x) J(x)) T J(x) T f(x) sei die Iterationsfunktion des Gauß-Newton-Verfahrens bezeichnet Wir untersuchen das Konvergenzverhalten von Algorithmus 421 (λ k 1) in der Nähe von x := argmin Φ(x) Wegen Φ(x ) = J(x ) T f(x ) = 0 ist x ein Fixpunkt von Ψ Die Fixpunktiteration x k+1 = Ψ(x k ) konvergiert lokal gegen den Fixpunkt x von Ψ, falls der Spektralradius ρ(dψ(x )) < 1 ist Dabei sei für eine quadratische Matrix A mit ρ(a) der Betrag des betragsmaximalen Eigenwerts von A bezeichnet, ρ(a) = max{ λ i (A) } Der Beweis dieser Behauptung soll hier nur angedeutet werden: Für jede Matrix A und jedes ɛ > 0 gibt es eine Vektornorm und eine dazu verträgliche Matrixnorm mit A ρ(a) + ɛ Für ausreichend kleines ɛ läßt sich in dieser Norm lokal die lineare Konvergenz zeigen (Übungsaufgabe) Zur Berechnung von DΨ(x ): mit J = J(x ) DΨ(x ) = { I D (J(x) T J(x)) 1} x=x (J(x ) T f(x )) }{{} } {{ =0 } =0 m (J(x ) T J(x )) 1 {J(x ) T J(x ) + f i (x )D 2 f i (x )} i=1 } {{ } =:B(x ) = (J T J) 1 B(x ) 93

27 Behauptung: Die von Null verschiedenen Eigenwerte von DΨ(x ) und JDΨ(x )J + stimmen überein Beweis: (Beachte, daß die Behauptung offensichtlich ist, falls J quadratisch und invertierbar ist, dh wenn J + = J 1 ) 1 Sei u Eigenvektor von DΨ(x ) zum Eigenwert λ, dh DΨ(x )u = λu Setze v := Ju Dies impliziert (J T J) 1 J T v = J + v = J }{{ + J} u = u, =I und somit JDΨ(x )J + v = JDΨ(x )u = λju = λv, also ist λ auch Eigenwert von JDΨ(x )J + 2 Umgekehrt sei λ ein von 0 verschiedener Eigenwert von JDΨ(x )J + Es gebe also ein v 0 mit JDΨ(x )J + v = λv Wegen der Voraussetzung λ 0 kann man u := 1 λ DΨ(x )J + v definieren Dann ist Ju = v und damit u = J }{{ + J} u = J + v Somit ist =I JDΨ(x )u = JDΨ(x )J + v = λv = λju Da J vollen Spaltenrang hat, ist DΨ(x )u = λu und damit die Behauptung gezeigt Nun ist Mit obiger Behauptung folgt: JDΨ(x )J + = J(J T J) 1 B(x )J + = (J + ) T B(x )J + =: M Falls ρ := ρ(dψ(x )) = max { λ min (M), λ max (M) } < 1, so konvergiert das Gauß- Newton-Verfahren lokal linear, und die Konvergenzrate ist umso besser, je kleiner ρ ist (Man beachte, da M symmetrisch ist hat M nur reelle Eigenwerte) Wir betrachten die Anwendung f i (x) = y i η i (x), wobei y i irgendwelche Meßwerte sind Falls die Meßwerte gut sind, dh f(x ) klein ist, so ist B(x ) = f i (x )D 2 f i (x ) und somit auch ρ klein (Beachte, daß J(x) und D 2 f i (x) nicht von den y i abhängen) Allgemein gilt die Faustregel: je kleiner f(x ), desto besser die Konvergenz des Gauß-Newton-Verfahrens Im folgenden soll die Matrix M noch etwas näher betrachtet werden Es ist D 2 Φ(x ) = J T J + B(x ) = J T (I + (J + ) T B(x )J + )J (Bei der letzten Umformung verwendeten wir }{{} =M J + J = I) Falls x ein lokales Minimum von Φ ist, dann ist D 2 Φ(x ) positiv semidefinit Wäre nun ein Eigenwert von M kleiner als 1, so haben I + M und J T (I + M)J einen negativen Eigenwert In einem lokalen Minimum sind also die Eigenwerte von M größer oder gleich 1 94