2 Statische Optimierung: Unbeschränkter Fall

Transkript

1 2 Statische Optimierung: Unbeschränkter Fall 2. Optimalitätsbedingungen Bevor in den Abschnitten die numerischen Verfahren zur Lösung statischer Optimierungsprobleme ohne Beschränkungen behandelt werden, sollen in diesem Abschnitt die Optimalitätsbedingungen für ein allgemeines beschränktes Optimierungsproblem der Form (.3) min x X ad f(x) (2.) mit dem zulässigen Bereich X ad diskutiert werden. Zur Definition der Begriffe lokaler und globaler Minima sei auf Abschnitt.3. und im Speziellen auf Definition.2 verwiesen. Um die notwendigen Bedingungen für ein lokales Minimum x der Optimierungsaufgabe (2.) zu formulieren, führt man den Begriff einer zulässigen Richtung ein. Für x X ad ist der Vektor d eine zulässige Richtung am Punkt x, wenn ein ᾱ > 0 so existiert, dass x + αd X ad für alle α, 0 α ᾱ. Satz 2. (Notwendige Optimalitätsbedingungen erster Ordnung). Es sei X ad R n die zulässige Menge des Optimierungsproblems (2.) und f C eine Funktion definiert auf X ad. Wenn x ein lokales Minimum von f auf X ad ist, dann gilt für jede zulässige Richtung d am Punkt x die Ungleichungsbedingung d T ( f)(x ) 0. (2.2) Gilt darüberhinaus, dass x im Inneren von X ad liegt (wie dies bespielsweise bei X ad = R n der Fall ist), dann folgt die Bedingung ( f)(x ) = 0. (2.3) Beweis. Da d eine zulässige Richtung am Punkt x ist, gilt für jedes α, 0 α ᾱ, dass der Punkt x(α) = x + αd X ad. Nun definiert man für 0 α ᾱ die Funktion g(α) = f(x(α)), die am Punkt α = 0 ein lokales Minimum besitzt. Entwickelt man g(α) um den Punkt α = 0 in eine Taylorreihe und bricht diese nach dem linearen Glied ab, erhält man g(α) = g(0) + g (0)α + o(α), (2.4) wobei o(α) den Restterm bezeichnet, der schneller nach Null abklingt als α. Wäre nun g (0) < 0, dann würde für ein hinreichend kleines α > 0 gelten g(α) g(0) < 0, was ein Widerspruch zur Annahme ist, dass α = 0 bzw. x ein Minimum ist. Daher

2 2. Optimalitätsbedingungen Seite 2 muss gelten g (0) = d T ( f)(x ) 0. Wenn x im Inneren von X ad liegt, dann ist jede Richtung am Punkt x zulässig, d. h. d T ( f)(x ) 0 für alle d R n. Dies kann aber nur für alle d erfüllt sein, wenn ( f)(x ) = 0 ist. Beispiel 2.. Man betrachte das Optimierungsproblem min f(x, x 2 ) = x 2 x x 2 + x 2 2 3x 2. (2.5) x R 2 Berechnet man nun die notwendige Optimalitätsbedingung erster Ordnung gemäß (2.3) 2x x 2 = 0 x + 2x 2 = 3, (2.6a) (2.6b) [ T dann erkennt man, dass x = 2] eine eindeutige Lösung von (2.6) ist, welche in diesem Fall sogar das globale Minimum beschreibt. Beispiel 2.2. In einem weiteren Beispiel betrachte man die Optimierungsaufgabe mit der zulässigen Menge min f(x, x 2 ) = x 2 x + x 2 + x x 2 (2.7) x X ad X ad = { } x R 2 : x 0, x 2 0. (2.8) [ ] T Das Problem hat an der Stelle x = 2 0 ein globales Minimum. Wertet man den Gradienten an der Stelle x aus, so erhält man f(x ) = x 2x + x 2 = 0 (2.9a) f(x ) = x 2 + x = 3 2. (2.9b) Wie man erkennt, verschwindet in diesem Fall der Gradient an der Stelle x nicht, aber die notwendige Bedingung (2.2) ist für alle zulässigen Richtungen d erfüllt, da die zweite Komponente von d wegen der Definition von X ad gemäß (2.8) größer gleich Null sein muss. Die notwendige Optimalitätsbedingung erster Ordnung für einen inneren Punkt (2.3) gemäß Satz 2. gibt lediglich an, dass es sich bei diesem Punkt um einen Extremalpunkt (auch als stationären Punkt bezeichnet) handelt, die Bedingung wird aber von einem Minimum, Maximum oder Sattelpunkt gleichermaßen erfüllt, siehe Abbildung 2..

3 2. Optimalitätsbedingungen Seite 22 f(x) Maximum f(x, x 2 ) Sattelpunkt Sattelpunkt (a) Minimum x x 2 Höhenlinien (b) x Abbildung 2.: Beispiele von stationären Punkten im ein und zwei dimensionalen Fall. Man kann nun Satz 2. weiter präzisieren, indem man bei der Taylorreihenentwicklung (2.4) Terme höherer Ordnung in α hinzunimmt. Satz 2.2 (Notwendige Optimalitätsbedingungen zweiter Ordnung). Es sei X ad R n die zulässige Menge des Optimierungsproblems (2.) und f C 2 eine Funktion definiert auf X ad. Wenn x ein lokales Minimum von f auf X ad ist, dann gelten für jede zulässige Richtung d am Punkt x die Bedingungen (a) d T ( f)(x ) 0 (2.0a) (b) wenn d T ( f)(x ) = 0, dann d T( ) 2 f (x )d 0. (2.0b) Gilt darüberhinaus, dass x im Inneren von X ad liegt (wie dies bespielsweise bei X ad = R n der Fall ist), dann folgen die Bedingungen (a) ( f)(x ) = 0 (2.a) (b) für alle d gilt d T( ) 2 f (x )d 0. (2.b) Aufgabe 2.. Beweisen Sie Satz 2.2. Hinweis: Orientieren Sie sich dabei am Beweis von Satz 2.. Die Bedingung (2.b) entspricht der Forderung, dass die Hessematrix ( 2 f ) (x) an der Stelle x = x positiv semi-definit ist. Aufgabe 2.2. Betrachten Sie die Optimierungsaufgabe min f(x, x 2 ) = x 3 x 2 x 2 + 2x 2 2 (2.2) x X ad

4 2. Optimalitätsbedingungen Seite 23 mit der zulässigen Menge X ad = { } x R 2 : x 0, x 2 0. (2.3) [ T Zeigen Sie, dass der Punkt x = 6 9] zwar die Optimalitätsbedingung erster Ordnung erfüllt, aber trotzdem kein lokales Minimum beschreibt. Die Optimalitätsbedingungen von Satz 2.2 sind lediglich notwendig, wie man sich einfach anhand der Funktion f(x) = x 3 überzeugen kann. Die Funktion besitzt an der Stelle x = 0 einen Extremalpunkt (f (x ) = 3(x ) 2 = 0) und obwohl die zweite Ableitung f (x ) = 6x = 0 positiv semi definit ist, ist x = 0 kein Minimum, sondern ein Sattelpunkt (siehe Abbildung 2.). Für einen inneren Punkt von X ad lassen sich durch leichte Umformulierung von Satz 2.2 hinreichende Optimalitätsbedingungen angeben. Satz 2.3 (Hinreichende Optimalitätsbedingungen zweiter Ordnung). Es sei X ad R n die zulässige Menge des Optimierungsproblems (2.) und f C 2 eine Funktion definiert auf X ad. Wenn x ein innerer Punkt von X ad ist und folgende Bedingungen (a) ( f)(x ) = 0 (2.4a) ( ) (b) 2 f (x ) > 0 (positiv definite Hessematrix am Punkt x ) (2.4b) erfüllt sind, dann ist x ein striktes lokales Minimum von f. Aufgabe 2.3. Beweisen Sie Satz 2.3. Beispiel 2.3. Für das Optimierungsproblem min f(x) = x R x2 2 + ax 2 2 x x 2 (2.5) sollen die stationären Werte x in Abhängigkeit des Parameters a 4 charakterisiert werden. Der Gradient und die Hessematrix von f(x) ergeben sich zu [ ] 2x x 2 ( f)(x) =, 2ax 2 x Aus ( f)(x ) = 0 folgt x = ( ) 2 f (x) = [ ] 2. (2.6) 2a [ 0 0] T als einziger stationärer Punkt. Die Definitheit der Hessematrix ( 2 f ) (x) an der Stelle x lässt sich mit Hilfe der Hauptminoren (Sylvesterkriterium, siehe (c) in Satz.2) untersuchen D = 2, D 2 = 4a. (2.7)

5 2. Optimalitätsbedingungen Seite 24 Somit ist ( 2 f ) (x ) positiv definit für a > 4 und x = [ 0 0] T stellt ein striktes Minimum dar. Für a < 4 ist D > 0 und D 2 < 0 und ( 2 f ) (x) somit indefinit. In [ T diesem Fall ist x = 0 0] ein Sattelpunkt, wie er in Abbildung 2.(b) für a = dargestellt ist. Wenn die Funktion f(x) (strikt) konvex ist, dann lassen sich stärkere Aussagen im Vergleich zu den bisherigen Sätzen treffen. Der Grund dafür liegt darin, dass aus der Konvexität von f(x) unmittelbar die positive Semi-Definitheit der Hessematrix von f(x) folgt. Satz 2.4 (Minimierung konvexer Funktionen Menge der Minima). Es sei f(x) eine konvexe Funktion auf der konvexen Menge X ad. Dann ist die Menge aller Minima G = arg min{f(x) : x X ad } ebenfalls konvex und jedes lokale Minimum von f(x) ist ein globales Minimum. Beweis. Angenommen c 0 beschreibt das Minimum von f. Dann ist die Menge G = {x : x X ad, f(x) c 0 } gemäß (.32) ebenfalls konvex, womit der erste Teil des Satzes gezeigt ist. Im Weiteren nehme man an, dass x X ad ein lokales Minimum von f ist und ein weiterer Punkt y X ad so existiert, dass gilt f(y) < f(x ). Auf Grund der Konvexität von f folgt nach Definition.6, im Speziellen (.29), für alle α mit 0 < α < die Ungleichung f(α y + ( α) x ) α f(y) + ( α) f(x ) < f(x ). (2.8) Da α hinreichend klein sein kann, folgt aber aus (2.8), dass ein weiterer Punkt z = α y + ( α) x in einer hinreichend kleinen Umgebung von x existiert, der die Funktion f noch kleiner macht, was gemäß Definition.2 ein Widerspruch dazu ist, dass x ein lokales Minimum von f ist. Der nächste Satz zeigt, dass für eine stetig differenzierbare und konvexe Funktion f die notwendigen Optimalitätsbedingungen erster Ordnung notwendig und hinreichend für die Existenz eines globalen Minimums sind. Satz 2.5 (Minimierung konvexer Funktionen globales Minimum). Es sei f C eine konvexe Funktion auf der konvexen Menge X ad. Existiert ein Punkt x X ad so, dass für alle y X ad gilt (y x ) T ( f)(x ) 0, (2.9) dann ist x ein globales Minimum von f auf X ad. Gilt darüberhinaus, dass x im Inneren von X ad liegt, dann kann die Ungleichung (2.9) durch die Bedingung ( f)(x ) = 0 ersetzt werden. Beweis. Da d = y x eine zulässige Richtung am Punkt x ist, entspricht (2.9) der notwendigen Optimalitätsbedingung erster Ordnung (2.2) von Satz 2.. Auf Grund

6 2.2 Rechnergestützte Minimierungsverfahren: Grundlagen Seite 25 der Konvexität von f folgt nach (.33) die Ungleichung f(y) f(x ) + (y x ) T ( f)(x ) f(x ) (2.20) für alle y X ad, womit der Satz bewiesen ist. 2.2 Rechnergestützte Minimierungsverfahren: Grundlagen Da die Stationaritätsbedingung ( f)(x ) = 0 von (2.4a) (n nichtlineare Gleichungen in x ) nur in seltenen Fällen analytisch ausgewertet werden kann, ist man im Allgemeinen auf numerische Verfahren angewiesen, um einen stationären Punkt x zu finden. Im Wesentlichen basieren die Algorithmen auf der Idee, dass man beginnend bei einem Startpunkt x 0 eine Folge {x k } so generiert, dass die Funktion f(x) in jedem Iterationsschritt abnimmt, d. h. f(x k+ ) < f(x k ), k = 0,, 2,.... (2.2) Das Ziel dabei ist es, dass die Folge für k gegen das (lokale) Minimum konvergiert lim x k = x. (2.22) k In der englischsprachigen Literatur werden solche Algorithmen auch als iterative descent algorithms bezeichnet. Bezüglich der genauen Analyse des (globalen) Konvergenzverhaltens der im Weiteren vorgestellten Algorithmen sei auf die am Ende angeführte Literatur verwiesen. An dieser Stelle sei lediglich der Begriff der Konvergenzordnung eines Algorithmus erläutert. Definition 2. (Konvergenzordnung). Es sei {x k } eine Folge, die gegen den Grenzwert x konvergiert. Die Konvergenzordnung der Folge {x k } ist das Supremum der nichtnegativen Zahlen p, für die gilt x k+ x 0 lim k x k x p <. (2.23) Im Wesentlichen beschreibt die Konvergenzordnung das Verhalten der Folge für k. Größere Werte der Konvergenzordnung p bedeuten, dass die Folge schneller konvergiert, da der Abstand von x (zumindest für sehr große Werte von k) in einem Iterationsschritt um die p-te Potenz reduziert wird. Beispiel 2.4. Die Folge {a k } mit 0 < a < konvergiert mit der Konvergenzordnung p = nach Null, da nur für p die Bedingung erfüllt ist. a k+ lim k a kp = lim k a+k( p) < (2.24)

7 2.2 Rechnergestützte Minimierungsverfahren: Grundlagen Seite 26 Aufgabe 2.4. Zeigen Sie, dass die Folge {a 2k } mit 0 < a < mit der Konvergenzordnung 2 gegen 0 konvergiert. Besonders häufig treten in diesem Zusammenhang Algorithmen mit linearer Konvergenzordnung auf. Definition 2.2 (Lineare Konvergenzordnung Konvergenzrate). Es sei {x k } eine Folge, die gegen den Grenzwert x konvergiert und es gelte x k+ x lim k x k x = β <. (2.25) Man sagt dann, die Folge {x k } konvergiert linear gegen den Grenzwert x mit der Konvergenzrate β. Die Konvergenzgeschwindigkeit eines Algorithmus mit linearer Konvergenzordnung ist daher umso schneller, je kleiner die Konvergenzrate β ist. Der Grenzfall β = 0 wird auch als superlinear bezeichnet, wobei unmittelbar einsichtig ist, dass jeder Algorithmus mit Konvergenzordnung größer superlinear ist. Beispiel 2.5. Die Folge { } hat eine lineare Konvergenzordnung, da nur für p k k die Bedingung lim k erfüllt ist. Die Auswertung von (2.25) für die Folge { k k } lim k k k = lim (k + ) k+ k k kp < (2.26) (k + ) k+ zeigt, dass die Folge { k k } superlinear gegen Null konvergiert. ( ) k k = β = 0 (2.27) k + k + Bei den betrachteten Optimierungsalgorithmen für (2.) hat man es typischerweise mit Folgen von Vektoren der Form {x k }, die gegen ein Minimum x konvergieren, zu tun. Um die Konvergenzeigenschaft einer unendlichen Folge von Vektoren zu untersuchen, erfolgt zumeist eine Abbildung dieser Folge in eine Folge von Skalaren. Wenn f(x) die zu minimierende Funktion gemäß (2.) ist, dann wird üblicherweise das Konvergenzverhalten von {f(x k )} gegen f(x ) analysiert. Die Funktion f(x) wird in diesem Zusammenhang der Konvergenzanalyse auch als Fehlerfunktion bezeichnet. Man könnte natürlich als Fehlerfunktion auch eine Norm, beispielsweise x k x, verwenden, doch zeigt sich, dass die Konvergenzordnung einer Folge von Vektoren weitestgehend unabhängig von der Wahl der Fehlerfunktion ist. Die bekanntesten numerischen Verfahren zur Lösung unbeschränkter statischer Optimierungsprobleme sind die so genannten Liniensuchverfahren (Englisch: line search strategies). Daher wird im folgenden Abschnitt ein kurzer Überblick über die bekanntesten Liniensuchverfahren gegeben. Im Anschluss daran werden noch kurz zwei alternative Strategien, nämlich die Methode der Vertrauensbereiche und die direkten Suchverfahren, vorgestellt.

8 2.3 Liniensuchverfahren Seite Liniensuchverfahren Die grundsätzliche algorithmische Struktur eines Liniensuchverfahrens sieht folgendermaßen aus: Zum Iterationsschritt k ermittelt man vorerst eine geeignete Suchrichtung bzw. Abstiegsrichtung s k so, dass wenn man sich hinreichend wenig vom Punkt x k aus in diese Richtung bewegt, also x k+ = x k + α k s k (2.28) mit einer geeigneten Schrittweite α k > 0, dann erfüllt man die Ungleichungsbedingung (2.2) f(x k+ ) = f(x k + α k s k ) < f(x k ). (2.29) Nun muss die optimale Schrittweite α k > 0 durch Lösung eines skalaren Optimierungsproblems min g(α k) = f(x k + α k s k ) (2.30) α k >0 gefunden werden. Diese Iteration wird nun solange durchgeführt, bis eine gewählte Fehlerfunktion betraglich kleiner als eine vorgegebene untere Schranke ist. Abbildung 2.2 veranschaulicht das Prinzip der Liniensuche für eine (nicht konvexe) Kostenfunktion f(x) mit x R 2 und einer gegebenen Suchrichtung s k. In diesem Zusammenhang wird auch der Name Liniensuchverfahren verständlich, da sich bei gegebener Suchrichtung s k die Optimierungsaufgabe auf das Auffinden eines Minimums entlang einer Linie reduziert. x k g(α k ) x k s k Höhenlinien α k Abbildung 2.2: Veranschaulichung des Liniensuchproblems (2.30).

9 2.3 Liniensuchverfahren Seite Wahl der Schrittweite Intervallschachtelungsverfahren ( Goldener Schnitt ) Das Intervallschachtelungsverfahren generiert für das skalare Optimierungsproblem (2.30) eine konvergierende Folge von Intervallschachtelungen, um das Minimum von g(α k ) einzugrenzen. Zunächst muss ein Intervall [l 0, r 0 ] gefunden werden, in dem die Funktion g(α k ) ein Minimum aufweist, siehe Abbildung 2.3. Dies kann z. B. dadurch erreicht werden, dass mit einem hinreichend kleinen l 0 gestartet und r 0 (ausgehend von l 0 ) sukzessive vergrößert wird, bis der Funktionswert g(r 0 ) anfängt zuzunehmen. Für das Folgende wird vorausgesetzt, dass die Funktion g(α k ) stetig und unimodal im Intervall [l 0, r 0 ] ist, d. h. die Funktion g(α k ) hat ein eindeutiges lokales Minimum im offenen Intervall (l 0, r 0 ). g(α k ) g(ˆr j ) g(ˆl j ) l j ˆlj ˆr j r j l j+ ˆlj+ˆr j+ r j+ j-ter Schritt (j + )-ter Schritt α k Abbildung 2.3: Veranschaulichung des Intervallschachtelungsverfahrens nach dem Prinzip des Goldenen Schnittes. Zum Iterationsschritt j liege das Intervall [l j, r j ] vor, das nach wie vor jenen Wert α k beinhaltet, der die Funktion g(α k ) minimiert. Nun werden zwei neue Punkte ˆl j und ˆr j, l j < ˆl j < ˆr j < r j in der Form ˆlj = l j + ( a)(r j l j ) ˆr j = l j + a(r j l j ) (2.3a) (2.3b) mit dem Parameter a ( 2, ) berechnet. Es gilt nun folgender Satz: Satz 2.6 (Zur Intervallschachtelung). Es sei l j < ˆl j < ˆr j < r j und g(α k ) eine stetige unimodale Funktion auf dem Intervall [l j, r j ]. Bezeichnet man mit α k das Minimum auf (l j, r j ), dann gilt α k [l j, ˆr j ], wenn g(ˆl j ) g(ˆr j ) bzw. α k [ˆlj, r j ], wenn g(ˆl j ) g(ˆr j ).

10 2.3 Liniensuchverfahren Seite 29 Beweis. Man betrachte den Fall g(ˆl j ) g(ˆr j ). Angenommen, α k > ˆr j, dann gilt ˆlj < α k. Da g(ˆl j ) g(ˆr j ) und g(α k ) g(ˆr j) ist, muss ein Punkt ᾱ k (ˆl j, α k ) so existieren, dass gilt g(ᾱ k ) = max αk [ˆl j,α k ] g(α k), womit ᾱ k ein lokales Maximum von g(α k ) im Intervall [l j, r j ] beschreibt. Die Existenz eines lokalen Maximums ist aber aufgrund der geforderten Unimodalität von g(α k ) nicht möglich. Für g(ˆl j ) g(ˆr j ) folgt der Beweis auf analoge Art und Weise. Gemäß Satz 2.6 wird zum nächsten Iterationsschritt j + für den Fall g(ˆl j ) g(ˆr j ) der äußere Punkt r j verworfen und das Intervall ergibt sich demnach zu [l j+, r j+ ] mit l j+ = l j, r j+ = ˆr j, siehe Abbildung 2.3. Für g(ˆl j ) g(ˆr j ) folgt das Intervall zum Iterationsschritt j + zu [l j+, r j+ ] mit l j+ = ˆl j, r j+ = r j. Für die weitere Betrachtung nehme man an, dass, wie in Abbildung 2.3 dargestellt, g(ˆl j ) g(ˆr j ) ist. Die nachfolgenden Schritte lassen sich direkt auf den anderen Fall übertragen. Führt man nun eine weitere Iteration zur Berechnung der Zwischenpunkte gemäß (2.3) in der Form ˆlj+ = l j+ + ( a)(r j+ l j+ ) = l j + ( a)a(r j l j ) (2.32a) ˆr j+ = l j+ + a(r j+ l j+ ) = l j + a 2 (r j l j ) (2.32b) durch, dann kann man durch die Lösung der Gleichung a 2 = a mit 5 a = 0.68 (2.33) 2 erreichen, dass gilt ˆr j+ = ˆl j. Diese Wahl von a hat den großen Vorteil, dass man je Iteration nur einen neuen Zwischenpunkt berechnen muss. Die Zahl /a =.68 ist bekannt als die Verhältniszahl des Goldenen Schnittes. Die Griechen im Altertum sahen unter allen möglichen Rechtecken die größte Ästhetik in jenem Rechteck, dessen Seitenlängen diesem Verhältnis genügen. Tabelle 2. fasst den Algorithmus in kompakter Form nochmals zusammen. Abschließend kann der optimale Wert αk entweder aus der Mittelung der letzten Intervallgrenzen αk = (l j + r j )/2 oder aus einer quadratischen Interpolation zwischen den kleinsten drei der vier Funktionswerte gewonnen werden. Das Intervallschachtelungsverfahren ist ein einfaches und robustes Verfahren, das allerdings im Vergleich zu anderen Verfahren meist mehr Iterationen benötigt Quadratische Interpolation Eine sehr effiziente Methode zur Lösung des skalaren Optimierungsproblems (2.30) besteht darin, durch drei Punkte eine quadratische Interpolationsfunktion zu legen. Dazu nehme man an, dass die voneinander paarweise verschiedenen Punkte α k,, α k,2 und α k,3 sowie deren Funktionswerte g = g(α k, ), g 2 = g(α k,2 ) und g 3 = g(α k,3 ) bekannt sind. Die quadratische Interpolationsfunktion q(α k ) durch diese Punkte lautet dann 3 j i q(α k ) = g (α k α k,j ) i i= j i (α k,i α k,j ) (2.34)

11 2.3 Liniensuchverfahren Seite 30 Initialisierung: l 0, r 0 (Startintervall mit Minimum im Inneren) repeat j = 0 a = 0.68 ε lr, ε g ˆl0 l 0 + ( a)(r 0 l 0 ) ˆr 0 l 0 + a(r 0 l 0 ) if g(ˆl j ) > g(ˆr j ) do l j+ ˆl j r j+ r j ˆlj+ ˆr j ˆr j+ l j+ + a(r j+ l j+ ) j j + else (d. h. g(ˆl j ) g(ˆr j )) end if r j+ ˆr j l j+ l j ˆr j+ ˆl j ˆlj+ l j+ + ( a)(r j+ l j+ ) j j + until r j l j ε lr or g(r j ) g(l j ) ε g (Startindex) (Goldener Schnitt Parameter) (Schranken für Abbruch) (innere Punkte) Tabelle 2.: Intervallschachtelungsverfahren ( Goldener Schnitt ). und der minimierende Wert αk errechnet sich zu ) ( ) ( ) αk = g (α k,2 2 α2 k,3 + g 2 αk,3 2 α2 k, + g 3 αk, 2 α2 k,2. (2.35) 2 g (α k,2 α k,3 ) + g 2 (α k,3 α k, ) + g 3 (α k, α k,2 ) Aufgabe 2.5. Zeigen Sie die Gültigkeit von (2.35) Heuristische Wahl der Schrittlänge In der Praxis muss man im Hinblick auf den numerischen Aufwand gewisse Ungenauigkeiten in Kauf nehmen. Typischerweise treten diese Ungenauigkeiten dann auf, wenn man das Liniensuchverfahren abbricht, bevor der Algorithmus konvergiert ist. Es gibt nun unterschiedliche heuristische Abbruchkriterien, die im Folgenden kurz erläutert werden

12 2.3 Liniensuchverfahren Seite 3 sollen. Den weiteren Betrachtungen liege das skalare Optimierungsproblem, siehe (2.30), zugrunde. min g(α k) = f(x k + α k s k ) (2.36) α k >0 g(α k ) g(0) + ε g (0)ηα k g(α k ) g(0) + ε g (0)α k g(0) + ε g (0)α k ε 2 g (0) Zulässiger Bereich α k Zulässiger Bereich α k (a) (b) Abbildung 2.4: Veranschaulichung der Armijo- und Wolfe-Bedingung. Armijo-Bedingung: Entwickelt man g(α k ) um α k = 0 in eine Taylorreihe und bricht nach dem linearen Glied ab, so erhält man g(α k ) g(0) + g (0)α k. (2.37) Bei der Armijo-Bedingung wird nun die Schrittweite α k so gewählt, dass für ein festes ε, 0 < ε <, die Ungleichung g(α k ) g(0) + ε g (0)α k (2.38) erfüllt ist. Dies garantiert, dass die Schrittweite α k nach oben hin beschränkt ist. Um sicherzustellen, dass die Schrittweite nicht zu klein wird, führt man einen Parameter η > ein und fordert, dass die Schrittweite α k der Ungleichung g(α k ) > g(0) + ε g (0)ηα k (2.39) genügen muss. Abbildung 2.4(a) gibt eine grafische Veranschaulichung dieses Sachverhaltes. In der Praxis geht man häufig so vor, dass man in einem ersten Schritt einen (weitgehend beliebigen) Startwert für α k wählt. Ist für dieses α k die Ungleichung (2.38) erfüllt, dann erhöht man α k sukzessive um den Faktor η solange, bis die Ungleichung (2.38) erstmals verletzt wird. Der vorletzte Wert von α k wird dann als geeignete Schrittweite gewählt. Umgekehrt, wenn der Startwert von α k die Ungleichung (2.38) nicht erfüllt, dann wird α k sukzessive durch den Faktor η dividiert, bis erstmals die Ungleichung (2.38) erfüllt ist. Typische Parameterwerte sind ε = 0. und η = 2. Man beachte jedoch, dass bei zu großem ε die Abstiegsbedingung zu restriktiv wird. Wolfe-Bedingung: Wenn die Ableitungen der Kostenfunktion g(α k ) sehr einfach berechnet werden können, eignet sich als Alternative zur Armijo-Bedingung die so genannte

13 2.3 Liniensuchverfahren Seite 32 Wolfe-Bedingung. Dabei wird ein weiterer Parameter ε 2 mit 0 < ε < ε 2 < eingeführt und von der Schrittweite α k wird gefordert, dass sie die Ungleichungen (2.38) und g (α k ) ε 2 g (0) (2.40) erfüllt. Abbildung 2.4(b) gibt eine grafische Veranschaulichung dieses Sachverhaltes. Typische Werte für ε 2 sind 0.9, wenn die Suchrichtung s k über die Newtonmethode oder die Quasi-Newtonmethode und 0., wenn s k über die nichtlineare konjugierte Gradientenmethode bestimmt wurde Wahl der Suchrichtung Gradientenmethode Bei der Gradientenmethode oder auch Methode des steilsten Abstiegs (Englisch: steepest descent method) wählt man als Such- bzw. Abstiegsrichtung s k in (2.28) den negativen Gradienten an der Stelle x k, d. h. s k = ( f)(x k ). (2.4) Entwickelt man g(α k ) = f(x k + α k s k ) um den Punkt α k = 0 in eine Taylorreihe mit s k gemäß (2.4) g(α k ) = f(x k + α k s k ) = f(x k+ ) = f(x k ) α k ( f)(x k ) o(α k), (2.42) wobei o(α k ) den Restterm bezeichnet, der schneller nach Null abklingt als α k, dann erkennt man unmittelbar, dass für hinreichend kleines α k die Ungleichungsbedingung (2.2) für ( f)(x k ) 0 erfüllt ist. Um die Konvergenzeigenschaften der Gradientenmethode näher zu untersuchen, betrachte man das quadratische Minimierungsproblem min f(x) = x R n 2 xt Qx x T b (2.43) mit der positiv definiten Matrix Q R n n. Da die Hessematrix ( 2 f ) (x) = Q von f(x) positiv definit ist, folgt aus der Eigenschaft (d) konvexer Funktionen von Abschnitt die strikte Konvexität von f(x). Auf Grund von Satz 2.5 errechnet sich daher das globale eindeutige Minimum x von f(x) aus der Beziehung zu ( f)(x ) = g(x ) = Qx b = 0 (2.44) x = Q b. (2.45) Die Iterationsvorschrift für die Gradientenmethode lautet in diesem Fall, siehe (2.28) x k+ = x k α k g k = x k α k (Qx k b), g k = g(x k ). (2.46)

14 2.3 Liniensuchverfahren Seite 33 Die optimale Schrittweite α k kann durch explizites Lösen des Optimierungsproblems gemäß (2.30) in der Form min α k >0 f(x k + α k s k ) = 2 (x k α k g k ) T Q(x k α k g k ) (x k α k g k ) T b (2.47) berechnet werden. gt k g k αk = gk TQg k Aufgabe 2.6. Zeigen Sie die Gültigkeit von (2.48). (2.48) Zusammenfassend lässt sich damit die Gradientenmethode für die quadratische Kostenfunktion (2.43) wie folgt gt k g k x k+ = x k gk TQg g k, g k = Qx k b (2.49) k anschreiben. Für die weiteren Überlegungen ist es vorteilhaft, anstelle von f(x) die Kostenfunktion F (x) = f(x) + 2 (x ) T Qx = 2 (x x ) T Q(x x ) (2.50) zu betrachten. Da sich die beiden Kostenfunktionen f(x) und F (x) lediglich um eine Konstante unterscheiden, sind die Minima x beider Kostenfunktionen identisch. Lemma 2. (Zur Konvergenzrate des Gradientenverfahrens). Mit der Iterationsvorschrift des Gradientenverfahrens (2.49) gilt für die Kostenfunktion F (x) die Beziehung ( ) 2 F (x k+ ) = gk Tg k ( )( g T k Qg k g T k Q ) g k F (x k). (2.5) Beweis. Aus F (x k ) F (x k+ ) F (x k ) = yt k Qy k y T k+ Qy k+ y T k Qy k (2.52) ergibt sich mit y k = x k x, y k+ = x k+ x = x k x α kg k = y k α kg k (2.53) die Beziehung F (x k ) F (x k+ ) F (x k ) = 2α k yt k Qg k (α k )2 g T k Qg k y T k Qy k. (2.54) Eliminiert man in (2.54) den Ausdruck y k über die Beziehung g k = Qy k und ersetzt

15 2.3 Liniensuchverfahren Seite 34 α k gemäß (2.48), so erhält man unmittelbar das Ergebnis F (x k ) F (x k+ ) F (x k ) = 2α k gt k g k (αk )2 gk TQg 2 (gt k g k) 2 k gk gk T = TQg (gt k g k) 2 k gk TQg k Q g k gk T. (2.55) Q g k Um nun die Konvergenzrate der Gradientenmethode für die quadratische Kostenfunktion abschätzen zu können, benötigt man noch folgenden Hilfssatz. Lemma 2.2 (Ungleichung von Kantorovich). Es sei Q R n n eine symmetrische positiv definite Matrix. Für jeden Vektor x R n gilt dann die Ungleichung ( ) 2 x T x (x T Qx)(x T Q x) 4λ minλ max (λ min + λ max ) 2, (2.56) wobei λ min und λ max den kleinsten und größten (reellen und positiven) Eigenwert der Matrix Q bezeichnen. Aufgabe 2.7. Beweisen Sie den Hilfssatz 2.2. Damit lässt sich folgender Satz angeben. Satz 2.7 (Konvergenz der Gradientenmethode Quadratische Kostenfunktion). Für jeden Anfangswert x 0 R n konvergiert die Iterationsvorschrift (2.49) der Gradientenmethode gegen das eindeutige globale Minimum x der Kostenfunktion f(x) gemäß (2.43) bzw. F (x) gemäß (2.50) linear mit der Konvergenzrate F (x k+ ) ( ) κ 2 F (x k ), (2.57) κ + wobei κ = λ max /λ min die spektrale Konditionszahl der Matrix Q, also das Verhältnis des größten zum kleinsten (reellen und positiven) Eigenwert λ max und λ min der Matrix Q, bezeichnet. Beweis. Aus den Hilfssätzen 2. und 2.2 folgt unmittelbar { F (x k+ ) 4λ } ( ) minλ max λmax λ 2 min (λ min + λ max ) 2 F (x k ) = F (x k ). (2.58) λ max + λ min Satz 2.7 lässt sich nun wie folgt interpretieren. Auf Grund der positiven Definitheit der Matrix Q sind die Höhenlinien (f(x) = konst.) der Kostenfunktion (2.43) n-dimensionale Ellipsoide, deren Achsen mit den Richtungen der n paarweise orthogonalen Eigenvektoren der Matrix Q zusammenfallen und deren Längen invers proportional zum jeweiligen (positiv reellen) Eigenwert sind. Der Gradient ( f)(x k ) steht orthogonal zur Höhenlinie

16 2.3 Liniensuchverfahren Seite 35 x 2 x 2 x k s k x s k x x s k x k x 0 x k x x Abb. 2.5: Beispiel eines gut konditionierten Problems für die Gradientenmethode. Abb. 2.6: Beispiel eines schlecht konditionierten Problems für die Gradientenmethode. durch den Punkt x k, siehe Abbildungen 2.5 und 2.6. Wenn die Eigenwerte der Matrix Q von (2.43) alle in der gleichen Größenordnung liegen, weist die Gradientenmethode ein gutes Konvergenzverhalten auf, im Falle von λ min = λ max bzw. κ = konvergiert das Verfahren sogar in einem einzigen Schritt, siehe Abbildung 2.5. Bei schlecht konditionierten Problemen (κ sehr groß) konvergiert die Gradientenmethode sehr langsam, siehe Abbildung 2.6. Die Gradientenmethode kann natürlich auch auf nichtquadratische Kostenfunktionen angewandt werden. Dazu sei nachfolgender Satz ohne Beweis angegeben. Satz 2.8 (Konvergenz der Gradientenmethode Allgemeine Kostenfunktion). Gegeben sei die Kostenfunktion f C 2 definiert im R n mit x als lokales Minimum. Angenommen, die Hessematrix ( 2 f ) (x ) hat den kleinsten und größten Eigenwert λ min > 0 und λ max > 0 und die spektrale Konditionszahl κ = λ max /λ min. Wenn die Folge {x k } generiert durch die Gradientenmethode x k+ = x k α k ( f)(x k ) (2.59) für eine geeignete Schrittweite α k gegen das lokale Minimum x konvergiert, dann konvergiert die Folge {f(x k )} linear gegen f(x ) mit einer Konvergenzrate größer als ( κ κ+) 2. Schlecht konditionierte Problemstellungen bei der Gradientenmethode können mitunter durch eine geeignete Skalierung verbessert werden. Die Idee beruht darauf, dass die Aufgabe, ein Minimum der Kostenfunktion f(x) zu finden, äquivalent dazu ist, für die Funktion h(y) = f(ty) mit x = Ty und der regulären Matrix T R n n ein Minimum zu suchen. Entwickelt man die Funktion h(y) um das Minimum y = T x in eine

17 2.3 Liniensuchverfahren Seite 36 Taylorreihe h(y) = h(y ) + ( h) T (y )(y y ) + 2 (y y ) T( ) 2 h (y )(y y ) +... = h(y ) + ( f) T (x )T(y y ) + 2 (y y ) T T T( ) 2 f (x )T(y y ) +..., (2.60) so erkennt man, dass durch die Wahl einer geeigneten Skalierungsmatrix T die Verteilung der Eigenwerte der Hessematrix ( 2 h ) (y ) = T T( 2 f ) (x )T gegenüber jener von ( 2 f ) (x ) eventuell verbessert werden kann. Oftmals wird in diesem Zusammenhang eine Diagonalmatrix T verwendet, beispielsweise mit den Diagonaleinträgen T ii = (( 2 f ) ii (x ) ) 2, i =,..., n. Die Vor- und Nachteile der Gradientenmethode lassen sich wie folgt zusammenfassen: + einfaches Verfahren (Kenntnis der Hessematrix ( 2 f ) (x k ) nicht erforderlich) + Konvergenz auch für Startwerte, die weiter vom Minimum entfernt sind langsame Konvergenz bei schlecht konditionierten und schlecht skalierten Problemen lediglich lineare Konvergenzordnung Newton Methode Die Idee der Newton-Methode besteht darin, die Kostenfunktion f(x) lokal durch eine quadratische Funktion zu approximieren und diese zu minimieren. Entwickelt man f(x) = f(x k + s k ) um den Iterationspunkt x k in eine Taylorreihe und bricht diese nach dem quadratischen Term ab, so erhält man f(x) f(x k ) + s T k ( f)(x k ) + 2 st k ( ) 2 f (x k )s k. (2.6) Die so genannte Newton-Richtung s k ergibt sich unmittelbar durch Minimierung der rechten Seite von (2.6) bezüglich s k in der Form ( (xk s k = f) 2 )( f)(x k ). (2.62) Falls die Hessematrix ( 2 f ) (x ) am Minimum positiv definit ist, existiert in einer Umgebung um das Minimum die Inverse ( 2 f ) (xk ) und die Methode ist wohldefiniert. Der nachfolgende Satz gibt ohne Beweis die Konvergenzordnung der Newton-Methode an. Satz 2.9 (Konvergenzordnung der Newton-Methode). Gegeben sei die Kostenfunktion f C 3 definiert im R n mit dem lokalen Minimum x. Wenn die Hessematrix ( 2 f ) (x ) positiv definit ist und der Anfangswert x 0 in einer hinreichend nahen Umgebung des Minimums liegt, dann konvergiert die Newton-Iteration ( (xk x k+ = x k f) 2 )( f)(x k ) (2.63) mit einer Konvergenzordnung von mindestens 2 gegen das Minimum x.

18 2.3 Liniensuchverfahren Seite 37 Für die praktische Anwendung der Newton-Iteration (2.63) führt man noch eine geeignete Schrittweite α k gemäß (2.29) ein x k+ = x k α k ( 2 f) (xk )( f)(x k ). (2.64) Im Zusammenhang mit der Newton-Methode wird α k auch als Dämpfungsparameter bezeichnet. Es ist zu erwarten, dass in der Nähe des Minimums α k ist, weshalb man typischerweise die Iteration mit dem Wert α k = beginnt. Strategien zur Berechnung der Schrittweite α k wurden bereits ausführlich im Abschnitt 2.3. erläutert. Ein Problem, das in diesem Zusammenhang häufig auftritt, besteht in dem Verlust der positiven Definitheit und damit der Invertierbarkeit von ( 2 f ) (x k ), wenn man zu weit vom Minimum entfernt ist. Aus diesem Grund ersetzt man (2.63) durch x k+ = x k α k M k ( f)(x k ), M k = [( ) 2 f (x k ) + ε k E] (2.65) mit der Einheitsmatrix E R n n und einem geeigneten positiven Parameter ε k. Man erkennt unmittelbar, dass (2.65) für ε k = 0 in die Newton-Methode (2.63) und für ε k in die Gradientenmethode gemäß (2.59) übergeht. Eine geeignete Wahl von ε k erweist sich jedoch als nicht sehr einfach. Typischerweise wird beginnend bei einem Startwert ε k > 0 sukzessive erhöht, bis die Matrix [( 2 f ) (x k ) + ε k E ] positiv definit ist. Dies kann sowohl über die Eigenwerte (alle müssen positiv und reell sein) als auch beispielsweise über die Cholesky-Faktorisierung überprüft werden. Für die Cholesky-Faktorisierung gilt nämlich, dass eine Matrix A genau dann positiv definit ist, wenn sich die Matrix in der Form A = GG T faktorisieren lässt, wobei G eine untere Dreiecksmatrix mit positiven Diagonaleinträgen ist. Aufgabe 2.8. Zeigen Sie, dass die Newton-Methode für quadratische Kostenfunktionen min x R n 2 xt Qx b T x (2.66) mit der positiv definiten Matrix Q unabhängig vom Startpunkt x 0 innerhalb von nur einem Iterationsschritt konvergiert. Die Vor- und Nachteile der Newton-Methode können wie folgt zusammengefasst werden: + Konvergenzordnung von mindestens 2, wenn die Hessematrix ( 2 f ) (x k ) positiv definit ist, was sicherlich in der Nähe des Minimums x der Fall ist außerhalb einer hinreichend kleinen Umgebung um das Minimum ist ( 2 f ) (x k ) im Allgemeinen nicht positiv definit aufwändige Berechnung der Hessematrix ( 2 f ) (x k ) und aufwändige Lösung des Gleichungssystems zur Berechnung deren Inversen bei höherdimensionalen Problemen Konjugierte Gradientenmethode Die konjugierte Gradientenmethode (Englisch: conjugate gradient method oder kurz C-G method) versucht nun, die Vorteile der schnellen Konvergenz der Newton-Methode und

19 2.3 Liniensuchverfahren Seite 38 der Recheneffizienz der Gradientenmethode zu kombinieren. Ursprünglich wurde diese Methode für quadratische Probleme der Form (siehe auch (2.43)) min f(x) = x R n 2 xt Qx x T b (2.67) mit der positiv definiten Matrix Q R n n entwickelt. Bevor nun die Methode genauer erläutert wird, sollen einige Grundlagen dazu erarbeitet werden. Definition 2.3 (Q-Orthogonalität). Zwei Vektoren d und d 2 heißen konjugiert bezüglich einer positiv definiten Matrix Q bzw. Q-orthogonal, wenn gilt d T Qd 2 = 0. Man beachte, dass für Q = E der Begriff der Konjugiertheit mit dem klassischen Begriff der Orthogonalität zusammenfällt. Eine Menge von Vektoren d 0, d,..., d r ist Q-orthogonal, wenn d T i Qd j = 0 für alle i j. Es gilt nun folgender Hilfssatz. Lemma 2.3 (Q-Orthogonalität positiv definiter Matrizen). Wenn die Matrix Q positiv definit ist und die Menge der nichttrivialen Vektoren d 0, d,..., d r ist Q- orthogonal, dann sind die Vektoren d j, j = 0,..., r linear unabhängig. Aufgabe 2.9. Beweisen Sie den Hilfssatz 2.3. Für das Folgende sei angenommen, dass d 0, d,..., d n nichttriviale Q-orthogonale Vektoren der Matrix Q der Kostenfunktion des Optimierungsproblems (2.67) sind. Nach Hilfssatz 2.3 sind die n Vektoren linear unabhängig und spannen daher den R n auf. Die optimale Lösung x des Optimierungsproblems (2.67) lässt sich somit als Linearkombination der Q-orthogonalen Vektoren in der Form x = η 0 d 0 + η d η n d n (2.68) mit geeigneten Skalaren η j, j = 0,..., n darstellen. Multipliziert man (2.68) von links mit Q und bildet das Skalarprodukt mit d i, so erhält man unter Berücksichtigung der Beziehung Qx = b (siehe (2.44)) η i = dt i Qx d T i Qd i = dt i b d T i Qd i Damit lässt sich die optimale Lösung x wie folgt ausdrücken x = n i=0. (2.69) d T i b d T i Qd d i. (2.70) i Diese Darstellung bildet auch die Grundlage für den nächsten Satz. Satz 2.0 (Konjugierte Richtung). Die Vektoren d 0, d,..., d n seien nichttriviale Q-orthogonale Vektoren der Matrix Q der Kostenfunktion des Optimierungsproblems (2.67). Für jeden Anfangswert x 0 konvergiert die Folge x k+ = x k + α k d k, α k = gt k d k d T k Qd, g k = Qx k b (2.7) k

20 2.3 Liniensuchverfahren Seite 39 gegen die eindeutige minimierende Lösung x nach nur n Iterationsschritten, d. h. x n = x. Beweis. Nach Hilfssatz 2.3 sind die Vektoren d 0, d,..., d n linear unabhängig und daher findet man geeignete Skalare α i so, dass gilt x x 0 = α 0 d 0 + α d α n d n. (2.72) Multipliziert man (2.72) mit Q von links und bildet das Skalarprodukt mit d k, dann erhält man α k = dt k Q(x x 0 ) d T k Qd. (2.73) k Aus (2.7) folgt im Weiteren x k x 0 = α 0 d 0 + α d α k d k (2.74) und auf Grund der Q-Orthogonalität der Vektoren d i gilt d T k Q(x k x 0 ) = 0. (2.75) Setzt man (2.75) in (2.73) ein, so erhält man unmittelbar das Ergebnis von (2.7) α k = dt k Q(x x k ) d T k Qd k = dt k (Qx k b) d T k Qd k = dt k g k d T k Qd k. (2.76) Für eine geometrische Interpretation der konjugierten Gradientenmethode betrachte man die linearen Unterräume B k = span{d 0, d,..., d k }. Man kann nun mit Hilfe der vollständigen Induktion zeigen, dass der Gradient g k zum Iterationsschritt k orthogonal auf den Unterraum B k ist. Da B 0 = { }, ist die Aussage trivialerweise für k = 0 erfüllt. Angenommen es gilt g k B k, dann soll im nächsten Schritt gezeigt werden, dass g k+ B k+ ist. Aus (2.7) folgt g k+ = Qx k+ b = Qx k b + α k Qd k = g k + α k Qd k (2.77) und damit gilt wegen der Definition von α k gemäß (2.7) d T k g k+ = d T k g k + α k d T k Qd k = 0. (2.78) Auf Grund der Q-Orthogonalität der Vektoren d i und der Induktionsannahme d T j g k = 0 für j = 0,..., k folgt unmittelbar d T j g k+ = d T j g k + α k d T j Qd k = 0 (2.79) für j = 0,..., k, womit obige Aussage bewiesen ist. Die konjugierte Gradientenmethode kann nun so geometrisch interpretiert werden, dass x k die Kostenfunktion f(x) jeweils über den affinen Unterraum x 0 + B k minimiert.

21 2.3 Liniensuchverfahren Seite 40 Die Frage, die es nun noch zu klären gilt, ist, wie die Q-orthogonalen Vektoren d 0, d,..., d n festgelegt werden. Diese werden bei der konjugierten Gradientenmethode sukzessive bestimmt, wie dies im folgenden Satz beschrieben ist. Satz 2. (Konjugierte Gradientenmethode). Für jeden Anfangswert x 0 konvergiert die Folge x k+ = x k + α k d k α k = dt k g k d T k Qd k d k+ = g k+ + β k d k β k = gt k+ Qd k d T k Qd k (2.80a) (2.80b) (2.80c) (2.80d) mit g k = Qx k b und d 0 = g 0 = b Qx 0 gegen die eindeutige minimierende Lösung x des Optimierungsproblems (2.67) in höchstens n Iterationsschritten. Auf einen Beweis dieses Satzes wird an dieser Stelle verzichtet. Es kann jedoch sehr einfach gezeigt werden, dass die iterativ bestimmten Vektoren d i die Eigenschaft der Q-Orthogonalität aufweisen. Man erkennt, dass im ersten Iterationsschritt mit d 0 = g 0 ein reiner Gradientenschritt durchgeführt wird und anschließend die neue Suchrichtung d k+ über eine Linearkombination des momentanen Gradienten g k+ und der vorigen Suchrichtung d k bestimmt wird. Für viele praktische Fragestellungen zeigt die sogenannte partielle konjugierte Gradientenmethode sehr große Vorteile. Dabei wird die konjugierte Gradientenmethode von Satz 2. lediglich für m + < n Iterationsschritte ausgeführt und mit dem so erhaltenen Punkt das Verfahren erneut als Anfangswert gestartet und wiederum m + Iterationen durchgeführt. In diesem Zusammenhang kann folgender Satz ohne Beweis angegeben werden. Satz 2.2 (Partielle konjugierte Gradientenmethode). Gegeben ist das Optimierungsproblem (2.67) mit der Kostenfunktion f(x) oder äquivalent dazu mit der Kostenfunktion F (x) gemäß (2.50). Angenommen, die positiv definite Matrix Q hat n m Eigenwerte in dem Intervall [l, r] (l > 0) und m Eigenwerte größer als r. Die partielle konjugierte Gradientenmethode, welche alle m + Schritte neu gestartet wird, zeigt dann folgendes Konvergenzverhalten F (x k+ ) ( ) r l 2 F (x k ). (2.8) r + l Man beachte, dass der Punkt x k+ durch (m + )-fache Zwischeniteration nach Satz 2. mit dem Anfangswert x k entsteht. Satz 2.2 zeigt, dass durch Anwendung der partiellen konjugierten Gradientenmethode das schlechte Konvergenzverhalten der Gradientenmethode bei schlecht konditionierten Systemen (vergleiche dazu Satz 2.8) umgangen werden kann.

22 2.3 Liniensuchverfahren Seite 4 Für nichtquadratische Kostenfunktionen f(x) müssen in Satz 2. lediglich folgende Substitutionen ( ) g k ( f)(x k ) und Q 2 f (x k ) (2.82) vorgenommen werden. An dieser Stelle ist jedoch zu erwähnen, dass der Algorithmus im Allgemeinen nicht wie im quadratischen Fall in n Schritten terminieren wird. Um die aufwändige Berechnung der Hessematrix ( 2 f ) (x k ) zu vermeiden, kann die Bestimmung von α k in (2.80b) nach Satz 2. über ein Verfahren aus Abschnitt 2.3. erfolgen und β k in (2.80d) wird beispielsweise durch die Formel von Fletcher-Reeves β k = gt k+ g k+ g T k g k (2.83) ersetzt Quasi Newton Methode Einer der Hauptnachteile der Newton-Methode liegt in der aufwändigen Berechnung der Hessematrix ( 2 f ) (x k ) und deren Inversen. Aus diesem Grund versucht man bei der Quasi-Newton-Methode die inverse Hessematrix iterativ zu bestimmen. Für das Weitere sei angenommen, dass die Kostenfunktion f C 2 ist und für die Punkte x k+ und x k gilt g k+ = ( f)(x k+ ) und g k = ( f)(x k ). Die Hessematrix ( 2 f ) (x k ) kann dann in der Form ( ) g k+ g k 2 f (x k )p k (2.84) mit p k = x k+ x k approximiert werden. Nimmt man nun an, dass die Hessematrix ( 2 f ) (x k ) = K konstant ist, dann gilt q k = g k+ g k = Kp k. (2.85) Wenn n linear unabhängige Vektoren p 0, p,..., p n mit den zugehörigen q j, j = 0,..., n zur Verfügung stehen, dann lässt sich die Hessematrix in der Form K = QP (2.86) berechnen, wobei q j und p j die Spaltenvektoren von Q und P sind. Das Ziel ist es nun, unter der Annahme einer konstanten Hessematrix K in n Iterationsschritten die Inverse der Hessematrix iterativ in der Form H k+ q j = p j, j = 0,..., k (2.87) so zu konstruieren, dass gilt H n = K. Diese Approximation kann auf unterschiedliche Art und Weise erfolgen. Im Folgenden soll kurz eine einfache Methode näher erläutert werden. Da die Hessematrix und deren Inverse symmetrisch sind, ist es naheliegend, ebenfalls eine symmetrische Matrix für die Rekursion H k+ = H k + γ k z k z T k (2.88)

23 2.3 Liniensuchverfahren Seite 42 anzusetzen. Das dyadische Produkt z k z T k hat höchstens den Rang, weshalb diese Korrektur auch als Rang Korrektur bezeichnet wird. Substituiert man (2.88) in (2.87), dann erhält man für j = k die Beziehung Mit p k = H k+ q k = H k q k + γ k z k z T k q k. (2.89) ) (p k H k q k )(p k H k q k ) T T = γkz 2 k z T k q k (z k z T k q k = γ 2 k z k z T k q k qk T T z k zk (2.90) }{{} (z T k q k) 2 lässt sich (2.88) in der Form H k+ = H k + (p k H k q k )(p k H k q k ) T anschreiben. Bildet man von (2.89) das Skalarprodukt mit q k dann kann (2.9) wie folgt γ k ( z T k q k ) 2 (2.9) q T k p k = q T k H k q k + γ k (z T k q k ) 2, (2.92) H k+ = H k + (p k H k q k )(p k H k q k ) T q T k (p k H k q k ) (2.93) geschrieben werden. Damit lässt sich folgender Satz formulieren. Satz 2.3 (Quasi-Newton-Methode Rang Korrektur). Angenommen K ist eine konstante symmetrische Matrix und p 0, p,..., p k sind linear unabhängige Vektoren. Mit q j = Kp j, j = 0,..., k gilt für jede symmetrische Startmatrix H 0 und die Iterationsvorschrift H j+ = H j + (p j H j q j )(p j H j q j ) T q T j (p j H j q j ) (2.94) die Beziehung p j = H k+ q j, j = 0,..., k. (2.95) Aufgabe 2.0. Beweisen Sie Satz 2.3 mit vollständiger Induktion. Das Problem bei diesem Verfahren besteht im Wesentlichen darin, dass die positive Definitheit von H j+ nur erhalten bleibt, falls q T j (p j H j q j ) > 0 gilt. Eines der elegantesten Verfahren in diesem Zusammenhang ist die Davidon-Fletcher-Powell (DFP) Methode. Dabei startet man den Algorithmus für k = 0 mit einer symmetrischen positiv definiten Matrix H 0, einem Anfangswert x 0 und dem Gradienten g 0 = ( f)(x 0 ) und führt in jeder Iteration von k die Schritte gemäß Tabelle 2.2 durch. Man kann nun zeigen, dass die Matrix H k positiv definit bleibt sofern H 0 positiv definit und die Bedingung q T k p k > 0 erfüllt ist. Für eine quadratische Kostenfunktion f(x)

24 2.4 Methode der Vertrauensbereiche Seite 43 Initialisierung: H 0 (Symmetrische, positiv definite Matrix) repeat k = 0 x 0 (Startindex) (Anfangswert) g 0 = ( f)(x 0 ) (Gradient an der Stelle x 0 ) ε f, ε x (Abbruchkriterien) Schritt : Berechnung der Suchrichtung d k = H k g k Schritt 2: Löse die Minimierungsaufgabe min α k 0 f(x k + α k d k ) mit einem geeigneten Liniensuchverfahren. Als Ergebnis erhält man x k+ = x k + α k d k, p k = x k+ x k = α k d k und g k+ = ( f)(x k+ ). Schritt 3: Mit q k = g k+ g k berechne man H k+ = H k + p kp T k p T k q k until x k+ x k ε x or f(x k+ ) f(x k ) ε f H kq k q T k H k q T k H kq k (2.96) Tabelle 2.2: Quasi-Newton-Methode mit der DFP-Methode. generiert die Davidon-Fletcher-Powell Methode implizit die Richtungen der konjugierten Gradientenmethode und konstruiert gleichzeitig die Inverse der Hessematrix. Da in jedem Iterationsschritt die inverse Hessematrix durch zwei Matrizen mit dem Rang korrigiert wird, spricht man auch von einer Rang 2 Korrektur. Eine Alternative zur DFP-Formel (2.96) bietet die Broyden-Fletcher-Goldfarb-Shanno (BFGS) Methode ( ( ) )H k H k+ = E p kq T k q T k p k 2.4 Methode der Vertrauensbereiche E q kp T k q T k p k + p kp T k q T k p k. (2.97) Bei den Liniensuchverfahren wird eine geeignete Abstiegsrichtung (Suchrichtung) s k (beispielsweise der negative Gradient an der Stelle x k gemäß (2.4) bei der Gradientenmethode oder die Newton-Richtung gemäß (2.62) bei der Newton-Methode) gewählt und anschließend über das skalare Optimierungsproblem (2.30) die (optimale) Schrittweite α k > 0 in diese Abstiegsrichtung bestimmt. Bei der Methode der Vertrauensbereiche (Englisch: trust region method) wird die zu minimierende Kostenfunktion f(x) in der Umgebung von x k durch eine quadratische Ansatzfunktion m k in der Form f(x k + s k ) m k (s k ) = f(x k ) + s T k ( f)(x k ) + 2 st k B k s k (2.98)

25 2.5 Direkte Suchverfahren Seite 44 mit einer geeigneten symmetrischen Matrix B k approximiert. Der Approximationsfehler der quadratischen Ansatzfunktion ist in der Größenordnung von s k 2 und wenn B k mit der Hessematrix ( 2 f ) (x k ) übereinstimmt sogar von s k 3. Grob gesprochen beschreibt der Vertrauensbereich charakterisiert durch den Parameter k nun jene Umgebung um den Punkt x k, in der sichergestellt ist, dass die Kostenfunktion f(x k + s k ) hinreichend genau durch die quadratische Ansatzfunktion m k (s k ) beschrieben wird. Dabei wird in jedem Iterationsschritt das folgende Optimierungsproblem min m k (s k ) = f(x k ) + s T s k R n k ( f)(x k) + 2 st k B ks k (2.99) u.b.v. s k k für ein geeignetes k > 0 gelöst. Man beachte, dass im Gegensatz zum Liniensuchverfahren die Abstiegsrichtung und die Schrittweite innerhalb des Vertrauensbereiches gleichzeitig bestimmt werden. Ein wesentlicher Entwurfsfreiheitsgrad dieser Methode liegt nun in der Wahl von k. Dazu wird in jedem Iterationsschritt die Übereinstimmung der quadratischen Ansatzfunktion m k mit der Kostenfunktion f überprüft, indem das Verhältnis ρ k (s k ) = f(x k) f(x k + s k ) m k (0) m k (s k ) (2.00) berechnet wird. Der Zählerterm in (2.00) beschreibt die tatsächliche Reduktion der Kostenfunktion während der Nennerterm die prädizierte Reduktion wiedergibt. Der Nennerterm von ρ k (s k ) ist stets größer gleich Null, da s k die Funktion m k gemäß (2.99) innerhalb des Vertrauensbereiches minimiert und der Punkt s k = 0 im Vertrauensbereich liegt. Ist nun ρ k (s k ) < 0, so bedeutet dies, dass der Wert der Kostenfunktion am nächsten Iterationspunkt f(x k + s k ) größer als am vorigen Iterationspunkt f(x k ) ist, weshalb dieser Iterationsschritt verworfen und der Vertrauensbereich verkleinert werden muss. Andererseits kann bei ρ k (s k ) der Vertrauensbereich vergrößert werden, da die Kostenfunktion und die Ansatzfunktion in diesem Fall gut übereinstimmen. Für den Fall, dass ρ k (s k ) positiv und deutlich kleiner als ist, wird der Vertrauensbereich im nächsten Schritt verkleinert. Der prinzipielle Algorithmus ist in Tabelle 2.3 näher skizziert. Man beachte, dass beim Algorithmus von Tabelle 2.3 die obere Grenze des zulässigen Vertrauensbereiches beschreibt und dass eine Vergrößerung des Vertrauensbereiches im nächsten Iterationsschritt nur dann stattfindet, wenn man bereits an die Grenze des Vertrauensbereiches (Bedingung s k = k ) gestoßen ist. Für die genaue praktische Ausführung des Algorithmus, insbesondere die Iterationsvorschrift für die Matrix B k, sei auf die am Ende angegebene Literatur verwiesen. 2.5 Direkte Suchverfahren Die bisher betrachteten sogenannten ableitungsbehafteten Lösungsverfahren verwenden Informationen des Gradienten ( f) (und der Hessematrix ( 2 f ) falls verfügbar), um mittels einer geeigneten Iterationsvorschrift einen neuen Punkt x k+ zu bestimmen, der eine hinreichend gute Reduktion der Kostenfunktion f(x k+ ) < f(x k ) bedingt.

26 2.5 Direkte Suchverfahren Seite 45 Initialisierung:, 0 (0, ) (Vertrauensbereich: Grenz & Startwert) η [0, 4 ) (Parameter) k 0 (Iterationsindex) ε x, ε f (Abbruchkriterien) repeat m k (s k ) nach (2.98) (Modell) s k Lösung von (2.99) (evtl. approximativ gelöst) ρ k nach (2.00) (Modellgüte) if ρ k < 4 do k+ 4 k else if ρ k > 3 4 and s k = k do k+ min{2 k, } else (Reduktion) (Vergrößerung) end if k+ k if ρ k > η do x k+ x k + s k B k+ B k +... else x k+ x k end if (nächster Schritt) (Aktualisierung der Hessematrix) (Schritt mit k+ < k wiederholen) k k + until x k x k ε x or f(x k ) f(x k ) ε f Tabelle 2.3: Methode der Vertrauensbereiche. Allerdings sind in manchen praktischen Fällen die dazu erforderlichen partiellen Ableitungen nicht verfügbar bzw. können nicht approximiert oder mit vertretbarem Aufwand berechnet werden, da das betrachtete Problem zu komplex bzw. nicht stetig differenzierbar ist. Abhilfe verschaffen in diesem Fall sogenannte direkte oder ableitungsfreie Suchverfahren, die mit Hilfe von Stichproben eine Reihe von Funktionswerten berechnen, um daraus einen neuen Iterationspunkt x k+ zu bestimmen. Eines der bekanntesten und gleichzeitig einfachsten Verfahren in der nichtlinearen Optimierung ist das Simplex Verfahren nach Nelder und Mead. Es sei an dieser Stelle erwähnt, dass sich dieses Simplex Verfahren grundsätzlich vom Simplex Algorithmus in der Linearen Programmierung unterscheidet und nicht verwechselt werden sollte. Der Algorithmus basiert im Wesentlichen auf der Iteration eines sogenannten Simplex