Nichtlineare Optimierung

Transkript

1 Nichtlineare Optimierung Roland Pulch Vorlesung im Wintersemester 2015/16 Institut für Mathematik und Informatik Mathematisch-Naturwissenschaftliche Fakultät Ernst-Moritz-Arndt-Universität Greifswald Inhalt: 1. Problemstellung und Beispiele 2. Optimalitätsbedingungen 3. Verfahren für unrestringierte Probleme 4. Verfahren für restringierte Probleme Literatur: C. Geiger, Ch. Kanzow: Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Springer, C. Geiger, Ch. Kanzow: Theorie und Numerik restringierter Optimierungsaufgaben. Springer, W. Alt: Nichtlineare Optimierung. (2. Aufl.) Vieweg+Teubner, I. Griva, S. Nash, A. Sofer: Linear and Nonlinear Optimization. (2nd ed.) SIAM R. Reinhardt, A. Hoffmann, T. Gerlach: Nichtlineare Optimierung. Theorie, Numerik und Experimente. Springer, 2013.

2 Inhaltsverzeichnis 1 Problemstellung und Beispiele Problemstellung und Definitionen Beispiele für Optimierungsaufgaben Optimalitätsbedingungen Regularität und Bedingungen erster Ordnung Lineare und konvexe Restriktionen Bedingungen zweiter Ordnung Verfahren für unrestringierte Probleme Allgemeines Abstiegsverfahren Schrittweitenwahl Gradientenverfahren Newton-Verfahren Quasi-Newton-Verfahren Verfahren der konjugierten Richtungen Trust-Region-Verfahren Verfahren für restringierte Probleme Strafterm-Methoden Verfahren für quadratische Probleme mit linearen Nebenbedingungen SQP-Verfahren Literaturverzeichnis 143 2

3 Kapitel 1 Problemstellung und Beispiele 1 In diesem Kapitel werden die Problemstellung, Aussagen zu Existenz und Beispiele eingeführt. 1.1 Problemstellung und Definitionen Wir definieren zunächst Minima und Maxima einer Funktion. Definition 1.1 Gegeben sei eine Teilmenge X R n genannt zulässiger Bereich und eine Abbildung f : D R mit X D R n genannt Zielfunktion. (i) x R n heißt zulässig, wenn x X gilt. (ii) x X heißt globales Minimum von f, wenn f(x ) f(x) für alle x X. (iii) x X heißt lokales Minimum von f, wenn es ein ε > 0 gibt mit f(x ) f(x) für alle x X B ε (x ), wobei B r (x 0 ) := {x R n : x x 0 < r}. 3

4 (iv) x X heißt striktes globales Minimum von f, wenn f(x ) < f(x) für alle x X. (v) x X heißt striktes lokales Minimum von f, wenn es ein ε > 0 gibt, so dass f(x ) < f(x) für alle x X B ε (x ) mit x x. Analog erfolgen die Definitionen von Typen eines Maximums. Ein globales Minimum ist auch lokales Minimum, jedoch nicht umgekehrt. Nun kann die Optimierungsaufgabe formuliert werden. Definition 1.2 Das Minimierungsproblem oder Optimierungsproblem zu einer Zielfunktion f mit zulässigem Bereich X lautet: Bestimme ein globales Minimum der Funktion f(x) unter der Nebenbedingung x X. In Kurzschreibweise lautet dies min f(x) N.B. x X oder min f(x). x X Zudem unterscheidet man die Fälle: X = R n : unbeschränktes (unrestringiertes) Minimierungsproblem, X R n : beschränktes (restringiertes) Minimierungsproblem. Bemerkungen: (i) Wegen max f(x) = min ( f(x)) x X x X betrachten wir o.e.d.a. nur Minimierungsaufgaben. 4

5 (ii) Häufig wird die zulässige Menge X mit Hilfe von Gleichungen und Ungleichungen beschrieben, d.h. gegeben sind Die zulässige Menge lautet dann h : R n R m h, m h N 0, g : R n R m g, m g N 0. X := {x R n : h(x) = 0, g(x) 0}. Dabei sind die Gleichungsnebenbedingungen (h(x) = 0) und Ungleichungsnebenbedingungen (g(x) 0) komponentenweise gemeint sowie leer wenn m h = 0 bzw. m g = 0 vorliegt. Je nach den Eigenschaften der Funktionen f, g, h, welche die Optimierungsaufgabe definieren, kann man verschiedene Fälle unterscheiden. Spezielle Aufgabenstellungen: a) f, g, h linear: lineare Optimierung, b) f oder g oder h nichtlinear, f, g, h stetig differenzierbar: nichtlineare Optimierung, c) f, g, h konvex: konvexe Optimierung, d) f oder g oder h nicht differenzierbar: nichtglatte Optimierung, e) X Z n : ganzzahlige/diskrete Optimierung. Wir betrachten im folgenden ausschließlich Probleme vom Typ (b), wobei manchmal noch zusätzlich die Eigenschaft aus Typ (c) vorausgesetzt wird. Sowohl bei Optimierungsaufgaben als auch bei algebraischen Gleichungssystemen gilt für die Verfügbarkeit von numerischen Verfahren: lineare Probleme: es existieren direkte Verfahren, welche die exakte Lösung bei exakter Rechnung nach endlich vielen Schritten liefern. 5

6 nichtlineare Probleme: es gibt nur iterative Verfahren, die nach endlich vielen Schritten auch bei exakter Rechnung lediglich eine Näherungslösung ergeben. Nun diskutieren wir noch kurz die Existenz von globalen Minima. Definition 1.3 Seien f : X R, X R n und α R gegeben. Dann heißt Niveaumenge von f zum Wert α. N(f, α) := {x X : f(x) α} Damit können wir einen Existenzsatz formulieren. Satz 1.4 Sei X R n, f : X R stetig und für ein y X sei die Niveaumenge N(f, f(y)) = {x X : f(x) f(y)} kompakt. Dann gibt es (mindestens) ein globales Minimum von f auf X. Beweis: Die stetige Funktion f nimmt auf der kompakten Menge N(f, f(y)) ein Minimum x an, d.h. f( x) f(x) Für x X\N(f, f(y)) gilt dann für alle x N(f, f(y)). f(x) > f(y) f( x), wodurch die Behauptung für alle x X gezeigt ist. Bei unrestringierten Optimierungsaufgaben gilt der folgende Existenzsatz unter einer starken Voraussetzung. Satz 1.5 Sei f : R n R stetig und es gelte lim f(x) = +. (1.1) x Dann gibt es (mindestens) ein globales Minimum von f auf R n. 6

7 Beweis: Die Bedingung (1.1) bedeutet genauer: für jedes s > 0 existiert ein r > 0 mit f(x) > s für alle x mit x > r. Da f stetig, ist die Menge N(f, α) immer abgeschlossen. Ist y R n fest aber beliebig, dann gibt es ein r(y) mit f(x) > f(y) für alle x mit x > r(y). Somit folgt N(f, f(y)) {x R n : x r(y)}, d.h. N(f, f(y)) ist beschränkt. Also ist N(f, f(y)) kompakt. Satz 1.4 liefert nun die Behauptung. 1.2 Beispiele für Optimierungsaufgaben Wir stellen sowohl Modellprobleme als auch Aufgaben mit Anwendungsbezug vor. 1. Modellproblem: Quadratische Form Sei A R n n eine symmetrische Matrix sowie b R n, c R. Die Zielfunktion wird definiert als f : R n R, f(x) := 1 2 x Ax + b x + c ohne Restriktionen, d.h. X = R n. Der Gradient ( ) f = f x 1,..., f x n R n ergibt sich zu f = Ax + b. Die Hesse-Matrix ( ) H = 2 f x i x j i,j=1,...,n Rn n resultiert zu H = A. Ein eindeutiges globales Minimum von f existiert genau dann, wenn die Matrix A positiv definit ist. In diesem Fall kann das Minimum direkt aus der Bedingung f = 0 berechnet werden. 7

8 x2 f x x1 0 x1 5 Abbildung 1: Himmelblau-Funktion: dreidimensionale Darstellung (links) und Niveaulinien (rechts). 2. Modellproblem von Himmelblau Ohne Restriktion wird die Zielfunktion definiert durch f: R2 R, f (x) = (x21 + x2 11)2 + (x1 + x22 7)2. Dies stellt ein Polynom vierten Grades dar. Abb. 1 zeigt diese Modellfunktion. Es liegen vier lokale Minima, ein lokales Maximum und vier Sattelpunkte vor. Bei diesem Beispiel ist Satz 1.5 anwendbar. Na heres zu diesem Modellproblem kann man in [1] finden. 3. Modellproblem von Rosenbrock Die Rosenbrock-Funktion ist gegeben durch f: R2 R, f (x) = 100(x2 x21 )2 + (1 x1 )2, R d.h. ohne Restriktion (X = 2 ). Wieder liegt ein Polynom vierten Grades vor. Auch hier ist Satz 1.5 anwendbar. Ein eindeutiges globales Minimum existiert bei x = (1, 1). Abb. 2 verdeutlicht diese Modellfunktion. Es liegt ein langgezogenes gekru mmtes Tal vor, in dem sich das globale Minimum befindet. 8

9 f x x x x 1 Abbildung 2: Rosenbrock-Funktion: dreidimensionale Darstellung (links) und Niveaulinien (rechts). 4. Nichtlineares Ausgleichsproblem: GPS-Ortung Gesucht sind die aktuelle Position und die aktuelle Zeit des Empfängers: x = (t E, x E, y E, z E ). Die Zeit ist eine Unbekannte, da der Empfänder keine hochgenaue Uhr hat. Es werden N Satelliten empfangen, die deren Position und aktuelle Zeit hochgenau senden: (t S,i, x S,i, y S,i, z S,i ) für i = 1,..., N. Das Signal bewegt sich mit Lichtgeschwindigkeit c = x t Dadurch entsteht das Gleichungssystem mit x = (x, y, z). (x E x S,i ) 2 + (y E y S,i ) 2 + (z E z S,i ) 2 = c 2 (t E t S,i ) 2 für i = 1,..., N. Um die Unbekannten zu bestimmen ist somit N 4 erforderlich. Jedoch gelten die Modellgleichungen nur näherungsweise, weil relativstische Effekte die Laufzeiten verändern. Daher wird das nichtlineare Ausgleichsproblem min x R 4 N r i (t E, x E, y E, z E ) 2 i=1 9

10 mit den Residuen gelöst. r i := (x E x S,i ) 2 + (y E y S,i ) 2 + (z E z S,i ) 2 c 2 (t E t S,i ) 2 Ein allgemeines nichtlineares Ausgleichsproblem besitzt die Gestalt min F (x) 2 x X mit X R n und einer Funktion F : X R m mit m > n. Dabei wird die Euklidische Norm verwendet. 5. Hängende Kette Betrachtet wird eine Kette aus N Kugeln der Masse m, welche durch N + 1 masselose Stäbe der Länge l verbunden sind. Die Gesamtlänge der Kette ist damit L = (N + 1)l. In einem zweidimensionalen Koordinatensystem (ξ, η) sind Aufhängungspunkte links (a, α) und rechts (b, β) gegeben (a < b). Die Unbekannten bestehen nun aus den Positionen der Kugeln (ξ i, η i ) für i = 1,..., N. Wir definieren die Variable x := (ξ 1,..., ξ N, η 1,..., η N ). Die hängende Kette nimmt eine Position an, in der die potentielle Energie E(x) = N mgη i minimal wird. Darin bezeichnet die Konstante g die Erdbeschleunigung. Die identischen Abstände der Kugeln werden durch Gleichungsnebenbedingungen berücksichtigt. Der Satz des Pythagoras führt auf die Gleichungen i=1 h 1 := (ξ 1 a) 2 + (η 1 α) 2 l 2 = 0 h i := (ξ i ξ i 1 ) 2 + (η i η i 1 ) 2 l 2 = 0 für i = 2,..., N h N+1 := (ξ N b) 2 + (η N β) 2 l 2 = 0. Somit folgt die restringierte Optimierungsaufgabe min E(x) N.B. h(x) = 0. 10

11 y x y x Abbildung 3: Kette mit Aufhängungspunkten bei (0, 1) und (1, 1) für N = 7 Kugeln (links) und N = 20 Kugeln (rechts) unter gleicher Gesamtlänge L = 2. Die Zielfunktion ist linear, während die Funktion der Nebenbedingungen quadratisch und damit nichtlinear sind. Abb. 3 zeigt zwei Beispiele für Lösungen dieses Problems. 6. Frachtproblem Dieses Beispiel ist eine Modifikation des Falls aus [7], Seite 6. Es sollen 5000 m 3 einer Ware zu einem Kunden geliefert werden. Die Ware wird in k quaderförmigen Behältern der Höhe x 1, Breite x 2 und Länge x 3 in m transportiert, welche beim Kunden verbleiben. Das Volumen darf höchstens 1 m 3 betragen und jede Kantenlänge muss mindestens 0.1 m aufweisen. Das Material für die sechs Seiten der Behälter kostet 4 EUR pro m 2. Die Frachtkosten betragen 50 EUR pro Behälter. Die Aufgabe ist, die Gesamtkosten kleinstmöglich zu halten. Die Gesamtkosten sind f(x, k) = 50k + 4k(2x 1 x 2 + 2x 1 x 3 + 2x 2 x 3 ). Zwischen dem Volumen und der Anzahl besteht der Zusammenhang k = Gesamtvolumen Volumen eines Behälters = x 1 x 2 x 3 11

12 Dadurch kann die Unbekannte k eliminiert werden. Es folgt die Zielfunktion f(x) = x 1 x 2 x x x x 3. Der Definitionsbereich von f ist D = {x R 3 offen. : x 1 x 2 x 3 0} und somit Die Nebenbedingungen ergeben Ungleichungen, nämlich x 1 x 2 x 3 1 sowie 0.1 x i für i = 1, 2, 3. Es folgt für die Darstellung über g(x) 0 mit der Funktion g : R 3 R 4, g(x) = (x 1 x 2 x 3 1, 0.1 x 1, 0.1 x 2, 0.1 x 3 ). Sowohl die Zielfunktion als auch die Nebenbedingungen sind nichtlinear. 12

13 Kapitel 2 Optimalitätsbedingungen 2 Für unrestingiere Optimierungsaufgaben existieren relativ einfache Optimalitätsbedingungen, siehe z.b. Seiten in [5]. Daher betrachten wir in diesem Kapitel nur restringierte Optimierungsaufgaben. 2.1 Regularität und Bedingungen erster Ordnung Gesucht sind notwendige oder hinreichende Bedingungen für ein Mininum einer Zielfunktion unter Nebenbedingungen. Die Grundidee ist, dass von einem Minimum ausgehend die Zielfunktion ansteigen muss. Eine Schwierigkeit besteht nun darin, dass man von einem Minimum auf dem Rand des zulässigen Bereichs nur in bestimmten Richtungen ( zulässige Richtungen ) weggehen kann. Dies motiviert die folgende Definition. Definition 2.1 Sei X R n nichtleer. Dann heißt ein Vektor d R n tangential zu X im Punkt x X, wenn Folgen (x (k) ) k N X und (t k ) k N R + existieren mit x (k) x lim k x(k) = x, lim t k = 0, lim = d. (2.1) k k t k Die Menge T (X, x) := {d R n : d tangential zu X in x} heißt Tangentialkegel von X in x. 13

14 Bemerkungen 2.2 (i) 0 T (X, x), denn wähle x (k) = x für alle k. (ii) Mit d T (X, x) und α > 0 ist auch αd T (X, x). Denn aus (2.1) folgt auch x (k) x lim k t k /α = αd. (iii) Aus (i) und (ii) folgt, dass T (X, x) ein Kegel ist. (iv) Ein Tangentialkegel hängt nur von der zulässigen Menge X ab und nicht von einer Zielfunktion. (v) Die formale Berechnung des Tangentialkegels kann mühsam sein. Beispiele 2.3 (i) Sei x intx := {y X : ε > 0 mit B ε (y) X}. Dann ist T (X, x) = R n. Denn sei d R n und x intx. Es existiert ein ε > 0 mit B ε (x) X. Somit existiert ein k 0 N mit d k 0 < ε. Wähle x (k) := x + d k und t k := 1 k. Für k k 0 gilt dann x (k) x = d k und somit x (k) B ε (x) X. Mit < ε folgt d T (X, x). x (k) x t k = d für alle k N (ii) Wir betrachten {( ) } x1 X := R 2 : x 1 0, 0 x 2 x 2 1 x 2 und x = ( )

15 Die Behauptung ist nun T (X, x) = {( ) d1 0 } : d 1 > 0 =: A. (iii) Für Wir zeigen zunächst A T (X, x). Sei d A, d.h. d = (d 1, 0) mit d 1 > 0. Wähle x (k) := d k und t k := 1 k. Dadurch gilt (2.1) wegen d X und x = (0, 0). Also ist d T (X, x). Nun zeigen wir T (X, x) A. Sei d T (X, x). Damit existieren Folgen (x (k) ) k N X, (t k ) k N R + mit lim k x(k) = x = 0, lim t k = 0, k d = lim k x (k) x t k x (k) = lim. k t k Wegen x (k) 0 folgt auch d 0 und insbesondere d 1 0. Mit x (k) 1 0 erhalten wir 0 x (k) 2 (x (k) 1 )2 0 x(k) 2 Somit ist d 2 = 0. Also folgt d A. X := {( x1 x 2 ) t k }{{} d 2 x (k) }{{} 1 0 x(k) 1 t k }{{} d 1 } R 2 : (x 1 0 und x 2 = 0) oder (x 1 = 0 und x 2 0) und x = (0, 0) gilt T (X, x) = X. Nun zeigen wir eine wichtige Eigenschaft des Tangentialkegels Satz 2.4 Sei x X R n. Der Tangentialkegel T (X, x) ist abgeschlossen. Beweis: Sei (d (k) ) k N T (X, x) mit lim k d(k) = d. 15.

16 Zu zeigen ist d T (X, x). Wegen d (k) T (X, x) gibt es zu jedem k N Folgen (x (k,l) ) l N X und (t k,l ) l N R + mit lim l x(k,l) = x, lim t k,l = 0, l x (k,l) x lim = d (k). l t k,l Daher existiert zu jedem k N ein l(k) N mit x (k,l(k)) x 1 k, 0 t k,l(k) 1 k, x (k,l(k)) x t k,l(k) d (k) 1 k. Für die Folgen (x (k,l(k)) ) k N X und (t k,l(k) ) k N R + gilt daher lim k x(k,l(k)) = x, lim t k,l(k) = 0. k Desweitern ist x (k,l(k)) x d t x (k,l(k)) x d (k) d k,l(k) t + (k) d k,l(k) und dadurch Also ist d T (X, x) gezeigt. x (k,l(k)) x lim = d. k t k,l(k) Mit Hilfe des Tangentialkegels können wir jetzt eine notwendige Optimalitätsbedingung zeigen. Satz 2.5 Sei X R n und f : D R n mit X D R n und D offen sowie f stetig differenzierbar auf D. Ist x X ein lokales Minimum des Problems min x X f(x), dann gilt f(x ) d 0 für alle d T (X, x ). (2.2) Dabei ist f = ( f x 1,..., f x n ) R n der Gradient von f an der Stelle x. 16

17 Beweis: Da f differenzierbar in x ist, gibt es eine reelle Zahl ε > 0 und eine Abbildung r : R n R mit und f(x) = f(x ) + f(x )(x x ) + r(x x ) (2.3) r(x x ) lim x x x x = 0 für alle x mit x x < ε, siehe S. 167 in [4] und S. 66 in [5]. Sei nun d T (X, x ). Es gibt dann Folgen (x (k) ) k N X und (t k ) k N R + mit lim k x(k) = x, lim t k = 0, k x (k) x lim = d. k t k Für k groß genug gilt sowohl f(x (k) ) f(x ), da x lokales Minimum ist, als auch x (k) x < ε. Mit (2.3) folgt 0 f(x (k) ) f(x ) = f(x )(x (k) x ) + r(x (k) x ) und weiter wegen t k > 0 0 f(x ) x(k) x t k } {{ } d + r(x(k) x ) x (k) x } {{ } 0 x(k) x t k }{{} d für x (k) x. Der Fall x (k) = x für ein k ist unkritisch wegen r(0) = 0. Daraus folgt die Behauptung. Bemerkungen 2.6 (i) Ist x intx ein lokales Minimum, dann folgt mit Beispiel 2.3 (iii) und (2.2) die bekannte notwendige Optimalitätsbedingung f(x ) = 0 für ein Minimum (bzw. Maximum) bei x. Denn setze d := f(x ), so folgt aus (2.2) sofort f(x ) 0 und daher f(x ) = 0. Die für die Theorie interessanten Minima sind also die Randminima. 17

18 (ii) Sei x X ein isolierter Punkt, d.h. es gibt ein ε > 0 mit x / X für alle x B ε (x )\{x }. Es folgt T (X, x ) = {0}. Dann ist (2.2) trivialerweise erfüllt. Also ist ein isolierter Punkt immer ein Kandidat für ein Minimum. (iii) Eine äquivalente Formulierung der Bedingung (2.2) lautet: Es gibt keine tangentiale Richtung d, so dass f(x ) d < 0 ist (d.h. keine negative Richtungsableitung). Im folgenden ziehen wir uns auf den wichtigen Fall zurück, dass die Nebenbedingungen durch Gleichungen und Ungleichungen mit Funktionen beschrieben werden. Betrachtet wird daher die Optimierungsaufgabe min f(x) N.B. g(x) 0, h(x) = 0 (2.4) mit Funktionen g : R n R m g und h : Rn R m h. Die zulässige Menge ist damit X := {x R n : g(x) 0, h(x) = 0}. (2.5) Es wird vorausgesetzt, dass f, g, h stetig differenzierbar sind. Zuvor war X R n eine beliebige Teilmenge. Mit diesen Annahmen bekommt die Teilmenge X eine gewisse Struktur. Der schwer handhabbare Tangentialkegel soll in diesem Fall durch eine einfachere Struktur ersetzt werden. Definition 2.7 Sei x X ein zulässiger Punkt mit X aus (2.5). Dann heißt I(x) := {i {1,..., m g } : g i (x) = 0} die Menge der aktiven Ungleichungsrestriktionen im Punkt x und L(X, x) := {d R n : g i (x)d 0 für alle i I(x) und h j (x)d = 0 für alle j {1,..., m h }} der Linearisierungskegel von X in x. 18

19 Die notwendigen Bedingungen für ein Minimum von (2.4) lassen sich gut aufschreiben, wenn T (X, x) = L(X, x) vorliegt. Leider gilt dies nicht immer. Jedoch erhalten wir folgende Eigenschaft. Satz 2.8 Sei x X ein zulässiger Punkt mit X aus (2.5). Dann gilt T (X, x) L(X, x). Beweis: Sei d T (X, x). Dann gibt es Folgen (x (k) ) k N X und (t k ) k N R + mit der Eigenschaft (2.1). Wir zeigen zunächst g i (x)d 0 für alle i I(x). Der Mittelwertsatz der Differentialrechnung liefert 0 g i (x (k) ) = g i (x) + g i (ξ (k) )(x (k) x) = g i (ξ (k) )(x (k) x) mit Zwischenstellen ξ (k) = (1 λ k )x (k) +λ k x wobei 0 < λ k < 1 falls i I(x). Also ist auch 0 g i (ξ (k) ) x(k) x für i I(x). t k Es gilt lim i(ξ (k) ) = g i (x) k und x (k) x lim = d. k t k Somit haben wir 0 g i (x)d für i I(x). Vollkommen analog folgt 0 = h j (x)d für j = 1,..., m h. Zusammen erhalten wir d L(X, x). Bei vielen Minimierungsproblemen lassen sich Minima mit Hilfe der Lagrange schen Multiplikatorenregel auffinden. Dies gelingt jedoch nur, wenn gewisse Regularitätseigenschaften erfüllt sind. 19

20 Definition 2.9 Ein zulässiger Punkt x X mit X aus (2.5) erfüllt die Regularitätsbedingung von Abadie (Abadie constraint qualification, Abadie CQ), wenn T (X, x) = L(X, x). Die Abadie CQ gilt immer, wenn x int X vorliegt, denn es folgt dann R n = T (X, x) L(X, x) R n. Wir zeigen nun, dass die Abadie CQ nicht immer gilt. Beispiel 2.10 Betrachtet wird die Optimierungsaufgabe min x 1 N.B. x 2 x 3 1 0, x 2 0. Offensichtlich ist bei x = (0, 0) das eindeutig bestimmte globale Minimum. Es gilt g 1 (x) = x 2 x 3 1, g 1 (x) = ( 3x 2 1, 1) g 1 (x ) = (0, 1) g 2 (x) = x 2, g 2 (x) = (0, 1) g 2 (x ) = (0, 1). Beide Bedingungen sind bei x aktiv, wodurch folgt L(X, x ) = {d R 2 : g 1 (x )d 0, g 2 (x )d 0} = {d R 2 : d 2 0, d 2 0} = {d R 2 : d 2 = 0}. Der Tangentialkegel ergibt sich analog wie in Beispiel 2.3 (ii) zu T (X, x ) = {d R 2 : d 1 0, d 2 = 0}. Somit ist T (X, x ) L(X, x ) und T (X, x ) L(X, x ). Die Abadie CQ ist in diesem Beispiel also nicht erfüllt. Nun formulieren wir ein wichtiges Konzept. 20

21 Definition 2.11 Die durch m g m h L(x, λ, µ) := f(x) + λ i g i (x) + µ j h j (x) i=1 festgelegte Funktion L : D R m g Rm h R mit D Rn heißt die Lagrange-Funktion zum Optimierungsproblem (2.4). In Kurzform lautet sie j=1 L(x, λ, µ) := f(x) + λ g(x) + µ h(x). Mit x L bezeichnet man den Gradienten von L bezüglich der Variablen x, d.h. m g m h x L(x, λ, µ) = f(x) + λ i g i (x) + µ j h j (x). i=1 j=1 Auf diesem Konzept aufbauend wird folgendes festgelegt. Definition 2.12 Die Gleichungen und Ungleichungen x L(x, λ, µ ) = 0 h(x ) = 0 λ 0, g(x ) 0, λ g(x ) = 0. (2.6) heißen Karush-Kuhn-Tucker-Bedingungen (KKT-Bedingungen) zur Optimierungsaufgabe (2.4). Jeder Vektor (x, λ, µ ) R n R m g Rm h, der die KKT-Bedingungen erfüllt, heißt Karush-Kuhn-Tucker-Punkt (KKT-Punkt). Seine Komponenten λ und µ heißen Lagrange-Multiplikatoren. Mit den KKT-Punkten erhalten wir eine Charakterisierung von Minima. Zum Nachweis benötigen wir das folgende Resultat aus der linearen Algebra. Lemma 2.13 (Farkas) Seien A R m n und b R n gegeben. Dann sind die beiden Aussagen äquivalent: (i) Das Gleichungssystem A x = b, x 0 besitzt eine Lösung. (ii) Die Ungleichung b d 0 gilt für alle d R n mit Ad 0. 21

22 Beweis: siehe Lemma 2.27 in [7]. Nun kann die Aussage gezeigt werden. Satz 2.14 Sei x ein lokales Minimum zur Aufgabe (2.4), welches der Regularitätsbedingung von Abadie genügt. Dann gibt es Vektoren λ R m g und µ R m h, so dass (x, λ, µ ) ein KKT-Punkt laut Def ist. Beweis: Mit Satz 2.5 folgt f(x )d 0 bzw. f(x )d 0 für alle d T (X, x ). Gilt d L(X, x ), so liefert Def. 2.7 auch g i (x )d 0 für i I(x ), h j (x )d 0 für j = 1,..., m h, h j (x )d 0 für j = 1,..., m h. Sei A R ( I(x ) +2m h ) n diejenige Matrix, deren Zeilenvektoren gegeben sind durch g i (x ) für i I(x ), h j (x ) für j = 1,..., m h, h j (x ) für j = 1,..., m h. Folglich ist d L(X, x ) äquivalent zu Ad 0. Die Abadie CQ impliziert T (X, x ) = L(X, x ) und somit auch Ad 0 für d T (X, x ). Wegen f(x )d 0 für alle d T (X, x ) können wir das Lemma 2.13 von Farkas mit b := f(x ) anwenden. Somit gibt es ein y R I(x ) +2m h mit y A = f(x ) und y 0. Mit der Definition der Matrix A ist dies äquivalent zu f(x ) + y i g i (x ) + 0 g i (x ) i I(x ) i/ I(x ) m h m h + y I(x ) +j h j (x ) + y I(x ) +m h +j ( h j (x )) = 0 j=1 j=1 22

23 zusammen mit y 0. Dadurch definieren wir λ i := y i für i I(x ), λ i := 0 für i / I(x ), µ j := y I(x ) +j y I(x ) +m h +j für j = 1,..., m h. Offensichtlich gelten dann die Bedingungen λ 0 und x L(x, λ, µ ) = 0 aus (2.6) Desweiteren erhalten wir auch m g λ g(x ) = λ i g i (x ) = λ i g i (x ) + }{{} i=1 i I(x) =0 aus (2.6). Also ist (x, λ, µ ) ein KKT-Punkt. i/ I(x) λ i }{{} =0 g i (x ) = 0 Bemerkungen 2.15 (i) Die KKT-Bedingungen (2.6) sind notwendige Bedingungen für ein Minimum, jedoch nur falls die Abadie CQ erfüllt ist. Sie gelten nicht in Beispiel Dort ist und dadurch L(x 1, x 2, λ 1, λ 2 ) = x 1 + λ 1 (x 2 x 3 1) + λ 2 ( x 2 ) L x1 = 1 + λ 1 ( 3x 2 1), L x1 (0, 0) = 1, L x2 = λ 1 λ 2, L x2 (0, 0) = λ 1 λ 2. Somit gilt x L(0, 0, λ 1, λ 2 ) 0 für alle λ 1, λ 2 R, obwohl hier bei x = (0, 0) ein Minimum vorliegt. (ii) Aus den Bedingungen bezüglich der Ungleichungsrestriktionen in (2.6) folgt λ 0, g(x ) 0, λ g(x ) = 0 λ i = 0 oder g i (x ) = 0 für jedes i = 1,..., m h. 23

24 Diese Eigenschaft nennt man Komplementaritätsbedingung. Liegt zusätzlich entweder λ i 0 oder g i (x ) 0 für i = 1,..., m h vor, dann ist die strikte Komplementaritätsbedingung erfüllt. Jetzt führen wir einen weiteren Regularitätsbegriff ein. Definition 2.16 Ein zulässiger Punkt x X mit X aus (2.5) genügt der Regularitätsbedingung von Mangasarian-Fromovitz (MFCQ), wenn folgende Aussagen gelten: (i) Die Gradienten h j (x) für j = 1,..., m h sind linear unabhängig. (ii) Es existiert ein ˆd R n mit g i (x) ˆd < 0 für alle i I(x) und h j (x) ˆd = 0 für j = 1,..., m h. Lemma 2.17 Sei x R n ein zulässiger Punkt der Optimierungsaufgabe (2.4), welcher die MFCQ mit einem ˆd R n erfüllt. Dann gibt es ein Kurve x : ( ε, +ε) R n für ein ε > 0 mit den Eigenschaften: Beweis: (i) x(0) = x, (iii) x(t) X für alle t [0, ε), (ii) x (0) = ˆd, (iv) x ist stetig differenzierbar auf ( ε, +ε). Wir definieren H : R mh+1 R m h ( durch H j (y, t) := h j x + t ˆd + h ) x (x ) y für j = 1,..., m h, wobei h x Rm h n die Funktionalmatrix von h bezeichnet. Das Gleichungssystem H(y, t) = 0 24

25 besitzt die Lösung (y, t ) = (0, 0). Am Lösungspunkt ist die Funktionalmatrix H h y (0, 0) = x (x ) h x (x ) R m h m h regulär, da h x (x ) vollen Rang besitzt wegen der MFCQ, siehe Def (i). Der Satz über implizite Funktionen (siehe z.b. Seite 93 in [5]), liefert eine stetig differenzierbare Kurve y : ( ε, +ε) R m h mit y(0) = 0 und H(y(t), t) = 0 für alle t ( ε, +ε) sowie Es folgt y (t) = y (0) = ( H ) 1 y (y(t), t) H t (y(t), t) für alle t ( ε, +ε). ( ) 1 ( ) 1 H y (0, 0) H t (0, 0) = H y (0, 0) h x (x ) ˆd = 0 wegen h j (x ) ˆd = 0 für alle j aus der MFCQ, siehe Def (ii). Jetzt definieren wir die Kurve x : ( ε, +ε) R n durch Es folgen die Eigenschaften: (i) x(0) = x wegen y(0) = 0. x(t) := x + t ˆd + h x (x ) y(t). (ii) x (0) = ˆd + h x (x ) y (0) = ˆd wegen y (0) = 0. (iii) Nachweis von x(t) X für t [0, ε): Es ist für j = 1,..., m h h j (x(t)) = h j (x + t ˆd + h x (x ) y(t) ) = H j (y(t), t) = 0. Für i / I(x ) folgt g i (x ) 0 und somit g i (x(t)) 0 für t nahe null, da g i stetig ist. Dafür ist ε eventuell zu verkleinern. Für i I(x ) gilt g i (x ) = 0. Wir definieren Φ(t) := g i (x(t)). Dann ist Φ(0) = 0, Φ (t) = g i (x(t))x (t), Φ (0) = g i (x ) ˆd < 0 wegen der MFCQ, siehe Def (ii). Somit folgt g i (x(t)) < 0 für t nahe null, wobei auch hier ε eventuell zu verkleinern ist. 25

26 (iv) x stetig differenzierbar, da y stetig differenzierbar. Damit sind alle Aussagen gezeigt. Satz 2.18 Erfüllt ein zulässiger Punkt x X mit X aus (2.5) die MFCQ, dann gilt dort auch die Abadie CQ. Beweis: Nach Satz 2.8 gilt T (X, x) L(X, x). Daher ist noch L(X, x) T (X, x) zu zeigen. Sei also d L(X, x) beliebig. Wir seten d(δ) = d + δ ˆd mit einem Vektor ˆd aus der MFCQ, d.h. es ist g i (x) ˆd < 0 für i I(x) und h j (x) ˆd = 0 für j = 1,..., m h. Da d L(X, x) gilt, haben wir auch g i (x)d 0 für i I(x) und h j (x)d = 0 für j = 1,..., m h. Zusammen folgt g i (x)d(δ) < 0 für i I(x) und h j (x)d(δ) = 0 für j = 1,..., m h für jedes δ > 0. Statt ˆd kann man also auch d(δ) für ein δ > 0 in der MFCQ verwenden. Lemma 2.17 liefert uns eine Hilfskurve x δ : ( ε, +ε) R n mit den Eigenschaften (i)-(iv). Insbesondere gilt x δ (0) = d(δ) für δ > 0. Wir zeigen nun d(δ) T (X, x). Für (t k ) k N R + wählen wir eine beliebige Nullfolge und setzen x (k) := x δ (t k ). Mit Eigenschaft (iii) folgt x (k) X für alle t k < ε. Mit Eigenschaft (iv) ist x (k) x für k. Dadurch gilt d(δ) = x δ(0) = lim k x δ (t k ) x δ (0) t k = lim k x (k) x t k. Also erhalten wir d(δ) T (X, x) für alle δ > 0. Offensichtlich gilt lim d(δ) = d. δ 0+ 26

27 Satz 2.4 besagt, dass T (X, x) abgeschlossen ist. Daher gilt für den Grenzwert d T (X, x). Mit Satz 2.14 und Satz 2.18 ergibt sich sofort die nächste Folgerung. Korollar 2.19 Sei x R n ein lokales Minimum der Optimierungsaufgabe (2.4), welches die MFCQ erfüllt. Dann existieren Lagrange-Multiplikatoren λ R m g und µ R m h, so dass (x, λ, µ ) ein KKT-Punkt ist, d.h. die Bedingungen aus Def liegen vor. Beispiel 2.20 Wir betrachten die Optimierungsaufgabe min x (x 2 + 1) 2 N.B. x 2 x 2 1 0, x 2 0. Wegen x 2 0 folgt f(x 1, x 2 ) 1 und weil f(0, 0) = 1 gilt liegt beim Punkt x = (0, 0) ein globales Minimum. Wegen ist hier g 1 (0, 0) = (0, 1) und g 2 (0, 0) = (0, 1) L(X, x ) = {( ) d1 0 } : d 1 R. Weiter kann man leicht zeigen, dass T (X, x ) = L(X, x ) gilt, d.h. die Abadie CQ ist erfüllt. Es gibt jedoch keinen Vektor ˆd R 2 mit g 1 (x ) ˆd = (0, 1) ˆd < 0 und g 2 (x ) ˆd = (0, 1) ˆd < 0. Somit ist die MFCQ nicht erfüllt. Dieses Beispiel zeigt, dass die Umkehrung der Aussage in Satz 2.18 nicht gilt. Wir definieren noch eine weitere Regularitätsbedingung. 27

28 Definition 2.21 Ein zulässiger Punkt x X mit X aus (2.5) genügt der Regularitätsbedingung der linearen Unabhängigkeit (linear independence constraint qualification, LICQ), wenn das Vektorensystem aus den Gradienten g i (x) für i I(x) und h j (x) für j = 1,..., m h linear unabhängig ist. Def verlangt die lineare Unabhängigkeit im R n. Notwendigerweise muss dafür I(x) + m h n gelten. Ein Vorteil dieses Kriteriums ist, dass die lineare Unabhängigkeit für ein gegebenes x sofort durch Rechnung nachgeprüft werden kann, beispielsweise mit dem Gauß-Algorithmus. Satz 2.22 Erfüllt ein zulässiger Punkt x X mit X aus (2.5) die LICQ, dann gilt dort auch die MFCQ. Beweis: Gilt die LICQ, dann ist Eigenschaft (i) aus Def sofort erfüllt, da eine Teilmenge von linear unabhängigen Vektoren selbst wieder linear unabhängig ist. Wir bilden eine Matrix A R n n mit den Gradienten als Zeilen. Die ersten I(x) Zeilen enthalten g i, während die nächsten m h Zeilen h j führen. Im Fall I(x) + m h < n werden die weiteren Zeilen zu einer Basis des R n erweitert, was durch den Basisergänzungssatz möglich ist, siehe S. 91 in [3]. Wegen der LICQ ist dann A regulär. Für die Eigenschaft (ii) aus Def setzen wir den Vektor ˆd R n als Lösung des linearen Gleichungssystems A ˆd = b, wobei der Vektor b R n definiert wird über 1 für k = 1,..., I(x), b k := 0 für k = I(x) + 1,..., I(x) + m h, beliebig für k > I(x) + m h. 28

29 Die Lösung ˆd besitzt nun die Eigenschaften g i (x) ˆd = 1 < 0 für i I(x) h j (x) ˆd = 0 für j = 1,..., m h, d.h. auch die Eigenschaft (ii) aus Def ist erfüllt. Damit erhalten wir erneut eine notwendige Optimalitätsbedingung. Zudem gilt dabei eine Eindeutigkeitsaussage. Satz 2.23 Sei x R n ein lokales Minimum der Optimierungsaufgabe (2.4), welches die LICQ erfüllt. Dann existieren eindeutig bestimmte Lagrange-Multiplikatoren λ R m g und µ R m h, so dass (x, λ, µ ) ein KKT-Punkt ist, d.h. die Bedingungen aus Def liegen vor. Beweis: Nach Satz 2.22 gilt die MFCQ Regularität aus Def Korollar 2.19 liefert sofort die Existenz von Lagrange-Multiplikatoren, so dass (x, λ, µ ) ein KKT-Punkt ist. Es verbleibt nur noch die Eindeutigkeit der Multiplikatoren zu zeigen. Die Def liefert uns die Bedingung m h 0 = x L(x, λ, µ ) = f(x ) + λ i g i (x ) + µ j h j (x ) m g i=1 = f(x ) + i I(x ) j=1 m h λ i g i (x ) + µ j h j (x ). Seien λ,k, µ,k für k = 1, 2 zwei Kombinationen von Multiplikatoren, die beide diese Gleichung erfüllen. Falls i / I(x ), dann ist g i (x ) < 0 und nach dem Komplementaritätsprinzip λ,k i = 0 für k = 1, 2 wegen der KKT-Bedingung λ g(x ) = 0. Werden die obigen Gleichungen voneinander subtrahiert, so folgt m h (λ,1 i λ,2 i ) g i (x ) + (µ,1 j µ,2 j ) h j (x ) = 0. i I(x ) 29 j=1 j=1

30 Die lineare Unabhängigkeit der Vektoren laut der LICQ zeigt dann die Eindeutigkeit. Beispiel 2.24 Wir betrachten die Optimierungsaufgabe min x (x 2 + 1) 2 N.B. x 3 1 x 2 0, x 2 0. Wie in Beispiel 2.20 sieht man leicht, dass x = (0, 0) ein globales Minimum ist. Wegen g 1 (x ) = (0, 1) g 2 (x ) = (0, 1) ist die LICQ aus Def bei x nicht erfüllt. Mit beispielsweise ˆd = (0, 1) gilt jedoch g i (x ) ˆd = 1 < 0 für i = 1, 2. Somit tritt die MFCQ bei x auf. Dieses Beispiel zeigt, dass die Umkehrung der Aussage aus Satz 2.23 nicht vorliegt. Zusammen haben wir aus diesem Abschnitt bei den Regularitätsbedingungen die Implikationen LICQ MFCQ Abadie CQ ohne deren Umkehrungen. Alle drei Konzepte setzen voraus, dass die zulässige Menge der Optimierungsaufgabe durch Gleichungs- und Ungleichungsnebenbedingungen mit stetig differenzierbaren Funktionen h und g beschrieben ist. Insbesondere hängen die Regularitätsbedingungen nur von der Definition von X R n durch die Funktionen g, h in (2.5) ab und nicht von der Zielfunktion f aus der Optimierungsaufgabe (2.4). Man beachte, dass oft die gleiche zulässige Menge durch verschiedene Funktionen g, h beschrieben werden kann, d.h. X = {x R n : g(x) 0, h(x) = 0} = {x R n : g(x) 0, h(x) = 0}. Eine Darstellung kann eine Regularitätsbedingung erfüllen und die andere nicht, obwohl die gleiche zulässige Menge vorliegt. 30

31 Als weiteres Hilfsmittel setzen wir die folgende Teilmenge von X fest. Definition 2.25 Sei x X ein zulässiger Punkt mit X aus (2.5). Dann heißt L strikt (X, x) := {d R n : g i (x)d < 0 für i I(x), h j (x)d = 0 für j = 1,..., m h }. der strikte Linearisierungskegel von X in x. Offensichtlich gilt L strikt (X, x) L(X, x). Wir zeigen zum Schluss dieses Unterkapitels noch eine notwendige Optimalitätsbedingung, die nur eine schwache Regularitätsbedingung enthält. Satz 2.26 Sei x ein lokales Minimum der Optimierungsaufgabe (2.4) und die Gradienten h j (x ) für j = 1,..., m h seien linear unabhängig. Dann gilt für alle d L strikt (X, x ) die Bedingung f(x )d 0. Beweis: Wir verwenden einen indirekten Beweis. Angenommen es gibt ein ˆd R n mit den Eigenschaften a) f(x ) ˆd < 0, b) h j (x ) ˆd = 0 für j = 1,..., m h, c) g i (x ) ˆd < 0 für i I(x ). Wegen (b),(c) und der linearen Unabhängigkeit der Gradienten h j (x ) erfüllt dann der Punkt x die MFCQ mit diesem ˆd. Laut Lemma 2.17 gibt es eine Kurve x : ( ε, +ε) R n mit den dortigen Eigenschaften (i)-(iv). Wir betrachten die Zielfunktion entlang dieser Kurve, d.h. Φ(t) := f(x(t)). Es folgt Φ (0) (iv) = f(x(0))x (0) (i,ii) = f(x (a) ) ˆd < 0. 31

32 L(X,x) T(X,x) L (X,x) strikt Abbildung 4: Mengeninklusionen bei den Kegeln. Also ist Φ(t) < Φ(0) für alle hinreichend kleinen t > 0. Es folgt f(x(t)) < f(x(0)) (i) = f(x ) für alle t (0, δ) mit hinreichend kleinem δ > 0, wobei Eigenschaft (iii) hier x(t) X sichert. Da (iv) lim x(t) = x(0) (i) = x t 0+ gilt, folgt ein Widerspruch zur lokalen Optimalität von x.. Satz 2.26 ist relevant für den Fall, dass die Abadie CQ in x nicht erfüllt ist. Dann gilt nämlich T (X, x ) L(X, x ). Satz 2.5 liefert bereits die Aussage f(x )d 0 für alle d T (X, x ). Abb. 4 verdeutlicht die Relationen. 32

33 2.2 Lineare und konvexe Restriktionen In diesem Abschnitt behandeln wir die günstigen Spezialfälle, dass die Funktionen g, h, welche die zulässige Menge X aus (2.5) definieren, linear bzw. konvex sind. Lineare Restriktionen Betrachtet wird eine Optimierungsaufgabe mit linearen Nebenbedingungen, d.h. min f(x) N.B. a i x α i für i = 1,..., m g, b j x = β (2.7) j für j = 1,..., m h, wobei f : D R (D R n offen) eine beliebige stetig differenzierbare Funktion ist und a 1,..., a mg, b 1,..., b mh R n sowie α 1,..., α mg, β 1,..., β mh R konstant sind. Die zulässige Menge ist X := {x R n : a i x α i, i = 1,..., m g, b j x = β j, j = 1,..., m h }. (2.8) Es gelte X D. In diesem Spezialfall lauten die beschreibenden Funktionen g i (x) = a i x α i für i = 1,..., m g, h j (x) = b j x β j für i = 1,..., m h. Für diesen Problemtyp gilt das folgende Resultat. Satz 2.27 Ein zulässiger Punkt x X mit X aus (2.8) erfüllt die Regularitätsbedingung von Abadie aus Def Beweis: Wegen Satz 2.8 ist nur L(X, x ) T (X, x ) zu zeigen. Sei d L(X, x ). Im linearen Fall (2.8) gilt für alle i, j. Somit ist g i (x) = a i und h j (x) = b j a i d 0 für i I(x ), b j d = 0 für j = 1,..., m h. 33

34 Wir wählen eine beliebige Nullfolge (t k ) k N R +. Dann sei x (k) := x + t k d für alle k. Für alle i I(x ) ist dann a i x (k) = a i (x + t k d) = a i x }{{} + t k α i Für alle i = {1,..., m g }\I(x ) folgt }{{} >0 a i d }{{} 0 a i x (k) = a i (x + t k d) = a i x }{{} + t k (a i d) }{{} <α i 0 α i. < α i falls k hinreichend groß. Desweiteren ist für j {1,..., m h } b j x (k) = b j (x + t k d) = b j x }{{} +t k b j d }{{} =β j =0 = β j. Also sind alle x (k) für k k 0 mit einem k 0 zulässig. Es gilt offensichtlich Daher ist d T (X, x ). lim k x(k) = x und x(k) x = d für alle k. t k Mit Satz 2.14 und Satz 2.27 folgt direkt die nächste Aussage. Korollar 2.28 Ist x X ein lokales Minimum zur Optimierungsaufgabe (2.7), dann gibt es Vektoren λ R m g und µ R m h, so dass (x, λ, µ ) ein KKT-Punkt laut Def ist. Im Fall der Optimierungsaufgabe (2.7) lauten die KKT-Bedingungen: m g f(x ) + λ i a i + µ jb j = 0 i=1 m g j=1 b j x = β j für j = 1,..., m h a i x α i für i = 1,..., m g λ i (a i x α i ) = 0 für i = 1,..., m g λ i 0 für i = 1,..., m g. 34

35 Man beachte, dass die LICQ verletzt ist, wenn das System der Vektoren a 1,..., a mg, b 1,..., b mh linear abhängig ist. Trotzdem ist die Abadie CQ wegen Satz 2.27 immer erfüllt. Konvexe Restriktionen Nun betrachten wir die Optimierungsaufgabe min f(x) N.B. g i (x) 0 für i = 1,..., m g, b j x = β j für j = 1,..., m h (2.9) mit stetig differenzierbarer Funktion f : D R und konvexen stetig differenzierbarer Funktionen g 1,..., g mg sowie Konstanten b 1,..., b mh R n und β 1,..., β mh R. Definition 2.29 Eine Funktion r : D R mit konvexem Definitionsbereich D R n heißt konvex, wenn r(θx + (1 θ)y) θr(x) + (1 θ)r(y) (2.10) für alle x, y D und alle θ [0, 1] gilt. Lemma 2.30 Sei r : D R stetig differenzierbar mit D R n sowie D offen und konvex. Dann ist r genau dann konvex, wenn r(x) r(y) + r(y) (x y) für alle x, y D. (2.11) Beweis: Sei r konvex. Aus (2.10) folgt r(y + θ(x y)) r(y) θ r(x) r(y) für 0 < θ 1. Mit der stetigen Differenzierbarkeit von r resultiert r(y + θ(x y)) r(y) r(y) (x y) = lim θ 0+ θ 35 r(x) r(y).

36 Umstellen der Gleichung zeigt die Formel (2.11). Gelte umgekehrt die Eigenschaft (2.11). Seien x, y D und θ [0, 1] beliebig. Wir setzen z := θx + (1 θ)y. Es folgt r(x) r(z) r(z) (x z) r(y) r(z) r(z) (y z). Zusammen erhalten wir wegen θ 0 und 1 θ 0 und θ(r(x) r(z)) + (1 θ)(r(y) r(z)) 0 und äquivalent Somit ist r konvex. θr(x) + (1 θ)r(y) r(z). Wir zeigen als eine erste Aussage. Satz 2.31 Der zulässige Bereich X der Optimierungsaufgabe (2.9) mit konvexen Funktionen g 1,..., g mg ist konvex. Beweis: Seien x, y X, d.h. g i (x) 0, g i (y) 0 für i = 1,..., m g, b j x = β j, b j y = β j für j = 1,..., m h. Sei nun θ [0, 1]. Da g i konvex ist, gilt bezüglich der Ungleichungsnebenbedingungen g i (θx + (1 θ)y) θg i (x) + (1 θ)g i (x) θ 0 + (1 θ) 0 = 0 für i = 1,..., m g. Bei den Gleichungsnebenbedingungen folgt b j (θx + (1 θ)y) = θb j x + (1 θ)b j y = θβ j + (1 θ)β j = β j für j = 1,..., m h. Also ist θx + (1 θ)y X für alle θ [0, 1]. Für die obige Aufgabenstellung existiert eine Regularitätsbedingung. Man beachte, dass sich die Regularität nun auf die ganze Optimierungsaufgabe und nicht nur einen zulässigen Punkt bezieht. 36

37 Definition 2.32 Das Optimierungsproblem (2.9) mit konvexer Funktion g erfüllt die Regularitätsbedingung von Slater, wenn es einen Punkt ˆx R n gibt mit g i (ˆx) < 0 für i = 1,..., m g und b j ˆx = β j für j = 1,..., m h, d.h. ˆx ist strikt zulässig bzgl. der Ungleichungsrestriktionen und zulässig bezüglich der Gleichungsrestriktionen. Die Regularitätsbedingung von Abadie bezieht sich jeweils auf einzelne Punkte x X, während die Slater-Bedingung von der Menge X abhängt. Satz 2.33 Jeder zulässige Punkt x X mit X aus einer Optimierungsaufgabe (2.9) mit konvexer Funktion g, welche die Slater-Regularitätbedingung erfüllt, genügt der Regularitätsbedingung von Abadie aus Def Beweis: Wegen Satz 2.8 ist wieder nur L(X, x ) T (X, x ) nachzuweisen. Wir zeigen L strikt (X, x ) T (X, x ) mit dem strikten Linearisierungskegel aus Def Sei d L strikt (X, x ). Wir definieren x (k) = x +t k d mit einer beliebigen Nullfolge (t k ) k N R +. Für i I(x ) folgt durch den Mittelwertsatz der Differentialrechnung mit Zwischenstellen ξ (k) = λ k x (k) +(1 λ k )x wobei λ k (0, 1) g i (x (k) ) = g i (x ) + g(ξ (k) )(t k d) = g i (x ) + }{{} t k >0 g(ξ (k) )d }{{} g i (x )d<0 bei hinreichend hohem k. Für i / I(x ) gilt g i (x (k) ) < 0 für hinreichend hohes k, da g i (x ) < 0 und g i stetig ist. Desweiteren folgt h j (x )x (k) = b j (x + t k d) = b j x + t k b j d = β j. }{{} =0 Also sind alle x (k) für k k 0 mit einem k 0 zulässig. Es gilt wieder lim k x(k) = x und x(k) x = d für alle k. t k 37 0

38 Somit ist d T (X, x ). Wegen Satz 2.4 gilt für den Abschluss L strikt (X, x ) T (X, x ). Wir zeigen daher L(X, x ) L strikt (X, x ). Sei d L(X, x ) Mit einem Punkt ˆx aus der Slater-Bedingung in Def setzen wir ˆd := ˆx x. Da g i konvex ist, folgt für i I(x ) mit Lemma 2.30 Zudem ist für j = 1,..., m h hier Für d(δ) := d + δ ˆd mit δ > 0 folgt g i (x ) ˆd g i (ˆx) g i (x ) = g }{{} i (ˆx) < 0. =0 b j ˆd = b j ˆx b j x = β j β j = 0. g i (x )d(δ) < 0 für i I(x ), Dadurch ist d(δ) L strikt (X, x ). Wegen b j d(δ) = 0 für j = 1,..., m h. d = lim δ 0+ d(δ) folgt d L strikt (X, x ), wodurch die Behauptung gezeigt ist. Mit der Abadie CQ folgt aus Satz 2.14 und Satz 2.33 folgt direkt die nächste Schlussfolgerung. Korollar 2.34 Sei eine Optimierungsaufgabe (2.9) mit konvexer Funktion g gegeben, welche die Slater-Bedingung erfüllt. Ist x X ein lokales Minimum, dann gibt es Vektoren λ R m g und µ R m h, so dass (x, λ, µ ) ein KKT-Punkt laut Def ist. Bei einem allgemeinen restringierten Optimierungsproblem kann man im Falle einer konvexen Zielfunktion dann von einem lokalen Minimum auf ein globales Minimum schließen. 38

39 Satz 2.35 Sei x ein lokales Minimum der Optimierungsaufgabe min f(x), N.B. x X mit konvexer Zielfunktion f und konvexem zulässigen Bereich X. Dann ist x auch globales Minimum. Beweis: Wir verwenden einen indirekten Beweis. Angenommen es gäbe ein y X mit f(y) < f(x ). Dann betrachten wir z := θx + (1 θ)y für θ (0, 1). Da X konvex ist folgt z X. Desweiteren erhalten wir mit der Konvexität von f f(z) θf(x ) + (1 θ)f(y) < θf(x ) + (1 θ)f(x ) = f(x ). Für θ hinreichend nahe bei 1 widerspricht dies der lokalen Optimalität von x. Satz 2.35 ist auf die konvexe Optimierungsaufgabe (2.9) anwendbar, da nach Satz 2.31 die zulässige Menge konvex ist. Nun können wir sogar ein hinreichendes Kriterium formulieren. Satz 2.36 Sei (x, λ, µ ) ein KKT-Punkt des Optimierungsproblems (2.9) mit f und g konvex. Dann ist x ein globales Minimum. Beweis: Aus der Konvexität von f mit Lemma 2.30 und der ersten KKT-Bedingung x L = 0 folgt für beliebiges x X f(x) f(x ) + f(x )(x x ) m g m h = f(x ) λ i g i (x )(x x ) µ j h j (x )(x x ). }{{} i=1 j=1 =b j Da x, x X, ergibt sich aus b j (x x ) = 0 m g f(x) f(x ) λ i g i (x )(x x ). i=1 39

40 Die KKT-Bedingung λ g(x ) = 0 impliziert λ i = 0 falls g i(x ) < 0 gilt. Es folgt f(x) f(x ) λ i g i (x )(x x ). i I(x ) Die Konvexität von g mit Lemma 2.30 liefert f(x) f(x ) [ ] λ i gi (x) g }{{}}{{} i (x ) f(x }{{} ). i I(x ) 0 0 =0 Da x X beliebig war, ist die Behauptung gezeigt. Es ist bemerkenswert, dass in Satz 2.36 keine Regularitätsbedingung gefordert wird. Beispiel 2.37 Wir diskutieren die Optimierungsaufgabe (Dimension n = 2) min x 2 1 N.B. c(x 1 ) x 2 0, c(x 1 ) + x 2 0 mit der Funktion (x 1) 2 falls x > 1, c(x) := 0 falls 1 x 1, (x + 1) 2 falls x < 1, welche stetig differenzierbar ist. Es sind g 1 (x) := c(x 1 ) x 2 und g 2 (x) := c(x 1 ) + x 2 stetig differenzierbar und konvex, da sie Summen aus den konvexen Funktionen c(x 1, x 2 ) := x 1 und l(x 1, x 2 ) := ±x 2 sind. Für zulässige Punkte x 1 [ 1, 1] folgt x 2 c(x 1 ) = 0 und x 2 c(x 1 ) = 0, d.h. x 2 = 0. Für x 1 / [ 1, 1] wäre x 2 c 1 (x 1 ) > 0 und x 2 c(x 1 ) < 0, d.h. es existiert kein zulässiger Punkt. Somit X = [ 1, 1] {0}. Insgesamt liegt eine Optimierungsaufgabe mit konvexer Zielfunktion f und konvexer Funktion g vor. 40

41 Die Slater-Bedingung aus Def ist jedoch verletzt. Bei jedem zulässigen Punkt sind sogar beide Ungleichungsnebenbedingungen aktiv. Die Abadie CQ ist jedoch bei x = (0, 0) erfüllt wegen T (X, x ) = {d R 2 : d 2 = 0} = L(X, x ). Dieses Beispiel zeigt, dass die Slater-Bedingung nicht notwendig für die Abadie CQ ist. Wir versuchen, einen KKT-Punkt (x, λ ) zu bestimmen. Notwendigerweise ist x 2 = 0. Es folgt die Bedingung (2x 1, 0) + λ 1(0, 1) + λ 2(0, 1) = (0, 0). Wir erhalten daraus x 1 = 0 und λ 1 = λ 2 0. Insbesondere x = (0, 0). Wegen g i (x ) = 0 für i = 1, 2 gilt auch λ g(x ) = 0. Es folgt eine Schar von KKT-Punkten (x, λ ) = (( ) 0, 0 ( )) λ λ für λ 0. Laut Satz 2.36 ist x = (0, 0) ein globales Minimum der Optimierungsaufgabe. Im Spezialfall linearer Restriktionen gilt noch eine Äquivalenz. Satz 2.38 Beim Optimierungsproblem min f(x), N.B. g(x) 0, h(x) = 0 mit konvexer Funktion f und affin-linearen Funktionen g, h gilt x lokales Minimum λ, µ : (x, λ, µ ) KKT-Punkt. Beweis: Sei x ein lokales Minimum. Da x X gilt, erfüllt x laut Satz 2.27 für lineare Restriktionen die Abadie CQ. Mit Satz 2.14 folgt die Erweiterbarkeit zu einem KKT-Punkt. 41

42 1 L x λ,µ 2 Abbildung 5: Schematische Darstellung eines Sattelpunkts (Position bei x = 0, λ, µ = 1). Sei umgekehrt (x, λ, µ ) ein KKT-Punkt. Die Zielfunktion f ist konvex vorausgesetzt und eine affin-lineare Funktion g ist immer konvex. Satz 2.36 impliziert, dass x sogar ein globales Minimum ist. Nun definieren wir einen Begriff bei allgemeiner Optimierungsaufgabe. Definition 2.39 Gegeben sei eine Optimierungsaufgabe min f(x) mit X := {x x X Rn : g(x) 0, h(x) = 0}, wobei f : D R (X D R n ), D offen, g : R n R n g, h : Rn R m h. Ein Vektor (x, λ, µ ) mit λ 0 heißt Sattelpunkt der Lagrange-Funktion L : D R m g Rm h R, wenn L(x, λ, µ) L(x, λ, µ ) L(x, λ, µ ) für alle x D, λ R m g mit λ 0 und µ Rm h gilt. Abb. 5 veranschaulicht die Eigenschaft des Sattelpunkts. Wir erhalten nun eine Äquivalenz. 42

43 Satz 2.40 (Sattelpunkt-Theorem für konvexe Probleme) Bei der Optimierungsaufgabe min f(x), N.B. g(x) 0, h(x) = 0 mit g konvex und h affin-linear sowie f konvex auf D gilt: (x, λ, µ ) KKT-Punkt (x, λ, µ ) Sattelpunkt der Lagrange-Fkt.. Beweis: Sei (x, λ, µ ) ein KKT-Punkt. Die Lagrange-Funktion lautet allgemein m g m h L(x, λ, µ) = f(x) + λ i g i (x) + µ j h j (x). i=1 Wegen der Bedingung x L(x, λ, µ ) = 0 ist x ein stationärer Punkt der Funktion H(x) := L(x, λ, µ ) für x D. Mit konvexen Funktionen r, s ist auch αr für α 0 und r + s konvex. Es ist λ i g i konvex, da g i konvex und λ i 0. Da µ j h j affin-linear für beliebiges µ j, ist auch µ j h j konvex. Die Funktion f ist konvex vorausgesetzt, wodurch auch D als konvexe Teilmenge angenommen wird. Somit ist H als Summe konvexer Funktionen ebenfalls konvex. Lemma 2.30 liefert dann H(x) H(x ) + H(x )(x x }{{} ) = H(x ) für jedes x D. =0 Also ist x ein globales Minimum von H, d.h. j=1 L(x, λ, µ ) L(x, λ, µ ) für alle x D. Wegen g(x ) 0, h(x ) = 0 und λ i g i (x ) = 0 für alle i folgt m g m h L(x, λ, µ ) = f(x ) + λ i g i (x ) + µ jh j (x ) = f(x ) i=1 m g j=1 m h f(x ) + λ i g i (x ) + µ j h j (x ) = L(x, λ, µ) i=1 für alle λ R m g mit λ 0 und alle µ Rm h. Also ist (x, λ, µ ) ein Sattelpunkt von L. 43 j=1

44 Sei umgekehrt (x, λ, µ ) ein Sattelpunkt von L laut Def Wegen L(x, λ, µ ) L(x, λ, µ ) für alle x D ist x globales Minimum von obiger Funktion H in D. Es folgt (mit der üblichen Annahme D offen) Aus folgt m g 0 = H(x ) = x L(x, λ, µ ). L(x, λ, µ) L(x, λ, µ ) für alle λ 0, µ m h m h λ i g i (x ) + µ j h j (x ) λ i g i (x ) + µ jh j (x ) i=1 für alle λ 0, µ. j=1 Wir wählen hier für ein k {1,..., m g } { λ λ i = i, i k λ i + 1, i = k für i = 1,..., m g und µ j = µ j für j = 1,..., m h, dann gilt λ 0 und es folgt g k (x ) 0. Für ein k {1,..., m h } wählen wir analog { µ µ j = j, j k µ j + 1, j = k für j = 1,..., m h und λ i = λ i für i = 1,..., m g, wodurch h k (x ) 0 resultiert. Mit { µ µ j = j, j k µ j 1, j = k für j = 1,..., m h und λ i = λ i für i = 1,..., m g m g i=1 ergibt sich h k (x ) 0. Somit gilt h k (x ) = 0. Zuletzt wählen wir λ = 0 und µ = 0 und erhalten zusammen mit h(x ) = 0 0 m g i=1 λ i }{{} 0 44 g i (x ), }{{} 0 j=1

45 was wegen der Vorzeichen der Terme äquivalent zu λ i g i(x ) = 0 für alle i ist. Dadurch stellt (x, λ, µ ) einen KKT-Punkt dar. Für die Rückrichtung in Satz 2.40 wird die Konvexität der Funktionen nicht benötigt. 2.3 Bedingungen zweiter Ordnung Optimalitätsbedingungen zweiter Ordnung enthalten die zweiten Ableitungen von beteiligten Funktionen. Daher wird in diesem Abschnitt für die restringierte Optimierungsaufgabe min f(x) N.B. g(x) 0, h(x) = 0 (2.12) angenommen, dass die Funktionen f, g, h zweimal stetig differenzierbar sind. Zum Vergleich betrachten wir zunächst die unrestringierte Optimierungsaufgabe min f(x) mit f : D R und D R n offen sowie f C 2 (D). Der Gradient ( ) f = f x 1,..., f x n R n enthält alle ersten Ableitungen von f. Alle zweiten Ableitungen von f werden in der Hesse-Matrix 2 f 2 f x 2 1 x 1 x 2 2 f x 1 x n 2 f 2 f 2 f := x 1 x 2 2 f x 2 2 x 2 x n... Rn n 2 f x 2 x n 2 f x 1 x n zusammengefasst. Diese Matrix ist stets symmetrisch. Daher gibt es nur n 2 +n 2 verschiedene zweite Ableitungen. Notwendige Bedingung für ein lokales Minimum in x D ist bekanntlich f(x ) = 0. Hinreichende Bedingungen liefert die Definitheit der Hesse- Matrix. Sei f(x ) = 0, dann gelten folgende Implikationen, siehe S in [5], 45 2 f x 2 n

46 2 f(x ) positiv definit: x ist striktes lokales Minimum, 2 f(x ) indefinit: x ist kein kein lokales Mininum oder Maximum, 2 f(x ) positiv semi-definit: keine Aussage (x kann lokales Minimum, striktes lokales Minimum oder kein Minimum/Maximum sein). Im semi-definiten Fall liefert die Hesse-Matrix somit keine Auskunft und andere Untersuchungen wären erforderlich. (Für n = 1 betrachte z.b. f(x) = x mit dem globalen Minimum bei x = 0.) Nun diskutieren wir die allgemeine restringierte Optimierungsaufgabe (2.12) mit zweimal stetig differenzierbaren Funktionen. Satz 2.41 (Hinreichendes Opt.kriterium zweiter Ordnung) Sei (x, λ, µ ) ein KKT-Punkt der Optimierungsaufgabe (2.12) und für alle d R n \{0} mit den Eigenschaften gelte g i (x )d = 0 falls i I(x ) und λ i > 0 g i (x )d 0 falls i I(x ) und λ i = 0 h j (x )d = 0 für alle j = 1,..., m h (2.13) Dann ist x ein striktes lokales Minimum. d 2 xxl(x, λ, µ )d > 0. (2.14) Beweis: Wir verwenden einen indirekten Beweis. Die Annahme, dass x kein striktes lokales Minimum ist, soll zum Widerspruch geführt werden. Unter dieser Annahme gibt es eine Folge (x (k) ) k N X mit x (k) x und Wir betrachten lim k x(k) = x und f(x (k) ) f(x ) für alle k. d (k) := x(k) x x (k) x. 46

47 Wegen d (k) = 1 liegt die Folge (d (k) ) k N R n in der kompakten Einheitskugel und besitzt daher eine konvergente Teilfolge. Sei o.e.d.a. (d (k) ) k N diese Teilfolge. Es gilt lim k d(k) = d mit d = 1. Nach dem Mittelwertsatz der Differentialrechnung gilt bei den Gleichungsrestriktionen h j (x (k) ) = h j (x ) + h j (ξ (k) )(x (k) x ) mit Zwischenstellen ξ (k) = θ k x (k) + (1 θ k )x für θ k (0, 1). Wegen der Zulässigkeit x (k), x X folgt h j (ξ (k) )(x (k) x ) = 0 für j = 1,..., m h und für jedes k. Grenzübergang führt auf d.h. h j (x )d = lim h j (ξ (k) ) x(k) x k x (k) x = lim h j (ξ (k) )(x (k) x ) k x (k) x = 0, h j (x )d = 0 für j = 1,..., m h. (2.15) Analog folgt bei den Ungleichungsrestriktionen g i (x (k) ) = g i (x ) + g i (η (k) )(x (k) x ) mit Zwischenstellen η (k) = θ k x(k) + (1 θ k )x für θ k (0, 1). Für i I(x ) folgt wegen g i (x ) = 0 und g i (x (k) ) 0 g i (η (k) )(x (k) x ) 0. Division durch x (k) x und Grenzübergang liefert analog g i (x )d 0 für i I(x ). (2.16) Die gleiche Vorgehensweise zeigt bei der Zielfunktion 0 f(x (k) ) f(x ) = f(τ (k) )(x (k) x ) 47

48 mit Zwischenstellen τ (k) = θ k x(k) + (1 θ k )x für θ k (0, 1) und somit f(x )d 0. (2.17) Wir machen eine Fallunterscheidung, die jeweils zu einem Widerspruch führt. 1. Fall: Für alle i I(x ) mit λ i > 0 gilt g i (x )d = 0. Zusammen mit (2.15),(2.16) folgt dann, dass d die Eigenschaft (2.13) aus den Voraussetzungen des Satzes erfüllt. Wir setzen wieder H(x) := L(x, λ, µ ). Es folgt mit x (k), x X m g m h f(x ) f(x (k) ) f(x (k) ) + λ i g i (x (k) ) + µ jh j (x (k) ) = H(x (k) ). i=1 Nach Voraussetzung ist H zweimal stetig differenzierbar. Da (x, λ, µ ) ein KKT-Punkt ist, folgt H(x ) = 0. Taylor-Entwicklung liefert f(x ) H(x (k) ) = H(x ) + H(x )(x (k) x ) (x(k) x ) 2 H(ζ (k) )(x (k) x ) j=1 = f(x ) (x(k) x ) 2 xxl(ζ (k), λ, µ )(x (k) x ) mit Zwischenstellen ζ k = σ k x (k) + (1 σ k )x und σ k [0, 1]. Also haben wir (x (k) x ) 2 xxl(ζ (k), λ, µ )(x (k) x ) 0 für alle k. Division durch x (k) x 2 und Grenzübergang liefert d 2 xxl(x, λ, µ )d 0 im Widerspruch zum Kriterium (2.14). 2. Fall: Es gibt ein i 0 I(x ) mit λ i 0 > 0 und g i0 (x )d < 0. Hier ist die Eigenschaft (2.13) nicht erfüllt. Die KKT-Bedingung λ g(x ) = 0 impliziert λ i = 0 falls g i (x ) < 0. Mit 48

49 der KKT-Bedingung x L = 0 folgt 0 (2.17) f(x )d = = i I(x ) m g i I(x ) λ i g i (x )d λ i }{{} 0 g i (x )d }{{}. 0 (2.16) i/ I(x ) λ i }{{} =0 m h g i (x )d j=1 µ j h j (x )d }{{} =0 (2.15) Alle Terme auf der rechten Seite sind somit nichtnegativ. Daher muss jeder Term einzeln null sein. Dies ist ein Widerspruch zu λ i 0 g i0 (x )d > 0. Somit ist der indirekte Beweis vollständig ausgeführt. Bemerkungen 2.42 (i) Erfüllt ein d R n die Eigenschaft (2.13), dann gilt d L(X, x ). Die Forderung (2.14) wird somit an eine Teilmenge des Linearisierungskegels gestellt. (ii) Im Fall einer unrestringierten Optimierungsaufgabe kann man interpretieren, dass die Eigenschaft (2.13) für alle d 0 erfüllt ist und dass L(x, λ, µ) = f(x) gilt. Die hinreichende Bedingung (2.14) ist dann äquivalent zur positiven Definitheit der Hesse-Matrix 2 f(x ). (iii) Die Bedingung (2.14) ist stets erfüllt, wenn die Hesse-Matrix der Lagrange-Funktion 2 xxl(x, λ, µ ) positiv definit ist. Jedoch kann (2.14) auch bei positiv semi-definiter Matrix vorliegen. (iv) Auch bei negativ (semi-)definiter Matrix 2 xxl ist die Bedingung (2.14) erfüllt, wenn die Eigenschaft (2.13) von keinem d 0 erfüllt wird. Dies gilt beispielsweise in einem isolierten Punkt x von X. Dort ist T (X, x ) = und dann auch L(X, x ) = falls die Abadie CQ gilt. 49

50 Beispiel 2.43 Wir betrachten die Optimierungsaufgabe für n = 2 min f(x) = x x x 1 x 2 N.B. h(x) = x 1 = 0. Das eindeutige lokale und globale Minimum lautet x = (0, 0). Es ist hier f(x) = (2x 1 + 2x 2, 2x 2 + 2x 1 ), 2 f(x) = ( ) Die Hesse-Matrix besitzt die Eigenwerte 0, 4 und ist somit positiv semidefinit. Mit µ := 0 gilt x L(x, µ ) = f(x ) + µ h(x ) = (0, 0) + µ (1, 0) = (0, 0). Somit ist ((0, 0), 0) ein KKT-Punkt. Die Menge aller d R 2 \{0} mit der Eigenschaft (2.13) bestimmt sich aus ( ) h(x d1 )d = (1, 0) = d 1 = 0, d.h. d = (0, d 2 ) mit d 2 0 beliebig. Wegen 2 xxl(x, µ) = 2 f(x) konstant für alle x und µ folgt d 2 xxl(x, µ )d = 2d 2 2 > 0 für alle d 2 0. Also ist (2.14) erfüllt und wir erhalten aus Satz 2.41, dass x = (0, 0) ein lokales Minimum darstellt. Desweiteren existiert noch ein notwendiges Kriterium. Satz 2.44 (Notwendiges Opt.kriterium zweiter Ordnung) Sei x lokales Minimum der Optimierungsaufgabe (2.12), welches die LICQ erfüllt. Dann gilt für alle d R n, die den Eigenschaften (2.13) genügen, d 2 d 2 xxl(x, λ, µ )d 0 mit den eindeutig bestimmten Lagrange-Multiplikatoren λ, µ aus Satz

51 Beweis: siehe Satz 2.54 in [7]. Bezüglich der Anwendbarkeit von Kriterien bei konvexen Funktionen sei noch folgendes Hilfsmittel erwähnt. Lemma 2.45 Sei D R n offen und konvex sowie f : D R zweimal stetig differenzierbar. Dann ist f genau dann konvex auf D, wenn die Hesse- Matrix 2 f für jedes x D positiv semi-definit oder positiv definit ist. Beweis: siehe Satz (S. 278) in [2]. Beispiele 2.46 (i) Wir greifen Beispiel 2.10 wieder auf, d.h. min x 1 N.B. x 2 x 3 1 0, x 2 0. Das eindeutige globale Minimum ist x = (0, 0). Jedoch ist dort die Abadie CQ nicht erfüllt. Die Ableitung der Lagrange-Funktion lautet x L(x, λ) = (1, 0) + λ 1 ( 3x 2 1, 1) + λ 2 (0, 1). Für einen KKT-Punkt bei x = (0, 0) müsste daher gelten (1, 0) + λ 1(0, 1) + λ 2(0, 1) = (0, 0). Da die erste Gleichung immer verletzt ist, existiert kein KKT-Punkt mit x. Satz 2.41 ist daher nicht anwendbar. Ebenso ist Satz 2.44 nicht einsetzbar, da die LICQ nicht vorliegt (Abadie CQ bereits verletzt). (ii) Wir betrachten erneut Beispiel 2.20, d.h. min x (x 2 + 1) 2 N.B. x 2 x 2 1 0, x 2 0. Im Punkt x = (0, 0) liegt ein globales Minimum vor, wobei die Abadie CQ erfüllt ist. Also gibt es λ, so dass (x, λ ) KKT-Punkt ist. Wir bestimmen geeignete Lagrange-Multiplikatoren. Es gilt x L(x, λ) = (2x 1, 2(x 2 + 1)) + λ 1 ( 2x 1, 1) + λ 2 (0, 1). 51

52 Die Bedingung x L = 0 liefert (0, 2) + λ 1(0, 1) + λ 2(0, 1) = (0, 0) und somit λ 1 = λ 2 2. Es gilt zudem g i (x ) = 0 für i = 1, 2, wodurch λ g(x ) = 0 stets erfüllt ist. Die Menge aller KKT-Punkte lautet daher (( ) ( )) 0 λ (x, λ ) =, für λ 0. 0 λ + 2 Für die zweiten Ableitungen folgt 2 xxl(x, λ) = ( ) 2 2λ Wir wollen Satz 2.41 einsetzen, um x als striktes lokales Minimum nachzuweisen. Dabei ist zu bestimmen, welche Richtungen d R 2 betrachtet werden müssen. 1. Fall: λ 1 = 0, λ 2 = 2 0 g 1 (x )d = (0, 1)d = d 2 0 = g 2 (x )d = (0, 1)d = d 2 Es folgt d 2 = 0, d.h. wir betrachten d = (d 1, 0) für d 1 0. Wir rechnen nach d 2 xxl(x, λ )d = ( d 1 0 ) ( ) ( ) 2 0 d1 = 2d 2 1 > für alle d 1 0. Satz 2.41 impliziert, dass x striktes lokales Minimum ist. 2. Fall: λ 1 > 0, λ 2 = λ = g 1 (x )d = (0, 1)d = d 2 0 = g 2 (x )d = (0, 1)d = d 2 Es folgt wieder d 2 = 0, d.h. d = (d 1, 0) für d 1 0. Desweiteren ist d 2 xxl(x, λ )d = ( d 1 0 ) ( ) ( ) 2 2λ 1 0 d1 = 2(1 λ )d

53 Dieser Ausdruck ist für d 1 0 nur dann positiv, wenn λ 1 < 1 gilt. Dann kann Satz 2.41 angewendet werden und zeigt, dass ein striktes lokales Minimum vorliegt. Bei den KKT-Punkten (x, λ ) mit λ 1 1 liefert Satz 2.41 keine Aussage. Satz 2.44 ist in diesem Beispiel nicht anwendbar, da die LICQ nicht vorliegt (MFCQ ist nicht erfüllt). (iii) Jetzt untersuchen wir Beispiel 2.24, d.h. min x (x 2 + 1) 2 N.B. x 3 1 x 2 0, x 2 0. Der Punkt x = (0, 0) ist globales Minimum, welches die Abadie CQ erfüllt, jedoch nicht die LICQ. Daher ist Satz 2.44 nicht anwendbar. Es existieren Lagrange-Multiplikatoren λ, so dass (x, λ ) ein KKT- Punkt ist. Die Ableitung der Lagrange-Funktion lautet x L(x, λ) = (2x 1, 2(x 2 + 1)) + λ 1 ( 3x 2 1, 1) + λ 2 (0, 1). Die Bedingung x L = 0 impliziert (0, 2) + λ 1(0, 1) + λ 2(0, 1) = (0, 0). Also folgt λ 1 = 2 λ 2. Wieder ist g i (x ) = 0 für i = 1, 2, d.h. stets garantiert ist λ g(x ) = 0. Die Menge aller KKT-Punkte ergibt sich zu (( ) ( )) 0 λ (x, λ ) =, für 0 λ λ Die zweiten Ableitungen der Lagrange-Funktion resultieren zu ( ) 2 2 6λ1 x xxl(x, λ) = Es folgt 2 xxl(x, λ ) = ( ) für beliebiges λ 0. Diese Matrix ist positiv definit, wodurch die Bedingung (2.14) sogar für alle d 0 erfüllt ist. Satz 2.41 zeigt, dass bei x ein striktes lokales Minimum besteht. 53

54 (iv) Wir betrachten die Optimierungsaufgabe min x x2 1 N.B. x 3 + x 2 + x 2 1 0, x 3 x 2 + x 2 1 0, x 3 0. Die Ungleichungsrestriktionen sind gegeben durch die Funktionen g 1 (x) = x 2 1 x 2 x 3 g 2 (x) = x x 2 x 3 g 3 (x) = x 3. Man bestätigt leicht, dass die Schar 0 τ (x, λ ) = 0 1, τ für τ, σ 0 mit τ + σ > 0 2τ + σ 0 σ KKT-Punkte sind. Jedoch liegt bei x kein Minimum vor, denn wegen f( 1 k, 0, 0) = k 2 < 0 = f(0, 0, 0) und ( 1 k, 0, 0) X für alle k N gibt es in jeder Umgebung zulässige Punkte mit kleinerem Zielfunktionswert. Da f(0, 0, 1 k ) = 1 k > 0 = f(0, 0, 0) und (0, 0, 1 k ) X für alle k N, besteht auch kein Maximum bei x. An dieser Stelle wissen wir bereits, dass Satz 2.41 nicht anwendbar sein kann. Dies soll noch bestätigt werden. Der Gradient der Lagrange-Funktion lautet x L(x, λ) = ( x 1, 0, 1) + λ 1 ( 2x 1, 1, 1) + λ 2 ( 2x 1, 1, 1) + λ 3 (0, 0, 1) und die Hesse-Matrix ergibt sich zu 1 2λ 1 2λ xxl(x, λ) = Es folgt d 2 xxl(x, λ)d = ( 1 2( }{{} λ 1 + }{{} λ 2 ))d

55 für beliebiges d R n. Satz 2.41 könnte trotzdem anwendbar sein, wenn es keine Richtungen d gibt, die (2.13) erfüllen. In x sind alle Ungleichungsrestriktionen aktiv. 1. Fall: τ = 0, σ > 0 0 g 1 (x )d = (0, 1, 1)d = d 2 d 3 0 g 2 (x )d = (0, 1, 1)d = d 2 d 3 0 = g 3 (x )d = (0, 0, 1)d = d 3 Es folgt d 2 = d 3 = 0 und d 1 0 beliebig. 2. Fall: τ > 0, σ = 0 0 = g 1 (x )d = (0, 1, 1)d = d 2 d 3 0 = g 2 (x )d = (0, 1, 1)d = d 2 d 3 0 g 3 (x )d = (0, 0, 1)d = d 3 Wieder folgt eindeutig d 2 = d 3 = 0 und d 1 0 beliebig. 3. Fall: τ > 0, σ > 0 0 = g 1 (x )d = (0, 1, 1)d = d 2 d 3 0 = g 2 (x )d = (0, 1, 1)d = d 2 d 3 0 = g 3 (x )d = (0, 0, 1)d = d 3 Ebenfalls folgt eindeutig d 2 = d 3 = 0 und d 1 0 beliebig. In allen drei Fällen gibt es Richtungen d = 0, die (2.13) genügen. Die Bedingung (2.14) ist aber nie erfüllt. Also ist Satz 2.41 nicht anwendbar. Wir überprüfen noch die LICQ. Bei x sind alle Ungleichungen aktiv. Es gilt 2x g(x) = 2x 1 1 1, g(x ) = Die Matrix g(x ) hat offensichtlich linear abhängige Zeilenvektoren. Also ist die LICQ verletzt. Satz 2.44 ist ohnehin nicht anwendbar, da bei x gar kein lokales Minimum vorliegt. 55

56 (v) Wir untersuchen zwei Optimierungsaufgaben mit n = 2: min (x 1 1) 2 + (x 2 1) 2 g 1 (x) = x 1 + x g 2 (x) = x 1 0 g 1 (x) = x 2 0 (I) min (x 1 1) 2 + (x 2 1) 2 g 1 (x) = (x 1 + x 2 1) 3 0 g 2 (x) = x 1 0 g 1 (x) = x 2 0 Offensichtlich ist der zulässige Bereich X bei beiden Aufgaben identisch, nämlich das Dreieck mit den Ecken (0, 0), (0, 1), (1, 0). Da die Zielfunktion übereinstimmt, sind auch die Minima dieselben. Die Hesse-Matrix der Zielfunktion ist ( ) f = 0 2 und somit offensichtlich positiv definit. Mit Lemma 2.45 ist f konvex auf R n und damit auch auf X. Zur Aufgabe (I) kann man den KKT-Punkt 1 ) 1 (x, λ ) = ( 2 1, bestimmen (z.b. über das Konzept der Fritz-John-Punkte). Da f konvex und g affin-linear bei Aufgabe (I) ist, folgt mit Satz 2.38, dass x ein globales Minimum ist. Wir wissen damit jedoch noch nicht, ob bei x ein striktes lokales Minimum vorliegt. Wir wollen die Eigenschaft eines lokalen Minimums bei x für Aufgabe (I) auch mit Satz 2.41 erhalten. Der Gradient der Lagrange-Funktion ergibt sich zu (II) x L(x, λ) = 2(x 1 1, x 2 1) + λ 1 (1, 1) + λ 2 ( 1, 0) + λ 3 (0, 1). 56

57 Die Hesse-Matrix lautet damit 2 xxl(x, λ) = ( ) und ist sowohl konstant als auch positiv definit. Die Voraussetzungen aus Satz 2.41 sind dadurch sofort erfüllt und es folgt, dass x ein striktes lokales Minimum ist. In Aufgabe (I) gilt I(x ) = {1}. Wegen g 1 (x ) = (1, 1) ist somit die LICQ in x gegeben. Satz 2.44 kann angewendet werden, da zudem x ein lokales Minimum ist. Es folgt, dass in x auch die Abadie CQ gilt. Dagegen betrachten wir jetzt die Aufgabe (II), welche ebenfalls bei x ein striktes lokales Minimum besitzt. Der Gradient der Lagrange- Funktion ist nun x L(x, λ) = 2(x 1 1, x 2 1) + λ 1 3((x 1 + x 2 1) 2, (x 1 + x 2 1) 2 ) + λ 2 ( 1, 0) + λ 3 (0, 1). Bei x = ( 1 2, 1 2 ) lautet dann die KKT-Bedingung x L(x, λ) = ( 1, 1) + λ 2 ( 1, 0) + λ 3 (0, 1) = (0, 0). Eindeutig würde λ 2 = λ 3 = 1 folgen. Wegen g i (x ) < 0 für i = 2, 3 müsste aber λ 2 = λ 3 = 0 gelten. Also gibt es bei Aufgabe (II) keinen KKT-Punkt mit x. Wir können somit Satz 2.41 nicht anwenden. Zudem zeigt Satz 2.14, dass die Abadie CQ in x nicht erfüllt sein kann. In Aufgabe (II) ist wieder I(x ) = {1}. Jedoch folgt g 1 (x ) = (0, 0). Somit ist die LICQ nicht erfüllt, was man auch schon daraus folgern kann, dass die Abadie CQ nicht gilt. Satz 2.44 kann also nicht angewendet werden, obwohl bei x ein lokales Minimum vorliegt. Fazit: Regularitätsprobleme ergeben sich nicht aus der geometrischen Struktur der zulässigen Menge X, sondern aus der Beschreibung von X durch Gleichungen und Ungleichungen. 57

58 Kapitel 3 Verfahren für unrestringierte Probleme 3 In diesem Kapitel werden numerische Methoden für unbeschränkte Optimierungsaufgaben eingeführt. Diese werden dann im nächsten Kapitel für beschränkte Optimierungsaufgaben weiterentwickelt. Alle numerischen Methoden für nichtlineare Optimierungsprobleme sind Iterationsverfahren. Methoden, welche die Ableitungsinformation der Zielfunktion nicht verwenden, heißen ableitungsfreie Verfahren (z.b. Nelder-Mead- Verfahren, Genetische Algorithmen), siehe Kapitel 2 in [1]. Wir betrachten nur Verfahren auf Grundlage der Ableitungsinformation. Diese Klasse von Methoden besteht im wesentlichen aus den sogenannten Abstiegsverfahren. 3.1 Allgemeines Abstiegsverfahren Wir betrachten die nichtlineare Optimierungsaufgabe min f(x) mit f : D R, wobei D R n eine offene zusammenhängende Menge und die Zielfunktion f stetig differenzierbar ist. Ein Iterationsverfahren liefert zu einem Startwert x (0) D eine Folge (x (k) ) k N D. Im besten Fall gilt dann die Konvergenz mit einem lokalen Minimum x D. lim k x(k) = x 58

59 Die folgende Definition verwendet noch nicht die Differenzierbarkeit. Definition 3.1 Sei f : D R mit D R n offen. Ein Vektor d R n heißt Abstiegsrichtung von f im Punkt x D, wenn es ein t > 0 gibt mit f(x + td) < f(x) für alle t (0, t]. Notwendigerweise muss dabei d 0 gelten. Zudem ist mit einer Abstiegsrichtung d auch αd mit α > 0 eine Abstiegsrichtung. Der Algorithmus eines allgemeinen Abstiegsverfahrens lautet dann wie folgt. Algorithmus 3.2 (Abstiegsverfahren) 1. Wähle x (0) D, setze k := Genügt x (k) einem geeigneten Abbruchkriterium: ENDE 3. Bestimme Abstiegsrichtung d (k) von f in x (k). 4. Bestimme Schrittweite t k > 0 mit f(x (k) + t k d (k) ) < f(x (k) ). 5. Setze x (k+1) := x (k) + t k d (k), k := k + 1, gehe zu 2. Es stellt sich die Frage, wie in Teilschritt 3 eine geeignete Abstiegsrichtung und wie in Teilschritt 4 eine geeignete Schrittweite bestimmt werden kann. Zunächst beantworten wir die Frage nach der Existenz einer Abstiegsrichtung. Satz 3.3 Sei f : D R stetig differenzierbar und x, d R n. Gilt f(x)d < 0, dann ist d eine Abstiegsrichtung von f in x. Beweis: Mit der Differenzierbarkeit erhalten wir die Richtungsableitung f(x + td) f(x) f(x)d = lim. t 0+ t 59

60 Ist also f(x)d < 0 und t > 0 hinreichend klein, dann gilt f(x + td) f(x) t und somit liegt eine Abstiegsrichtung vor. < 0 Im Fall f(x)d > 0 ist d keine Abstiegsrichtung. Für f(x)d = 0 existiert keine allgemeine Aussage. Wir wollen im folgenden stets f(x)d < 0 für eine Abstiegsrichtung zusätzlich voraussetzen. Satz 3.3 zeigt, dass stets eine Abstiegsrichtung existiert falls f(x) 0 gilt. Wähle beispielsweise d := ( f(x)). Es folgt f(x)d = f(x)( f(x)) = f(x) 2 < 0. Diese spezielle Wahl liefert die Methode des steilsten Abstiegs, auch Gradientenverfahren genannt. Zu einem Punkt x D kann jede Richtung d eindeutig zerlegt werden in d = d 1 + d 2 mit d 1 senkrecht zu f(x) und d 2 parallel zu f(x), d.h. d 2 = µ f(x). Hinreichend für eine Abstiegsrichtung ist dann µ < 0. Das nächste Beispiel zeigt, dass die Wahl einer geeigneten Schrittweite kritisch ist. Beispiel 3.4 Wir betrachten f(x) = x 2, wobei x = 0 das eindeutige globale Minimum ist. Sei x (0) = 1. Es ist d (k) = 1 eine Abstiegsrichtung für alle x > 0. Wir setzen t k = ( 1 2) k+2 für alle k. Somit folgt x (k+1) = x (k) t k = x (k 1) t k 1 t k = k ( = x (0) 1 i+2 2) = ( 2) 1 k+1 = ( 1 2 und dadurch i=0 lim k 0 x(k) = ) k+2

61 Die Iteration konvergiert also nicht gegen das Minimum und auch nicht gegen einen stationären Punkt der Zielfunktion, obwohl stets Abstiegsrichtungen verwendet wurden. Definition 3.5 Sei f C 1 (D). Eine Schrittweitenregel (oder Schrittweitenstrategie) ist eine Abbildung T : D R n R +, (x, d) T (x, d). Die Regel heißt effizient, wenn ( f(x)d f(x + td) f(x) θ d für alle x D und zugehörige Abstiegsrichtungen d sowie t = T (x, d) gilt mit einer Konstanten θ > 0. ) 2 Häufig wird die Schrittweite t selbst als effizient bezeichnet, wenn sie mittels einer effizienten Schrittweitenregel T bestimmt wurde. Wir motivieren den Begriff effiziente Schrittweite im folgenden. Meistens ist man bereits zufrieden, wenn in der Iteration aus Alg. 3.2 gilt Dies ist erfüllt, wenn die Bedingung lim k f(x(k) ) = 0. f(x (k) )d (k) lim k d (k) = 0 (3.1) gilt und die Winkel zwischen f(x (k) ) und d (k) nicht gegen 90 konvergieren, was durch die Bedingung f(x (k) )d (k) f(x (k) ) d (k) mit einer Konstanten c > 0 garantiert wird. Denn dann ist c (3.2) f(x (k) )d (k) d (k) c f(x (k) ) 0 61

62 und die linke Seite konvergiert gegen null von der negativen Seite her wegen f(x (k) )d (k) < 0. Die Bedingung (3.2) wird später durch eine geeignete Wahl der Abstiegsrichtung d (k) sichergestellt. Die Bedingung (3.1) soll durch geeignete Wahl der Schrittweite t k erreicht werden. Es gilt näherungsweise der Zusammenhang f(x (k) + t k d (k) ) f(x (k) ). = t k f(x (k) )d (k). (3.3) Falls die Folge (f(x (k) )) k N beschränkt ist, dann konvergiert diese Folge, da sie auch nach Konstruktion streng monoton fallend ist. Die linke Seite von (3.3) konvergiert damit gegen null, da (f(x (k) )) k N Cauchy-Folge ist. Damit dies auch für die rechte Seite von (3.3) gilt, fordern wir, dass der tatsächliche Abstieg (linke Seite) dieselbe Größenordnung hat wie der näherungsweise Abstieg (rechte Seite). Genauer fordern wir f(x (k) + t k d (k) ) f(x (k) ) c 1 t k f(x (k) )d (k) ( 0) (3.4) mit einer Konstanten c 1 > 0. Dies impliziert bei einer beschränkten Folge (f(x (k) )) k N lim t k f(x (k) )d (k) = 0, (3.5) k da die linke Seite von (3.4) wieder gegen null vom Negativen her konvergiert. Damit die Konvergenz (3.5) nicht allein durch t k 0+ oder durch d (k) 0 entsteht, fordern wir f(x (k) )d (k) t k c 2. (3.6) d (k) 2 Diese Bedingung ist äquivalent zu t k f(x (k) )d (k) c 2 ( f(x (k) )d (k) ) 2 wegen f(x (k) )d (k) < 0. Mit (3.4) folgt dann d (k) 2 f(x (k+1) ) f(x (k) ) c 1 t k f(x (k) )d (k) c 1 c 2 ( f(x (k) )d (k) ) 2 d (k) 2 0 (3.7) und somit die Bedingung (3.1) unter der Voraussetzung einer beschränkten Folge (f(x (k) )) k N, da die linke Seite gegen null konvergiert. 62

63 An den Abschätzungen in (3.7) erkennen wir auch, dass die Bedingungen (3.4) und (3.5) hinreichend für eine effiziente Schrittweite laut Def. 3.5 mit der Konstante θ = c 1 c 2 sind. Bezüglich der Abstiegsrichtungen stellen wir eine Forderung an die Winkel zu den Gradienten. Definition 3.6 Eine Folge (x (k) ) k N D und zugehörige Abstiegsrichtungen (d (k) ) k N R n erfüllen die Winkelbedingung, wenn es eine Konstante c > 0 gibt mit f(x(k) )d (k) f(x (k) ) d (k) c für alle k N, wobei f(x (k) ) 0 für alle k angenommen wird. Nun zeigen wir eine erste Konvergenzaussage, wobei eine Konvergenzeigenschaft jedoch vorausgesetzt wird. Satz 3.7 Sei f C 1 (D) und die Folge (x (k) ) k N durch Alg. 3.2 erzeugt. Es gelten die beiden Voraussetzungen: (i) Die Winkelbedingung ist erfüllt. (ii) Die Schrittweiten t k > 0 sind effizient. Dann ist jeder Häufungspunkt der Folge (x (k) ) k N von f. ein stationärer Punkt Beweis: Wegen (ii) gibt es eine Konstante θ > 0 mit ( f(x f(x (k+1) ) = f(x (k) + t k d (k) ) f(x (k) (k) )d (k) ) 2 ) θ. d (k) 63

64 Mit (i) folgt ( f(x (k) )d (k) ) 2 f(x (k) ) 2 d (k) 2 c2 Zusammen erhalten wir bzw. ( f(x (k) )d (k) ) 2 d (k) 2 c 2 f(x (k) ) 2. f(x (k+1) ) f(x (k) ) θc 2 f(x (k) ) 2. (3.8) Sei x ein Häufungspunkt der Folge (x (k) ) k N. Dann gibt es eine Teilfolge (x (k j) ) j N mit x = lim j x (k j). Da die Folge (f(x (k) )) k N monoton fällt und auf der Teilfuolge gegen f(x ) konvergiert, konvergiert die gesamte Folge gegen f(x ). Mit der Eigenschaft einer Cauchy-Folge erhalten wir Aus (3.8) folgt damit lim k f(x(k) ) f(x (k+1) ) = 0. lim k f(x(k) ) = 0 bzw. lim f(x (k) ) = 0. k Auf der Teilfolge resultiert dann mit der Stetigkeit der Ableitungen ( ) f(x ) = f lim j x(k j) = lim f(x (kj) ) = 0 j und die Behauptung ist gezeigt. Unter stärkeren Voraussetzungen an die Zielfunktion können wir die Konvergenz folgern. Definition 3.8 Eine Funktion f : K R mit K R n und K konvex heißt gleichmäßig konvex, wenn es ein µ > 0 gibt mit f(λx + (1 λ)y) + µλ(1 λ) x y 2 λf(x) + (1 λ)f(y) (3.9) für alle x, y K und alle λ [0, 1]. 64

65 Beispielsweise ist die Funktion f(x) = x 2 gleichmäßig konvex, während die Funktion f(x) = x 4 nicht gleichmäßig konvex ist. Satz 3.9 (Zoutendijk) Sei f C 1 (D) und die Niveaumenge N(x (0) ) := { x R n } : f(x) f(x (0) ) sei konvex. Weiter sei f gleichmäßig konvex auf N(x (0) ). Für die Folge (x (k) ) k N gelte: (i) Zoutendijk-Bedingung: ( f(x (k) )d (k) ) 2 Für δ k := gilt f(x (k) ) d (k) δ k =. k=0 (ii) Die Schrittweiten t k > 0 sind effizient. Dann konvergiert die Folge (x (k) ) k N gegen das eindeutig bestimmte globale Minimum von f. Beweis: Wir geghen in vier Schritten vor. 1. Existenz des globalen Minimums: Offensichtlich ist N(x (0) ) abgeschlossen. Aus (3.9) mit λ = 1 2 folgt mit x N(x(0) ) beliebig µ 1 4 x x(0) f(x) f(x(0) ) f( 1 2 x x(0) ) = 1 2 (f(x) f(x(0) )) (f( 1 2 x x(0) ) f(x (0) )) (f( 1 2 (x + x(0) )) f(x (0) )) f(x (0) )( 1 2 (x + x(0) )) x (0) ) f(x (0) ) 1 2 x x(0). Dabei wurde Lemma 2.30 wegen der Konvexität von f und die Cauchy- Schwarzsche Ungleichung verwendet. Zusammen folgt x x (0) 2 µ f(x(0) ) für alle x N(x (0) )\{x (0) }. 65

66 Also ist N(x (0) ) eine beschränkte Menge. Somit ist N(x (0) ) kompakt und laut Satz 1.4 existiert mindestens ein globales Minimum. 2. Eindeutigkeit des globalen Minimums: Angenommen, es gibt zwei verschiedene globale Minima x und y, d.h. f(x ) = f(y ). Mit (3.9) und λ = 1 2 ergibt sich f( 1 2 (x + y )) + µ 4 x y 1 2 f(x ) f(y ) = f(x ). }{{} >0 Dann wäre f( 1 2 (x + y )) < f(x ) im Widerspruch zur globalen Minimalität von x. 3. Hilfsformel bei gleichmäßiger Konvexität: Genau wie in Lemma 2.30 zeigt man, dass im Falle einer stetig differenzierbaren Funktion f die gleichmäßige Konvexität (3.9) äquivalent ist zu f(x) f(y) + f(y)(x y) + µ x y 2 für alle x, y K. (3.10) 4. Konvergenzaussage: Sei x das eindeutige globale Minimum und µ > 0 die Konstante aus (3.9). Wegen 0 µ 2 (x x (k) ) + 1 2µ f(x(k) ) 2 folgt = µ 2 x x (k) 2 + f(x (k) )(x x (k) ) + 1 2µ f(x(k) ) 2 (3.10) f(x ) f(x (k) ) µ 2 x x (k) µ f(x(k) ) 2 f(x ) f(x (k) ) + 1 2µ f(x(k) ) 2 f(x (k) ) 2 2µ(f(x ) f(x (k) )). Die Effizienz der Schrittweite impliziert f(x (k+1) ) = f(x (k) + t k d (k) ) f(x (k) ) θ ( ) 2 f(x (k) )d (k) d (k) = f(x (k) ) θ f(x (k) ) 2 δ k f(x (k) ) + 2µθδ k (f(x ) f(x (k) )) = f(x (k) ) 2µθδ k (f(x (k) ) f(x )). 66

67 Also gilt f(x (k+1) ) f(x ) (1 2µθδ k )(f(x (k) ) f(x )). Mehrmalige Anwendung dieser Gleichung und die allgemeine Ungleichung e α 1 + α für alle α R führt auf [ k ] 0 f(x (k+1) ) f(x ) (1 2µθδ j ) (f(x (0) ) f(x )) j=0 [ k ] exp( 2µθδ j ) (f(x (0) ) f(x )) j=0 = exp ( 2µθ ) k δ j (f(x (0) ) f(x )). Wegen der Zoutendijk-Bedingung konvergiert die rechte Seite gegen null. Somit folgt lim k f(x(k) ) = f(x ). Verwendung der gleichmäßigen Konvexität aus (3.10) mit x = x (k), y = x liefert f(x (k) ) f(x ) f(x )(x }{{} (k) x ) + µ x (k) x 2 = µ x (k) x 2 0. =0 Die obere Schranke konvergiert gegen null und dadurch folgt sofort die Konvergenz von x (k) x gegen null. Die Winkelbedingung aus Def. 3.6 ist hinreichend für die Zoutendijk-Bedingung, denn dann ist δ k c 2 > 0 für alle k. Insbesondere erfüllt die Methode des steilsten Abstiegs die Zoutendijk-Bedingung mit δ k = 1 für alle k. Umkehhrt ist die Winkelbedingung nicht notwendig für die Zoutendijk- Bedingung. j=0 67

68 3.2 Schrittweitenwahl Unter gewissen Voraussetzungen existiert immer eine effiziente Schrittweite gemäß Def Voraussetzung 3.10 Die Niveaumenge N(x (0) ) := { x R n } : f(x) f(x (0) ) sei kompakt und die Zielfunktion f sei auf N(x (0) ) stetig differenzierbar. Da wegen der Stetigkeit von f die Niveaumenge stets abgeschlossen ist, braucht nur noch die Beschränktheit erfüllt zu sein. Voraussetzung 3.11 Die Ableitung f ist Lipschitz-stetig auf N(x (0) ), d.h. es gibt eine Konstante L > 0 mit für alle x, y N(x (0) ). f(x) f(y) L x y (3.11) Hinreichend für Vor ist Vor zusammen mit einer zweimal stetig differenzierbaren Zielfunktion auf N(x (0) ). Wir zeigen noch eine Abschätzung, die mehrmals verwendet wird. Lemma 3.12 Unter der Vor gilt f(x + td) f(x) + t f(x)d Lt2 d 2. (3.12) für alle x N(x (0) ), t 0, d R n mit x + sd N(x (0) ) für alle s [0, t]. Beweis: Wir betrachten die Funktion φ : [0, t] R, φ(t) := f(x+td). Die Ableitung ist φ (t) = f(x + td)d. Wir schätzen ab 68

69 f(x + td) f(x) t f(x)d = φ(t) φ(0) t f(x)d Damit ist die Formel gezeigt. = (3.11) φ(t) φ(0) t f(x)d t 0 t 0 t 0 t 0 f(x + sd)d f(x)d ds [ f(x + sd) f(x)] d ds f(x + sd) f(x) d ds Ls d 2 ds = 1 2 t2 L d 2. Nun können wir die Existenz einer effizienten Schrittweite zeigen. Satz 3.13 Vor und Vor seien erfüllt. Weiter seien x N(x (0) ), d R n mit f(x)d < 0 und δ (0, 1) gegeben. Dann existiert ein τ = τ(x, d, δ) mit den Eigenschaften: (i) f(x + td) < f(x) + δt f(x)d für alle t (0, τ), (ii) f(x + τd) = f(x) + δτ f(x)d, (iii) τ ρ := 2(1 δ) L f(x)d d 2 > 0, (iv) d dt f(x + td) = f(x + td)d < δ f(x)d für alle t [0, ρ 2 ), (v) τ ist eine effiziente Schrittweite (und ατ mit α (0, 1] ist eine effiziente Schrittweite). 69

70 Beweis: (i) Es gilt f(x + td) f(x) 0 > δ f(x)d > f(x)d = lim. t 0+ t Somit gibt es ein t > 0, so dass für alle t (0, t) gilt δ f(x)d > f(x + td) f(x) t f(x + td) < f(x) + δt f(x)d. Es bezeichne V := { t R + : für alle t (0, t) gilt f(x + td) < f(x) + δt f(x)d }. Die Menge V ist also nicht leer. (ii) Die Menge V ist auch nach oben beschränkt, denn sonst folgt für t = t 2 mit t V wegen hier f(x + t t 2d) < f(x) + δ 2 f(x)d }{{} <0 lim t + t f(x + 2d) =. Dies ist ein Widerspruch zur Beschränktheit der Menge N(x (0) ). Somit existiert τ := sup(v ) und erfüllt (i) nach Konstruktion von V sowie (ii) wegen der Stetigkeit von f. (iii) Wir setzen A := f(x + τd) f(x) τ f(x)d (ii) = δτ f(x)d τ f(x)d = (1 δ)τ f(x)d > 0. 70

71 Mit Lemma 3.12 folgt Damit erhalten wir A 1 2 τ 2 L d 2. und äquivalent (iv) Wir schätzen direkt ab (1 δ)τ f(x)d 1 2 τ 2 L d 2 2(1 δ) ρ = f(x)d τ. L d 2 f(x + td)d = f(x)d + [ f(x + td) f(x)] d (3.11) f(x)d + Lt d 2 t<ρ/2 < f(x)d + ρ 2 L d 2 = f(x)d (1 δ) f(x)d = δ f(x)d. (v) Aus (iii) folgt durch Multiplikation mit f(x)d < 0 Einsetzen in (ii) liefert 2(1 δ) τ f(x)d ( f(x)d)2. L d 2 2(1 δ) f(x + τd) f(x) δ }{{ L } =:θ Also ist τ eine effiziente Schrittweite. ( ) 2 f(x)d. d Für ατ als Schrittweite verwenden wir (i) und θ verändert sich entsprechend. Abb. 6 verdeutlicht die Wahl der effizienten Schrittweite aus Satz Exakte Schrittweite Eine naheliegende Strategie zur Bestimmung einer konkreten Schrittweite ist die Wahl des ersten Minimums von φ(t) = f(x + td). 71

72 f 0 τ t Abbildung 6: Zielfunktion f(x+td) (schwarz), Tangente f(x)+t f(x)d (blau) und Gerade f(x) + tδ f(x)d (rot) sowie effiziente Schrittweite τ. f f(x+td) 0 t E t Abbildung 7: Wahl einer exakte Schrittweite. 72

73 Definition 3.14 Unter Vor heißt die Zahl t E > 0 exakte Schrittweite an der Stelle x in Abstiegsrichtung d, wenn gilt { = 0 falls t = φ te, (t) = f(x + td)d < 0 falls 0 t < t E. Abb. 7 skizziert die Definition der exakten Schrittweite. Def impliziert nicht immer ein lokales Minimum von φ an der Stelle t = t E. Es gilt die folgende Aussage. Satz 3.15 Vor und 3.11 seien erfüllt und x N(x (0) ) sowie d R n mit f(x)d < 0 seien gegeben. Dann gilt t E t := f(x)d L d 2 und f(x + t E d) f(x) 1 ( ) 2 f(x)d = f(x) + 1 2L d 2 t f(x)d. Insbesondere ist t E also effizient. Beweis: Die Existenz von t E ist unter Vor gesichert, denn sonst hätten wir f(x + td)d < 0 für alle t 0. Damit wäre f(x + td) streng monoton fallend für t 0. Es gälte insbesonere f(x + td) f(x) f(x (0) ) für alle t 0. Die Menge {x+td : t 0} wäre dann unbeschränkt im Widerspruch zur Kompaktheit von N(x (0) ). Aus der Monotonie auf [0, t E ] folgt nun f(x + t E d) < f(x), d.h. es gilt insbesondere x+t E d N(x (0) ). Weiter folgt mit Vor sowie der Cauchy- Schwarzschen-Ungleichung 0 = f(x+t E d)d = f(x)d+[ f(x + t E d) f(x)] d f(x)d+t E L d 2 und daher t E f(x)d L d 2 73 = t.

74 Damit schätzen wir ab f(x + t E d) f(x + td) (3.12) f(x) + t f(x)d Lt2 d 2 = f(x) + t [ f(x)d + 1 2L t d 2] = f(x) + t [ f(x)d 1 2 f(x)d] = f(x) t f(x)d ( ) 2 = f(x) 1 f(x)d 2L d. Somit ist die Schrittweite effizient mit der Konstante θ = 1 2L. Bemerkung 3.16 Für praktische Zwecke ist die exakte Schrittweite in der Regel unbrauchbar, weil (i) die Berechnung von t E (oder einer guten Näherung) meist zu aufwändig ist, (ii) auch die Abschätzung t E t nicht verwendet werden kann, da die Lipschitz-Konstante L unbekannt ist. Eine Ausnahme liegt jedoch bei quadratischen Optimierungsproblemen vor. Beispiel 3.17 Quadratische Probleme: Die quadratische Funktion f : R n R mit n n f(x) = α ij x i x j + β l x l + γ i,j=1 l=1 lässt sich in Matrix-Vektor-Form schreiben durch f(x) = 1 2 x Ax + b x + c mit symmetrischer Matrix A = (a ij ) R n n, wobei a ij = α ij + α ji für i, j = 1,..., n sowie b l := β l für l = 1,..., n und c := γ. O.E.d.A. sei im folgenden c = 0. 74

75 Die notwendige Bedingung für ein Minimum 0 = f(x) = x A + b ist genau dann erfüllt, wenn x Lösung des linearen Gleichungssystems Ax = b (3.13) ist. Die Hesse-Matrix lautet A = 2 f(x). Hinreichend für ein striktes lokales Minimum ist die positive Definitheit dieser Matrix, siehe Abschnitt 2.3. Ist A nur positiv semi-definit, dann existiert nicht immer ein Minimum. Falls ein Minimum x existiert, gibt es unendlich viele Minima. Um dies zu sehen, wählen wir ein z kern(a) mit z 0, welches existiert da der Kern der Eigenraum zum Eigenwert null ist. Es folgt mit x A = b f(x + z) = 1 2 (x + z) A(x + z) + b (x + z) = 1 2 x Ax + b x x Az = f(x ). Andererseits sind alle Lösungen x von (3.13) auch globale Minima, weil für x R n beliebig f(x) = 1 2 x Ax x Ax = 1 2 (x x ) A(x x ) 1 2 x Ax 1 2 x Ax = 1 2 x Ax + ( Ax ) x = f(x ). Ist A indefinit, negativ definit oder negativ semi-definit mit A 0, dann gibt es ein z R n mit z Az < 0 (z.b. einen Eigenvektor zu einem negativen Eigenwert). Für alle Lösungen x von (3.13) folgt dann f(x + z) = 1 2 (x + z) A(x + z) x A(x + z) = 1 2 x Ax + x Az z Az x Ax x Az = 1 2 x Ax + b x z Az < f(x ). Mit z 0 erhalten wir, dass x kein lokales Minimum sein kann. Die Vor ist für eine positiv definite Matrix A und beliebiges x (0) R n erfüllt. Sei dazu 0 < λ min der kleinste Eigenwert von A und x die eindeutige 75

76 Lösung von (3.13). Es folgt für alle x R n mit damit f(x) = 0 2(f(x(0) ) f(x )) λ min < x x (x x ) A(x x ) 1 2 x Ax = 1 2 (x x ) A(x x ) + f(x ) 1 2 λ min(x x ) (x x ) + f(x ) > ( f(x (0) ) f(x ) ) + f(x ) = f(x (0) ). Also sind sind diese x nicht in N(x (0) ), wodurch die Beschränktheit von N(x (0) ) gezeigt ist. Bei einer positiv semi-definiten Matrix A ist Vor nicht erfüllt, da mit x auch x +z für z kern(a) eine Minimalstelle ist und die Menge x +kern(a) unbeschränkt ist. Die Vor liegt bei beliebiger Matrix A R n n immer vor, da f(x) f(y) = x A + b (y A + b ) = (x y) A = A (x y) A (x y) = A x y mit der von der euklidischen Norm induzierten Matrixnorm A. Die exakte Schrittweite lässt sich im quadratischen Fall explizit berechnen. Sei d eine Abstiegsrichtung bei x, d.h. f(x)d < 0. Dann gilt für die exakte Schrittweite welches äquivalent ist zu 0 = f(x + t E d)d = [ (x + t E d) A + b ] d, t E = (b + x A)d = f(x)d > 0. (3.14) d Ad d Ad In den relevanten Fällen (A positiv semi-definit oder positiv definit) ist d Ad > 0, denn anderenfalls folgt aus d Ad für eine symmetische positiv (semi-)definite Matrix Ad = 0 und somit (wenn ein Minimum x existiert) f(x)d = (x A + b )d = b d = x Ad = 0, 76

77 wodurch d keine Abstiegsrichtung wäre. Wir zeigen noch, dass aus d Ad = 0 mit A symmetrisch, positive semidefinit immer d = 0 folgt. Es seien λ 1,..., λ n 0 die Eigenwerte und {v 1,..., v n } eine Orthonormalbasis aus zugehörigen Eigenvektoren. Es folgt die Basisdarstellung n d = α i v i und damit 0 = d Ad = Nun erhalten wir n i=1 λ i α 2 i }{{} 0 Ad = und damit die obige Behauptung. i=1 λ i α i = 0 für i = 1,..., n. n α i λ i v i = 0 i=1 Due Schrittweite τ aus Satz 3.13 kann im quadratischen Fall aus (ii) berechnet werden: f(x + τd) = f(x) + τδ f(x)d. Im quadratischen Fall gilt f(x + τd) = 1 2 x Ax + x A(τd) (τd) A(τd) + b x + b (τd) = f(x) + τ f(x)d τ 2 d Ad. Mit τ > 0 können wir dies auflösen zu τ = Armijo-Goldstein-Verfahren 2(δ 1) f(x)d d Ad = 2(1 δ)t E. Die Schrittweitenstrategie von Armijo (auch: Armijo-Goldstein-Verfahren) bestimmt zu vorgegebenem δ (0, 1) iterativ eine Schrittweite t A, so dass die beiden Bedingungen gemäß (3.4) und (3.6) erfüllt sind, d.h. f(x + t A d) f(x) + δt A f(x)d, (3.15) 77

78 t A c 2 f(x)d d 2. (3.16) mit einer von x und d unabhängigen Konstante c 2 > 0. Zusammen folgt die Effizienz der Schrittweite in Def. 3.5 mit der Konstante θ = δc 2. Algorithmus 3.18 (Armijo-Verfahren) Wähle Konstanten 0 < δ < 1, 0 < β < 1, γ > 0 unabhängig von x und d. 1. Verwende Startschrittweite und setze j := Ist (3.15) für σ j erfüllt, d.h. dann setze t A := σ j. ENDE σ 0 = γ f(x)d d 2 f(x + σ j d) f(x) + δσ j f(x)d, 3. Setze σ j+1 := βσ j und j := j + 1. Gehe zu Schritt 2. Wir können zeigen, dass dieser Algorithmus eine effiziente Schrittweite liefert. Satz 3.19 Vor und 3.11 seien erfüllt. Gegeben seien x N(x (0) ) und d R n mit f(x)d < 0. Dann liefert der Algorithmus 3.18 nach endlich vielen Iterationen eine Schrittweite t A, die (3.15) und (3.16) mit einer geeigneten Konstante c 2 > 0 genügt. Insbesondere ist t A eine effiziente Schrittweite. 78

79 Beweis: Wegen σ j = β j σ 0 und lim j βj = 0 gibt es ein j N mit σ j τ für die Größe τ aus Satz Wegen der Eigenschaften (i),(ii) aus Satz 3.13 ist dann (3.15) für σ j erfüllt. Daher kann die Iteration nach j Schritten beendet werden. Gilt j = 0, so ist gemäß der Wahl von σ 0 auch die Bedingung (3.16) mit c 2 = γ erfüllt. Gilt j > 0, dann folgt für s = σ j 1 Wir unterscheiden zwei Fälle: f(x + sd) f(x) > δs f(x)d. (3.17) 1. Fall: Die Strecke von x nach x + sd ist Teilmenge von N(x (0) ). d.h. kurz [x, x + sd] N(x (0) ). Dann folgt mit (3.17) und Lemma 3.12 und daher mit s > 0 δs f(x)d < f(x + sd) f(x) s f(x)d L d 2 s 2 (δ 1) f(x)d < 1 2 L d 2 s, t A s > 2(1 δ) L = βs β 2(1 δ) L Somit ist die Bedingung (3.16) mit c 2 = 2β(1 δ) L f(x)d d 2, f(x)d d 2. erfüllt. 2. Fall: Die Strecke [x, x+sd] liegt nicht in ganz N(x (0) ). Hier kann Vor und Lemma 3.12 nicht angewendet werden. Mit der exakten Schrittweite aus Def kann jedoch wie folgt argumentiert werden: Wegen f(x + td) < f(x) f(x (0) ) für alle t [0, t E ] gilt [x, x + t E d] N(x (0) ) und deshalb t E < s. Daraus resultiert mit der unteren Schranke aus Satz 3.15 t A = βs > βt E β L f(x)d d 2. 79

80 Nun ist die Bedingung (3.16) mit c 2 = β L erfüllt. Wir setzen daher { c 2 := min γ, 2β(1 δ), β }. L L Dann gilt in jedem Fall (3.16) und die Konstante c 2 ist unabhängig von x und d. Bemerkung 3.20 Für die konkrete Wahl der Parameter δ, γ, β in Algorithmus 3.18 gibt es zahlreiche Untersuchungen und Empfehlungen. Eine Faustregel lautet δ = 0.01, γ = 10 4, β = 1 2. Der Rechenaufwand im Armijo-Verfahren aus Algorithmus 3.18 ist relativ klein. Die Gradienteninformation f(x) liegt meist sowieso bei der Bestimmung einer Abstiegsrichtung vor. In jedem Iterationsschritt besteht der Aufwand aus nur einer Auswertung der Zielfunktion. Wolfe-Powell-Verfahren Die Idee bei der Strategie von Powell (auch: Wolfe-Powell-Verfahren) besteht darin, die exakte Schrittweite zu approximieren, also eine Schrittweite t zu bestimmen, so dass die Richtungsableitung an der Stelle x + td positiv oder zumindest deutlich größer als bei x ist. Genauer werden bei einer Powell-Schrittweite t P die beiden Bedingungen f(x + t P d) f(x) + δt P f(x)d, (3.18) f(x + t P d)d β f(x)d (3.19) mit vorgegebenen Konstanten 0 < δ < β < 1 gefordert. Die Existenz einer solchen Schrittweite ergibt sich aus folgendem Satz. 80

81 Satz 3.21 Vor und 3.11 seien erfüllt. Gegeben seien x N(x (0) ) und d R n mit f(x)d < 0. Weiter sei 0 < δ < β < 1. Dann gibt es (mindestens) eine Schrittweite t P, welche die Eigenschaften (3.18) und (3.19) besitzt und für jede solche Schrittweite gilt t P 1 β L Insbesondere ist die Schrittweite effizient. f(x)d d 2. (3.20) Beweis: Wir betrachten die Hilfsfunktion φ(t) := f(x + td) f(x) δt f(x)d auf dem Intervall [0, t E ] mit der exakten Schrittweite t E. Mit Vor und [x, x + t E d] N(x (0) ) ist φ dort definiert und stetig differenzierbar. Desweiteren gilt φ(0) = 0, φ (0) = f(x)d δ f(x)d < 0, φ (t E ) = f(x + t E d)d δ f(x)d > 0. }{{} =0 Da φ stetig ist, gibt es laut dem Zwischenwertsatz mindestens ein t P mit φ (t P ) = 0. Wir erreichen φ(t P ) < 0, indem wir zu allen t P mit φ (t P ) = 0 das Infimum bilden. Aus φ (t P ) = 0 folgt und damit f(x + t P d)d δ f(x)d = 0 f(x + t P d)d = δ f(x)d > β f(x)d. Somit liegt (3.19) vor. Aus φ(t P ) < 0 folgt wodurch auch (3.18) erfüllt ist. f(x + t P d) f(x) δt P f(x)d < 0, 81

82 f 0 σ 1 σ 2 t Abbildung 8: Zielfunktion f(x + td) (schwarz), Tangente f(x) + t f(x)d (blau), Gerade f(x) + tδ f(x)d (rot) und Tangente f(σ 1 ) + (t σ 1 )β f(x)d (grün). Ersetzen wir in Satz 3.13 die Variable δ durch β, so gilt nach Satz 3.13 (iv) f(x + td)d < β f(x)d für alle t [0, 1 β L f(x)d d 2 ) =: I. Da für t = t P jedoch Bedingung (3.19) gilt, kann t P nicht im Intervall I liegen. Es folgt die behauptete untere Schranke (3.20). Die Bedingungen (3.18) und (3.20) implizieren wieder eine effiziente Schrittweite mit der Konstante θ = δ(1 β)/l. Abb. 8 veranschaulicht die Schrittweitenstrategie. Im Intervall [σ 1, σ 2 ] sind beide Bedingungen (3.18) und (3.19) erfüllt. Zur Abkürzung sei G 1 (t) := f(x + td) f(x) δt f(x)d, G 2 (t) := f(x + td)d β f(x)d. Wir nehmen an, dass die folgenden drei Fälle vorliegen: t [0, σ 1 ] : G 1 (t) 0, G 2 (t) 0 t [σ 1, σ 2 ] : G 1 (t) 0, G 2 (t) 0 t [σ 2, ) : G 1 (t) 0, G 2 (t) 0. (Powell-Schrittweite) Eine Intervallschachtelung wird konstruiert mit [σ 1, σ 2 ] [a j, b j ]. Die Folge (a j ) j N soll monoton steigend sein, stets (3.18) erfüllen und (3.19) verletzen, 82

83 während die Folge (b j ) j N monoton fallen, (3.19) genügen und (3.18) nicht erfüllen soll. Algorithmus 3.22 (Powell-Verfahren) Gegeben seien Konstanten 0 < δ < β < Wähle Startschrittweite σ 0 > 0 und setze j := 0. a) Ist G 1 (σ 0 ) 0 und G 2 (σ 0 ) 0, setze t P := σ 0. ENDE b) Ist G 1 (σ 0 ) 0 und G 2 (σ 0 ) < 0 setze Gehe zu Schritt 2. c) Ist G 1 (σ 0 ) > 0 setze a 0 = σ 0, b 0 = min{2 l σ 0 : G 1 (2 l σ 0 ) 0 und l N}. a 0 = max{2 l σ 0 : G 1 (2 l σ 0 ) 0, G 2 (2 l σ 0 ) < 0 und l N}, b 0 = σ 0. Gehe zu Schritt Iteration: σ j := a j+b j 2 a) Ist G 1 (σ j ) 0 und G 2 (σ j ) 0, setze t P := σ j. ENDE b) Ist G 1 (σ j ) 0 und G 2 (σ j ) < 0, setze a j+1 = σ j, b j+1 = b j. Weiter mit Schritt 3. c) Ist G 1 (σ j ) > 0, setze a j+1 = a j, b j+1 = σ j. Weiter mit Schritt Setze j := j + 1 und fahre mit Schritt 2 fort. Abb. 8 zeigt nur einen einfachen Verlauf der Zielfunktion. Ein komplizierterer Fall ist in Abb. 9 dargestellt. Jedoch können wir zeigen, dass Algorithmus 3.22 immer nach endlich vielen Schritten eine Powell-Schrittweite liefert. Hierzu ist noch als Definitionsbereich von f ganz R n anzunehmen. 83

84 f 0 t Abbildung 9: Zielfunktion f(x+td) (schwarz), Gerade f(x)+tδ f(x)d (rot) und Tangenten mit Steigung β f(x)d (grün). Satz 3.23 Vor und 3.11 seien erfüllt. Gegeben seien x N(x (0) ) und d R n mit f(x)d < 0. Dann endet der Algorithmus 3.22 nach endlich vielen Iterationen mit einer Schrittweite t P, die (3.18) und (3.19) erfüllt. Beweis: Schritt 1 b) ist durchführbar, da und N(x (0) ) beschränkt ist. lim f(x) + l δ2l σ 0 f(x)d = Schritt 1 c) ist durchführbar, da nach Satz 3.13 (i) für ein hinreichend hohes l N gilt f(x + 2 l σ 0 d) < f(x) + δ2 l σ 0 f(x)d und somit lim f(x + l 2 l σ 0 d)d = f(x)d < β f(x)d. Den erfolgreichen Abbruch der Iteration in Schritt 2 zeigen wir durch indirekten Beweis. Angenommen die Iteration bricht nicht nach endlich vielen Schritten ab. Die Folge (a j ) j N steigt monoton, während die Folge (b j ) j N 84

85 monoton fällt. In jedem Schritt halbiert sich aber die Intervallbreite. Mit diesem Prinzip der Intervallschachtelung existiert ein Grenzwert s R mit Es gilt jedoch Zusammen folgt bzw. Wir erhalten damit s = lim j a j = lim j b j. f(x + a j d) f(x) + δa j f(x)d f(x + b j d) > f(x) + δb j f(x)d. f(x + b j d) f(x + a j d) b j a j > δ f(x)d. f(x + sd)d = lim j f(x + b j d) f(x + a j d) b j a j Andererseits ist jedoch und dadurch f(x + a j d)d < β f(x)d δ f(x)d. f(x + sd)d = lim j f(x + a j d)d β f(x)d < δ f(x)d. Dies liefert uns den gewünschten Widerspruch. Bemerkung 3.24 Für die konkrete Wahl der Parameter δ, β in Algorithmus 3.22 gibt es wieder zahlreiche Untersuchungen. Eine Empfehlung lautet δ = 10 4 und β = 0.9, siehe [9], S Der Rechenaufwand in jedem Iterationsschritt des Algorithmus 3.22 besteht im wesentlichen in der Auswertung der Funktionen G 1, G 2. Für G 1 ist eine weitere Auswertung der Zielfunktion f(x + σd) erforderlich. Für G 2 benötigen wir die Ableitung f(x + σd)d = d dt f(x + td) t=σ. Diese Ableitung kann näherungsweise durch einen Differenzenquotienten bestimmt werden, wodurch eine weitere Auswertung der Zielfunktion erforderlich ist. Der Aufwand im Powell-Verfahren ist damit pro Iterationsschritt etwa doppelt so hoch wie im Armijo-Verfahren. 85

86 3.3 Gradientenverfahren In Abschnitt 3.1 wurde bereits erwähnt, dass eine mögliche Wahl der Abstiegsrichtung in x im Algorithmus 3.2 der (negative) Gradient f(x) ist. Der Algorithmus lautet dann wie folgt. Algorithmus 3.25 (Gradientenverfahren) 1. Wähle x (0) D, setze k := Ist f(x (k) ) TOL: ENDE 3. Benutze Suchrichtung d (k) := ( f(x (k) )). 4. Berechne eine effiziente Schrittweite t k > Setze x (k+1) := x (k) + t k d (k), k := k + 1, gehe zu Schritt 2. Bemerkungen 3.26 (i) Der Algorithmus 3.25 konvergiert gemäß Satz 3.7 und Satz 3.9, da die Winkelbedingung mit der Konstante c = 1 erfüllt ist. (ii) Die Konvergenzgeschwindigkeit ist linear und oft langsam. (iii) Benutzt man die exakte Schrittweite, so steht d (k+1) senkrecht auf d (k), denn es gilt mit Def = f(x (k) + t E d (k) )d (k) = f(x (k+1) )d (k) = (d (k+1) ) d (k). Verläuft das Verfahren in einem schmalen Tal, so kann dies dazu führen, dass die Konvergenz sehr langsam ausfällt (siehe folgendes Beispiel). Beispiel 3.27 Zur quadratischen Optimierungsaufgabe ( ) 1 0 min f(x) = 1 2 x Ax mit A = 0 a 86

87 für einen Parameter a > 0 verwenden wir das Gradientenverfahren mit der exakten Schrittweite. Der Gradient lautet f(x) = x A. Das eindeutige globale Minimum ist trivialerweise x = (0, 0). Zum Startwert x (0) ist d (0) = Ax (0). Die exakte Schrittweite lautet, siehe (3.14), t 0 = (x(0) A)( Ax (0) ) (Ax (0) ) A(Ax (0) ) und somit entsteht die erste Näherung x (1) = x (0) x(0) A 2 x (0). x (0) A 3 x (0)Ax(0) Für den Fall, dass x (0) auf einer Koordinatenachse liegt, gelangt man in einem Schritt zum exakten Minimum. Jedoch gilt für x (0) = (a, 1) ( ) ( ) a x (1) = 2a2 a = 1 ( ) a 2 a = a 1 ( ) ( ) a a = ρ 1 a 2 + a 3 a a 2 1 a a mit ρ := a 1 a+1. Die nächste Näherung ergibt sich zu ( ) ( ) ( ) a x (2) = ρ 2a2 a a 1 a 2 + a ρ = ρ 2. 3 a 1 Sukzessive folgt Somit gilt ( ) a x (k) = ρ k ( 1) k für k N. x (k) x = x (k) = ρ k 1 + a 2. Also liegt lineare Konvergenz mit dem Faktor ρ < 1 vor. Für a 1 gilt ρ 1 und damit konvergiert die Iteration nur sehr langsam. 87

88 3.4 Newton-Verfahren Die Idee hier besteht darin, die nichtlineare Zielfunktion f durch eine quadratische Funktion q k in einer Umgebung von x (k) zu approximieren und die Suchrichtung aus einer Minimierung von q k zu bestimmen. Die Formel der quadratischen Approximation lautet q k (x) = f(x (k) ) + f(x (k) )(x x (k) ) (x x(k) ) 2 f(x (k) )(x x (k) ). Falls die Funktion q k eine Minimalstelle x besitzt, dann gilt für diese q k (x ) = 0 und erfüllt damit das lineare Gleichungssystem (x x (k) ) 2 f(x (k) ) = f(x (k) ). Die Newton-Richtung für die Suche nach dem Minimum von f ergibt sich daher zu ( ) 1 ( d (k) = 2 f(x (k) ) f(x )) (k). Es ergibt sich bei direkter Anwendung das folgende Verfahren. Algorithmus 3.28 (Lokales Newton-Verfahren) 1. Wähle x (0) D und TOL > 0. Setze k := Ist f(x (k) ) TOL: ENDE 3. Bilde Suchrichtung d (k) durch Lösen des linearen Gleichungssystems ( 2 f(x (k) )d (k) = f(x )) (k). 4. Setze x (k+1) = x (k) + d (k), k := k + 1, gehe zu Schritt 2. Eine alternative Herleitung besteht darin, die notwendige Bedingung ( ) f(x ) = f x 1 (x ),..., f x n (x ) = (0,..., 0) für ein Minimum der Zielfunktion als ein nichtlineares Gleichungssystem für die Unbekannten x aufzufassen. Die Funktionalmatrix zum Gradienten 88

89 ist gerade die Hesse-Matrix. Anwendung des Newton-Verfahrens (siehe z.b. Abschnitt 5.1 in [11]) liefert die Iteration ( ) 1 ( x (k+1) = x (k) 2 f(x (k) ) f(x )) (k) für k = 0, 1, 2,.... In Algorithmus 3.28 wird keine Schrittweite bestimmt. Es gilt unter starken Voraussetzungen eine Konvergenzaussage. Satz 3.29 Sei f zweimal stetig differenzierbar, x ein stationärer Punkt von f und die Matrix 2 f(x ) regulär. Dann existiert ein ε > 0, so dass für jedes x (0) B ε (x ) gilt: (i) Die Folge (x (k) ) k N aus Algorithmus 3.28 ist wohldefiniert und es gilt lim k x(k) = x. (ii) Die Folge (x (k) ) k N konvergiert superlinear, d.h. x (k+1) x lim k x (k) x = 0 bzw. x (k+1) x ρ k x (k) x mit lim k ρ k = 0. (iii) Ist 2 f lokal Lipschitz-stetig, so ist die Konvergenz sogar quadratisch, d.h. x (k+1) x c x (k) x 2 mit einer Konstante c > 0 unabhängig von k. Beweis: siehe Satz 9.2 in [6]. Bemerkungen 3.30 Ohne weitere Voraussetzungen kann man keine globale Konvergenz beweisen. ist eine Newton-Richtung nicht notwendig eine Abstiegsrichtung. 89

90 Um den Konvergenzbereich des lokalen Newton-Verfahrens zu vergrößern, wird die Methode derart modifiziert, dass ein Abstiegsverfahren entsteht. Algorithmus 3.31 (Globales Newton-Verfahren) 1. Wähle x (0) D und TOL > 0. Setze k := Ist f(x (k) ) TOL: ENDE 3. Bestimme eine Lösung d (k) des linearen Gleichungssystems ( 2 f(x (k) )d (k) = f(x )) (k). Ist dieses Gleichungssystem nicht lösbar oder liefert die Lösung keine Abstiegsrichtung, d.h. f(x (k) )d (k) 0, dann setze ( d (k) = f(x )) (k). Ansonsten verwende d (k) aus dem Gleichungssystem. 4. Berechne effiziente Schrittweite t k. 5. Setze x (k+1) = x (k) + t k d (k), k := k + 1, gehe zu Schritt 2. Bemerkungen 3.32 (i) Das Verfahren 3.31 ist ein Abstiegsverfahren und konvergiert unter Vor gegen einen stationären Punkt von f. (ii) Falls die Schrittweitenstrategie die Schrittweite t k = 1 zulässt, so konvergiert das Verfahren 3.31 in einer Umgebung des stationären Punkts wieder superlinear bzw. quadratisch. Dazu wird hier im Armijo-Verfahren 3.18 und im Powell-Verfahren 3.22 als Startschrittweite σ 0 = 1 gewählt. (iii) Der Rechenaufwand pro Iterationsschritt wird dominiert von der Auswertung des Gradienten (n Ableitungen), der Auswertung der Hesse- Matrix ( 1 2 (n2 + n) Ableitungen) und der Lösung des linearen Gleichungssystems (ca. 2 3 n3 Maschinenzahloperationen für LR-Zerlegung). 90

91 (iv) Das Newton-Verfahren hat den Nachteil, dass es die zweiten Ableitungen verwendet, da es manchmal unmöglich ist die Ableitungen als Formeln zu berechnen und eine numerische Approximation rechenaufwändig ist. Daher existieren Modifikationen des Verfahrens: Ersetze 2 f(x (k) ) durch 2 f(x (0) ). lineare, lokale Konvergenz Approximiere 2 f(x (k) ) durch Differenzenquotienten. superlineare, lokale Konvergenz Berechne 2 f(x (k) ) oder eine Approximation dazu nur nach jeweils m Iterationen. superlineare, lokale Konvergenz Berechnung der Ableitungen Zur Auswertung der Ableitungen (sowohl Gradient als auch Hesse-Matrix) einer Funktion f : D R (D R n offen) gibt es im wesentlichen drei Methoden: 1. Symbolische Differentiation Voraussetzung ist, dass die Funktion f als Formel mit bekannten Funktionen vorliegt. Die Berechnung der Ableitungen als Formeln kann mit der symbolischen Differentiation in einem Softwarepaket (z.b. MAPLE, Mathematica) erfolgen. Die Auswertung auf dem Rechner ist dann korrekt bis auf Maschinengenauigkeit ε 0. Der Aufwand für die Auswertung von Gradient und Hesse-Matrix ist etwa mindestens so hoch wie n bzw. 1 2 (n2 + n) Auswertungen von f. 2. Automatische Differentiation Voraussetzung ist wieder, dass eine Formel mit bekannten Funktionen für die Funktion f gegeben ist. Die Formel wird dann zerlegt in eine Abfolge elementarer Operationen (z.b. Grundrechenarten, trigonometrische Funktionen, Exponentialfunktion). Die Differentiationsregeln werden dann bei festem x angewendet. Das Ergebnis wird korrekt bis auf Maschinengenauigkeit ε 0 geliefert. Der Aufwand für einen Gradienten entspricht dann nur bis zu 5 Auswertungen der Funktion f (unabhängig von n) unter gewissen Voraussetzungen. 91

92 3. Numerische Differentiation Hier ist nur ein Algorithmus zur hinreichend genauen Auswertung der Funktion f erforderlich. Die Ableitungen werden durch Differenzenquotienten approximiert. Das Ergebnis enthält daher Approximationsfehler (relative Fehler sind mindestens etwa ε 0 mit der Maschinengenauigkeit ε 0 ). Der Aufwand beträgt Gradient: n zusätzliche Auswertungen von f, Hesse-Matrix: 1 2 (n2 + n) zusätzliche Auswertungen von f, siehe S. 84 in [9]. 3.5 Quasi-Newton-Verfahren Die Idee besteht darin, die Berechnung einer Hesse-Matrix der Zielfunktion zu vermeiden, um Rechenaufwand einzusparen, jedoch ein superlineare Konvergenzgeschwindigkeit des Abstiegsverfahrens zu erhalten. Algorithmus 3.33 (Quasi-Newton-Verfahren) 1. Wähle x (0) D, setze k := Ist f(x (k) ) TOL: ENDE 3. Berechne eine positiv definite, symmetrische Matrix A (k). 4. Bestimme Suchrichtung d (k) aus dem linearen Gleichungssystem A (k) d (k) = ( f(x (k) )). 5. Berechne eine effiziente Schrittweite t k > Setze x (k+1) := x (k) + t k d (k), k := k + 1, gehe zu Schritt 2. Im Vergleich zu Algorithmus 3.31 werden die Hesse-Matrizen 2 f(x (k) ) durch die Matrizen A (k) ersetzt. Die Methode ist immer ein Abstiegsverfahren, denn es gilt ( ) 1 f(x (k) )d (k) = f(x (k) ) A (k) ( f(x (k) )) < 0 92

93 und (A (k) ) 1 ist ebenfalls positiv definit. Nach Satz 3.7 liegt eine Konvergenzeigenschaft vor, wenn die Winkelbedingung aus Def. 3.6 erfüllt ist und eine effiziente Schrittweite gemäß Def. 3.5 vorliegt. Die Winkelbedingung wird durch eine Eigenschaft der Matrizenfolge (A (k) ) k N garantiert. Definition 3.34 Eine Folge (A (k) ) k N R n n aus symmetrischen Matrizen heißt gleichmäßig positiv definit und beschränkt, wenn es Konstanten α 1, α 2 > 0 gibt, so dass α 1 x x x A (k) x α 2 x x für alle x R n und alle k N gilt. Satz 3.35 Sind die Matrizen (A (k) ) k N im Algorithmus 3.33 gleichmäßig positiv definit und beschränkt, dann gilt für die Suchrichtungen d (k) f(x(k) )d (k) f(x (k) ) d (k) α 1 für alle k, α 2 wodurch die Winkelbedingung aus Def. 3.6 vorliegt. Beweis: Seien λ (k) min und λ(k) max der minimale und der maximale Eigenwert von A (k). Es gilt allgemein für symmetrische, positiv definite Matrizen Mit Def folgt λ (k) min = min x A (k) x x 0 x x bzw. 0 < α 1 λ (k) min λ(k) max α 2. λ (k) x A (k) x max = max x 0 x x. Es ist (λ (k) min ) 1 der maximale und (λ (k) max) 1 der minimale Eigenwert von (A (k) ) 1. Dadurch erhalten wir 1 1 α 2 λ (k) max = min x 0 x (A (k) ) 1 x x x und max x 0 x (A (k) ) 1 x x x = 1 λ (k) min 1 α 1. 93

94 Zusammen folgt und alle k N. x x α 2 x (A (k) ) 1 x x x α 1 für alle x R n Für eine symmetrische, positiv definite Matrix B gilt in der Spektralnorm B = ρ(b) mit dem Spektralradius ρ. Da A (k) und (A (k) ) 1 symmetrisch und positiv definit sind, folgt in der Spektralnorm A (k) α2 Damit erhalten wir nun und (A (k) ) 1 1 α 1. d (k) = (A (k) ) 1 ( f(x (k) )) (A (k) ) 1 f(x (k) ) 1 α 1 f(x (k) ). Schließlich ergibt sich f(x (k) )d (k) = f(x (k) )(A (k) ) 1 ( f(x (k) )) 1 α 2 f(x (k) )( f(x (k) )) = 1 α 2 f(x (k) ) 2 1 α 2 f(x (k) ) α 1 d (k) und damit die Behauptung. Ein Spezialfall ist A (k) = I für alle k mit der Einheitsmatrix I. Algorithmus 3.33 wird dann zum Gradientenverfahren. Die Bedingung aus Def ist trivialerweise mit α 1 = α 2 = 1 erfüllt. Die Konvergenzgeschwindigkeit des Gradientenverfahrens ist jedoch nur linear. Um eine superlineare Konvergenz zu erreichen und zugleich keinen zu hohen Aufwand zu benötigen, werden folgende Bedingungen an die Matrizenfolge (A (k) ) k N gestellt: 1. A (k+1) soll möglichst einfach aus A (k) berechnet werden. 2. A (k) soll die Hesse-Matrix 2 f(x (k) ) in gewissem Sinne gut approximieren. 94

95 Die zweite Bedingung wird durch folgendes Kriterium sichergestellt. Definition 3.36 Eine Matrix A (k) R n n aus Algorithmus 3.33 erfüllt die Quasi-Newton-Bedingung, wenn gilt. A (k+1) (x (k+1) x (k) ) = ( f(x (k+1) ) f(x (k) )) (3.21) Als Motivation für diese Bedingung sei angeführt, dass für die superlineare Konvergenz die Eigenschaft ( 2 f(x (k) ) A (k) )d (k) lim k d (k) = 0 (3.22) hinreichend ist. Die Matrix A (k) braucht nicht 2 f(x (k) ) insgesamt zu approximieren, sondern nur das Matrix-Vektor-Produkt A (k) d (k) soll 2 f(x (k) )d (k) immer besser annähern. Das Produkt A (k) d (k) tritt im Algorithmus 3.33 auf. Zur Vereinfachung sei t k = 1 für alle k angenommen, wodurch hier d (k) = x (k+1) x (k) gilt. Taylor-Entwicklung zeigt f(x (k+1) ) = f(x (k) ) + 2 f(x (k) )d (k) + O( d (k) 2 ), 2 f(x (k) )d (k) = f(x (k+1) ) f(x (k) ) + O( d (k) 2 ). Unter der Annahme d (k) 0 ist damit (3.22) äquivalent zu f(x (k+1) ) f(x (k) ) A (k) d (k) lim k d (k) Die Eigenschaft (3.23) wäre trivialerweise gegeben, wenn ( A (k) (x (k+1) x (k) ) = f(x (k+1) ) f(x )) (k). = 0. (3.23) Dies ist jedoch nicht realisierbar, denn A (k) muss festgelegt werden, um x (k+1) zu bestimmen. Stattdessen fordern wir die Bedingung für A (k+1) in Def

96 Die Bedingung (3.21) legt die Matrix A (k+1) nicht eindeutig fest. Es liegen nur n Gleichungen für die 1 2 (n2 + n) Freiheitsgrade in den Einträgen der symmetrischen Matrix A (k+1) vor. Daher sind verschiedene Konstruktionen möglich. Insbesondere können wir die obige Forderung an eine leichte Berechenbarkeit der Matrizen erfüllen. Es gibt zahlreiche Vorschläge, wie die beiden obigen Forderungen und die Quasi-Newton-Bedingung (3.21) erfüllt werden können. Zwei der bekanntesten Update-Formeln sind in folgender Definition zusammengefasst. Definition 3.37 Als Abkürzungen seien ( s = x (k+1) x (k), y = f(x (k+1) ) f(x )) (k). Die Daviden-Fletcher-Powell-Formel (DFP-Formel) lautet A (k+1) = A (k) + (y A(k) s)y + y(y A (k) s) y s (y A(k) s) s (y s) 2 yy. (3.24) Die Broyden-Fletcher-Goldfarb-Shanno-Formel (BFGS-Formel) definiert A (k+1) = A (k) + yy y s A(k) ss A (k). (3.25) s A (k) s Den Update in der BFGS-Formel nennt man auch Rang-2-Modifikation, da zur Matrix A (k) zwei Matrizen mit jeweils Rang 1 hinzuaddiert werden. Einfache Wahlmöglichkeiten für die Anfangsmatrix sind: A (0) = I mit der Einheitsmatrix, A (0) = 2 f(x (0) ) falls diese Hesse-Matrix positiv definit ist. Satz 3.38 Es gelte y s > 0 mit y, s aus Def Ist die Matrix A (k) symmetrisch und positiv definit, dann ist auch die Matrix A (k+1) aus der DFP-Formel (3.24) und der BFGS-Formel (3.25) symmetrisch und positiv definit und erfüllt die Quasi-Newton-Bedingung (3.21). 96

97 Beweis: Wir zeigen die Aussagen nur für die BFGS-Formel (3.25). Zur Abkürzung sei A = A (k) und A = A (k+1), d.h. A = A + yy y s Ass A s As. (i) Die Symmetrie von A ist offensichtlich, da eine Summe aus drei symmetrischen Matrizen vorliegt. (ii) Die positive Definitheit wird nachgewiesen. Da A positiv definit ist, gibt es eine Zerlegung U AU = D mit orthogonaler Matrix U und Diagonalmatrix D = diag(λ 1,..., λ n ) mit positiven Eigenwerten. Es sei D 1 2 = diag( λ1,..., λ n ), A 1 2 = UD 1 2 U, A 1 2 = UD 1 2 U. Es gilt dann A 1 2A 1 2 = A und A 1 2A 1 2 = A 1. Wir definieren jetzt ŝ := A 1 2s und ŷ := A 1 2y sowie B := A 1 2 A A 1 2 = I + ŷŷ ŝ ŷ ŝŝ ŝ ŝ. Da A 1 2 regulär, ist B genau dann positiv definit, wenn A positive Definitheit besitzt. Wir zeigen daher, dass B positiv definit ist. Sei x R n beliebig. Wir können x in der Form x = µŝ + r mit µ R und r ŝ = 0 darstellen. Es gilt 0 < s y = ŝ ŷ und damit auch ŝ 0. Dann folgt x Bx = µ 2 ŝ ŝ + 2µŝ r + r r + 1 ŝ ŷ 1 ŝ ŝ = }{{} r r 0 [ µ2ŝ ŷŷ ŝ + 2µŝ ŷŷ r + r ŷŷ r ] [ µ2ŝ ŝŝ ŝ + 2µŝ ŝŝ r + r ŝŝ r ] + 1 ŝ ŷ }{{} >0 Hier gilt x Bx = 0 genau dann, wenn (µŷ ŝ + ŷ r) }{{} r r = 0 und µŷ ŝ + ŷ r = 0. 97

98 Dies ist äquivalent zu r = 0 und µŷ ŝ = 0. Wegen ŷ ŝ > 0 muss µ = 0 gelten. Dies ist äquivalent zu x = µŝ + r = 0. (iii) Wir rechnen die Quasi-Newton-Bedingung nach: A s = As + yy y s s Ass A s As s = As + y s y s y s As As = y. s As Somit sind alle Aussagen gezeigt. Der nächste Satz zeigt, dass wir die Voraussetzung in Satz 3.38 leicht erfüllen können. Satz 3.39 Wird in Algorithmus 3.33 die Powell-Schrittweite verwendet, dann gilt die Bedingung y s > 0 mit y, s aus Def Beweis: Wir rechnen direkt nach y s = ( f(x (k+1) ) f(x (k) ) ) ( x (k+1) x (k)) = ( f(x (k+1) ) f(x (k) ) ) t P d (k) = t P ( f(x (k+1) )d (k) f(x (k) )d (k)) = t P ( f(x (k) + t P d (k) )d (k) f(x (k) )d (k)). Die Bedingung (3.18) der Powell-Schrittweite liefert nun mit der Konstante 0 < β < 1 y s }{{} t P (β 1) f(x }{{} (k) )d (k) > 0, }{{} >0 <0 <0 womit der Beweis abgeschlossen ist. Dem Beweis von Satz 3.39 können wir auch entnehmen, dass die exakte Schrittweite gemäß Def die Bedingung y s > 0 erfüllt. Zuletzt zitieren wir eine Konvergenzaussage für die BFGS-Methode. 98

99 Lemma 3.40 Gegeben sei f : D R mit D R n sowie D offen und konvex. Die Funktion f sei auf D zweimal stetig differenzierbar und die Hesse-Matrix gleichmäßig positiv definit, d.h. z 2 f(x)z αz z für alle z R n und x D mit einer Konstanten α > 0. Dann existiert ein eindeutiges globales Minimum von f in D. Beweis: siehe Lemma und Bemerkung in [1]. Satz 3.41 Es gelten die Voraussetzungen: (i) Die Funktion f : D R mit N(x (0) ) D R n sowie D offen und konvex sei zweimal stetig differenzierbar und die Hesse-Matrix gleichmäßig positiv definit auf D. (ii) Zum eindeutigen globalen Minimum x gibt es Konstanten L > 0 und r > 0, so dass 2 f(x 1 ) 2 f(x 2 ) L x 1 x 2 für alle x 1, x 2 B(x, r). (iii) Armijo-Schrittweiten oder Powell-Schrittweiten werden verwendet. Dann sind im BFGS-Verfahren bei beliebiger symmetrischer positiv definiter Anfangsmatrix die Matrizen (A (k) ) k N gleichmäßig positiv definit und beschränkt. Die Folge (x (k) ) k N konvergiert superlinear gegen das eindeutige Minimum von f. Beweis: siehe [10]. Die obigen Voraussetzungen gelten bei hinreichend glatter Zielfunktion immer, wenn ein striktes lokales Minimum x existiert und der Startwert x (0) hinreichend nahe von x gewählt wird. 99

100 3.6 Verfahren der konjugierten Richtungen Wir betrachten zunächst quadratische Optimierungsaufgaben, d.h. Zielfunktionen der Gestalt f(x) = 1 2 x Ax + b x mit A R n n symmetrisch und positiv definit und b R n. In Beispiel 3.27 fiel im Gradientenverfahren die Konvergenz extrem langsam aus. Es gilt im Gradientenverfahren bei Verwendung der exakten Schrittweite, dass die Richtung d (k+1) jeweils orthogonal zur Richtung d (k) steht. Im R 2 (n = 2) stimmt somit die Richtung d (k+2) jeweils mit der Richtung d (k) überein. In höherdimensionalen Räumen kann ein analoges Verhalten eintreten. Um dies zu vermeiden, wählen wir d (k+1) derart, dass die Richtungsableitungen an den Stellen x (k+1) + td (k+1) in Richtung d (k) automatisch verschwinden. Dadurch kann die Richtung d (k) im späteren Schritt keine Abstiegsrichtung mehr sein. Wegen Verwendung der exakten Schrittweite gilt Dadurch folgt als Bedingung 0 = f(x (k+1) )d (k) = x (k+1) Ad (k) + b d (k). 0 = f(x (k+1) + t E d (k+1) )d (k) = ( x (k+1) + t E d (k+1) ) Ad (k) + b d (k) und somit wegen t E > 0. d (k+1) Ad (k) = 0 Definition 3.42 Sei A R n n symmetrisch und positiv definit. Zwei Vektoren x, y R n heißen A-konjugiert, wenn gilt. x Ay = 0 100

101 Diese Konjugation entspricht genau der Orthogonalität bezüglich des von der Matrix A induzierten Skalarprodukts x, y A := x Ay. Dieses Konzept motiviert das Verfahren der konjugierten Richtungen (engl. conjugated gradients/cg). Algorithmus 3.43 (CG-Verfahren für quadratische Probleme) 1. Wähle x (0) R n. Berechne Setze k := 0. f(x (0) ) = Ax (0) + b, d (0) = f(x (0) ). 2. Ist f(x (k) ) TOL: ENDE 3. Berechne exakte Schrittweite 4. Berechne x (k+1) f(x (k+1) ) t k = f(x(k) )d (k) d (k) Ad (k). = x (k) + t k d (k) = Ax (k+1) + b = f(x (k) ) + t k Ad (k) β k = f(x(k+1) ) 2 f(x (k) ) 2 d (k+1) = f(x (k+1) ) + β k d (k). Setze k := k + 1 und gehe zu Schritt 2. Der Hauptrechenaufwand in einem Iterationsschritt besteht in dem Matrix- Verktor-Produkt Ad (k), welche eine Anzahl an Rechenoperationen proportional zu n 2 bei vollbesetzter Matrix A erfordert. Das Konvergenzverhalten dieses Verfahrens wird in folgendem Satz charakterisiert. Satz 3.44 Sei A R n n symmetrisch und positiv definit. Es bezeichne x das eindeutige Mininum von f(x) = x Ax+b x. Dann liefert der Algorithmus 3.43 nach höchstens n Schritten das Minimum x. Ist m {0, 1,..., n} die kleinste Zahl mit x (m) = x, so gilt 101

102 (i) d (k) Ad (j) = 0 für k = 1,..., m, j = 0,..., k 1 (Konjugiertheit), (ii) f(x (k) ) f(x (j) ) = 0 für k = 1,..., m, j = 0,..., k 1 (Orthogonalität), (iii) f(x (k) )d (j) = 0 für k = 1,..., m, j = 0,..., k 1 (Orthogonalität), (iv) f(x (k) )d (k) = f(x (k) ) 2 für k = 0,..., m (Abstiegsrichtung), (v) f(x (k) ) = min f(x) mit S k = span{d (0),..., d (k 1) }. x x (0) +S k Beweis: siehe Satz in [1]. Für nichtlineare Optimierungsaufgaben verallgemeinert sich das Verfahren der konjugierten Richtungen aus Algorithmus 3.43 zum Fletcher-Reeves- Verfahren wie folgt. Algorithmus 3.45 (CG-Verfahren für nichtlineare Probleme) 1. Wähle x (0) D. Verwende d (0) = f(x (0) ). Setze k := Ist f(x (k) ) TOL: ENDE 3. Bestimme eine effiziente Schrittweite t k > Berechne x (k+1) = x (k) + t k d (k) β k = f(x(k+1) ) 2 f(x (k) ) 2 d (k+1) = f(x (k+1) ) + β k d (k). Setzt k := k + 1 und gehe zu Schritt 2. Wir erkennen, dass für eine quadratische Zielfunktion der Algorithmus 3.45 gerade dem Algorithmus 3.43 entspricht, wobei lediglich in Algorithmus 3.45 noch eine beliebige effiziente Schrittweite statt der exakten Schrittweite zugelassen ist. Der Rechenaufwand in einem Iterationsschritt besteht hauptsächlich in der Bestimmung des neuen Gradienten f(x (k+1) ), wenn wir 102

103 die Schrittweite über das Armijo- oder Powell-Verfahren berechnen. Insbesondere ist der Rechenaufwand damit genauso hoch wie im gewöhnlichen Gradientenverfahren aus Algorithmus Für die Konvergenz des nichtlinearen CG-Verfahrens gilt nun folgendes Resultat. Satz 3.46 Die Voraussetzung (i) aus Satz 3.41 sei erfüllt, wodurch insbesondere ein eindeutiges globales Minimum x existiert. Im CG-Verfahren gemäß Algorithmus 3.45 sei die exakte Schrittweite verwendet und TOL = 0 gesetzt. Dann wird die Iteration entweder nach endlich vielen Schritten beim exakten x enden oder die Folge (x (k) ) k N konvergiert gegen x. Beweis: siehe Satz in [1]. Die Konvergenzgeschwindigkeit ist linear, jedoch ist die Konvergenz meist viel schneller als im Gradientenverfahren. In der Praxis wird man statt der exakten Schrittweite natürlich die Armijo- oder Powell-Schrittweite einsetzen. Eine Konvergenzaussage zu Algorithmus 3.45 bei Verwendung einer Verschärfung der Powell-Schrittweite ist in [9], S. 225 gegeben. 3.7 Trust-Region-Verfahren Bei dieser Klasse von Verfahren wird ebenfalls eine Folge (x (k) ) k N von Näherungen eines Minimums berechnet. Für den Übergang von x (k) zu x (k+1) wird die Zielfunktion f in einer Umgebung (Vertrauensbereich) um x (k) durch eine einfachere Modellfunktion f k ersetzt. Dies bedeutet eine Approximation f k (d). = f(x (k) + d) für alle d mit d ρ k mit einer reellen Zahl ρ k > 0. Anschließend berechnen wir die Korrektur d (k) := x (k+1) x (k) als Lösung des Trust-Region-Hilfsproblems (oder Trust- Region-Teilproblems) min f k (d). (3.26) d ρ k 103

104 Der Vertrauensbereich ist daher B(x (k), ρ k ) im Definitionsbereich von f bzw. B(0, ρ k ) im Raum der Korrekturen. Bereits die Stetigkeit der Modellfunktion ist hinreichend für die Existenz eines globalen Minimums der Optimierungsaufgabe (3.26). Das Problem (3.26) stellt eine Minimierungsaufgabe mit Nebenbedingung dar, deren numerische Lösung in Kapitel 4 behandelt wird. Jedoch werden die Modellfunktionen f k genügend einfach gewählt, so dass gesonderte Verfahren zur numerischen Lösung eingesetzt werden können. Es stellen sich sofort drei Fragen in diesem Ansatz: Wahl der Modellfunktion f k, Wahl des Vertrauensbereichs, d.h. des Radius ρ k, effiziente Lösung des Teilproblems (3.26). Wahl der Modellfunktionen 1. Lineare Approximation Die Taylorapproximation erster Ordnung von f an der Stelle x (k) liefert f k (d) = f(x (k) ) + f(x (k) )d. Die Minimierung von f k unter der Nebenbedingung d ρ k besitzt mindestens ein globales Minimum d. Dieses Minimum liegt auf dem Rand des zulässigen Bereichs falls f(x (k) ) 0 gilt. Der Fall f(x (k) ) = 0 bedeutet, dass die Iteration in einem stationären Punkt endet. Das Minimum d erfüllt die LICQ aus Def. 2.21, weil mit g(d) := d d ρ 2 k 0, g(d) = 2d ist g(d) 0 für d 0. Der Fall d = 0 wäre wieder das Ende der Iteration. Laut Satz 2.23 ist dann das Minimum d ein KKT-Punkt mit eindeutig bestimmten Lagrange-Multiplikator. Es folgt 0 = d L(d, λ ) = d ( fk (d) + λ (d d ρ 2 k) ) d=d 104

105 und somit f(x (k) ) + 2λ d = 0 sowie f(x (k) ) = 2 λ d. Wegen d = ρ k und λ 0 erhalten wir 2λ = f(x (k) ) /ρ k. Also ist die Korrektur genau d = ρ k f(x (k) ) f(x (k) ). Insbesondere gilt d = γ f(x (k) ) für ein γ < 0. Es liegt somit ein Spezialfall des Gradientenverfahrens aus dem Abschnitt 3.3 vor. Wir erhalten kein wesentlich neues Verfahren und zudem ist die Konvergenzgeschwindigkeit oft langsam. Daher ist dieser Ansatz ungeeignet. 2. Quadratische Approximation Die Taylorapproximation zweiter Ordnung von f an der Stelle x (k) resultiert zu f k (d) = f(x (k) ) + f(x (k) )d d 2 f(x (k) )d. Es entsteht eine geeignete Methode, die Trust-Region-Newton-Verfahren genannt wird. Zur effizienten Lösung der Teilprobleme sind noch intensive Überlegungen erforderlich. Einzelheiten sind in Abschnitt 14.4 aus [6] gegeben. 3. Näherungsweise quadratische Approximation Hier wird in der Taylorapproximation zweiter Ordnung von f an der Stelle x (k) die Hesse-Matrix durch eine Approximation ersetzt. Es folgt die Modellfunktion f k (d) = f(x (k) ) + f(x (k) )d d A (k) d mit A (k) 2 f(x (k) ). Für die Folge der Matrizen (A (k) ) k N kann die Konstruktion aus den Quasi-Newton-Verfahren in Abschnitt 3.5 eingesetzt werden. Mit der BFGS-Formel (3.25) ergibt sich beispielsweise das Trust-Region-BFGS-Verfahren. 4. und verschiedene mehr. 105

106 Wahl des Vertrauensbereichs Hier geht es um die Festlegung des Radius ρ k. Dem Modell f k wird auf der Kugel B(x (k), ρ k ) vertraut, wenn der tatsächliche Abstieg gut mit dem vom Modell vorhergesagten Abstieg übereinstimmt. Daher definieren wir r k := f(x(k) ) f(x (k) + d (k) ) f(x (k) ) f k (d (k) ) ( = tatsächlicher Abstieg vorhergesagter Abstieg Es werden Verfahrensparameter 0 < δ 1 < δ 2 < 1 und 0 < σ 1 < 1 < σ 2 festgesetzt. Nun werden folgende Entscheidungen getroffen: 1. Falls r k < δ 1 : Das Modell f k ist auf B(x (k), ρ k ) nicht vertrauenswürdig. Es wird ρ k := σ 1 ρ k gesetzt und das Trust-Region-Teilproblem zum k-ten Schritt wiederholt. 2. Falls r k [δ 1, δ 2 ]: Dem Modell f k kann vertraut werden. Der Bereich sollte allerdings im nächsten Schritt nicht vergrößert werden. Es wird ρ k+1 := ρ k gesetzt und zum (k + 1)-ten Schritt übergegangen. 3. Falls r k > δ 2 : Das Modell f k hat eine gute Abstiegsrichtung erzeugt. Ber Bereich sollte sogar im nächsten Schritt vergrößert werden. Es wird ρ k+1 := σ 2 ρ k gesetzt und zum (k + 1)-ten Schritt übergegangen. Als eine Faustregel werden die Parameter zu gesetzt. δ 1 = 0.1, δ 2 = 0.75, σ 1 = 0.5, σ 2 = 2 ). 106

107 Effiziente Lösung der Teilprobleme Für quadratische Approximationen existieren spezielle Lösungsverfahren. Um den Aufwand zur Lösung der Teilprobleme weiter zu reduzieren, wird in verschiedenen Methoden das Teilproblem noch vereinfacht zu min f k (d) N.B. d ρ k, d V k mit einem geeignet gewählten Untervektorraum V k R n. Es entstehen die sogenannten Teilraum-Trust-Region-Verfahren. 107

108 Kapitel 4 Verfahren für restringierte Probleme 4 In diesem Kapitel befassen wir uns mit numerischen Methoden für Optimierungsaufgaben mit Nebenbedingungen in Form von Gleichungen und Ungleichungen, siehe (2.4). 4.1 Strafterm-Methoden Die Idee ist eine Modifikation der Zielfunktion, so dass ein unbeschränktes modifiziertes Optimierungsproblem näherungsweise das gleiche Minimum besitzt wie das beschränkte Optimierungsproblem. Die kompliziertere restringierte Aufgabe wird auf eine Folge von unrestringierten Aufgaben zurückgeführt, wodurch die numerischen Verfahren aus Kapitel 3 anwendbar sind. Wir betrachten zunächst eine Optimierungsaufgabe mit nur Gleichungsnebenbedingungen, d.h. min f(x) N.B. h(x) = 0 (4.1) mit stetigen Funktionen f : R n R und h : R n R n h. Definition 4.1 Die zum restringierten Optimierungsproblem (4.1) gehörige Strafterm-Funktion (Penalty-Funktion) lautet P α (x) := f(x) + α 2 h(x) 2 (4.2) mit dem Strafterm-Parameter α > 0 und dem Strafterm α 2 h(x)

109 Beispiel 4.2 Wir betrachten das Minimierungsproblem min f(x) := x N.B. h(x) := x 1 = 0. Offensichtlich ist das eindeutige Minimum x = 1. Die zugehörige Strafterm-Funktion (4.2) lautet P α (x) = x + α 2 (x 1)2. Das jeweils eindeutige globale Minimum von P α ist x (α) = 1 1 α. Somit gilt x (α) x für α +. Der Ansatz des Strafterm-Verfahrens besteht in einer sukzessiven Lösung der Optimierungsaufgaben mit Zielfunktion (4.2) für eine aufsteigende Folge von Parametern (α k ) k N in der Hoffnung, dass die zugehörigen Minima (x (k) ) k N gegen eine Lösung der Optimierungsaufgabe (4.1) konvergieren. Algorithmus 4.3 (Strafterm-Verfahren) 1. Wähle α 0 > 0 und setze k := Bestimme x (k) R n als Lösung des Minimierungsproblems mit der Zielfunktion (4.2). min x R n P α k (x) (4.3) 3. Ist h(x (k) ) TOL: ENDE 4. Bestimme α k+1 > α k, setze k := k + 1, gehe zu Schritt 2. Für dieses Verfahren gilt die folgende Konvergenzaussage. Satz 4.4 Seien f und h stetig sowie (α k ) k N streng monoton wachsend mit α k. Die zulässige Menge X = {x R n : h(x) = 0} sei nichtleer und die Minimierungsprobleme (4.3) besitzen jeweils ein globales Minimum. Dann gilt 109

110 (i) Die Folge (P αk (x (k) )) k N wächst monoton, (ii) Die Folge ( h(x (k) ) ) k N fällt monoton, (iii) Die Folge (f(x (k) )) k N wächst monoton, (iv) lim k h(x (k) ) = 0, (v) Jeder Häufungspunkt der Folge (x (k) ) k N ist eine Lösung von (4.1). Beweis: (i) Wir erhalten (ii) Es gilt und damit P αk (x (k) ) P αk (x (k+1) ) P αk+1 (x (k+1) ). P αk (x (k) ) P αk (x (k+1) ) und P αk+1 (x (k+1) ) P αk+1 (x (k) ) P αk (x (k) ) + P αk+1 (x (k+1) ) P αk (x (k+1) ) + P αk+1 (x (k) ), α k h(x (k) ) 2 + α k+1 h(x (k+1) ) 2 α k h(x (k+1) ) 2 + α k+1 h(x (k) ) 2. Wir folgern ) (α k α k+1 ) ( h(x }{{} (k) ) 2 h(x (k+1) ) 2 0 <0 und somit h(x (k) ) h(x (k+1) ). (iii) Wir können abschätzen f(x (k) ) f(x (k+1) ) = P αk (x (k) ) α k 2 h(x (k) ) 2 ( P αk (x (k+1) ) α k 2 h(x (k+1) ) 2) ( ) = P αk (x (k) ) P αk (x (k+1) ) α k 2 h(x (k) ) 2 h(x (k+1) ) 2 }{{} 0 (ii) P αk (x (k) ) P αk (x (k+1) )

111 (iv) Nach Annahme besitzt die Zielfunktion P αk ein globales Minimum x (k). Es folgt P αk (x (k) ) = inf x R n P α k (x) inf x X P α k (x) = inf x X f(x) =: f (4.4) wegen P αk (x) = f(x) für x X. Insbesondere existiert das Infimum von f auf X. Die Ungleichung (4.4) besagt und dadurch f(x (k) ) + α k 2 h(x (k) ) 2 f für alle k N 0 α k 2 h(x (k) ) 2 f f(x (k) ) (iii) f f(x (0) ) für alle k N. Die Folge ( α k 2 h(x (k) ) 2 ) k N bleibt damit beschränkt. Wegen α k muss somit h(x (k) ) 0 gelten. (v) Sei x ein Häufungspunkt der Folge (x (k) ) k N. O.E.d.A. sei (x (k) ) k N eine gegen x konvergente Teilfolge. Es folgt wegen der Stetigkeit von h ( ) h(x ) = h lim k x(k) = lim h(x (k) ) (iv) = 0, k und daher ist x zulässig, d.h. x X. Aus dem Beweis von Aussage (iv) ergibt sich zudem sup P αk (x (k) ) inf f(x) = f. k N x X Weiter erhalten wir mit der Stetigkeit von f f(x ) = lim f(x (k) ) sup k k N f(x (k) ) sup P αk (x (k) ) inf f(x) = f. k N x X Also f(x ) = f und somit x eine Lösung von (4.1). Bemerkungen 4.5 (i) Die Annahmen in Satz 4.4 implizieren, dass das Infimum der Zielfunktion auf dem zulässigen Bereich existiert. Jedoch folgt nicht notwendigerweise die Existenz eines Minimums. Existiert jedoch ein Häufungspunkt der Folge von Näherungen, dann liegt auch ein globales Minimum vor. 111

112 (ii) Für alle x (k) gilt wegen (4.4) f(x (k) ) f(x (k) ) + α k 2 h(x (k) ) 2 = P αk (x (k) ) f. Zulässige Punkte x (k) erfüllen zudem f(x (k) ) inf x X f(x) = f. Erzeugt der Algorithmus 4.3 eine Näherung x (k) mit h(x (k) ) = 0, so ist x (k) bereits eine exakte Lösung von (4.1). (iii) Satz 4.4 verlangt keine Differenzierbarkeit von f und h. Deshalb bleibt er auch gültig, wenn man das allgemeine Problem min f(x), N.B. h(x) = 0, g(x) 0 in die Gestalt (4.1) umformt durch min f(x) N.B. h(x) = 0, max{0, g(x)} = 0 mit max{0, g(x)} = (max{0, g 1 (x)},..., max{0, g ng (x)}) R n g. Die zugehörige Strafterm-Funktion lautet P α (x) = f(x) + α 2 h(x) 2 + α 2 n g (max{0, g i (x)}) 2. i=1 iv) Nachteile des Strafterm-Ansatzes sind: Die Lösbarkeit der unrestringierten Probleme (4.3) ist nicht gesichert. Die benötigten Werte α k können sehr hoch werden, was zu numerischen Schwierigkeiten führt. Die Kondition der Teilprobleme wächst typischerweise mit ansteigenden Parameterwerten α, was ebenfalls numerische Schwierigkeiten bewirkt. Es besteht der folgende Zusammenhang mit KKT-Punkten der restringierten Optimierungsaufgabe. 112

113 Satz 4.6 Seien f und h in (4.1) stetig differenzierbar und es gelte lim k x(k) = x für die Näherungen (x (k) ) k N aus Algorithmus 4.3 oder einer Teilfolge davon. Ferner seien die Vektoren { h 1 (x ),..., h nh (x )} linear unabhängig. Dann gilt: (i) Die Folge µ (k) := α k h(x (k) ) konvergiert gegen einen Vektor µ R n h. (ii) Das Paar (x, µ ) ist ein KKT-Punkt der Optimierungsaufgabe (4.1), d.h. µ ist der gemäß Satz 2.23 eindeutig bestimmte Lagrange-Multiplikator zur Lösung x von (4.1). Beweis: (i) Seien A k := h x (x(k) ) bzw. A := h x (x ) die Funktionalmatrizen von h bei x (k) bzw. x. Nach Vorraussetzung sind die Ableitungen stetig und dadurch lim A k = A. k Nach Vorraussetzung besitzt die Matrix A R nh n vollen Rang, wodurch die Matrix A A R n h n h regulär ist. Für hinreichend hohes k ist dann auch A k A k regulär und zudem Aus der Gleichung lim (A ka k ) 1 = (A A ) 1. k n h 0 = P αk (x (k) ) = f(x (k) ) + α k h j (x (k) ) h j (x (k) ) (4.5) bzw. in Matrix-Vektor-Notation j=1 0 = f(x (k) ) + (α k h(x (k) )) A k folgt A k µ (k) = f(x (k) ), A k A k µ (k) = A k f(x (k) ). 113

114 Wir erhalten Grenzübergang zeigt µ (k) = (A k A k ) 1 A k f(x (k) ). lim k µ(k) = (A A ) 1 A f(x ) =: µ. (ii) Nach Satz 4.4 (v) ist der Grenzwert x ein globales Minimum von f unter der Nebenbedingung h(x) = 0. Satz 2.23 zeigt, dass x ein KKT- Punkt mit eindeutig bestimmten Lagrange-Multiplikator ist. Aus (4.5) folgt direkt durch Grenzübergang n h 0 = f(x ) + µ h j (x ), j=1 wodurch µ aus (i) der Lagrange-Multiplikator ist. Ausgehend vom gleichungsbeschränkten Problem (4.1) wurde die sogenannte äußere Strafterm-Methode in Algorithmus 4.3 entwickelt. Dabei befinden sich die Iterierten x (k) außerhalb des zulässigen Bereichs. Für ungleichungsbeschränkte Probleme min f(x) N.B. g(x) 0 (4.6) werden innere Strafterm-Methoden oder Barriere-Verfahren eingesetzt. Dabei soll eine Barriere-Funktion am Rand des zulässigen Bereichs verhindern, dass die Folge der Iterierten x (k) den zulässigen Bereich verlässt. Übliche Barriere-Funktionen sind B α (x) := f(x) α log( g i (x)) n g i=1 n g 1 B α (x) := f(x) α g i (x) i=1 (logarithmisch) (invers) mit Parameter α > 0. Jetzt wird für eine streng monoton fallende Nullfolge (α k ) k N die unrestringierte Optimierungsaufgabe min B α x R n k (x) 114

115 gelöst in der Hoffnung, dass die Folge der Lösungen (x (k) ) k N gegen eine Lösung von (4.6) konvergiert. Sind f und g stetig differenzierbar, dann ist auch die Barriere-Funktion stetig differenzierbar. Bei diesem Ansatz ergeben sich analoge Schwierigkeiten wie bei den äußeren Strafterm-Methoden. Um bessere Strafterm-Verfahren zu erhalten wird das folgende Konzept verwendet. Definition 4.7 Betrachtet wird eine restringierte Optimierungsaufgabe min f(x) N.B. g(x) 0, h(x) = 0 (4.7) mit stetig differenzierbaren Funktionen f, g, h. Eine Funktion der Gestalt P α (x) := f(x) + αr(x) (4.8) mit stetiger Funktion r : R n R und den Eigenschaften r(x) 0 für alle x R n r(x) = 0 genau dann, wenn x zulässig heißt exakte Strafterm-Funktion in einem lokalen Minimum x von (4.7), wenn es ein ᾱ > 0 gibt, so dass x für alle α ᾱ auch ein lokales Minimum von P α ist. Bemerkungen 4.8 (i) Nicht jede Strafterm-Funktion der Form (4.8) mit einer Funktion r der obigen Eigenschaft ist exakt. (ii) Bei einer exakten Strafterm-Funktion muss in Algorithmus 4.3 der Parameter α k nicht mehr gegen unendlich getrieben werden, weil α > ᾱ hinreichend ist. (iii) Exakte Strafterm-Funktionen werden auch zur effizienten Lösung von Trust-Region-Teilproblemen eingesetzt, siehe Abschnitt 3.7. (iv) Ein Nachteil der exakten Strafterm-Funktion vom Typ (4.8) ist, dass durch die Funktion r die Differenzierbarkeit verloren geht. Dies zeigt der anschließende Satz. 115

116 Satz 4.9 Sei x ein lokales Minimum der Optimierungsaufgabe (4.6) mit f(x ) 0. Die Strafterm-Funktion P α aus (4.8) sei exakt bei x. Dann ist die Funktion r in x nicht differenzierbar. Beweis: Wir verwenden einen indirekten Beweis. Die Annahme lautet, dass r differenzierbar in x ist. Damit ist auch P α differenzierbar in x. Für α 1, α 2 ᾱ gilt dadurch 0 = P α1 (x ) = f(x ) + α 1 r(x ), 0 = P α2 (x ) = f(x ) + α 2 r(x ). Mit α 1 α 2 folgt daraus r(x ) = 0. Dadurch wäre f(x ) = 0 im Widerspruch zur Voraussetzung im Satz. Beispiele 4.10 Eine typische Klasse von exakten Strafterm-Funktionen ergibt sich durch die Wahl r(x) := g + (x), h(x) q bzw. die Zielfunktion P α,q (x) = f(x) + α g + (x), h(x) q (4.9) mit g + (x) := max{0, g(x)} und der l q -Norm ( n ) 1 q z i q für 1 q <, z q := i=1 max z i für q =. i=1,...,n Für q = 1 ergibt sich die l 1 -Strafterm-Funktion n h P α,1 (x) = f(x) + α h j (x) + α g i+ (x). (4.10) j=1 n g i=1 116

117 Für q = folgt die l -Strafterm-Funktion P α, (x) = f(x) + α max{0, h 1 (x),..., h nh (x), g 1 (x),..., g ng (x)}. Für q = 2 lautet die l 2 -Strafterm-Funktion P α,2 (x) = f(x) + α ( nh h j (x) 2 + j=1 n g i=1 g i+ (x) 2 ) 1 2. Den Beweis der Exaktheit dieser Straftermfunktionen führen wir nur für einen Spezialfall durch. Satz 4.11 Wenn P α,q aus (4.9) für ein q [1, ] exakt in einem lokalen Minimum x von P α,q ist, dann ist auch P α,q exakt für alle q [1, ]. Beweis: Für α ᾱ und x aus einer Umgebung von x gilt P α,q (x ) P α,q (x). Alle Normen in R n g Rn h sind äquivalent, d.h. es gibt reellwertige Konstanten 0 < c 1 < 1 < c 2 mit c 1 z q z q c 2 z q für alle z R n g R n h. Für alle α ᾱ und alle x aus einer Umgebung von x folgt P c2 α,q (x ) = f(x ) + c 2 α g + (x ), h(x ) q = f(x ) = f(x ) + α g + (x ), h(x ) q = P α,q (x ) P α,q (x) f(x) + c 2 α g + (x), h(x) q = f(x) + α g + (x), h(x) q = P c2 α,q (x). Somit ist x auch lokales Minimum von P α,q für alle α ᾱ := c 2 ᾱ, d.h. ist ebenfalls eine exakte Strafterm-Funktion. P α,q Einen Beweis der Exaktheit führen wir nun im Spezialfall einer konvexen Optimierungsaufgabe. 117

118 Satz 4.12 Sei (x, λ, µ ) ein KKT-Punkt der restringierten Optimierungsaufgabe min f(x), N.B. g(x) 0, h(x) = 0 mit f, g konvex und h j (x) = b j x β j mit b j R n, β j R für j = 1,..., n h. Dann ist die l 1 -Strafterm- Funktion P α,1 aus (4.9) exakt in x. Beweis: Da ein konvexes Optimierungsproblem vorliegt, liefert das Sattelpunkt- Theorem 2.40 die Ungleichung L(x, λ, µ ) L(x, λ, µ ) mit der Lagrange-Funktion. Desweiteren sei für alle x R n ᾱ := (λ, µ ) = max{ µ 1,..., µ n h, λ 1,..., λ n g }. Mit den sonstigen Eigenschaften eines KKT-Punkts und insbesondere x zulässig erhalten wir für α ᾱ P α,1 (x ) = f(x ) + α g + (x ), h(x ) 1 = f(x ) n g n h = f(x ) + λ i g i (x ) + µ jh j (x ) i=1 j=1 = L(x, λ, µ ) L(x, λ, µ ) n g n h = f(x) + λ i g i (x) + µ jh j (x) i=1 n g j=1 n h f(x) + λ i max{0, g i (x)} + µ j h j (x) i=1 n g j=1 n h f(x) + ᾱ max{0, g i (x)} + ᾱ h j (x) i=1 = Pᾱ,1 (x) P α,1 (x) mit x beliebig. Also ist x tatsächlich ein globales Minimum von P α,1 falls α ᾱ. Satz 4.11 und Satz 4.12 liefern die nächste Schlussfolgerung. 118 j=1

119 Korollar 4.13 Seien f, g, h sowie (x, λ, µ ) wie in Satz Dann gilt für alle q [1, ], dass P α,q exakt in x ist. Bemerkungen 4.14 Ein lokales Minimum x einer restringierten Optimierungsaufgabe bildet sicher einen KKT-Punkt, wenn die Slater-Bedingung aus Def gilt oder alle Nebenbedingungen linear sind. Analog kann man die Exaktheit von P α,q im Fall der algemeinen nichtlinearen Aufgabenstellung zeigen, wenn bei x die MFCQ-Bedingung aus Def erfüllt ist. Ein quadratisches Trust-Region-Teilproblem, siehe Abschnitt 3.7, erfüllt bei positiver Definitheit der Hesse-Matrix die Konvexitätsbedingung. Gleichungsnebenbedingungen existieren dann nicht und es tritt nur die konvexe Ungleichungsnebenbedingung g(x) = x x ρ 2 0 auf. 4.2 Verfahren für quadratische Probleme mit linearen Nebenbedingungen Wir betrachten zunächst quadratische Problem mit linearen Gleichungsnebenbedingungen min f(x) = 1 2 x Ax + b x + c N.B. h j x = χ j, j = 1,..., n h, (4.11) mit symmetrischer Matrix A R n n ohne Aussage über die Definitheit, b R n, c R und h j R n, χ j R für j = 1,..., n h. Wir fassen die Nebenbedingungen in der Matrix-Vektor-Notation Hx = χ zusammen mit h 1 h 2 H :=. Rn h n, χ := h n h Bei dieser Optimierungsaufgabe gilt der folgende Satz. 119 χ 1 χ 2. χ nh Rn h. (4.12)

120 Satz 4.15 Ein Paar (x, µ ) R n R n h ist genau dann ein KKT-Punkt von (4.11), wenn (x, µ ) Lösung des linearen Gleichungssystems ( ) ( ) ( ) A H x b = (4.13) H 0 µ χ ist. Beweis: Die KKT-Bedingungen zum speziellen Optimierungsproblem (4.11) lauten n h x A + b + µ jh j = 0, j=1 h j x = χ j für j = 1,..., n h. Dies kann in Matrix-Vektor-Notation geschrieben werden, wobei der erste Teil transponiert wird. Wegen der Voraussetzung der Symmetrie gilt hierbei A = A. Es folgt das lineare Gleichungssystem Ax + H µ = b, Hx = χ, wodurch die behauptete Äquivalenz erkennbar wird. Die Suche nach KKT-Punkten lässt sich damit auf die Lösung eines linearen Gleichungssystems zurückführen. Es gilt noch eine weitere Aussage in diesem Zusammenhang. Satz 4.16 Für zwei KKT-Punkte (x, µ) und (y, ν) zur Optimierungsaufgabe (4.11) gilt f(x) = f(y). Beweis: Nach Satz 4.15 erfüllen beide KKT-Punkte das lineare Gleichungssystem (4.13). Insbesondere ist mit x := y x und µ := ν µ daher A x + H µ = 0 H x =

121 Es folgt 0 = x A x + x H µ = x A x + (H x) µ = x A x. Wir erhalten mit der Symmetrie von A und o.e.d.a. c = 0 f(y) = 1 2 (x + x) A(x + x) + b (x + x) = 1 2 x Ax + b x x A x + (Ax + b) x = f(x) + ( H µ) x = f(x) µ H x = f(x), d.h. die gewünschte Aussage ist gezeigt. Bezüglich der Lösbarkeit des linearen Gleichungssystems (4.13) können wir noch folgende Information geben. Satz 4.17 Ist die Matrix A symmetrisch, positiv oder negativ definit und hat die Matrix H vollen Rang, dann ist die Koeffizientenmatrix des Gleichungssystems (4.13) regulär. Beweis: Das homogene Gleichungssystem mit dieser Koeffizientenmatrix lautet Ax + H µ = 0, Hx = 0. Aus dem ersten Anteil erhalten wir wegen der Regularität von A x = A 1 H µ. (4.14) Einsetzen in den zweiten Anteil liefert HA 1 H µ = 0 und somit auch µ HA 1 H µ = (H µ) A 1 (H µ) = 0. Da mit A auch A 1 definit ist, muss H µ = 0 gelten. Weil H vollen Rang besitzt, folgt µ = 0. Einsetzen von µ = 0 in (4.14) zeigt x = 0. Also hat das homogene Gleichungssystem nur die triviale Lösung. 121

122 Die Bedingung der linearen Unabhängigkeit der Vektoren {h 1,..., h nh } ist äquivalent zu rang(h) = n h. Unter dieser Annahme gibt es zu einem lokalen Minimum von (4.11) laut Satz 2.23 einen eindeutig bestimmten Lagrange- Multiplikator µ, so dass (x, µ ) ein KKT-Punkt ist. Das lineare Gleichungssystem (4.13) besitzt dann mindestens eine Lösung. Die Formel aus dem nächsten Lemma ist nur von Interesse, weil sie später in einem erweiterten Kontext eingesetzt wird. Lemma 4.18 (Algorithmische Variante von Satz 4.15) Sei x (k) ein zulässiger Punkt der restringierten Optimierungsaufgabe (4.11). Dann ist (x (k) + x, µ ) genau dann ein KKT-Punkt von (4.11), wenn ( x, µ ) eine Lösung des linearen Gleichungssystems ( ) ( ) ( ) A H x f(x = (k) ) H 0 µ 0 ist. Beweis: Wegen Satz 4.15 ist (x (k) + x, µ ) genau dann ein KKT-Punkt, wenn er das lineare Gleichungssystem ( ) ( ) ( ) A H x (k) + x b = H 0 χ erfüllt. Dies ist gleichbedeutend mit ( ) ( ) ( ) ( ) ( ) ( ) A H x b A H x (k) b Ax (k) H 0 µ = = χ H 0 0 χ Hx (k). µ Weil f(x (k) ) = Ax (k) + b und Hx (k) = χ wegen x (k) zulässig gilt, folgt das behauptete lineare Gleichungssystem. Jetzt betrachten wir das allgemeinere Optimierungsproblem min f(x) = 1 2 x Ax + b x + c N.B. h j x = χ j, j = 1,..., n h (4.15) gi x γ i, i = 1,..., n g 122

123 mit wieder A R n n symmetrisch sowie b R n, c R, h j R n, χ j R für j = 1,..., n h und g i R n, γ i R für i = 1,..., n g. Diese Optimierungsaufgabe erfordert nun eine iterative Lösung. Sukzessive wird die Menge der aktiven Ungleichungsnebenbedingungen angepasst und diese in der aktuellen Iteration als Gleichungsrestiktionen berücksichtigt. Dieses Vorgehen wird als die Strategie der aktiven Mengen bezeichnet. Es sei wie in Def. 2.7 I(x (k) ) = {i : g i x (k) = γ i } {1,..., n g } die Menge der bei x (k) aktiven Indizes und G k {1,..., n g } eine geeignete Approximation an I(x (k) ). Wir fassen die Vektoren wieder in Matrizen zusammen wie in (4.12) für die Gleichungsnebenbedingungen und gi 1 gi G k := 2. R G k n gi Gk für die aktiven Ungleichungsnebenbedingungen. Damit lässt sich ein Algorithmus konstruieren. Algorithmus 4.19 (Strategie der aktiven Menge für (4.15)) 1. Wähle x (0) R n zulässig und λ (0) R n g, µ(0) R n h. Setze G 0 := I(x (0) ) und k := Ist (x (k), λ (k), µ (k) ) ein KKT-Punkt von (4.15): ENDE 3. Setze λ (k+1) i := 0 für i / G k. Bestimme ( x (k), λ (k+1) G k, µ (k+1) ) als Lösung des Gleichungssystems A G k H x f(x (k) ) G k 0 0 λ Gk = 0. (4.16) H 0 0 µ 0 123

124 4. Fallunterscheidung: a) Ist x (k) = 0 und λ (k+1) i b) Ist x (k) = 0 und min{λ (k+1) i und setze Gehe zu Schritt 5. λ (k+1) q 0 für alle i G k : ENDE : i G k } < 0, so bestimme q mit { } = min λ (k+1) i : i G k x (k+1) := x (k), G k+1 := G k \{q}. c) Ist x (k) 0 und x (k) + x (k) zulässig, so setze Gehe zu Schritt 5. x (k+1) := x (k) + x (k), G k+1 := G k. d) Ist x (k) 0 und x (k) + x (k) nicht zulässig, so bestimme r mit γ r gr x (k) { γi g } i = min x(k) gr x (k) gi : i / G k, g x(k) i x (k) > 0. Setze Gehe zu Schritt 5. t k := γ r g r x (k) g r x (k), x (k+1) := x (k) + t k x (k), G k+1 := G k {r}. 5. Setze k := k + 1 und gehe zu Schritt 2. Bemerkungen 4.20 (i) Die Iterierten x (k) bleiben immmer zulässig, denn falls x (k) + x (k) nicht zulässig auftritt, wird der reduzierte Schritt (siehe Fall 4d) x (k+1) = x (k) + t k x (k), t k 0 124

125 verwendet, so dass x (k+1) gerade noch zulässig ist. Für i G k ist gi x (k+1) = gi x (k) + t k gi x }{{ (k) γ } i =0 und für i / G k zusammen mit g i x(k) 0 folgt gi x (k+1) = gi x (k) + t k gi x }{{ (k) γ } i, 0 so dass nur die i / G k mit g i x(k) > 0 interessant sind. Damit x (k+1) zulässig bleibt muss also gelten was äquivalent ist zu γ i gi x (k+1) = gi x (k) + t k gi x }{{ (k), } >0 t k γ i g i x(k) g i x(k). Es ist notwendigerweise t k < 1. Denn im Fall (d) ist x (k) + x (k) nicht zulässig und somit gibt es ein ī / G k mit Dadurch ist γī < g ī (x (k) + x (k) ) = g ī x (k) + g ī x (k). weil x (k) zulässig ist. Es folgt g ī x (k) > γī g ī x (k) 0, t k γ ī g ī x (k) g ī x (k) < 1. (ii) Aus Satz 4.15 und Lemma 4.18 zusammen folgt, dass das jeweilige Tripel (x (k) + x (k), λ (k+1) G k, µ (k+1) ) einen KKT-Punkt der restrigierten Optimierungsaufgabe min f(x) = 1 2 x Ax + b x + c N.B. h j x = χ j, j = 1,..., n h (4.17) gi x = γ i, i G k 125

126 darstellt. Ist x (k) = 0, und λ (k+1) G k 0, dann ist das Tripel (x (k), λ (k+1) G k, µ (k+1) ) auch ein KKT-Punkt der ursprünglichen restringierten Optimierungsaufgabe (4.15). Dies begründet das Abbruchkriterium in Schritt 4a des Algorithmus Es gilt nämlich n g n h 0 = f(x) + λ i gi + µ j h j = f(x) + n h λ i gi + µ j h j i G k i=1 j=1 wegen λ i = 0 für i / G k nach Konstruktion in Schritt 3. Dadurch erhalten wir n g i=1 λ (k+1) i (gi x (k) γ i ) = λ (k+1) i (gi x (k) γ i ) = 0, }{{} i G k =0 wegen (4.17) wodurch auch diese KKT-Bedingung erfüllt ist. Ist x (k) = 0 und λ (k+1) i < 0 für ein i G k, dann handelt es sich noch nicht um einen KKT-Punkt von (4.15). Andererseits kann man unter Beibehaltung der aktuellen Gleichungsrestriktionen in G k keinen besseren KKT-Punkt von (4.17) finden wegen Satz Daher werden die Restriktionen gelockert und ein Index wird aus der Menge G k entfernt, was als Inaktivierungsschritt (Schritt 4b) bezeichnet wird. (iii) Im Aktivierungsschritt (Schritt 4d) ist die Minimumbildung wohldefiniert. Denn wäre {i : i / G k, g i x(k) > 0} =, dann wäre j=1 gi (x (k) + x (k) ) = gi x (k) + gi x }{{ (k) γ } i 0 für alle i / G k und auch gi (x (k) + x (k) ) = gi x (k) + gi x }{{ (k) γ } i für alle i G k, =0 (4.16) d.h. x (k) + x k wäre sogar zulässig für die ursprüngliche restringierte Optimierungsaufgabe (4.15). 126

127 (iv) In Schritt 4d ist eine Schrittweite t k = 0 möglich. Dies bedeutet dann, dass die r-te Ungleichung bei x (k) aktiv ist, d.h. r I(x (k) ), jedoch r / G k gilt. Entsprechend wird jetzt x (k+1) = x (k) gesetzt und r zur Approximation G k hinzugefügt. Der Fall t k = 0 ist ausgeschlossen, wenn G k = I(x (k) ) vorliegt. (v) Für Schritt 1 wird ein Startwert x (0) benötigt, der zulässig für die restringierte Optimierungsaufgabe (4.15) ist. Dieser Startwert kann mit den gleichen Verfahren bestimmt werden wie eine zulässige Basislösung für den Simplex-Algorithmus bei linearen Optimierungsaufgaben, da die Nebenbedingungen in (4.15) alle linear sind. (vi) Die Lösbarkeit des linearen Gleichungssystems (4.16) ist im allgemeinen Fall nicht gesichert. Für eine positiv definite Matrix A und lineare unabhängige Vektoren bei den Nebenbedingungen kann die Lösbarkeit garantiert werden. Satz 4.21 Gegeben sei die restringierte Optimierungsaufgabe (4.15). (i) Ist A symmetrisch sowie positiv definit und sind die Vektoren g i für i G k zusammen mit h j für j = 1,..., n h linear unabhängig, dann ist das lineare Gleichungssystem (4.16) in Algorithmus 4.19 eindeutig lösbar. (ii) Sind im k-ten Schritt von Algorithmus 4.19 die Vektoren g i für i G k und h j für j = 1,..., n h linear unabhängig und der Fall 4a tritt nicht ein, dann sind auch die Vektoren g i für i G k+1 zusammen mit h j für j = 1,..., n h linear unabhängig. (iii) Ist A symmetrisch und positiv definit, dann gilt in Fall 4c und Fall 4d stets f(x (k) ) x (k) < 0 (Abstriegsrichtung) sowie in allen Fällen f(x (k+1) ) f(x (k) ) für alle k, f(x (k+1) ) < f(x (k) ) falls x (k+1) x (k). 127

128 Beweis: (i) Der Nachweis erfolgt analog zum Beweis von Satz (ii) In den Fällen 4b und 4c gilt jeweils G k+1 G k, wodurch die Behauptung offensichtlich ist. Im Fall 4d gilt G k+1 = G k {r}, wobei r / G k mit g r x (k) > 0. Wir verwenden indirekten Beweis. Die Annahme sei, dass g r linear abhängig von den bisherigen Vektoren ist, d.h. Es würde folgen g r = n h α i g i + β j h j. i G k j=1 gr x (k) = n h α i gi x }{{ (k) + } i G k =0 (4.16) j=1 Dies ist ein Widerspruch zu g r x (k) > 0. (iii) Nach dem linearen Gleichungssystem (4.16) gilt β j h j x (k) = 0. }{{} =0 (4.16) A x (k) + G k λ (k+1) G k + H µ (k+1) = f(x (k) ). Multiplikation mit x (k) führt auf x (k) A x (k) + (G k x (k) ) λ (k+1) G k = f(x (k) ) x (k). + (H x (k) ) µ (k+1) Das lineare Gleichungssystem (4.16) besagt nun G k x (k) H x (k) = 0. Somit folgt = 0 und x (k) A x (k) = f(x (k) ) x (k). (4.18) Die positive Definitheit von A und x (k) 0 in Schritt 4c und 4d liefert jetzt die Ungleichung f(x (k) ) x (k) <

129 Desweitern ergibt sich aus der quadratischen Zielfunktion in (4.15) mit o.e.d.a. c = 0 für t R f(x (k) + t x (k) ) = 1 2 x(k) Ax (k) + tx (k) A x (k) t2 x (k) A x (k) + b x (k) + tb x (k) = f(x (k) ) + t f(x (k) ) x (k) t2 x (k) A x (k) (4.18) = f(x (k) ) + t f(x (k) ) x (k) 1 2 t2 f(x (k) ) x (k) = f(x (k) ) + f(x (k) ) x (k) [ t(1 1 2 t)]. In Fall 4c und Fall 4c gilt f(x (k) ) x (k) < 0. Der Schritt 4c entspricht t = 1 und in Schritt 4d bedeutet x (k+1) x (k) die Verwendung einer Schrittweite t = t k (0, 1). Somit ergibt sich in diesen Fällen jeweils f(x (k+1) ) < f(x (k) ). Begründung der Endlichkeit von Algorithmus 4.19 Wir erläutern, dass unter gewissen Annahmen der Algorithmus 4.19 nach endlich vielen Durchläufen bei einem KKT-Punkt der ursprünglichen restringierten Optimierungsaufgabe (4.15) ankommt. Diese Annahmen lauten: (i) Die Matrix A ist symmetrisch und positiv definit. (ii) Das Vektorensystem {g 1,..., g ng, h 1,..., h nh } ist linear unabhängig. (iii) Ein Zyklus zwischen Fall 4b und Fall 4d mit t k = 0 tritt nicht auf. Ein Zyklus zwischen den Fällen 4b und 4d mit t k = 0 kann theoretisch in Algorithmus 4.19 auftreten. Dabei bleibt dann die Näherung x (k) unverändert und es werden abwechselnd Gleichungsnebenbedingungen in Schritt 4b entfernt und diese in Schritt 4d wieder hinzugenommen. Dieser Fall ist ähnlich den Zyklen, die beim gewöhnlichen Simplex-Verfahren vorliegen können. Durch geeignete Modifikationen in Algorithmus 4.19 kann ein solcher Zyklus noch ausgeschlossen werden. 129

130 Entscheidend ist die Beobachtung, dass die Anzahl der möglichen Hilfsoptimierungsaufgaben (4.17) gleich 2 n g ist, d.h. endlich. Mit der Annahme (ii) folgt aus Satz 4.15 und Satz 4.17, dass jede Hilfsaufgabe (4.17) genau einen KKT-Punkt besitzt. Also ist die Anzahl dieser möglichen KKT-Punkte endlich. Desweiteren ist Aussage (iii) aus Satz 4.21 wesentlich. Erreichen wir einen KKT-Punkt (x (k+1), λ (k+1) G k, µ (k+1) ) eines Hilfsoptimierungsproblems (4.17) mit x (k+1) x (k), dann stimmt dieser KKT-Punkt wegen f(x (k+1) ) < f(x (l) ) für alle l k mit keinem der zuvor aufgetretenen KKT-Punkte überein. Es verbleibt zu begründen, dass nach jeweils endlich vielen Schritten ein neuer KKT-Punkt eines Hilfsproblems (4.17) erreicht wird, sofern nicht in Schritt 2 oder Schritt 4a schon erfolgreich abgebrochen wird. In Fall 4b ergibt sich ein KKT-Punkt, bei dem jedoch die Iterierte x (k) unverändert bleibt. Tritt Fall 4c ein, dann entsteht ein KKT-Punkt mit einer neuen Näherung x (k+1) und x (k+1) x (k). Es kann nicht beliebig oft hintereinander nur der Fall 4b oder nur der Fall 4d auftreten, denn beim einen wird die Menge G k immer verkleinert und beim anderen wird G k immer vergrößert. Also muss es Wechsel zwischen diesen Fällen geben, solange nicht Fall 3c eintritt. Ein Zyklus zwischen Fall 4b und Fall 4d mit t k = 0 ist nach Annahme (iii) ausgeschlossen. Somit muss in Schritt 4d einmal t k > 0 auftreten, wodurch sich die Iterierte x (k) zu x (k+1) verändert. Nach endlich vielen Durchläufen tritt entweder Fall 4c oder Fall 4b ein. Bei Fall 4c folgt ein neuer KKT-Punkt. Bei Fall 4b erweist sich das aktuelle x (k) dann als Bestandteil eines neuen KKT-Punkts. Desweiteren sei noch bemerkt, dass ein globales Minimum x von (4.15) mit Annahme (ii) auch Bestandteil eines KKT-Punkts von (4.15) ist. Dann ist x auch globales Minimum der Hilfsaufgabe (4.17) mit G k = {1,..., n g }. Wieder mit Annahme (ii) ist x auch Bestandteil eines KKT-Punkts von (4.17). Bemerkung: Die Strategie der aktiven Mengen lässt sich auch auf Minimierungsprobleme mit allgemeiner nichtlinearer Zielfunktion und linearen Nebenbedingungen übertragen. 130

131 4.3 SQP-Verfahren Beim Verfahren des sequential quadratic programming (SQP) wird eine allgemeine nichtlineare restringierte Optimierungsaufgabe auf eine Folge von Optimierungsproblemen mit quadratischer Zielfunktion und linearen Nebenbedingungen zurückgeführt. Wir betrachten zunächst die Optimierungsaufgabe min f(x) N.B. h(x) = 0 (4.19) mit f : R n R und h : R n R n h zweimal stetig differenzierbar. Unter geeigneten Regularitätsvoraussetzungen (siehe Abschnitt 2.1) existiert zu einem lokalen Minimum x von (4.19) ein KKT-Punkt (x, µ ), d.h. n h x L(x, µ ) = f(x ) + µ j h j (x ) = 0 j=1 h(x ) = 0. Der KKT-Punkt stellt somit eine Nullstelle der Funktion ( ) F : R n R n h R n R n h x L(x, µ), F (x, µ) = h(x) dar. Es bezeichne DF die Funktionalmatrix von F. Die Idee des Lagrange- Newton-Verfahrens ist es, das Newton-Verfahren (siehe z.b. Abschnitt 5.1 in [11]) zur iterativen Bestimmung einer Nullstelle von F einzusetzen. Algorithmus 4.22 (Lagrange-Newton-Verfahren) 1. Wähle (x (0), µ (0) ) R n R n h und setze k := Ist F (x (k), µ (k) ) < TOL: ENDE 3. Berechne ( x (k), µ (k) ) als Lösung des linearen Gleichungssystems ( ) x DF (x (k), µ (k) ) = F (x (k), µ (k) ). µ 131

132 4. Setze x (k+1) := x (k) + x (k), µ (k+1) := µ (k) + µ (k) und k := k + 1. Gehe zu Schritt 2. Das Newton-Verfahren zur Nullstellenbestimmung ist lokal superlinear konvergent (bzw. sogar quadratisch konvergent falls DF noch lokal Lipschitzstetig ist) unter der Voraussetzung, dass die Funktionalmatrix DF (x, µ ) regulär ist. Dazu gibt der folgende Satz eine Information. Satz 4.23 Sei (x, µ ) ein KKT-Punkt der Optimierungsaufgabe (4.19). Desweiteren gelte (i) Die Gradienten h 1 (x ),..., h nh (x ) sind linear unabhängig (LICQ aus Def. 2.21), (ii) d 2 xxl(x, µ )d > 0 für alle d 0 mit h j (x )d = 0 für j = 1,..., n h (hineichende Optimalitätsbedingung aus Satz 2.41). Dann ist die Funktionalmatrix DF (x, µ ) regulär. Beweis: Es sei DF (x, µ )q = 0. Wir zeigen q = 0. Dazu wird die Zerlegung q = (r, s) mit r R n und s R n h h verwendet. Desweiteren ist x Rn h Rn die Funktionalmatrix von h. Wegen ( ) DF = 2 xxl h x h x 0 folgt und n h 2 xxl(x, µ )r + s j h j (x ) = 0 (4.20) j=1 h j (x )r = 0 für j = 1,..., n h. (4.21) 132

133 Aus (4.20) erhalten wir durch Multiplikation mit r von links n h 0 = r 2 xxl(x, µ )r + j=1 s j r h j (x ) = r 2 }{{} xxl(x, µ )r. =0 wegen (4.21) Wegen (4.21) erfüllt r die Eigenschaft in der Voraussetzung (ii) falls noch zusätzlich r 0 gilt. Dadurch muss r = 0 gelten, weil sonst ein Widerspruch entsteht. Wieder mit (4.20) zeigt sich n h j=1 s j h j (x ) = 0. Mit der linearen Unabhängigkeit der Vektoren aus Voraussetzung (i) folgt s = 0. Das Lagrange-Newton-Verfahren sucht nur nach einem KKT-Punkt der Optimierungsaufgabe (4.19). Ob es sich dabei um ein Minimum oder ein Maximum oder keines von beiden handelt spielt keine Rolle. Insbesondere ist dieser Ansatz auch kein Abstiegsverfahren. Zur Vermeidung dieses Problems stellen wir folgende Überlegungen an. Das lineare Gleichungssystem in Algorithmus 4.22 lautet 2 xxl(x (k), µ (k) ) x (k) + h x (x(k) ) µ (k) = ( x L(x (k), µ (k) )) h j (x (k) ) x (k) = h j (x (k) ), j = 1,..., n h. Ersetzen wir für die Lagrange-Funktion die Hesse-Matrix 2 xxl durch eine Approximation L k 2 xxl(x (k), µ (k) ) und verwenden wir dann folgt daraus n h x L = f + j=1 µ j h j = f + µ h x, L k x (k) + f(x (k) ) + h x (x(k) ) (µ (k) + µ (k) ) = 0 h j (x (k) ) x (k) = h j (x (k) ), j = 1,..., n h. 133

134 Somit ist das Paar ( x (k), µ (k) + µ (k) ) ein KKT-Punkt zur Optimierungsaufgabe min x 1 2 x L k x + f(x (k) ) x N.B. h j (x (k) ) + h j (x (k) ) x = 0 für j = 1,..., n h. Diese Beobachtung wird nun auf Probleme mit Gleichungs- und Ungleichungsnebenbedingungen verallgemeinert. Es sei das restringierte Optimierungsproblem min f(x) N.B. g(x) 0, h(x) = 0 (4.22) mit f : R n R, g : R n R n g, h : Rn R n h zweimal stetig differenzierbar gegeben. Es sei L k := 2 xxl(x (k), λ (k), µ (k) ) oder eine Approximation dieser Hesse-Matrix, Eine Grundversion des SQP-Verfahrens ergibt sich jetzt. Algorithmus 4.24 (Lokales SQP-Verfahren) 1. Wähle (x (0), λ (0), µ (0) ) R n R n g Rn h und setze k := Ist (x (k), λ (k), µ (k) ) ein KKT-Punkt von (4.22): ENDE 3. Berechne einen KKT-Punkt (x (k+1), λ (k+1), µ (k+1) ) aus dem quadratischen Teilproblem: min 1 2 (x x(k) ) L k (x x (k) ) + f(x (k) )(x x (k) ) N.B. g(x (k) ) + g x (x(k) )(x x (k) ) 0 h(x (k) ) + h x (x(k) )(x x (k) ) = 0. (4.23) 4. Besitzt dieses quadratische Teilproblem mehrere KKT-Punkt, so wähle (x (k+1), λ (k+1), µ (k+1) ) derart, dass der Abstand (x (k+1), λ (k+1), µ (k+1) ) (x (k), λ (k), µ (k) ) minimal wird. 5. Setze k := k + 1. Gehe zu Schritt

135 Zu diesem Verfahren ergibt sich eine theoretische Aussage. Satz 4.25 Sei (x, λ, µ ) ein KKT-Punkt der Optimierungsaufgabe (4.22). Desweiteren gelte (i) g i (x ) + λ i 0 für alle i = 1,..., n g (strikte Komplementarität), (ii) Die Gradienten h j (x ) für j = 1,..., n h zusammen mit g i (x ) für i I(x ) sind linear unabhängig (LICQ aus Def. 2.21), (iii) d 2 xxl(x, λ, µ )d > 0 für alle d 0 mit gleichzeitig h j (x )d = 0 für j = 1,..., n h und g i (x )d = 0 für i I(x ) (hineichende Optimalitätsbedingung aus Satz 2.41). Dann gibt es ein ε > 0, so dass für alle (x (0), λ (0), µ (0) ) B ε (x, λ, µ ) in Algorithmus 4.24 gilt 1. Die Teilprobleme (4.23) besitzen jeweils Lösungen und die Folge der Näherungen (x (k), λ (k), µ (k) ) konvergiert gegen (x, λ, µ ). 2. Die Konvergenzgeschwindigkeit ist superlinear. 3. Sind 2 f, 2 g i für i = 1,..., n g, 2 h j für i = 1,..., n h lokal Lipschitzstetig, dann ist die Konvergenzgeschwindigkeit sogar quadratisch. Beweis: siehe Satz 5.31 in [7]. Bemerkungen 4.26 (i) Das Teilproblem (4.23) in Algorithmus 4.24 besitzt eine quadratische Zielfunktion zusammen mit lineare Nebenbedingungen und ist somit durch die Strategie der aktiven Mengen in Algorithmus 4.19 lösbar. (ii) Für Startwerte außerhalb der Umgebung B ε (x, λ, µ ) sind die Aussagen von Satz 4.25 im allgemeinen nicht korrekt. 135

136 (iii) Die Auswahl eines speziellen KKT-Punkts in Schritt 4 aus Algorithmus 4.24 ist praktisch kaum durchführbar und muss in konkreten Implementierungen durch andere Bedingungen ersetzt werden. Zur Globalisierung des SQP-Verfahrens werden wir zeigen, dass die Lösung x (k) des quadratischen Teilproblems eine Abstiegsrichtung bezüglich der exakten l 1 -Strafterm-Funktion P α,1 aus (4.10) darstellt. Da die Funktion P α,1 nicht überall differenzierbar ist, müssen wir mit Richtungsableitungen arbeiten. Definition 4.27 Eine Funktion Θ : D R mit D R n offen heißt in einem Punkt x D in Richtung d R n \{0} richtungsdifferenzierbar, wenn der Grenzwert Θ Θ(x + td) Θ(x) (x, d) := lim t 0+ t existiert. Falls die Funktion Θ (total) differenzierbar ist im üblichen Sinne, dann existiert die Richtungsableitung für alle d und es folgt Θ (x, d) = f(x)d. Wir erhalten die folgenden Richtungsableitungen für die Abbildungen in der Strafterm-Funktion (4.10). Lemma 4.28 (i) Für die Betragsfunktion Θ : R R, x x lautet die Richtungsableitung d für x > 0 Θ (x, d) = d für x = 0 d für x < 0. (ii) Für die Maximumfunktion Θ : R R, x max{0, x} lautet die Richtungsableitung d für x > 0 Θ (x, d) = max{0, d} für x = 0 0 für x <

137 Beweis: siehe Lemma 5.32 in [7]. Es gilt noch eine Kettenregel für die Richtungsableitung. Lemma 4.29 Wenn für r : R n R und Θ : R R gilt (i) r ist richtungsdifferenzierbar in x für alle d R n \{0}, (ii) Θ ist richtungsdifferenzierbar in r(x) für alle d 0, (iii) Θ ist lokal Lipschitz-stetig in r(x), dann ist auch f = Θ r richtungsdifferenzierbar in x und es gilt f (x, d) = Θ (r(x), r (x, d)) für alle d R n \{0}. Beweis: Die Aussage ist ein Spezialfall von Satz 5.33 in [7]. Damit ergibt sich die nächste Eigenschaft. Satz 4.30 Die l 1 -Strafterm-Funktion P α,1 aus (4.10) ist für jede Richtung d R n \{0} richtungsdifferenzierbar mit P α,1(x, d) = f(x)d + α g i (x)d + α max{0, g i (x)d} Beweis: + α α j : h j (x)>0 j : h j (x)<0 i : g i (x)>0 h j (x)d + α h j (x)d. j : h j (x)=0 i : g i (x)=0 h j (x)d Die Formel folgt direkt durch Anwendung von Lemma 4.28 und Lemma 4.29 mit entsprechender Fallunterscheidung. Wir betrachten nun das quadratische Teilproblem (4.23) aus Schritt 3 des Algorithmus 4.24, allerdings mit beliebiger symmetrischer positiv definiter 137

138 Matrix L k 1 min x 2 x L k x + f(x (k) ) x N.B. g(x (k) ) + g x (x(k) ) x 0 (4.24) h(x (k) ) + h x (x(k) ) x = 0. Ein KKT-Punkt ( x (k), λ (k+1), µ (k+1) ) der Optimierungsaufgabe (4.24) erfüllt die Gleichungen n g f(x (k) ) + ( x (k) ) L k + λ (k+1) i λ (k+1) i g i (x (k) ) + i=1 λ (k+1) n h j=1 µ (k+1) j h j (x (k) ) = 0 i 0 für i = 1,..., n g g i (x (k) ) + g i (x (k) ) x (k) 0 für i = 1,..., n [ g gi (x (k) ) + g i (x (k) ) x (k)] = 0 für i = 1,..., n g h j (x (k) ) + h j (x (k) ) x (k) = 0 für j = 1,..., n h. Bezüglich eines Abbruchkriteriums ist folgende Eigenschaft interessant. (4.25) Satz 4.31 Die Matrix L k sei symmetrisch. Ist x (k) = 0 eine Lösung des quadratischen Teilproblems (4.24) mit zugehörigen Lagrange-Multiplikatoren λ (k+1), µ (k+1), dann ist das Tripel (x (k), λ (k+1), µ (k+1) ) bereits ein KKT- Punkt des Originalproblems (4.22). Beweis: Einsetzen von x (k) = 0 in die KKT-Bedingungen (4.25) liefert direkt n g f(x (k) ) + i=1 λ (k+1) i g i (x (k) ) + n h j=1 µ (k+1) j h j (x (k) ) = 0 λ (k+1) i 0 für i = 1,..., n g g i (x (k) ) 0 für i = 1,..., n g λ (k+1) i g i (x (k) ) = 0 für i = 1,..., n g h j (x (k) ) = 0 für j = 1,..., n h, welches die KKT-Bedingungen der ursprünglichen restringierten Optimierungsaufgabe (4.22) sind. Tritt der Fall in Satz 4.31 nicht ein, so erhalten wir die folgende Eigenschaft. 138

139 Satz 4.32 Die Matrix L k sei symmetrisch und positiv definit. Ist x (k) 0 eine Lösung des quadratischen Teilproblems (4.24) mit den zugehörigen Lagrange-Multiplikatoren λ (k+1), µ (k+1), dann gilt für alle { } α max λ (k+1) 1,..., λ (k+1) n g, µ (k+1) 1,..., µ (k+1) n h (4.26) bezüglich der Richtungsableitung von P α,1 aus (4.10) die Ungleichung P α,1(x (k), x (k) ) ( x (k) ) L k x (k) < 0, d.h. x (k) ist eine Abstiegsrichtung der exakten l 1 -Strafterm-Funktion im Punkt x (k). Beweis: Für eine vereinfachte Schreibweise sei hier x := x (k), x := x (k) und λ := λ (k+1), µ := µ (k+1). Unter Verwendung der Formel für P α,1 aus Satz 4.30 sowie der KKT-Bedingungen (4.25) erhalten wir P α,1(x, x) = f(x) x + α i : g i (x)>0 + α α j : h j (x)>0 j : h j (x)<0 g i (x) x +α }{{} g i (x) h j (x) x +α }{{} = h j (x) h j (x) x. }{{} = h j (x) Dadurch können wir nach oben abschätzen P α,1(x, x) f(x) x αg i (x) i : g i (x)>0 i : g i (x)=0 j : h j (x)>0 j : h j (x)=0 max{0, g i (x) x} }{{} g i (x)=0 h j (x) x }{{} = h j (x)=0 αh j (x)+ j : h j (x)<0 Durch eine Erweiterung mit den Lagrange-Multiplikatoren λ folgt P α,1(x, x) f(x) x + λ i g i (x) x + λ i g i (x) i=1 i=1 αg i (x) αh j (x) + i : g i (x)>0 n g 139 j : h j (x)>0 n g j : h j (x)<0 αh j (x). αh j (x).

140 Aus der ersten KKT-Bedingung in (4.25) folgt nach Multiplikation mit x von rechts und der letzten KKT-Bedingung in (4.25) n h f(x) x = ( x) L k x λ i g i (x) x + µ j h j (x). Diese Formel setzen wir in den Ausdruck für die Richtungsableitung ein n h P α,1(x, x) ( x) L k x λ i g i (x) x + µ j h j (x) n g n g i=1 n g i=1 + λ i g i (x) x + λ i g i (x) i=1 i : g i (x)>0 αg i (x) ( x) L k x + + j : h j (x)>0 Wegen λ i 0 für alle i gilt n g i=1 j : h j (x)>0 i : g i (x)>0 αh j (x) + (µ j α)h j (x) + i : g i (x) 0 λ i g i (x) 0. j=1 j=1 j : h j (x)<0 (λ i α)g i (x) + j : h j (x)<0 Die Wahl des Strafterm-Parameters α in (4.26) liefert (λ i α)g i (x) 0, i : g i (x)>0 j : h j (x)>0 j : h j (x)<0 Zusammen erhalten wir somit (µ j α)h j (x) 0, (µ j + α)h j (x) 0. P α,1(x, x) ( x) L k x, i : g i (x) 0 αh j (x) (µ j + α)h j (x). λ i g i (x) woraus sich mit der positiven Definitheit von L k auch die zweite Ungleichung in diesem Satz ergibt. 140

141 Damit zeigt sich nun einen Grundversion eines globalisierten Verfahrens, wobei eine Schrittweitenstragie hinzugefügt wird. Algorithmus 4.33 (Globales SQP-Verfahren) 1. Wähle (x (0), λ (0), µ (0) ) R n R n g Rn h, L 0 R n n symmetrisch und positiv definit, α > 0, β (0, 1), σ (0, 1). Setze k := Ist (x (k), λ (k), µ (k) ) ein KKT-Punkt von (4.22): ENDE 3. Berechne eine Lösung x (k) des quadratischen Teilproblem 1 min x 2 xl k x + f(x (k) ) x N.B. g(x (k) ) + g x (x(k) ) x 0 h(x (k) ) + h x (x(k) ) x = 0 mit zugehörigen Lagrange-Multiplikatoren λ (k+1) und µ (k+1). Ist x (k) = 0: ENDE 4. Berechne die Schrittweite t k := max { β l : l N 0 und P α,1 (x (k) + β l x (k) ) P α,1 (x (k) ) + σβ l P α,1(x (k), x (k) ) }. 5. Setze x (k+1) := x (k) + t k x (k). Wähle L k+1 symmetrisch und positiv definit. Setze k := k + 1. Gehe zu Schritt 2. Bemerkungen 4.34 (i) Die Optimierungsaufgaben in Teilschritt 3 besitzen jeweils mindestens ein globales Minimum, da die Matrizen L k als positiv definit vorausgesetzt werden. Oft liegt sogar ein eindeutiges Minimum vor. Die numerische Lösung dieser Teilprobleme kann wieder mit der Strategie der aktiven Mengen in Algorithmus 4.19 erfolgen. 141

142 (ii) Die Schrittweitenbestimmung in Teilschritt 4 basiert auf der Bedingung (3.15) wie bei der Armijo-Strategie, wobei statt der gewöhnlichen Richtungsableitung der Zielfunktion die Richtungsableitung der Strafterm-Funktion auftritt. (iii) Das Abbruchkriterium in Teilschritt 3 bedeutet laut Satz 4.31, dass bereits ein KKT-Punkt des Originalproblems (4.22) gefunden ist. (iv) Die Wahl der jeweils nächsten Matrix L k+1 in Teilschritt 5 kann mit den Formeln zu den Quasi-Newton-Verfahren aus Abschnitt 3.5 erfolgen. Beispielsweise wird die BFGS-Formel (3.25) verwendet, wobei der Vektor y (k) geeignet festzusetzen ist, siehe Abschnitt in [7]. (v) In Teilschritt 1 muss der Parameter α > 0 hinreichend hoch initialisiert sein. Jedoch liegt a priori keine Information über die Höhe vor. Alternativ kann der Paramter in jedem Schritt aktualisiert werden. Satz 4.32 legt die Wahl α k+1 = max { α k, max { λ (k+1) 1,..., λ (k+1) n g, µ (k+1) 1 mit einem festen γ > 0 als Sicherheitsfaktor nahe.,..., } } n h + γ µ (k+1) (vi) Die Näherungen x (k) aus dem globalisierten SQP-Verfahren in Algorithmus 4.33 sind nicht notwendigerweise zulässig für das Originalproblem (4.22). Dies gilt ebenfalls beim lokalen SQP-Verfahren aus Algorithmus Insbesondere braucht der Startwert x (0) nicht zulässig zu sein, was einen Vorteil für den Benutzer darstellt. (vii) Der Algorithmus 4.33 liefert zufriedenstellende Konvergenzeigenschaften. Resultate sind beispielsweise in [8] gegeben. (viii) Für den erfolgreichen Einsatz in der Praxis sind noch weitere Modifikationen des SQP-Verfahrens aus Algorithmus 4.33 erforderlich. 142

143 Literatur [1] W. Alt: Nichtlineare Optimierung. (2. Aufl.) Vieweg+Teubner, [2] E. Behrends: Analysis Band 2. (1. Aufl.) Vieweg, [3] G. Fischer: Lineare Algebra. (18. Aufl.) Springer Spektrum, [4] O. Forster: Analysis 1. (11. Aufl.) Springer Spektrum, [5] O. Forster: Analysis 2. (10. Aufl.) Springer Spektrum, [6] C. Geiger, Ch. Kanzow: Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Springer, [7] C. Geiger, Ch. Kanzow: Theorie und Numerik restringierter Optimierungsaufgaben. Springer, [8] S.P. Han: A globally convergent method for nonlinear programming. Journal of Optimization Theory and Applications 22 (1977), [9] R. Reinhardt, A. Hoffmann, T. Gerlach: Nichtlineare Optimierung. Theorie, Numerik und Experimente. Springer, [10] P. Spellucci: Numerische Verfahren der nichtlinearen Optimierung. Birkhäuser, [11] J. Stoer: Numerische Mathematik 1. (9. Aufl.) Springer,