Lineare und nichtlineare Optimierung

Transkript

1 Lineare und nichtlineare Optimierung AXEL DREVES Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Universität der Bundeswehr München Werner-Heisenberg-Weg Neubiberg/München Version: 7. Dezember 2015

2 Vorwort Dies ist ein Skript zur Vorlesung Lineare und nichtlineare Optimierung im Bachelorstudiengang Luft- und Raumfahrttechnik an der Universität der Bundeswehr München. Wesentliche Teile des Skripts sind aus dem gleichnamigen Skript von Prof. Dr. Matthias Gerdts von der Universität der Bundeswehr München, sowie den Skripten zu den Vorlesungen Optimierungsmethoden und Numerische Mathematik von Prof. Dr. Christian Kanzow von der Universität Würzburg entstanden. Empfohlene Literatur: C. Geiger und C. Kanzow: Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben. Springer-Verlag, Berlin-Heidelberg-New York, C. Geiger und C. Kanzow: Theorie und Numerik restringierter Optimierungsaufgaben. Springer-Verlag, Berlin-Heidelberg-New York, M. Gerdts und F. Lempio: Mathematische Optimierungsverfahren des Operations Research. DeGruyter, Berlin, i

3 Inhaltsverzeichnis 1 Einleitung Problemstellung Graphische Darstellungen Beispiele Klassifikation Unrestringierte nichtlineare Optimierung Optimalitätsbedingungen Ein Allgemeines Abstiegsverfahren Schrittweitenstrategien Gradientenverfahren Newton-Verfahren Restringierte nichtlineare Optimierung Optimalitätsbedingungen Lagrange-Newton-Verfahren Lineare Optimierung Lineare Programme Ecken, Basisvektoren und der Fundamentalsatz Das primale Simplexverfahren Basiswechsel beim Simplexverfahren Der Algorithmus Updateformeln für das Simplextableau Phase 1 des Simplexverfahrens Endlichkeit des Simplexverfahrens Dualität ii

4 Kapitel 1 Einleitung 1.1 Problemstellung Seien eine Menge X R n und eine Funktion f : X R gegeben. Gegenstand der Vorlesung sind Optimierungsprobleme, d.h. wir wollen die Funktion f auf der Menge X minimieren oder maximieren. Wir betrachten daher das Minimierungsproblem min f(x) unter der Nebenbedingung (u.d.n.) x X, (1.1) oder das Maximierungsproblem max f(x) u.d.n. x X. (1.2) Die Funktion f heißt dabei Zielfunktion und X heißt zulässiger Bereich. Das Problem eine Funktion f auf der Menge X zu minimieren ist äquivalent zu dem Problem die Funktion f auf der Menge zu maximieren. Daher ist es keine Einschränkung, dass wir uns nur mit Minimierungsproblemen und nicht mit Maximierungsproblemen beschäftigen. Gilt X = R n, so liegt ein unrestringiertes Optimierungsproblem vor, für X R n sprechen wir von einem restringierten Optimierungsproblem. Definition (a) x R n heißt genau dann zulässig für (1.1), wenn x X. (b) x X heißt globales Minimum von (1.1), wenn f(x ) f(x) für alle x X gilt. (c) x X heißt striktes globales Minimum von (1.1), wenn f(x ) < f(x) für alle x X mit x x gilt. (d) x X heißt lokales Minimum von (1.1), wenn ein ε > 0 existiert, so dass f(x ) f(x) für alle x X U ε (x ) mit U ε (x ) = {x R n x x < ε} gilt. (e) x X heißt striktes lokales Minimum von (1.1), wenn ein ε > 0 existiert, so dass f(x ) < f(x) für alle x X U ε (x ) mit x x gilt. 1

5 (Strikte) globale und lokale Maxima werden analog definiert. Die Begriffe werden in Abbildung 1.1 erläutert. x 1 x 2 x 3 x 4 x 5 x 6 x 7 Abbildung 1.1: Lokale und globale Minima und Maxima einer Funktion: x 1 : striktes globales Minimum, x 2 : lokales Maximum, x 3 : lokales Minimum; (x 2, x 3 ): gleichzeitig lokales Minimum und Maximum, x 4 : striktes globales Maximum, x 5 : striktes lokales Minimum, x 6, x 7 : lokale Maxima, (x 6, x 7 ): gleichzeitig lokales Minimum und Maximum. 1.2 Graphische Darstellungen Für Raumdimensionen n = 1 oder n = 2 kann man die Zielfunktionen graphisch veranschaulichen. So erhält man beispielsweise für die Funktion f(x) := sin(x) cos 2 (x), x [ 4; 4] durch das Matlab-Programm x=-4:0.01:4; fx=sin(x).*(cos(x).^2); plot(x,fx) den nebenstehenden Graphen

6 Auch für n = 2 kann man den Graphen der Funktion darstellen lassen. So erhalten wir für die Funktion f(x 1, x 2 ) := sin(3x 2 x ) + cos(2x 2 2 2x 1 ) mit Hilfe des Matlab-Programms [x1,x2]=meshgrid(-2:0.01:2); fx=sin(3*x2-x1.^2+1)+cos(2*x2.^2-2*x1); mesh(x1,x2,fx) den nebenstehenden Graphen auf dem Rechteck [ 2; 2] [ 2; 2]. Die Bestimmung der Lage der lokalen Maxima und Minima ist hier schwierig. Besser geeignet ist ein Bild der Höhenlinien oder Niveaulinien der Funktion f zum Niveau c R, definiert durch N f (c) := {x R n f(x) = c}, c R. Entlang einer Höhenlinie ist die Funktion f konstant. Für unser Beispiel ergibt sich mit dem Matlab-Programm [x1,x2]=meshgrid(-2:0.01:2); fx=sin(3*x2-x1.^2+1)+cos(2*x2.^2-2*x1); contour(x1,x2,fx,20) das nebenstehende Höhenlinienbild, bei dem sich die Lage der Extremwerte schon besser sehen lässt

7 Als Warnung sei bemerkt, dass Bilder zur Anschauung dienen, aber auch irreführend sein können. 1.3 Beispiele Optimierungsprobleme spielen in vielen Gebieten der Mathematik eine wichtige Rolle und haben Anwendungen bei wirtschaftswissenschaftlichen, naturwissenschaftlichen sowie technischen Fragestellungen. Physikalische Prozesse werden häufig durch das Prinzip der Energieminimierung gesteuert, so dass die Optimierung die mathematische Modellierung von physikalischen Problemen direkt beeinflusst. Es gibt eine Vielzahl verschiedenster Optimierungsprobleme und wir wollen im Folgenden ein paar wenige konkrete Beispiele geben. Beispiel (Lineares Optimierungsproblem) Ein Landwirt bewirtschaftet ein Grundstück von 40 Hektar Größe mit Zuckerrüben und Weizen. Er kann hierzu 2400 Euro und 312 Arbeitstage einsetzen. Pro Hektar betragen seine Anbaukosten bei Rüben 40 Euro und bei Weizen 120 Euro. Für Rüben benötigt er 6 Arbeitstage, für Weizen 12 Arbeitstage pro Hektar. Der Reingewinn bei Rüben sei 100 Euro pro Hektar, bei Weizen sei er 250 Euro pro Hektar. Wie muss der Bauer sein Grundstück bewirtschaften, um einen maximalen Gewinn zu erzielen? Mathematische Formulierung: Wir bezeichnen mit x 1 die Fläche, die mit Rüben bepflanzt wird und mit x 2 die Fläche, die mit Weizen bepflanzt wird. Der zu maximierende Gewinn lautet f(x 1, x 2 ) = 100x x 2 =: c x. Aus der Aufgabenstellung lassen sich folgende Beschränkungen ableiten: Grundstücksgröße: g 1 (x 1, x 2 ) := x 1 + x 2 40 Geld: g 2 (x 1, x 2 ) := 40x x Arbeitstage: g 3 (x 2, x 2 ) := 6x x keine negativen Flächen: x 1, x 2 0 Der zulässige Bereich des Optimierungsproblems ist durch den blauen Bereich in der folgenden Abbildung gegeben. Die rote Gerade stellt die Höhenlinie der Zielfunktion zum Niveau 3500, die grüne diejenige zum Niveau 5500 dar. 4

8 x 1 250x x 1 120x x 1 250x x 1 10 Beobachtungen: x 1 x x 1 12x Die Höhenlinien einer affin linearen Funktion sind Geraden! Lineare Optimierungsprobleme lassen sich grafisch lösen, indem die Höhenlinie der Zielfunktion in Richtung wachsender Niveaus (bei Maximierungsaufgaben) bzw. fallender Niveaus (bei Minimierungsaufgaben) bis an den Rand des zulässigen Bereichs verschoben wird. Konkret: (1) Skizziere den zulässigen Bereich. (2) Wähle einen beliebigen Punkt ˆx, setze ihn in die Zielfunktion ein und berechne w = c ˆx. Skizziere die durch c x = w gegebene Gerade. (3) Bewege die Gerade aus (2) in Richtung c bei Minimierungsaufgaben bzw. in Richtung c bei Maximierungsaufgaben solange der Durchschnitt der Geraden und des zulässigen Bereichs nicht leer ist. (4) Die extremste Gerade aus (3) ist optimal. Alle zulässigen Punkte auf dieser Geraden sind optimal. Der optimale Zielfunktionswert kann in der Zeichnung 5

9 abgelesen werden. Durch Ablesen ergibt sich hier die grafische Lösung x 1 = 30, x 2 = 10 mit Zielfunktionswert f(x 1, x 2 ) = Das Optimum wird in einer Ecke des zulässigen Bereichs angenommen. Beispiel (Transportproblem) Ein Transportunternehmer hat m Vorratslager, aus denen n Verbraucher mit einem Produkt beliefert werden können. Die Lieferkosten von Lager i zu Verbraucher j betragen c ij Einheiten pro Produkteinheit. In Lager i sind a i Einheiten des Produktes vorrätig. Verbraucher j hat einen Bedarf von b j Einheiten. Um die Kunden nicht zu verärgern, muss der Lieferant den Bedarf der Kunden befriedigen. Andererseits möchte der Lieferant seine Lieferkosten minimieren. a 1 Lieferung b 1 Vorratslager a 2 Verbraucher b n a m Bezeichnet x ij die Liefermenge von Lager i zu Verbraucher j, so führt das Problem auf das folgende Transportproblem, welches ein spezielles lineares Optimierungsproblem ist: m n n min c ij x ij u.d.n. x ij a i, i = 1,..., m, i=1 j=1 j=1 m x ij b j, j = 1,..., n, i=1 x ij 0, i = 1,..., m, j = 1,..., n. Die erste Nebenbedingung besagt, dass aus Lager i maximal a i Einheiten abtransportiert werden können. Die zweite Nebenbedingung besagt, dass der Bedarf b j befriedigt werden muss. Die letzte Nebenbedingung verbietet negative Liefermengen. Beispiel (Parameterschätzung bei Differentialgleichungen) Sei y(t) die Population von Tieren zur Zeit t. Die Population möge eine maximale Größe 6

10 K > 0 nicht überschreiten können und entwickle sich proportional zur aktuellen Größe y(t) sowie zum verbleibenden Rest K y(t). Dies liefert die Wachstumsgleichung y (t) = λy(t)(k y(t)). Seien y i Messungen der exakten Werte y(t i ) zu gewissen Zeitpunkten t i, i = 1,..., m. Sei y( ; λ, K) die exakte Lösung der Wachstumsgleichung. Um die Parameter der Differentialgleichung möglichst optimal zu schätzen, sucht man eine Lösung des nichtlinearen Optimierungsproblems 1 min λ,k>0 2 m (y(t i ; λ, K) y i ) 2. i=1 1.4 Klassifikation Meistens ist die zulässige Menge des Optimierungsproblems durch Gleichheits und Ungleichheitsrestriktionen beschrieben, d.h. es gibt Funktionen h : R n R p, g : R n R m, so dass X := {x R n h(x) = 0, g(x) 0}, wobei g(x) 0 als Ungleichungen für jede Komponente, also g i (x) 0 für alle i = 1,..., m, zu verstehen ist. Nun kann man das Minimierungsproblem min f(x) u.d.n. x X (1.3) in eine der 4 Kategorien einsortieren: p = 0, m = 0 unrestringiert p = 0, m > 0 nur Ungleichheitsrestriktionen p > 0, m = 0 nur Gleichheitsrestriktionen p > 0, m > 0 Gleichheits und Ungleichheitsrestriktionen Bei der nichtlinearen Optimierung können die Funktionen f, g, h in (1.3) beliebig sein. Im Gegensatz dazu steht die lineare Optimierung, bei der man fordert, dass f, g, h affin lineare Funktionen sind. Weitere häufig betrachtete Spezialfälle der nichtlinearen Optimierung sind die quadratische Optimierung (f quadratische Funktion, g, h affin lineare Funktionen), konvexe Optimierung (f und alle g i sind konvexe Funktionen, h ist eine affin lineare Funktion), oder die linear restringierte Optimierung (g, h sind affin lineare Funktionen). 7

11 Kapitel 2 Unrestringierte nichtlineare Optimierung Wir beschäftigen uns in diesem Abschnitt mit dem Problem das Minimum einer Funktion f : R n R auf ganz R n zu finden, d.h. wir betrachten das Problem min f(x) s.t. x R n. Wir wollen uns zunächst einige Bezeichnungen in Erinnerung rufen: Der Gradient einer Funktion f : R n R an der Stelle x = (x 1,..., x n ) R n ist definiert als der Spaltenvektor f(x 1,..., x n ) := f x 1 (x 1,..., x n ). f x n (x 1,..., x n ) Im Spezialfall n = 1 ist der Gradient gerade die erste Ableitung von f. Bekanntlich zeigt der Gradient einer Funktion f in die Richtung des steilsten Anstiegs von. f. Außerdem steht der Gradient senkrecht auf den Höhenlinien von f. Die Hessematrix von f an der Stelle x ist gegeben durch 2 f(x) x 1 x 1 H f (x) = 2 f(x) = f(x) x n x 1 2 f(x) x 1 x n 2 f(x) x n x n Im Spezialfall n = 1 ist die Hessematrix gerade die zweite Ableitung von f. Die. Hessematrix beschreibt anschaulich die lokale Krümmung einer Funktion. Die Richtungsableitung f (x; d) der Funktion f : R n R an der Stelle x R n in Richtung d R n ist definiert durch f f(x + td) f(x) (x; d) := lim. t 0 t Für stetig differenzierbare Funktionen gilt f (x; d) = f(x) d. 8

12 Die mehrdimensionale Taylorsche Formel liefert für eine dreimal stetig differenzierbare Funktion f : R n R eine Zwischenstelle ξ auf der Verbindungsstrecke des Entwicklungspunktes x und eines beliebigen Punktes x + d, so dass f(x + d) = f(x) + f(x) d d 2 f(ξ)d. Vektorungleichungen wollen wir stets komponentenweise interpretieren, d.h. für zwei Vektoren x, y R n bedeutet x y, dass x i y i für alle i = 1,..., n gilt. 2.1 Optimalitätsbedingungen Als erstes wollen wir nun Optimalitätsbedingungen für ein lokales Minimum herleiten. Wir unterscheiden dabei notwendige Bedingungen, d.h. Bedingungen, die ein lokales Minimum zwangsläufig erfüllen muss, und hinreichenden Bedingungen, d.h. Bedingungen, mit denen entschieden werden Satz kann, ob ein lokales Minimum vorliegt oder nicht. (Notwendige Bedingung 1. Ordnung) Sei f : R n R stetig differenzierbar. Ist ˆx ein lokales Minimum von f, dann gilt f(ˆx) = 0. Beweis: Beweis durch Widerspruch: Angenommen, es gilt f(ˆx) 0. Dann gibt es einen Vektor d R n mit f(ˆx) d < 0. Damit ist lim t 0 f(ˆx + td) f(ˆx) t = f (ˆx; d) = f(ˆx) d < 0. Es folgt für alle hinreichend kleinen t > 0 muss f(ˆx + td) f(ˆx) < 0 und damit f(ˆx + td) < f(ˆx) gelten, ein Widerspruch zu lokalen Minimalität von ˆx. Der Spezialfall n = 1 ist die notwendige Bedingung 1. Ordnung wohlbekannt und besagt, dass in einem lokalen Minimum f (ˆx) = 0 gilt. Da aber auch in einem lokalen Maximum f(ˆx) = 0 gilt, ist die Bedingung nicht hinreichend für ein lokales Minimum. Beispiel Betrachten wir die Funktionen f 1 (x) = x 2, f 2 (x) = x 2 und f 3 (x) = x 3. Dann gilt f i(0) = 0 für i = 1, 2, 3 und die Funktion f 1 hat in ˆx = 0 ein globales Minimum, f 2 9

13 hat dort ein globales Maximum, und f 3 hat weder ein lokales Minimum noch ein lokales Maximum. Definition (stationärer Punkt) Jeder Punkt x mit f(x) = 0 heißt stationärer Punkt von f. Wir wollen nun noch ein weiteres notwendiges Kriterium herleiten. Satz (Notwendige Bedingung 2. Ordnung) Sei f : R n R zweimal stetig differenzierbar. Ist ˆx ein lokales Minimum von f, dann ist die Hessematrix H f (ˆx) positiv semidefinit, d.h. es gilt für alle d R n ist d H f (ˆx) d 0. Beweis: Beweis durch Widerspruch: Angenommen, H f (ˆx) ist nicht positiv semidefinit. Dann gibt es ein d R n mit d H f (ˆx) d < 0. Verwenden wir nun den Satz von Taylor, so erhalten wir f(ˆx + td) = f(ˆx) + t f(ˆx) d t2 d H f (ξ t ) d für eine von t abhängige Zwischenstelle ξ t [ˆx, ˆx+td]. Da ˆx ein lokales Minimum ist, liefert die notwendige Bedingung 1. Ordnung f(ˆx) = 0. Da f zweimal stetig differenzierbar ist, ist H f (x) stetig, und somit folgt aus d H f (ˆx) d < 0, dass auch d H f (ξ t ) d < 0 für alle hinreichend kleinen t > 0 gilt. Damit folgt aber f(ˆx + td) < f(ˆx) für alle hinreichend kleinen t > 0, ein Widerspruch zur Minimalität von ˆx. Die Überprüfung, ob eine Matrix A positiv oder auch negativ (semi-)definit ist, ist im Fall von symmetrischen Matrizen, d.h. für A = A mittels der Eigenwerte möglich. Dabei gilt sämtliche Eigenwerte von A sind positiv A ist positiv definit sämtliche Eigenwerte von A sind negativ A ist negativ definit sämtliche Eigenwerte von A sind 0 A ist positiv semidefinit sämtliche Eigenwerte von A sind 0 A ist negativ semidefinit A besitzt positive und negative Eigenwerte A ist indefinit Beispiel Betrachten wir erneut die Funktionen f 1 (x) = x 2, f 2 (x) = x 2 und f 3 (x) = x 3. Dann gilt f 1(0) = 0, f 1 (0) = 2 > 0. Damit erfüllt f 1 die notwendigen Bedingungen 1. und 2. Ordnung. Die Funktion f 2 hat die Hessematrix f 2 (0) = 2 < 0 und ist damit negativ definit. Sie verletzt die notwendige Bedingung 2. Ordnung und hat damit in ˆx = 0 kein lokales Minimum. Die Funktion f 3 erfüllt wegen f 3(0) = 0, f 3 (0) = 0 beide notwendi- 10

14 gen Bedingungen. Da ˆx = 0 aber kein lokales Minimum ist, ist keine der notwendigen Bedingungen hinreichend. Wir haben also gesehen, dass alle Punkte, die die notwendigen Bedingungen 1. Ordnung ( f(x) = 0) und 2. Ordnung (H f (x) positiv semidefinit) erfüllen, lediglich Kandidaten für lokale Minima darstellen. Um nun feststellen zu können, ob tatsächlich ein lokales Minimum vorliegt, benötigen wir hinreichende Bedingungen. Satz (Hinreichende Bedingung 2. Ordnung) Sei f : R n R zweimal stetig differenzierbar und ˆx ein stationärer Punkt mit positiv definiter Hessematrix H f (ˆx). Dann ist ˆx ein striktes lokales Minimum von f. Beweis: Die stetige Funktion d H f (ˆx) d nimmt auf der kompakten Menge {d R n d = 1} ihr Minimum an. Wegen der positiven Definitheit von H f (ˆx) gibt es daher ein µ > 0 mit für alle d R n \ {0}. Damit erhält man ( ) ( ) d d H f (ˆx) µ d d d H f (ˆx) d µ d 2 für alle d R n. Mit dem Satz von Taylor folgt die Existenz eines ξ t [ˆx, ˆx + td] mit f(ˆx + td) = f(ˆx) + t f(ˆx) d + 1 }{{} 2 t2 d H f (ξ t ) d =0 = f(ˆx) t2 d H f (ˆx)d t2 d (H f (ξ t ) H f (ˆx))d f(ˆx) t2 d 2 (µ H f (ξ t ) H f (ˆx) ), wobei die letzte Ungleichung mit Hilfe der Cauchy-Schwarz Ungleichung folgt. Wegen der Stetigkeit der Hessematrix ist µ H f (ξ t ) H f (ˆx) > 0 für alle hinreichend kleinen t > 0 und somit folgt f(ˆx + td) > f(ˆx) für alle hinreichend kleinen t > 0 und somit ist ˆx ein striktes lokales Minimum. Im Spezialfall n = 1 besagt diese Resultat, dass wenn f (ˆx) = 0 und f (ˆx) > 0 gilt, ein striktes lokales Minimum vorliegt. Die hinreichende Bedingung 2. Ordnung ist nicht notwendig, wie das folgende Beispiel zeigt. Beispiel Die Funktion f(x) = x 4 hat in ˆx = 0 ein striktes lokales Minimum. ˆx ist zwar ein stati- 11

15 onärer Punkt, die Hessematrix H f (0) = 0 ist aber nicht positiv definit (nur semidefinit) und erfüllt daher das hinreichende Kriterium 2. Ordnung nicht. Wir wollen nun noch einige mögliche Fälle im R 2 graphisch veranschaulichen: f(x, y) = x 2 ( + y 2 ) 2 0 H f (0, 0) = 0 2 positiv definit f(x, y) = x ( 2 y 2 ) 2 0 H f (0, 0) = 0 2 negativ definit f(x, y) = x 2 ( y 2 ) 2 0 H f (0, 0) = 0 2 indefinit Abbildung 2.1: Lokales Minimum, lokales Maximum, Sattelpunkt 12

16 Nun wollen wir noch spezielle quadratische Funktionen untersuchen. Satz Eine quadratische Funktion f(x) = 1 2 x Qx + c x + γ mit einer symmetrisch, positiv definiten Matrix Q R n n und c R n, γ R hat genau ein (lokales = globales) Minimum in ˆx = Q 1 c. Beweis: Durch Nachrechnen zeigt man, dass f(x) = Qx + c und H f (x) = Q gilt. Da Q als positiv definite Matrix regulär ist, liefert die notwendige Bedingung 1. Ordnung ˆx = Q 1 c als einzigen Kandidaten für ein lokales Minimum, und die hinreichende Bedingung 2. Ordnung zeigt, dass ˆx striktes lokales Minimum ist. Weiter gilt für alle x ˆx: f(x) = 1 2 x Qx + c x + γ = 1 2 (x ˆx) Q(x ˆx) 1 2 ˆx Qˆx + x Qˆx + c x + γ = 1 2 (x ˆx) Q(x ˆx) 1 }{{} 2 c Q 1 c c x + c x + γ >0 > 1 2 c Q 1 c + γ = f(ˆx), also ist ˆx = Q 1 c auch globales Minimum von f. 2.2 Ein Allgemeines Abstiegsverfahren In diesem Abschnitt konstruieren wir ein allgemeines Konzept zur Minimierung einer stetig differenzierbaren Funktion f : R n R. Hierzu definieren wir zunächst eine Abstiegsrichtung. Definition (Abstiegsrichtung) Seien f : R n R und x R n. d R n heißt eine Abstiegsrichtung von f in x, falls es ein t > 0 gibt mit f(x + td) < f(x) für alle t (0, t]. Die Definition einer Aufstiegsrichtung ist analog. Eine hinreichende Bedingung für eine Abstiegsrichtung liefert das folgende Lemma. Lemma Sei f : R n R stetig differenzierbar in x R n. d R n ist eine Abstiegsrichtung von f 13

17 in x, wenn f(x) d < 0 gilt. Beweis: Nach Definition der Richtungsableitung von f in x in Richtung d ist lim t 0 f(ˆx + td) f(ˆx) t = f (ˆx; d) = f(ˆx) d < 0. Hieraus folgt die Existenz eines t > 0 mit f(x + td) f(x) < 0 für alle 0 < t t, d.h. d ist Abstiegsrichtung. Bemerkung Die Bedingung f(x) d < 0 bedeutet geometrisch, dass der Winkel zwischen Gradient und Abstiegsrichtung zwischen 90 und 270 liegt. Dies lässt sich aus der für Vektoren a, b R n allgemein gültigen Beziehung ableiten. cos (a, b) = a b a b = a, b a b Die Bedingung in Lemma ist nur hinreichend für eine Abstiegsrichtung aber nicht notwendig. Betrachte z.b. ein striktes lokales Maximum ˆx mit f(ˆx) = 0. Für alle Richtungen d R n gilt dann f(ˆx) d = 0. Andererseits ist in einem strikten lokalen Maximum jede Richtung d R n eine Abstiegsrichtung. Ist f : R n R eine stetig differenzierbare Funktion und x R n kein stationärer Punkt (also f(x) 0), so ist jedes d := M f(x) mit einer positiv definiten Matrix M R n n eine Abstiegsrichtung von f in x, da f(x) d = f(x) M f(x) < 0. Algorithmus (Allgemeines Abstiegsverfahren) (S.0) Wähle einen Startpunkt x 0 R n und setze k := 0. (S.1) Genügt x k einem geeigneten Abbruchkriterium: STOP. (S.2) Bestimme eine Abstiegsrichtung d k von f in x k (S.3) Berechne eine Schrittweite t k > 0 mit f(x k + t k d k ) < f(x k ). (S.4) Setze x k+1 := x k + t k d k, k := k + 1 und gehe zu (S.1). 14

18 Dieser Algorithmus hat die Wahl der Abstiegsrichtung d k und die Wahl der Schrittweite t k als Freiheitsgrade. Wie wir gesehen haben, ist die Richtung d = f(x k ) ein Beispiel einer Abstiegsrichtung, da die Einheitsmatrix M = I positiv definit ist. Wir wollen nun in einem Beispiel sehen, dass die Wahl der Schrittweite nicht beliebig sein kann. Beispiel Wir wenden Algorithmus auf die Funktion f(x) = x 2, die Abstiegsrichtung d k = f (x k ) = 2x k, und den Startpunkt x 0 = 1 an. Als Schrittweite wählen wir t k := 1. 2 k+3 Wir erhalten ( x k+1 = x k 2t k x k = (1 2t k )x k = 1 1 ) x k. 2 k+2 Mit x 0 = 1 folgt x k (0, 1) für alle k N und weiter k 1 x 0 x k = (x i x i+1 ) = i=0 k 1 i=0 1 k 1 2 i+2 xi i=0 1 2 i Also ist x 0 x k = 1 x k 1 2, und die Folge xk kann nicht gegen den einzigen stationären Punkt ˆx = 0 konvergieren. Definition (Schrittweitenstrategie) Jede Abbildung T : R n R n 2 R ++ (2 R ++ ist die Potenzmenge, also die Menge aller Teilmengen, der positiven reellen Zahlen R ++ ), (x, d) T (x, d) heißt Schrittweitenstrategie. Sie heißt wohldefiniert, wenn T (x, d) für alle x, d mit f(x) d 0 gilt. Wie das Beispiel gezeigt hat, sind nicht alle Schrittweitenstrategien geeignet. Vielmehr müssen sie eine hinreichend große Abnahme des Funktionswerts sicherstellen. Definition (Effiziente Schrittweiten) Seien f : R n R stetig differenzierbar, x R n und d R n eine Abstiegsrichtung von f in x. Eine Schrittweitenstrategie heißt effizient, wenn es eine von x und d unabhängige Konstante θ > 0 gibt, so dass ( f(x) d f(x + td) f(x) θ d für alle t T (x, d) gilt. Jedes t T (x, d) wird dann als effiziente Schrittweite bezeichnet. Da eine Funktion entlang ihrer Höhenlinien konstant ist, sollte man die Abstiegsrichtung möglichst so wählen, dass man sich nicht nahezu entlang der derzeitigen Höhenlinie bewegt. Daher definieren wir noch eine Winkelbedingung. 15 ) 2

19 Definition (Winkelbedingung) Seien f : R n R stetig differenzierbar, x R n und d R n eine Abstiegsrichtung von f in x. Die Richtung d erfüllt die Winkelbedingung, wenn es eine Konstante C > 0 gibt, so dass f(xk ) d k f(x k ) d k C für alle k N gilt. Anschaulich besagt die Winkelbedingung, dass der Winkel zwischen f(x k ) und d k immer zwischen 90 und 90 liegt und dabei gleichmäßig (also unabhängig von k) von 90 und 90 wegbleibt, vgl. Abbildung 2.2. x k α α {x f(x) = f(x k ) d k f(x k ) Abbildung 2.2: Winkelbedingung für die Suchrichtungen. Satz (Konvergenzsatz für das Allgemeine Abstiegsverfahren) Seien f : R n R stetig differenzierbar und {x k } eine durch den Algorithmus erzeugte Folge, so dass die Schrittweiten t k > 0 effizient sind und die Abstiegsrichtungen die Winkelbedingung erfüllen. Dann ist jeder Häufungspunkt der Folge {x k } ein stationärer Punkt von f. Beweis: so gilt Verwenden wir zuerst die Effizienzbedingung und dann die Winkelbedingung f(x k+1 ) = f(x k + t k d k ) ( f(x f(x k ) d k ) θ d k f(x k ) θc 2 f(x k ) 2. Sei nun ˆx ein Häufungspunkt von {x k }. Dann konvergiert, da f stetig ist, {f(x k )} auf einer Teilfolge gegen f(ˆx), und da die Folge {f(x k )} monoton fallend ist, konvergiert die gesamte 16 ) 2

20 Folge {f(x k )} gegen f(ˆx). Damit folgt f(x k+1 ) f(x k ) 0 und somit f(x k ) 2 0. Daher ist f(ˆx) = 0, also ist jeder Häufungspunkt ein stationärer Punkt von f. 2.3 Schrittweitenstrategien In diesem Abschnitt geht es um die Realisierung von Schritt (3) von Algorithmus 2.2.4, der Bestimmung einer Schrittweite. Sei f : R n R stetig differenzierbar, und seien β, σ (0, 1). Zu gegebenem x, d R n mit f(x) d < 0 bestimmt man t := max{β j j = 0, 1, 2,...}, so dass die Armijo-Bedingung f(x + td) f(x) + σt f(x) d (2.1) erfüllt ist. Diese Schrittweitenstrategie nennt man Armijo-Regel, und dabei besteht T (x, d) nur aus einem Element. Definieren wir ϕ(t) := f(x + td), so lautet die Armijo-Bedingung ϕ(t) ϕ(0) + σtϕ (0). Anschaulich ergibt sich daher folgendes Bild: ϕ(t) ϕ(0) + σ t ϕ (0) t = 0 ϕ(0) + t ϕ (0) t Abbildung 2.3: Schrittweiten, die der Armijo-Bedingung genügen. Die fett eingezeichneten Intervalle in Abbildung 2.3 erfüllen die Armijo-Bedingung (2.1). Die Armijo-Regel ist, wie der folgende Satz zeigt wohldefiniert. 17

21 Satz Sei f : R n R stetig differenzierbar, und seien β, σ (0, 1). Zu x, d R n mit f(x) d < 0 existiert stets ein endliches j N mit f(x + β j d) f(x) + σβ j f(x) d. Beweis: Beweis durch Widerspruch: Angenommen, für alle j N gilt Dann folgt f(x + β j d) > f(x) + σβ j f(x) d. f(x + β j d) f(x) β j > σ f(x) d. Da f stetig differenzierbar ist folgt durch den Grenzübergang j f(x) d σ f(x) d, also (1 σ) f(x) d 0 ein Widerspruch zu σ (0, 1) und f(x) d < 0. Die Realisierung der Armijo-Regel ist einfach und kann mit dem folgenden Algorithmus erfolgen: Algorithmus (Armijo-Regel) (S.0) Wähle β (0, 1), σ (0, 1) und setze t := 1. (S.1) Falls die Bedingung ϕ(t) ϕ(0) + σ t ϕ (0) erfüllt ist, setze t k := t und beende das Verfahren. Andernfalls gehe zu (S.2). (S.2) Setze t := β t und gehe zu (S.1). Bemerkung Die Armijo-Schrittweite liegt immer in (0, 1]. Da die Armijo-Bedingung aber auch durch größere Schrittweiten erfüllt werden kann, gibt es Varianten, wie die skalierte Armijo-Regel, bei der für ein Skalierungsfaktor s > 0 die Schrittweite mittels t = max{sβ j j = 0, 1, 2,...} bestimmt wird. 18

22 Die Armijo-Regel ist im Allgemeinen nicht effizient. Eine weitere gängige Schrittweitenstrategien ist die Wolfe-Powell-Regel. Hier hat man für eine Konstante ρ [σ, 1) zusätzlich zur Armijo-Bedingung (2.1) noch die Forderung f(x + td) d ρ f(x) d. Bei der strengen Wolfe-Powell-Regel hat man für eine Konstante ρ [σ, 1) zusätzlich zur Armijo-Bedingung (2.1) noch die Forderung f(x + td) d ρ f(x) d. Die (strenge) Wolfe-Powell-Regel ist wohldefiniert, falls f nach unten beschränkt ist. Ist ferner f auf der Levelmenge L f (x 0 ) := {x R n f(x) f(x 0 )} Lipschitzstetig, d.h. gibt es eine Konstante L > 0, so dass f(y) f(z) L y z für alle y, z L f (x 0 ), so ist die (strenge) Wolfe-Powell-Regel auch effizient. Die exakte Liniensuche, bei der man t so bestimmt, dass f(x + td) = min{f(x + αd) α > 0}, ist in der Regel zu teuer für praktische Zwecke. Sie wird häufiger bei theoretischen Untersuchungen verwendet. Ist der Gradient f auf der Levelmengen L f (x 0 ) Lipschitz-stetig, und ist die Levelmenge kompakt, so ist die exakte Liniensuche wohldefiniert und effizient. 2.4 Gradientenverfahren Für eine stetig differenzierbare Funktion f : R n R und ein x R n mit f(x) 0 ist die Lösung von gegeben durch min f(x) d u.d.n. d 1 d = f(x) f(x). Daher zeigt der negative Gradient in Richtung des steilsten Abstiegs von f. Wählen wir also als Abstiegsrichtung die negative Gradientenrichtung und verwenden die Armijo- Regel zur Schrittweitenbestimmung, so erhalten wir das folgende Gradientenverfahren, das auch Verfahren des steilsten Abstiegs genannt wird. Algorithmus (Gradientenverfahren mit Armijo-Regel) 19

23 (S.0) Wähle x 0 R n, σ, β (0, 1), ε 0 und setze k := 0. (S.1) Ist f(x k ) ε: STOP. (S.2) Berechne d k = f(x k ) und bestimme t k := max{β j j = 0, 1, 2,...} mit f(x k + t k d k ) f(x k ) + σt k f(x k ) d k. (S.3) Setze x k+1 := x k + t k d k, k := k + 1 und gehe zu (S.1). Für das Gradientenverfahren mit Armijo-Regel gilt der folgende Konvergenzsatz: Satz Ist f : R n R stetig differenzierbar, so ist jeder Häufungspunkt einer durch das Gradientenverfahren mit Armijo-Regel und ε = 0 erzeugten Folge {x k } ein stationärer Punkt von f. Beweis: Beweis durch Widerspruch: Sei ˆx ein Häufungspunkt von {x k }. Angenommen, es gilt f(ˆx) 0. Da f stetig ist, konvergiert {f(x k )} auf einer Teilfolge gegen f(ˆx), und da die Folge {f(x k )} monoton fallend ist, konvergiert die gesamte Folge {f(x k )} gegen f(ˆx). Damit folgt f(x k+1 ) f(x k ) 0. Mit der Armijo-Bedingung und d k = f(x k ) folgt f(x k+1 ) f(x k ) σt k f(x k ) d k = σt k f(x k ) 2 0, und somit t k f(x k ) 2 0. Aus der Annahme, dass f(ˆx) 0 ist und der Stetigkeit von f, erhalten wir t k 0. Setzt man t k = β j k für ein jk N in Schritt (S.2), so folgt für hinreichend große k N f(x k + β j k 1 d k ) f(x k ) > σβ j k 1 f(x k ) d k. Nach dem Mittelwertsatz gibt es ein ξ k [x k, x k + β j k 1 d k ] mit f(x k + β j k 1 d k ) f(x k ) = β j k 1 f(ξ k ) d k. Somit ergibt sich β jk 1 f(ξ k ) d k > σβ jk 1 f(x k ) d k und nach Kürzen von β jk 1, einsetzen von d k = f(x k ) und Grenzübergang k erhalten wir, wegen der Stetigkeit von f f(ˆx) 2 σ f(ˆx) 2. 20

24 Aus σ (0, 1) ergibt sich ein Widerspruch zu f(ˆx) 0. Beispiel (Rosenbrock-Funktion) Das Gradienten-Verfahren ist im Allgemeinen nur sehr langsam konvergent. Das Beispiel der sogenannten Rosenbrock-Funktion f(x 1, x 2 ) = 100(x 2 x 2 1) 2 + (1 x 1 ) 2 verdeutlicht dies. Mit der Parameterwahl β = 0.5, σ := 10 4 und dem Abbruchparameter ε = 10 4 benötigt das Verfahren 8058 Iterationen und dabei Funktionsauswertungen um vom Startvektor x 0 = ( 1.2, 1) beginnend das Abbruchkriterium zu erfüllen. Die gefundene Lösung x 8058 = (0.9999, ) liegt dann aber in der Nähe des exakten Minimums ˆx = (1, 1). 2.5 Newton-Verfahren Um eine Funktion f zu minimieren wollen wir sie in der Nähe des aktuellen Iterationspunktes x k durch eine quadratische Funktion approximieren. Motiviert durch die Taylorentwicklung definieren wir hierzu q k (x) := f(x k ) + f(x k ) (x x k ) (x xk ) H f (x k )(x x k ). Nun bestimmen wir die neue Iterierte x k+1 als Minimum der Funktion q k (x) für x R n. Nehmen wir an, dass die Hessematrix H f (x k ) symmetrisch und positiv definit ist, so liefert der Satz ein eindeutiges (globales) Minimum von q k und es gilt 0 = q k (x k+1 ) = f(x k ) + H f (x k )(x k+1 x k ). Da H f (x k ) als positiv definite Matrix invertierbar ist, erhalten wir die Iterationsvorschrift x k+1 = x k H f (x k ) 1 f(x k ). Die Richtung d k := H f (x k ) 1 f(x k ) heißt Newton-Richtung, das Gleichungssystem H f (x k )d k = f(x k ) heißt Newton-Gleichung. Für positiv definite Matrizen H f (x k ) ist auch die Inverse H f (x k ) 1 positiv definit und daher ist die Newton-Richtung für f(x k ) 0 eine Abstiegsrichtung, denn es gilt f(x k ) d k = f(x k ) H f (x k ) 1 f(x k ) < 0. 21

25 Verzichtet man auf die restriktive Voraussetzung der positiven Definitheit der Hessematrix in allen Iterationspunkten und fordert lediglich Invertierbarkeit von H f (x), so ist das Verfahren noch immer sinnvoll, allerdings im Allgemeinen kein Abstiegsverfahren mehr. Einen alternativen Zugang zum Newton-Verfahren erhalten wir über nichtlineare Gleichungssysteme. Da ein lokales Minimum ˆx von f notwendigerweise f(ˆx) = 0 erfüllt, liefert das Newton-Verfahren für nichtlineare Gleichungssysteme ebenfalls die Iterationsvorschrift H f (x k )d k = f(x k ), x k+1 = x k + d k, k = 0, 1, 2,.... Algorithmus (Lokales Newton-Verfahren) (S.0) Wähle einen Startvektor x 0 R n, ε 0 und setze k := 0. (S.1) Ist f(x k ) < ε: STOP. (S.2) Berechne (falls möglich) d k als Lösung von H f (x k )d k = f(x k ). (S.3) Setze x k+1 := x k + d k, k := k + 1 und gehe zu (S.1). Beim lokalen Newton-Verfahren gibt es keine Schrittweitenbestimmung, wir wählen stets t k = 1. Das Verfahren ist unter bestimmten Voraussetzungen sehr schnell konvergent. Um dies zu messen definieren wir verschiedene Konvergenzgeschwindigkeiten. Definition (lineare, superlineare, quadratische Konvergenz) Eine Folge {x k } R n konvergiert (mindestens) (a) linear gegen ˆx, wenn es eine Konstante c (0, 1) gibt, so dass für alle hinreichend großen k N gilt. (b) superlinear gegen ˆx, wenn x k+1 ˆx c x k ˆx x k+1 ˆx lim k x k ˆx = 0. (c) quadratisch gegen ˆx, wenn es ein C 0 gibt, so dass für alle k N gilt. x k+1 ˆx C x k ˆx 2. 22

26 Definition (Landau-Symbole) Für zwei Folgen positiver reeller Zahlen {α k }, {β k } R + gilt: α k = O(β k ) lim sup k α k α k = o(β k ) lim = 0. k β k α k β k < γ > 0 : α k β k γ k N; Mit Hilfe der Landau-Symbole erhalten wir (a) x k ˆx superlinear, wenn x k+1 ˆx = o( x k ˆx ). (b) x k ˆx quadratisch, wenn x k+1 ˆx = O( x k ˆx 2 ). Beispiel (a) Die Folge {x k } mit x k := q k und q (0, 1) konvergiert linear gegen ˆx = 0, denn für alle k N gilt x k+1 ˆx = q k+1 = q q k = q x k ˆx. (b) Die Folge {x k } mit x k := 1 k für alle k N gilt konvergiert sehr langsam (sublinear) gegen ˆx = 0, denn x k+1 ˆx = 1 k + 1 k k = k k + 1 }{{} 1 x k ˆx. (c) Die Folge {x k } mit x k := 1 k! konvergiert superlinear gegen ˆx = 0, denn es gilt x k+1 ˆx lim k x k ˆx = lim k k! (k + 1)! = lim k 1 k + 1 = 0. ( ) (d) Die rekursiv definierte Folge {x k } mit x 0 > a > 0 und x k+1 = 1 2 x k + a x ist k quadratisch konvergent gegen a, denn dies ist die vom Newton-Verfahren erzeugte Folge für das Gleichungssystem 0 = f(x) = x 2 a. Die schnelle Konvergenz des lokalen Newton-Verfahrens sichert der folgende Satz. Satz (Konvergenzsatz für das lokale Newton-Verfahren) Sei f : R n R eine zweimal stetig differenzierbare Funktion, ˆx R n ein stationärer Punkt von f und die Hessematrix H f (ˆx) sei invertierbar. Dann gibt es ein r > 0 so dass 23

27 das lokale Newton-Verfahren für alle Startvektoren x 0 mit x 0 ˆx < r wohldefiniert ist. Die vom lokalen Newton-Verfahren erzeugte Folge {x k } konvergiert superlinear gegen ˆx. Die Konvergenzrate ist quadratisch, wenn H f lokal Lipschitz-stetig um ˆx ist, d.h. wenn es ein L > 0 gibt, so dass H f (x) H f (y) L x y für alle x, y in einer Umgebung von ˆx gilt. Zum Beweis dieses Satzes benötigen wir folgendes Lemma aus der Analysis, auf dessen Beweis wir hier verzichten wollen. Lemma Sei f : R n R eine zweimal stetig differenzierbare Funktion, ˆx R n ein stationärer Punkt von f und sei die Hessematrix H f (ˆx) invertierbar. Dann existiert ein r 1 > 0 und ein c > 0 mit H f (x) 1 c für alle x U r1 (ˆx) := {x R n x ˆx r 1 }. Ferner benötigen wir noch das folgende Approximationslemma: Lemma Sei f : R n R zweimal stetig differenzierbar und {x k } R n eine gegen ˆx R n konvergente Folge. Dann gilt f(x k ) f(ˆx) H f (x k )(x k ˆx) = o( x k ˆx ). Ist ferner H f lokal Lipschitz-stetig, so gilt f(x k ) f(ˆx) H f (x k )(x k ˆx) = O( x k ˆx 2 ). Beweis: Es gilt f(x k ) f(ˆx) H f (x k )(x k ˆx) = f(x k ) f(ˆx) H f (ˆx)(x k ˆx) + H f (ˆx)(x k ˆx) H f (x k )(x k ˆx) f(x k ) f(ˆx) H f (ˆx)(x k ˆx) + H }{{} f (ˆx) H f (x k ) x k ˆx }{{} o( x k ˆx ), da f stetig differenzierbar in ˆx 0, da H f stetig = o( x k ˆx ). 24

28 Ferner folgt mit dem Mittelwertsatz und der lokalen Lipschitz-Konstante L > 0 f(x k ) f(ˆx) H f (x k )(x k ˆx) = = = L H f (ˆx + t(x k ˆx))(x k ˆx)dt H f (x k )(x k ˆx) [H f (ˆx + t(x k ˆx)) H f (x k )]dt (x k ˆx) H f (ˆx + t(x k ˆx)) H f (x k ) dt x k ˆx L (1 t)(ˆx x k ) dt x k ˆx 0 = L 2 xk ˆx 2 = O( x k ˆx 2 ). (1 t)dt x k ˆx 2 Damit können wir nun den Konvergenzsatz für das lokale Newton-Verfahren beweisen: Beweis: Sei ˆx ein stationärer Punkt der zweimal stetig differenzierbaren Funktion f : R n R, und sei H f (ˆx) regulär. Mit Lemma folgt die Existenz eines r 1 > 0 und eines c > 0, mit H f (x) 1 c x U r1 (ˆx). Mit Lemma folgt die Existenz eines r 2 > 0 mit f(x) f(ˆx) H f (x)(x ˆx) 1 x ˆx 2c x U r 2 (ˆx). Sei r := min{r 1, r 2 }. Für x 0 U r (ˆx) ist dann H f (x 0 ) invertierbar, also ist d 0 in Schritt (S.2) berechenbar und es folgt: x 1 ˆx = x 0 + d 0 ˆx = x 0 ˆx H f (x 0 ) 1 f(x 0 ) H f (x 0 ) 1 H f (x 0 )(x 0 ˆx) f(x 0 ) c H f (x 0 )(x 0 ˆx) f(x 0 ) + f(ˆx) }{{} =0 c 1 2c x0 ˆx = 1 2 x0 ˆx 25

29 Dies zeigt, dass x 1 U r (ˆx) liegt, und somit die Wohldefiniertheit von d 1. Nun folgt induktiv die Wohldefiniertheit des gesamten Verfahrens und die Konvergenz von {x k } gegen ˆx. Ferner folgt induktiv x k+1 ˆx c H f (x k )(x k ˆx) f(x k ) + f(ˆx). Mit Lemma folgt hieraus die superlineare bzw. quadratische Konvergenz. Bemerkung Das lokale Newton-Verfahren konvergiert nur gegen einen stationären Punkt, wenn man genügend nahe bei diesem startet. Die Konvergenzgeschwindigkeit ist dann superlinear oder quadratisch, was sehr schnell im Vergleich zum linear konvergierenden Gradientenverfahren ist. Man benötigt daher deutlich weniger Iterationen. Die Invertierbarkeitsvoraussetzung an die Hessematrix sichert die lokale Eindeutigkeit des stationären Punktes. Startet man daher genügend dicht bei einem lokalen Minimum, so konvergiert das Verfahren auch gegen dieses. Um ein global konvergentes Verfahren zu erhalten, muss man zunächst einmal eine Richtung festlegen, falls die Newton-Gleichung nicht lösbar ist. Ferner wird man einen Schrittweitenstrategie benötigen um globale Konvergenz zeigen zu können. Um diese durchführen zu können sollte man die Newton-Richtung nicht verwenden, falls sie nicht zu einem hinreichend guten Abstieg führt. Diese Ideen führen auf das folgende Verfahren: Algorithmus (Globalisiertes Newton-Verfahren) (S.0) Wähle einen Startvektor x 0 R n, ε 0, ρ > 0, p > 2, β (0, 1), σ ( 0, 2) 1 und setze k := 0. (S.1) Ist f(x k ) < ε: STOP. (S.2) Berechne (falls möglich) d k als Lösung von H f (x k )d k = f(x k ). Ist dieses System nicht lösbar, oder die Bedingung f(x k ) d k ρ d k p nicht erfüllt, so setze d k := f(x k ). (S.3) Bestimme t k := max{β j j = 0, 1, 2,...} mit f(x k + t k d k ) f(x k ) + t k σ f(x k ) d k. (S.4) Setze x k+1 := x k + t k d k, k := k + 1 und gehe zu (S.1). 26

30 Für dieses globalisierte Verfahren gilt der folgende Konvergenzsatz, auf dessen Beweis wir hier verzichten wollen. Man findet ihn in dem Buch Numerische Verfahren zur Lösung unrestringierter Optimierungsaufgaben von Geiger und Kanzow (S.92). Satz (Konvergenz des globalisierten Newton-Verfahrens) Sei f : R n R zweimal stetig differenzierbar und {x k } eine durch das globalisierte Newton-Verfahren erzeugte Folge. Für einen Häufungspunkt ˆx der Folge mit positiv definiter Hessematrix H f (ˆx) gelten: (a) Die gesamte Folge {x k } konvergiert gegen ein striktes lokales Minimum ˆx und von f. (b) Für hinreichend großes k N ist d k stets die Newton-Richtung und die Schrittweite ist t k = 1. (c) {x k } konvergiert superlinear gegen ˆx. (d) Ist H f sogar (lokal) Lipschitz-stetig, so konvergiert {x k } quadratisch gegen ˆx. Aus Teil (b) dieses Satzes folgt, dass das globalisierte Newton-Verfahren irgendwann in das lokale Newton-Verfahren übergeht und damit die superlineare oder quadratische Konvergenz des lokalen Verfahrens hat. Beispiel (Rosenbrock-Funktion) Wie beim Gradientenverfahren testen wir das globalisierte Newton-Verfahren mit der Rosenbrock-Funktion aus Beispiel Als Parameter haben wir ρ = 10 8, p = 2.1, β = 0.5, σ = 10 4 und als Abbruchparameter ε = gewählt. Mit dem Startvektor x 0 = ( 1.2, 1) ergibt sich der in der folgenden Tabelle dargestellte Iterationsverlauf. Im Gegensatz zum Gradientenverfahren benötigen wir hier nur 22 Iterationen und können eine viel größere Genauigkeit erzielen. In den letzten drei Iterationsschritten kann man die lokal sehr schnelle Konvergenz des Verfahrens beobachten. Allerdings verwendet das Newton-Verfahren im Gegensatz zum Gradientenverfahren auch Informationen über die Hessematrix und nicht nur über den Gradienten. 27

31 k t k f(x k ) f(x k ) #f x 1 x Bemerkung (Varianten des Newton-Verfahrens) Beim lokalen Newton-Verfahren muss in jedem Schritt die Hessematrix H f (x k ) berechnet werden, und sodann ein lineares Gleichungssystem mit dieser Matrix gelöst werden. Dies ist bei einigen Beispielen eventuell sehr aufwendig. Daher gibt es einige Varianten des Newton-Verfahrens, die darauf beruhen die Hessematrix H f (x k ) durch eine Matrix A(x k ) zu approximieren, die leichter berechenbar ist, und sich leichter Faktorisieren lässt: Vereinfachtes Newton-Verfahren: Hier wählt man die konstante Matrix A(x k ) := H f (x 0 ). Diese muss man nur einmal berechnen und Faktorisieren, so dass das Lösen der linearen Gleichungssysteme billig wird. Man kann zeigen, dass das Vereinfachte Newton-Verfahren lokal noch linear konvergiert. Finite Differenzen Approximation: Hier wählt man A(x) = (A ij (x)) i,j=1,...,n so, 28

32 dass A ij (x) = f i(x + h k e i ) f(x) h k, i, j = 1,..., n, wobei e i der i-te Einheitsvektor ist, und h k die Gittergröße für die Approximation im k-ten Iterationsschritt ist, für die lim k h k = 0 gilt. Quasi-Newton-Verfahren: Hier startet man mit einer symmetrisch positiv definiten Matrix A 0. Dann berechnet man rekursiv A k+1 aus A k mittels gewisser update Formeln, so dass alle A k symmetrisch positiv definit bleiben und man eine Faktorisierung von A k+1 relativ günstig aus einer Faktorisierung von A k berechnen kann. Inverse Quasi-Newton-Verfahren: Diese funktionieren ähnlich wie die Quasi- Newton-Verfahren, mit dem Unterschied, dass man nicht die Matrix H f (x k ) approximiert, sondern die Matrix H f (x k ) 1. 29

33 Kapitel 3 Restringierte nichtlineare Optimierung In diesem Kapitel beschäftigen wir uns mit restringierten Problemen, d.h. wir betrachten für eine Teilmenge X R n das Problem eine Zielfunktion f : R n R zu minimieren, also min f(x) u.d.n. x X. Um allgemeine Aussagen herleiten zu können, benötigen wir eine explizite Darstellung der Menge X. Daher definieren wir für Funktionen g : R n R m und h : R n R p die Menge X mittels X := {x R n g(x) 0, h(x) = 0}. Die zulässige Menge wird also durch m 0 Ungleichheitsrestriktionen und p 0 Gleichheitsrestriktionen beschrieben. Das Problem hat die Form min f(x) u.d.n. g(x) 0, h(x) = 0. (3.1) 3.1 Optimalitätsbedingungen Wie in der unrestringierten Optimierung sind wir an notwendigen und hinreichenden Optimalitätsbedingungen interessiert. Hierzu benötigen wir folgende Definitionen: Definition (Lagrange-Funktion) Die Funktion m p L(x, λ, µ) := f(x) + λ i g i (x) + µ j h j (x) heißt Lagrange-Funktion für das Problem (3.1). Definition (KKT-Bedingungen) i=1 j=1 (a) Die Bedingungen f(x) + m p λ i g i (x) + µ j h j (x) = x L(x, λ, µ) = 0, (3.2) i=1 j=1 h(x) = 0, g(x) 0, λ 0, λ g(x) = 0, (3.3) 30

34 heißen Karush-Kuhn-Tucker-Bedingungen oder kurz KKT-Bedingungen von (3.1). Die Bedingung (3.2) ist dabei die Stationarität der Lagrange-Funktion, die Bedingungen in (3.3) heißen Komplementaritätsbedingungen. (b) Jeder Vektor (ˆx, ˆλ, ˆµ) der den KKT-Bedingungen genügt, heißt KKT-Punkt von (3.1), ˆλ = (ˆλ 1,..., ˆλ m ) und ˆµ = (ˆµ 1,..., ˆµ p ) heißen Lagrange-Multiplikatoren. Bemerkung (Komplementaritätsbedingungen) Die Komplementaritätsbedingungen in (3.3) sind äquivalent zu g i (x) 0, λ i 0, λ i g i (x) = 0 für alle i = 1,..., m. Ist (ˆx, ˆλ, ˆµ) ein KKT-Punkt und existiert kein Index i {1,..., m} mit ˆλ i g i (ˆx) = 0, so genügt (ˆx, ˆλ, ˆµ) der strikten Komplementarität. = 0 und In Abbildung 3.1 ist die geometrische Bedeutung der KKT-Bedingungen für zwei Ungleichheitsrestriktionen und keine Gleichheitsrestriktionen skizziert. g 2 (ˆx) f(ˆx) g 1 (ˆx) g 2 (x) = 0 X g 1 (x) = 0 Abbildung 3.1: Illustration der KKT-Bedingungen: Falls in einem lokalen Minimum ˆx die Gradienten der aktiven Ungleichungsrestriktionen linear unabhängig sind, kann der negative Gradient der Zielfunktion als nicht-negative Linearkombination der Gradienten der aktiven Beschränkungen dargestellt werden. Die KKT-Bedingungen verallgemeinern den unbeschränkten Fall, wo wir f(ˆx) = 0 hatten. Sind nur Gleichheitsrestriktionen vorhanden, dann sind die KKT-Bedingungen unter 31

35 Multiplikatorregel nach Lagrange bekannt und lauten: p f(ˆx) + µ j h j (ˆx) = 0, j=1 h(ˆx) = 0. Die KKT-Bedingungen sind im Allgemeinen keine notwendigen Optimalitätsbedingungen. Man benötigt zusätzlich eine Regularitätsbedingung (constraint qualification (CQ)) an die zulässige Menge X. Für eine dieser benötigen wir den Begriff der Konvexität einer Funktion: Definition (Konvexe Funktion) Sei X R n nichtleer und konvex. Eine Funktion f : X R heißt konvexe Funktion (auf X), wenn f(λx + (1 λ)y) λf(x) + (1 λ)f(y) für alle x, y X und alle λ (0, 1) gilt. Für stetig differenzierbare Funktionen gilt die folgende Charakterisierung konvexer Funktionen: Satz (Konvexe Funktionen) Sei X R n nichtleer und konvex und f : X R eine stetig differenzierbare Funktion. Dann gilt: f ist genau dann konvex, wenn f(x) f(y) f(y) (x y) für alle x, y X. Ist f sogar zweimal stetig differenzierbar, so gilt: f ist genau dann konvex, wenn 2 f positiv semidefinit ist. Beispiel (Konvexe Funktionen) (a) Affin lineare Funktionen f(x) := a x + b mit a R n, b R sind konvex. (b) Quadratische Funktionen f(x) := 1 2 x Qx + c x + γ mit symmetrischer Matrix Q R n n und c R n, γ R sind genau dann konvex, wenn Q positiv semidefinit ist. (c) Die Funktion f(x) := exp(x) ist konvex. Geeignete Regularitätsbedingungen sind nun etwa die folgenden. Definition (Regularitätsbedingungen) 32

36 (a) Ein zulässiger Punkt x von (3.1) erfüllt die Regularitätsbedingung der linearen Unabhängigkeit (LICQ: linear independence constraint qualification), wenn die Gradienten h j (x), j = 1,..., p, g i (x), i I(x) := {i {1,..., m} g i (x) = 0} linear unabhängig sind. (b) Ein zulässiger Punkt x von (3.1) erfüllt die Regularitätsbedingung von Mangasarian- Fromovitz (MFCQ), wenn die Gradienten h j (x), j = 1,..., p linear unabhängig sind, und ein d R n existiert mit h j (x) d = 0, j = 1,..., p und g i (x) d < 0, i I(x) (c) Die zulässiger Menge X von (3.1) erfüllt die Slater-Bedingung (Slater CQ), wenn die Funktionen g i, i = 1,..., m konvex sind, die Funktionen h j, j = 1,..., p affin linear sind, und ein Punkt ˆx X existiert mit h j (ˆx) = 0, j = 1,..., p, und g i (ˆx) < 0, i = 1,..., m. Bemerkung Die ersten beiden Regularitätsbedingungen beziehen sich jeweils auf einen zulässigen Punkt, während die letzte von einem konkreten Punkt unabhängig ist. MFCQ ist eine schwächer Bedingung als LICQ, denn gilt LICQ in einem Punkt x, so hat die Matrix ( ) h j (x) j = 1,..., p A := R (p+ I(x) ) n g i (x) i I(x) vollen Zeilenrang, und mit b := (0, 1 ) R p+ I(x) hat das lineare Gleichungssystem A d = b eine Lösung d R n, die dann nach Definition MFCQ genügt. Es gilt also LICQ MF CQ, Allerdings lässt sich LICQ, insbesondere bei linearen Restriktionen, leichter überprüfen. Die Regularitätsbedingungen sind aber keinesfalls immer erfüllt, wie das folgende Beispiel verdeutlicht. Beispiel (Verletzte CQ) Betrachten wir das Optimierungsproblem min x x 2 2 u.d.n. x X := {x R 2 x 1 x 2 = 0}. 33

37 Dann ist offensichtlich x = (0, 0) Lösung des Problems und der Gradient der Gleichheitsrestriktion in der Lösung ist (0, 0). Daher ist LICQ und MFCQ verletzt. Da die Gleichheitsrestriktion nicht affin linear ist, kann man hier die Slater-Bedingung nicht verwenden. Unter den ersten beiden Regularitätsbedingungen sind die KKT-Bedingungen notwendige Optimalitätskriterien. Satz (KKT-Bedingungen unter MFCQ, LICQ) Sei ˆx ein lokales Minimum von (3.1) das MFCQ oder LICQ erfüllt. Dann gibt es Lagrange- Multiplikatoren ˆλ R m und ˆµ R p, so dass (ˆx, ˆλ, ˆµ) ein KKT-Punkt ist. Falls LICQ gilt, so sind die Multiplikatoren sogar eindeutig. Auf die recht technischen Beweise wollen wir hier verzichten. Es sei jedoch erwähnt, dass das Farkas Lemma, welches eine zum starken Dualitätssatz (siehe Satz 4.4.4) äquivalente Aussage liefert, das wesentliche Hilfsmittel ist. Betrachten wir nun einige Beispiele. Beispiel Betrachten wir ein Optimierungsproblem mit einer Gleichheitsrestriktion Als Lagrange-Funktion erhalten wir min x 1 + x 2 u.d.n. h(x) := x 2 1 x 2 = 0. L(x 1, x 2, µ) = x 1 + x 2 + µ(x 2 1 x 2 ). ( ) ( ) 2x 1 0 Wegen h(x) = für alle x 1 R gilt LICQ in jedem zulässigen Punkt. 1 0 Sei (x 1, x 2 ) ein lokales Minimum. Nach Satz gibt es dann ein µ R so dass die KKT-Bedingungen ( ) ( ) ( ) 1 2x µ =, x 2 1 x 2 = gelten. Das Gleichungssystem hat die Lösung µ = 1, x 1 = 1 und damit erhält man aus 2 der verbleibenden Gleichung x 2 = 1. Also ist (x 4 1, x 2, µ) = ( 1, 1, 1) ein KKT-Punkt und 2 4 somit ist x = ( 1 2, 1 4) ein Kandidat (der einzige) für ein lokales Minimum. Beispiel Betrachten wir ein Optimierungsproblem mit einer Ungleichheitsrestriktion Als Lagrange-Funktion erhalten wir min x 1 u.d.n. g(x) := (x 1 1) 2 + x L(x 1, x 2, µ) = x 1 + λ((x 1 1) 2 + x 2 2 1). 34