Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Mike Hüftle 31. Juli 2006 Inhaltsverzeichnis 1 Einleitung 2 1.1 Nichtlineares Modell......................... 2 1.2 Methoden............................... 3 2 Methoden zur eindimensionalen Minimierung 4 2.1 Eindimensionale Suche........................ 4 2.2 Methode des Goldenen Schnittes.................. 5 2.3 Bisektionsmethode.......................... 6 2.4 Bisektionsmethode.......................... 7 2.5 Anwendung.............................. 8 3 Klassisches Gradientenverfahren 9 3.1 Methodenbeschreibung........................ 9 3.2 Methodenbeschreibung........................ 10 3.3 Anwendung.............................. 11 4 Konjugierte Gradientenverfahren 12 4.1 Hochdimensionale nichtlineare Probleme.............. 12 4.2 Methodenbeschreibung........................ 13 4.3 Varianten............................... 14 4.4 Anwendung.............................. 15 5 Newton-Verfahren 16 5.1 Methodenbeschreibung........................ 16 5.2 Methodenbeschreibung........................ 17 5.3 Varianten............................... 18 5.4 Anwendung.............................. 19 6 Quasi-Newton-Verfahren 20 6.1.................................... 20 6.2 Methodenbeschreibung........................ 21 6.3 Varianten............................... 22 1

7 Literatur und Methodenverzeichnis 23 7.1 Literatur zur eindimensionalen Minimierung und zu Gradientenverfahren............................... 23 7.1 Literatur zu konjugierten Gradientenverfahren.......... 23 7.1 Literatur zu Newton-Verfahren................... 24 7.1 Literatur zu Quasi-Newton-Verfahren................ 25 7.1 Methodenverzeichnis......................... 26 2

1 Einleitung 1.1 Nichtlineares Modell Das Problem der nichtlinearen Optimierung ohne Nebenbedingungen (NB) kann wie folgt formuliert werden: Modell der nichtlinearen Optimierung min f(x) s.d. x R n Lokale und globale Optimalität wobei f(x) eine nichtlineare Funktion ist, die ausreichend glatt, d.h. differenzierbar sein muss, um das Problem lösen zu können. Gewöhnlich existiert mindestens ein lokales Minimumx* für das Optimierungsproblem; in den meisten praktischen Problemen gibt es jedoch mehrere solcher lokaler Minima. Globale Optimalität ist daher für x* nicht generell gewährleistet, so dass es notwendig ist, die einzelnen lokalen Minima auf globale Optimalität zu untersucht. Hierfür werden meist Metaheuristiken eingesetzt. Notwendige und hinreichende Optimalitätsbedingungen Grundlegend für die im weiteren erläuterten Methoden sind die notwendigen und hinreichenden Optimalitätsbedingungen für einen Optimalpunkt x*. Notwendige Bedingung für ein Optimum ist, dass die Funktion f(x) in einer Umgebung von x* nicht kleinere Werte als f(x*) annimmt bzw. dass die Hesse- Matrix positiv semidefinit ist. Hinreichende Bedingung ist, dass die Funktionswerte in einer Umgebung nur größer als f(x*) sind bzw. die Hesse-Matrix positiv definit ist. 3

1.2 Methoden Lösungsansätze Die Methoden der nichtlinearen Optimierung ohne NB unterscheiden sich darin, ob und mit welchem Aufwand der Gradient f(x) und die Hesse-Matrix H(x) berechnet werden können. Im günstigsten Fall sind f(x) und H(x) für jedes x berechenbar. Dann wird eine Methode zweiter Ableitungen angewendet, wie beispielsweise das Newton-Verfahren. Jedoch kann es sehr aufwändig sein für jedes x die Matrix H(x) zu berechnen. In diesem Fall wird eher eine Methode erster Ableitung, ein Gradientenverfahren angewendet werden. Die Methoden der nichtlinearen Optimierung ohne NB sind in der Regel Abstiegsverfahren. Ausgehend von einem Startpunkt x sub 0 /sub generieren sie eine Folge von Lösungen x sub k /sub mit f(x k + 1) < f(x k ) bis ein Abbruchkriterium erfüllt ist. In der Praxis wird diese Iteration abgebrochen, wenn eine ausreichend gute Näherungslösung erreicht ist. Die Anzahl der Iterationen bzw. die Konvergenzgeschwindigkeit des Algorithmus ist neben dem Aufwand zur Berechnung einer Iterierten ein entscheidendes Kriterium für die Effizienz einer solchen Methode. Lösungsverfahren Es haben sich zwei wichtige Klassen von Abstiegsverfahren etabliert: Linesearch- Verfahren und Trust-Region-Verfahren. Bei Linesearch-Verfahren besteht jede Iteration aus zwei Schritten: Der Bestimmung einer Abstiegsrichtung und der Berechnung der Schrittlänge, mit der diese Abstiegsrichtung verfolgt wird. Trust-Region-Verfahren hingegen bestimmen Abstiegsrichtung und Schrittlänge simultan. Im Weiteren werden die Linesearch-Verfahren detailliert erörtert. 4

2 Methoden zur eindimensionalen Minimierung 2.1 Eindimensionale Suche Allgemeine Methodenbeschreibung Die eindimensionale Suche ist die Grundlage vieler Verfahren zur Lösung nichtlineare Programme, die meist zuerst eine Abstiegsrichtung bestimmen und dann eine Schrittweite, mit der diese Abstiegsrichtung verfolgt wird. Dies führt zu einem neuen Iterationspunkt. Um eine optimale oder näherungsweise optimale Schrittweite in der k-ten Iteration zu bestimmen wird das eindimensionale Minimierungsproblem min f(x k ) + λ d k mit der Suchrichtung d sub k /sub und dem Parameter λ gelöst. Da dieses Minimierungsproblem oft nichtlinear oder sogar nicht differenzierbar ist, wird der Lösungsaufwand reduziert, indem das Problem numerisch gelöst wird (also ohne die Verwendung von Ableitungen). Hierbei wird auf die Berechnung eines exakten Minimums λ der Abstiegsrichtung verzichtet und lediglich bestimmt, in welchem Intervall [a,b], a λ b der Länge l das Minimum liegen muss. l wird in diesem Zusammenhang auch als Unsicherheit bezeichnet. Methoden der eindimensionalen Minimierung ohne Ableitungen Als Methoden der eindimensionalen Minimierung ohne Verwendung von Ableitungen sind insbesondere die Methode der Einheitlichen Suche, die Dichotome Suchmethode, die Methode des Goldenen Schnittes und die Fibonacci-Suche zu nennen. Im Folgenden wird exemplarisch die Methode des Goldenen Schnittes erläutert. Eine Methode, welche erste Ableitungen verwendet, ist die Bisektionsmethode. 5

2.2 Methode des Goldenen Schnittes Minimierung von quasikonvexen Funktionen Die Methode des Goldenen Schnittes ist eine Methode der eindimensionalen Minimierung von strikt quasikonvexen Funktionen. Sie wird mit einem Intervall [a 0, b 0 ]initialisiert, in dem das gesuchte Minimum λ liegt. Weiterhin wird die vom Entscheider akzeptierte Unsicherheit l vorgegeben. Es seinen λ 1, µ 1 zwei Werte innerhalb des Intervalls [a 1, b 1 ]. Sei λ 1 = a 1 + (1 α)(b 1 a 1 ) und µ 1 = a 1 + α(b 1 a 1 ) mit α [0, 1]. Nun wird die Differenz b 1 a 1 berechnet und überprüft ob diese kleiner als die vorgegebene Unsicherheit l ist, d.h. b 1 a 1 < l. Ist dies der Fall, so ist ein näherungsweises Minimum für das eindimensionale Optimierungsproblem bestimmt. Ansonsten wird folgende Schleife durchlaufen: 1. Überprüfe ob. Wenn ja gehe zu 2., ansonsten gehe zu 3. 2. Setze a k+1 = λ k, b k+1 = b k, λ k+1 = µ k und µ k+1 = a k+1 + α(b k+1 a k+1 ). Berechne f(µ k+1 ) und gehe zu Schritt 4. 3. Setze a k+1 = a k, b k+1 = µ k, µ k+1 = λ k, λ k+1 = a k+1 + (1 α)(b k+1 a k+1 ). Berechne f(λ k+1 ) und gehe zu Schritt 4. 4. Überprüfe ob b k+1 a k+1 < l. Wenn ja, dann STOP. Wenn nein gehe zu 1. Mit dieser Vorgehensweise wird das Intervall [a, b] in jedem Schritt um den Faktor 0,618 verkleinert. Die Methode des Goldenen Schnittes ist somit der Bisektionsmethode (Intervallhalbierungsverfahren) überlegen, welche einen Reduktionsfaktor von 0,5 aufweist. Iterationen der Methode des Goldenen Schnittes 6

2.3 Bisektionsmethode Eindimensionale Minimierung mit Ableitungen Ist die zu minimierende Funktion mindestens einmal stetig differenzierbar, so können Methoden eingesetzt werden, welche die ersten Ableitungen zur Optimierung verwenden. Stellvertretend wird hier die Bisektionsmethode erläutert. BisektionsmethodeDie einfachste Methode zur Bestimmung eines Minimums ist eine binäre Suche: Ein Intervall, in dem sich sicher ein Minimum befindet wird so lange geteilt, bis es klein genug ist, und das Minimum somit ausreichend genau bestimmt ist. Bei der Intervallteilung wird dabei diejenige Intervallhälfte verworfen, in der sich die Nullstelle nicht befindet. 7

2.4 Bisektionsmethode Bisektion Bei der Bisektionsmethode wird ein Intervall [a k, b k ]- in welchem das Mimimum liegt - in jedem Iterationsschritt in zwei Hälften unterteilt (Bisektion). Die so bestimmte Mitte des Intervalls sei c k. Anschließend wird geprüft, in welcher der beiden Hälften sich das gesuchte Minimum wahrscheinlich befindet. Dies kann entschieden werden, indem die 1. Ableitung an der Stelle c k berechnet wird. Das Minimum muss in der Richtung negativer 1. Ableitungen liegen. Die so bestimmte Intervallhälfte wird neues Intervall [a k+1, b k+1 ] für den nächsten Iterationsschritt k + 1. AbbruchkriteriumDas Intervall wird solange iterativ halbiert, bis das aktuelle Iterationsintervall kleiner einer vorab definierte Unsicherheit l ist und seine Mitte c die tatsächliche Lage der gesuchten Stelle ausreichend genau angibt. Soll z. B. die tatsächliche Lage x der gesuchten Minimalstelle mit einer Genauigkeit von 1 % der Länge des Ausgangsintervalls geschätzt werden, dann gilt: c ɛ x c + ɛ, d.h. ɛ = 0.01 b 0 a 0 Anwendung Typische Anwendungsbereiche für Methoden der eindimensionalen Minimierung sind die iterative Abschätzung der Nullstellen einer Funktion oder des Optimums einer nichtlinearen Funktion innerhalb eines bestimmten Ausgangsintervalls. 8

2.5 Anwendung Methoden der eindim. Minimierung im Vergleich Bei einem Vergleich der Einheitlichen Suche, der Dichotomen Suchmethode, der Methode des Goldenen Schnittes und der Fibonacci-Suche zeigt sich, dass die Fibonacci-Suche die wenigsten Iterationen benötigt, um ein näherungsweise optimales Minimum zu bestimmen. Wenn die Anzahl der Iterationen sehr groß ist, so sind die Laufzeiten der Fibonacci-Suche und die der Methode des Goldenen Schnittes fast identisch. Vorteile der eindim. Minimierung Nachteile der eindim. Minimierung Die Methoden konvergieren sehr schnell in die Nähe des Mimimums. Es wird nur ein näherungsweises Minimum bestimmt. Die Methoden sind nur auf strikt quasikonvexefunktionen in einem abgeschlossenen Intervall anwendbar. Anwendung Die oben genannten Methoden der eindimensionalen Minimierung können nur bei strikt quasikonvexen Funktionen eingesetzt werden. Die Eigenschaft der Quasikonvexität ist jedoch in der Praxis für die meisten Funktionen nicht erfüllt. Um diese Beschränkung zu umgehen, wird das Ausgangsintervall in mehrere kleine Intervalle eingeteilt, das lokale Minimum jedes Teilintervalls bestimmt und dann das kleinste dieser Minima ausgewählt. Alternativ hierzu kann auch die Quasikonvexität vorausgesetzt werden und die Berechnung eines lokalen Minimums als ausreichend genau betrachtet werden. Welches Vorgehen angewendet wird, hängt vom Aussehen der zu minimierenden Funktion bzw. den Informationen über die Funktion ab. Weiterhin muss immer zwischen der anzustrebenden Güte der eindimensionalen Minimierung und dem hierfür notwendigen Rechenaufwand abgewogen werden. 9

3 Klassisches Gradientenverfahren 3.1 Methodenbeschreibung Das klassische Gradientenverfahren ist eines der ältesten und fundamentalen Verfahren zur Optimierung einer nichtlinearen, differenzierbaren Funktion. Da der hier verwendete Gradient f(x) die Richtung des steilsten Abstiegs der Funktion ist, wird es auch Verfahren des steilsten Abstiegs oder steepest descent genannt. Das Gradientenverfahren wurde in seinen Grundlagen schon 1847 von CAUCHY vorgestellt. Methodenbeschreibung Das klassische Gradientenverfahren nähert sich einem Minimum einer Funktion über eine Folge stetig kleiner werdender Funktionswerte. Der jeweils nächste Iterationspunkt x sup k+1 /sup berechnet sich zu: x k+1 = x k + λ k f(x k ) Als Abstiegsrichtung dient somit in jeder Iteration die Richtung des negativen Gradienten f(x k ) der Zielfunktion im aktuellen Iterationspunkt x sub k /sub. Dies ist tatsächlich die Richtung des steilsten Abstiegs der Zielfunktion, d.h. die Richtung in der die Zielfunktionswerte am schnellsten kleiner werden. Die Schrittlänge λ k mit der die Abstiegsrichtung verfolgt wird, kann über eine eindimensionale Minimierung berechnet werden: min λ f(x k + λ f(x k )) 10

3.2 Methodenbeschreibung Armijo-Regel In der Praxis wird aus Effizienzgründen meist keine exakte Minimierung durchgeführt, sondern man begnügt sich mit einer Näherungslösung für λ k, die beispielsweise mit der Armijo-Regel bestimmt werden kann. Diese ist eine einfach zu implementierende Schrittweitenregel. Sie bildet die Basis der meisten, heute verwendeten Schrittweitenregeln und kann für beliebige Abstiegsrichtungen s sub k /sub verwendet werden ([1], S. 281). Terminierung des Gradientenverfahrens Ist der Gradient in einem Punkt x* Null, d.h. f(x ) = 0, bzw. kleiner als ein vorgegebener Wert ɛ, d.h. f(x ) < ɛ, so endet der Algorithmus, da ein lokales Optimum x* oder ein Sattelpunkt erreicht ist. x* kann kein Maximalpunkt sein, da die Iteration nur kleiner werdende Zielfunktionswerte erzeugt. Um einen Sattelpunkt auszuschließen wird die Hesse-Matrix auf positive Definitheit überprüft. 11

3.3 Anwendung Vorteile des Steilsten Abstiegs Vorteile Das Verfahren des steilsten Abstiegs konvergiertimmer mindestens linear gegen ein lokales Minimum (oder einen Sattelpunkt). Die ersten Ableitungen sind mit geringem Aufwand berechenbar. Das Verfahren ist stabil, d.h. die eindimensionale Minimierung muss nicht sehr genau sein, sondern kann mit einem Näherungsverfahren durchgeführt werden. Nachteile des steilsten Abstiegs Jede Iteration wird unabhängig von den Vorhergehenden berechnet, d.h. es wird keine Information über das bisherige Vorgehen gespeichert. Die Konvergenz hängt stark vom Aussehen der zu optimierenden Funktion ab. Liegen der größte und der kleinste Eigenwert der Hesse- Matrix weit auseinander, so tritt in der Nähe von x* der so genannte Zigg- Zagging-Effekt auf. D.h. je näher die Iterierten dem Punkt x* kommen, desto schlechter ist die Wahl des negativen Gradienten als Abstiegsrichtung. Für die Berechnung sehr guter Lösungen ist das Gradientenverfahren im Allgemeinen zu langsam. Anwendung Um das Verfahren des steilsten Abstiegs anwenden zu können muss die zu optimierende Funktion mindestens einmal stetig differenzierbar sein. Das Verfahren wird immer dann angewendet, wenn mit relativ wenig Rechenaufwand eine schnelle, gute Näherungslösung bestimmt werden soll. Es dient häufig als einfaches Minimierungsverfahren, welches in anderen Methoden eingesetzt wird (z.b. bei der Minimierung von Fehlerfunktionen). 12

4 Konjugierte Gradientenverfahren 4.1 Hochdimensionale nichtlineare Probleme Lösung hochdimensionaler Probleme Konjugierte Gradientenverfahren haben eine große praktische Bedeutung, da sie der einzig praktikable Ansatz sind, hochdimensionale nichtlineare Probleme ohne Nebenbedingungen effizient zu lösen. Da sie zur Berechnung der Iterierten nur wenige Vektoren benötigen, ist der Speicherbedarf und der Aufwand zur Generierung neuer Iterationen im Vergleich zu Newton-Verfahren und Quasi-Newton-Verfahren sehr gering. Sie wurden erstmals 1952 von HESTENES und STIEFEL [4] zur Lösung von linearen Problemen vorgestellt. FLETCHER und REEVES [3] wendeten sie 1964 auf nichtlineare Optimierungsprobleme ohne Nebenbedingungen an. Dies war das erste Verfahren der nichtlinearen Optimierung, dass auch für große Probleme praktikabel war. 13

4.2 Methodenbeschreibung Konjugierte Abstiegsrichtungen Konjugierte Gradientenverfahren nähert sich einem Minimum der Zielfunktion über eine Folge von stetig absteigenden Funktionswerten. Der jeweils nächste Iterationspunkt x k+1 berechnet sich zu: x k+1 = x k λ k s k Die Abstiegsrichtungen s k werden als Linearkombination aus dem aktuellen negativen Gradienten der Zielfunktion f(x) und der Vorgängerrichtung s k 1 so bestimmt, dass die resultierenden Abstiegsrichtungen zueinander konjugierte Vektoren sind. Durch die Konjugiertheit wird die Richtung des negativen Gradienten in Richtung des Optimalpunktes korrigiert. Die mit der die Abstiegsrichtung verfolgt wird, kann über eine eindimensionale Minimierung bestimmt werden. Die k + 1-te Abstiegsrichtung s k+1 (x) ist allgemein gegeben durch: s 1 (x) = f(x 1 ) s k+1 (x) = f(x k+1 ) + β k+1 s k k > 1 wobei β k ein Parameter ist, welcher die Konjugiertheit der aktuellen mit der vorherigen Abstiegsrichtung herstellt und für eine bestimmte konjugierte Gradientenmethode charakteristisch ist. Bestimmung der optimalen Schrittweite Entlang der Abstiegsrichtung wird eine Minimierung durchgeführt, um die optimale Schrittweite λ k mittels einer exakten, eindimensionalen Minimierung zu bestimmen. In der Praxis werden hierfür jedoch meist Näherungsverfahren wie die Armijo-Regel oder die Bisektionsmethode verwendet, mit denen eine näherungsweise optimale Schrittweite bestimmt werden kann. Unter bestimmten Vorraussetzungen ist die globale Konvergenz gewährleistet, d.h. die Methode konvergiert von jedem Startpunkt aus gegen den Minimalpunkt [8]. NichtquadratischeIst eine nichtquadratische Funktion zu minimieren, so wird das Verfahren periodisch abgebrochen und vom letzten Punkt aus erneut gestartet. Gibt es in einer Funktionen nxn-matrix eine Anzahl m relativ großer Eigenwerte, so wird das konjugierte Gradientenverfahren nach m+1 Schritten abgebrochen und mit dem negativen Gradienten neu initialisiert. So bleibt die Konjugiertheit der Abstiegsrichtungen gesichert. Diese Vorgehensweise wird auch als partielle konjugierte Gradientenmethode bezeichnet (vgl. z.b. [10]). 14

4.3 Varianten Die einzelnen Varianten dieser Methode unterscheiden sich im wesentlichen darin, wie β k berechnet wird. Fletcher und Reeves/Polak und Ribire FLETCHER und REEVES [3] bestimmten β k zu: β k = f(xk+1 ) T f(x k+1 ) f(x k ) T f(x k ) POLAK und RIBIRE [9] formulieren ein Verfahren mit: β k = f(xk+1 ) T ( f(x k+1 ) f(x k )) f(x k ) T f(x k ) Nach empirischen Studien arbeitet die Methode von POLAK und RIBIRE effizienter als die von FLETCHER und REEVES. Dies liegt möglicherweise daran, dass FLETCHER-REEVES am Anfang kleinere Schritte macht. PrekonditioniertePrekonditionierte, konjugierte Gradientenverfahren (PCG) multiplizieren den aktuellen, negativen Gradienten bei jeder Iteration mit einer konstanten, konjugierte Gradientenverfahren Bei quadratischen Funktionen ergeben sich die gleichen Iterierten wie bei der symmetrischen und positiv-definiten Matrix. BFGS-Methode (vgl. [3]). Wird ein höherer Speicherverbrauch für die Berechnung der Iterierten zugelassen, so stehen weitere Methoden zur Verfügung. Mit einigen Methoden kann die Effizienz des Verfahrens in Abhängigkeit vom verfügbaren Speicher beeinflusst werden. Beispiele sind die von NOCEDALE [7] veröffentlichte Methode oder die im Code CONMIN eingesetzte Methode von SHANNO und PHUA [6]. 15

4.4 Anwendung Vorteile von konjugierten Gradientenverfahren Konjugierte Gradientenverfahren benötigen sehr wenig Speicherplatz und weniger Rechenzeit als Newton-Verfahren. Sie sind im Gegensatz zu Quasi-Newton-Verfahren auch auf hochdimensionale (mehr als 100 Variablen) Probleme anwendbar. Beispielsweise erläutert FLETCHER [3] eine Anwendung mit 3.000 Variablen. Sie konvergieren in der Nähe von x* linear in meist weniger als 2n Schritten (wobei n die Anzahl der Variablen ist). Teilweise ist eine effiziente Implementierung auf Multiprozessor-Rechnern möglich. Unter bestimmten Vorraussetzungen ist die globale Konvergenz gewährleistet. Nachteile von konjugierten Gradientenverfahren Konjugierte Gradientenverfahren sind weniger robust als Quasi-Newton- Verfahren. Sie sind geringfügig weniger recheneffizient als Quasi-Newton-Verfahren. Anwendung Konjugierte Gradientenverfahren setzen voraus, dass die Funktion mindestens einmal stetig differenzierbar ist. Einige Varianten erfordern auch die zweiten Ableitungen. Die Verfahren werden zur Lösung nichtlinearer Probleme mit einer großen Anzahl an Variablen (100 bis mehrere Tausend) eingesetzt. Auch finden sie bei der Minimierung der Fehlerfunktion in Neuronalen Netzen Anwendung (vgl. z.b. [5]) 16

5 Newton-Verfahren 5.1 Methodenbeschreibung Allgemeines Beim Newton-Verfahren nähert man sich einem Minimum iterativ mit mindestens superlinearer Konvergenz. Um dies zu erreichen wird der negative Gradient der Zielfunktion (die Richtung des steilsten Abstiegs) abgelenkt, indem er mit der inversen Matrix der Hesse-Matrix multipliziert wird. Mit dieser Vorgehensweise wird eine Abstiegsrichtung der quadratisch approximierten Funktion gesucht, anstatt der linear approximierten Funktion wie bei der Gradientenmethode. Taylor- Entwicklung Das Newton-Verfahren löst nichtlineare, mindestens einmal stetig differenzierbaregleichungssysteme der Form F(x)=0. Ausgehend von einem Punkt x 0, kann das Gleichungssystem gelöst werden, indem eine Folge von Punkten x k erzeugt wird, die sich der Lösung x des Gleichungssystems F (x) = 0 nähern. Die Idee des Newton-Verfahrens ist, dass diese Folge durch Taylor-Entwicklungen 1. Ordnung in den Punkten x k approximiert wird. Der k-te Newton-Schritt s k wird durch Lösen des folgenden Gleichungssystems bestimmt: s k = F (xk ) F (x k ) mit der Jacobi-Matrix F (x k ). Der nächsten Iterationspunkt x k+1 wird dann zu x k+1 = x k + s k berechnet. 17

5.2 Methodenbeschreibung Quadratische Approximation Das Newton-Verfahren lässt sich auf die Lösung von Optimierungsproblemen anwenden, indem eine quadratische Approximation der zu minimierenden, mindestens zweimal stetig differenzierbaren Funktion f(x) mit einer Taylorentwicklung 2. Ordnung um den Punkt x k durchgeführt wird: q(x k ) = f(x k ) + f(x k ) T (x x k ) + 1 2 (x xk ) T H(x k )(x x k ) mit H(x k ) als Hesse-Matrix von f(x) in x k. Notwendiges und hinreichendes Optimalitätskriterium Ein notweniges Kriterium für ein Minimum der quadratischen Approximation von f(x) ist, dass die erste Ableitung der Funktion q(x) im Minimum Null ist: q(x) = f(x k ) + H(x k )(x x k ) = 0 Hinreichendes Kriterium für ein Minimum ist die positive Definitheit der Hessematrix H(x) im Minimalpunkt. Der nächste Iterationspunkt x k+1 des Newton-Verfahrens kann wie folgt berechnet werden: x k+1 = x k H(x k ) 1 f(x k ) Konvergenzeigenschaften Die Ursache der Beliebtheit des Newton-Verfahrens sind seine guten Konvergenzeigenschaften. Das Verfahren garantiert mindestens superlineare Konvergenz; des Newton- Verfahrens ist die 1. Ableitung Lipschitz-stetig, so ist die Konvergenz sogar quadratisch. Jedoch gelten diese Konvergenzeigenschaften nur in der Nähe eines Optimalpunktes, d.h. eine globale Konvergenz ist nicht gewährleistet. 18

5.3 Varianten Gradientenverfahren Um für das Newton-Verfahren globale Konvergenz zu gewährleisten, kann dieses als Grundlage der Schrittberechnung in einem Gradientenverfahren eingesetzt werden. In jedem Schritt des Gradientenverfahrens wird überprüft, ob die hinreichende Bedingung für ein Minimum erfüllt ist. Ist dies der Fall, so kann als nächster Schritt ein Newton-Schritt durchgeführt werden [5]. Inexakte Newton- Verfahren Bei großen Problemen (Richtwert: Anzahl der Variablen 10.000) ist die exakte Lösung der Newton-Gleichung oft zu aufwändig. Selbst wenn die Jacobi- Matrix F (x k ) dünn besetzt sein sollte, ist eine direkte Lösung der Newton- Gleichung oft nicht praktikabel. Als Ausweg verwendet man in der Praxis iterative Löser (z.b. Prekonditionierte konjugierte Gradientenverfahren), um die Newton-Gleichung näherungsweise zu lösen. Solche Verfahren werden auch inexakte Newton-Verfahren genannt [2]. Diskrete Newton- Verfahren Diskrete Newton-Verfahren sind eine Erweiterung der inexakten Newton- Verfahren und kommen ohne die Berechnung der Hesse-Matrix aus, da das untergeordnete konjugierte Gradientenverfahren nicht die Hesse-Matrix selbst, sondern nur eine Näherung an die Hesse-Matrix und einen Verschiebungsvektor benötigt [4]. Diese Verfahren haben jedoch den Nachteil, dass die Genauigkeit, mit der die Näherungen durchgeführt werden müssen, um eine ausreichende Konvergenzgeschwindigkeit zu erzielen, nur sehr schwierig abzuschätzen sind. Gauß-Newton- Verfahren Das Gauß-Newton-Verfahren (nach Carl Friedrich Gauß und Isaac Newton) löst nichtlineare Minimierungsprobleme, die bei der Anwendung der Kleinste Quadrate-Methode (z.b. bei der Regressionsanalyse) entstehen. Das Verfahren erzeugt aus einem nichtlinearen Ausgangsproblem eine Folge von linearen Problemen, die mit einer linearen Optimierungsmethode relativ einfach gelöst werden können. Vorlinearisierungsverfahren Vorlinearisierungsverfahren sind eine weitere Möglichkeit, um das Konvergenzverhalten des Newton-Verfahrens zu verbessern [1]. Die Anwendung des Newton-Verfahrens bei nichtdifferenzierbaren Funktionen erörtert KUMMER [3]. 19

5.4 Anwendung Vorteile des Newton- Verfahrens Das Newton-Verfahren konvergiertmindestens superlinear (bzw. quadratisch wenn die 1. Ableitung Lipschitz-stetig ist). Das Verfahren ist sehr anschaulich für den Anwender nachvollziehbar. Nachteile des Newton- Verfahrens Das klassische Newton-Verfahren erfordert eine aufwändige Berechnung der inversen Matrix in jeder Iteration. Dies ist vor allem bei hochdimensionalen Problemen problematisch. Die globale Konvergenz ist nicht garantiert, d.h. das Verfahren konvergiert nur in der Nähe der optimalen Lösung. Verschiedene Varianten des Newton-Verfahrens beheben diese Nachteile durch Erweiterungen oder durch die Kombination mit anderen Methoden der nichtlinearen Optimierung. Dies ist jedoch mit einer aufwändigeren Implementierung und einem Verlust an Recheneffizienz verbunden. Anwendungsvoraussetzungen Voraussetzungen für die Anwendung des Newton-Verfahrens sind in der Regel eine zwei Mal stetig differenzierbarefunktion und die Existenz der Hesse- Matrix. Für einige Varianten des Newton-Verfahrens oder zur Lösung nichtlinearer Gleichungssysteme ist die einmal stetige Differenzierbarkeit und die Existenz der Jacobi-Matrix ausreichend. Anwendung Das Newton-Verfahren ist eines der wichtigsten Verfahren der Numerik, da es die Basis von schnelllokal konvergenten Verfahren bildet. Das Newton-Verfahren kann sowohl zur Lösung linearer Gleichungssysteme als auch zur Minimierung nichtlinearer Funktionen verwendet werden. Häufig wird es auch als untergeordnetes Hilfsverfahren für andere Methoden eingesetzt, beispielsweise zur eindimensionalen Minimierung und in Innere-Punkte-Methoden. 20

6 Quasi-Newton-Verfahren 6.1 Allgemeines Die Grundlagen für die Entwicklung der Quasi-Newton-Verfahren, auch Verfahren mit variabler Metrik genannt, wurden Ende der 50er/Anfang der 60er Jahre von Davidon bzw. Fletcher und Powell gelegt. Quasi-Newton-Verfahren sind mit den Verfahren der konjugierter Gradienten die erfolgreichsten Methoden auf dem Gebiet der nichtlinearen Optimierung ohne Nebenbedingungen, da sie auch große Probleme der Praxis effizient mit superlinearer Konvergenz lösen. Dies ist möglich, da die Hesse-Matrix nicht in jedem Schritt berechnet wird, wie dies beim Newton-Verfahren der Fall ist, sondern eine Näherung der inversen Hesse-Matrix bestimmt und in jedem Schritt mit möglichst geringem Aufwand aktualisiert wird. 21

6.2 Methodenbeschreibung Approximation der Hesse-Matrix Bei Quasi-Newton-Verfahren werden ausgehend von einer symmetrischen, positiv definiten Approximation B 0 der Hesse-Matrix H(x) (meist wird hierfür die Einheitsmatrix verwendet) iterativ bessere Approximationen B k erzeugt. In jeder Iteration wird die Matrix mit den Informationen aus der Krümmung der Funktion entlang des jeweiligen Schrittes aktualisiert, so dass die folgende Quasi-Newton-Gleichung gilt: B k+1 = (x k+1 x k ) = f(x k+1 ) f(x k ) Die in jeder Iteration garantierte positive Definitheit der Matrix B k gewährleistet, dass das Verfahren immer Abstiegsrichtungen erzeugt. Diese werden in jedem Schritt eines Quasi-Newton-Verfahrens über die Gleichung B k s k = f(x k ) bestimmt. Mit der Richtung s k kann der nächste Iterationspunkt x k+1 = x k + λ k s k berechnet werden. Matrix- Update Dann kann die Matrix B k mittels einer Updateformel aktualisiert werden. Eine gute Updateformel sollte die positive Definitheit und die Symmetrie von B k erhalten, die Quasi-Newton-Bedingung erfüllen, nur einen geringen Rechenaufwand erfordern und gute Konvergenzeigenschaften besitzen. Konvergenzeigenschaften Im Falle einer konvexen Zielfunktion kann die superlineare Konvergenz der Quasi-Newton-Verfahren bewiesen werden. Für den Fall allgemeiner nichtlinearer Funktionen steht dieser Beweis noch aus. Jedoch belegen die praktischen Erfahrungen, dass insbesondere das BFGS-Verfahren bei allen differenzierbaren, nichtlinearen Funktionen von jedem Startpunkt aus superlinear konvergiert. 22

6.3 Varianten Es existieren zahlreiche Implementierungen von Quasi-Newton-Verfahren. Zum einen gibt es vielfältige Möglichkeiten, die Näherungen der Hesse-Matrix B k zu berechnen und zum anderen existieren zahlreiche Erweiterungen und Kombinationen mit anderen Methoden. DFP- und BFGS-Update Zu den wichtigsten Update-Formeln zur Bestimmung der Approximationen der Hesse-Matrix gehören die DFP-Formel (Davidson-Fletcher-Powell) und die BFGS-Formel (Broyden-Fletcher-Goldfarb-Shanno). Unter den Gesichtspunkten der Berechenbarkeit und der Effizienz ist die BFGS-Formel für die meisten Problemstellungen eine gute Wahl (zu weiterreichenden Vergleichen verschiedener Update Formeln (vgl. z.b. [5]). PSB-Update Für große, strukturierte Probleme, wenn beispielsweise die Hesse-Matrix nur dünn besetzt ist, können spezielle Update-Formeln eingesetzt werden. Als Vertreter dieser Familie sei hier die PSB-Formel von Powell [4] genannt. Partitionierende Verfahren Eine Erweiterung der Quasi-Newton-Verfahren für große Probleme sind partitionierende Verfahren [2] und Verfahren mit begrenztem Speicherbedarf [3]. Letztere kombinieren die guten Speicher- und Laufzeiteigenschaften der konjugierten Gradientenverfahren mit der superlinearen Konvergenz der Quasi- Newton-Verfahren. Für eine Übersicht über Quasi-Newton-Verfahren für große Optimierungsprobleme sei auf [5] verwiesen. 23

7 Literatur und Methodenverzeichnis 7.1 Literatur zur eindimensionalen Minimierung und zu Gradientenverfahren Literaturverzeichnis Literatur zur eindimensionalen Minimierung Bazaraa, M./Sherali, H.D./Shetty, C.M. : Nonlinear Programming - Theory and Algorithms. 2nd edition, John Wiley & Sons, New York Chichester 1993, pp. 266-276. Wilde, D.J.: Optimum Seeking Methods, Prentice Hall, Englewood Cliffs, 1967. Literaturverzeichnis Einführende Literatur zu klassischen Gradientenverfahren Bazaraa, M./Sherali, H.D./Shetty, C.M. : Nonlinear Programming - Theory and Algorithms. 2nd edition, John Wiley & Sons, New York Chichester 1993, pp. 300-308. Fiacco, A.V./McCormick, G.P.: Nonlinear Programming: Sequential Unconstrained Minimization Techniques. John Wiley & Sons, New York Chichester 1968, pp. 159-161. Literaturverzeichnis Weiterführende Literatur zu klassischen Gradientenverfahren Battiti, R.: First- and Second-Order Methods for Learning: Between Steepest Descent and Newton s Method, in: Neural Computation, Vol. 4, 1992, auf URL: http://citeseer.ist.psu.edu/battiti92first.html Friedman, J. H.: Greedy Function Approximation: a Gradient Boosting Machine. Technical report, Dept. of Statistics, Stanford University1999, auf URL: http://citeseer.ist.psu.edu/friedman00greedy.html 7.1 Literatur zu konjugierten Gradientenverfahren Literaturverzeichnis Einführende Literatur Bazaraa, M./Sherali, H.D./Shetty, C.M. : Nonlinear Programming - 24

Theory and Algorithms. 2nd ed., John Wiley & Sons, New York Chichester 1993, pp. 328-339. Dennis, J.E./Schnabel, R.B.: Numerical Methods for Unconstrained Optimization and Nonlinear Equations. Prentice-Hall, Englewood Cliffs 1983. Fletcher, R.: Practical Methods of Optimization, 2nd ed., John Wiley, Chichester 1987. Hestenes, M.: Conjugate Direction Methods in Optimization, Springer, New York 1980. Literaturverzeichnis Weiterführende Literatur Al-Baali, M.: Descent property and global convergence of the Fletcher- Reeves method with inexact line search, in: Journal Inst. Maths. Applications, Vol. 5, 1985, pp. 121-124. Crowder, H.P./Wolfe, P.: Linear convergence of the conjugate gradient method, in: IBM Journal Research and Development, Vol. 16, 1972, pp. 431-433. Fletcher, R./Reeves, C.M.: Function minimization by conjugate gradients, in: Computer Journal, Vol. 7, 1964, pp.149-154. Hestenes, M./Stiefel, E.: Methods of Conjugate Gradients for Solving Linear Systems, in: Journal Research National Bureau of Standards, Vol. 49, 1952, pp. 409-436. Johansson, E.M./Dowla, F.U./Goodman, D.M.: Backpropagation Learning for Multi-Layer Feed-Forward Neural Networks Using the Conjugate Gradient Method, International Journal of Neural Systems, Vol.2, 1992, pp. 291-301. Shanno, D.F./Phua, K.H.: Remark on algorithm 500: minimization of unconstrained multivariate functions, in: ACM Transactions on Mathematical Software, Vol. 6, 1980, pp. 618-622. Nocedale, J.: Updating quasi-newton matrices with limited storage, in: Mathematics of Computation, Vol. 35, 1980, pp. 773-782. Nocedale, J.: Theory of algorithms for Unconstrained Optimization, in: Acta Numerica 1992, pp. 199-242. Polak, E./Ribire, G.: Note sur la convergence de methods de directions conjuges, in : Rev. Franaise Informatique Recherche Operat., 16, 1969, p. 35-43. Powell, M.J.D. : Restart procedures for the conjugate gradient method, in : Mathematical Programming, Vol. 12, 1977, pp.241-254. Shanno, D.F.: Conjugate Gradient Methods with Inexact Searches, in: Math. Operations Research 3, 1978, pp. 244-256. 7.1 Literatur zu Newton-Verfahren Literaturverzeichnis Einführende Literatur Allgower, E.L./Georg, K.: Numerical Continuation Methods, Springer Series in Computational Mathematics No. 13, Springer, Berlin 25

Heidelberg New York 1990. Bazaraa, M./Sherali, H.D./Shetty, C.M. : Nonlinear Programming - Theory and Algorithms. 2nd ed., John Wiley & Sons, New York Chichester 1993. Horst, R.: Nichtlineare Optimierung, in: Gal, T. (Hrsg.): Grundlagen des Operations Research Band 1, 2. Aufl., Springer, Berlin Heidelberg New York 1989, S. 255 ff. Mor, J./Sorensen, D.C.: Newtons method, in Golub, G.H. (ed.): Studies in Numerical Analysis, 1984, pp. 29-82. Ulbrich, S.: Nichtlineare Optimierung. Vorlesungsskriptum, Zentrum Mathematik, Technische Universität München 2004. Literaturverzeichnis Weiterführende Literatur Dehlwisch, M.: Ein Vorlinearisierungsprinzip zur Konvergenzverbesserung des Newton-Verfahrens, GMD Research Services No. 5(98), GMD-Forschungszentrum Informationstechnik GmbH, Sankt Augustin 1998. Dembo, R.S./Eisenstat, S.C./Steihaug, T.: Inexact Newton methods, in: SIAM Journal on Numerical Analysis, Vol. 19, 1982, pp. 400-408. Kummer, B.: Newtons method for non-differentiable functions, in: Guddat, J./Bank, B./Hollatz, H./Kall, P./Klatte, D./Kummer, B./Lommatzsch, K./Tammer, L./Vlach, M./Zimmermann, K. (eds.): Advances in Mathematical Optimization, Akademie-Verlag, Berlin 1988, pp. 114-125. OLeary, D.P.: A discrete Newton algorithm for minimizing a function of many variables, in: Mathematical Programming Vol. 23, 1982, pp. 20-33. Ostrowski, A.M.: Solution of Equations and Systems of Equations, Academic Press, New York, London 1960. Rall, L.: Convergence of the Newton Process to Multiple Solutions, Journal of Numerical Mathematics, Vol. 9, 1966. 7.1 Literatur zu Quasi-Newton-Verfahren Literaturverzeichnis Einführende Literatur Bazaraa, M./Sherali, H.D./Shetty, C.M.: Nonlinear Programming, 2nd ed., John Wiley, New York Chichester 1993, pp. 315-328. Broyden, C.G.: Quasi-Newton methods and their application to function minimization, in: Mathematics of Computation, Vol. 21, 1967, pp. 368-381. Fletcher, R.: An overview of unconstrained optimization, in Spedicato, E. (ed.): Algorithms for Continuous Optimization: The State of the Art. Kluwer Academic Publishers, Boston 1994, pp. 109-143. Auf URL: http://citeseer.ist.psu.edu/fletcher93overview.html 26

Nocedal, J.: Theory of algorithms for unconstrained optimization, in: Acta Numerica, Vol.1, 1991, pp. 199-242. Auf URL: http://citeseer.ist.psu.edu/nocedal92theory.html Nocedal, J.: Large Scale Unconstrained Optimization, in Watson, A./ Duff, I. (eds.): The State of the Art in Numerical Analysis, Oxford University Press 1997, pp. 311-338. Auf URL: http://citeseer.ist.psu.edu/article/nocedal96large.html. Literaturverzeichnis Weiterführende Literatur Fletcher, R./Powell, M.J.D.: A rapidly convergent descent method for minimization, in: Computer Journal, Vol. 6, 1963, pp. 163-168. Griewank, A./Toint, Ph.L.: Numerical experiments with partially separable optimization problems, in: Griffiths, D.F. (ed.): Numerical Analysis: Proceedings Dundee 1983, Springer, Berlin 1984, pp. 203-220. Liu, D.C./Nocedal, J.: On the limited memory BFGS method for large scale optimization, in: Mathematical Programming Vol. 45, 1989, pp. 503-528. Powell, M.J.D.: A new algorithm for unconstrained optimization, in: Rosen, J.B./Mangasarian, O.L./Ritter, K.(eds.): Nonlinear Programming. Academic Press, New York 1970. Powell, M.J.D.: How bad are the BFGS and DFP methods when the objective function is quadratic?, in: Mathematical Programming, Vol. 34, 1986, pp. 34-47. Shanno, D.F.: Conditioning of quasi-newton methods for function minimization, in: Mathematics of Computation, Vol. 24, 1970, pp. 647-656. Zoutendijk, G.: Nonlinear Programming, Computational Methods, in Abadie, J. (ed.): Integer and Nonlinear Programming, North-Holland, Amsterdam 1970, pp. 37-86. 7.1 Methodenverzeichnis Verzeichnis der erläuterten Methoden Armijo-Regel Bisektionsmethode Diskrete Newton-Verfahren Methode von Fletcher-Reeves Gauß-Newton-Verfahren Methode des Goldenen Schnittes Inexakte Newton-Verfahren Konjugierte Gradientenverfahren Methode von Polak-Ribire Prekonditionierte konjugierte Gradientenverfahren 27

Quasi-Newton-Verfahren Verfahren des Steilsten Abstiegs (Steepest Descent) Vorlinearisierungsverfahren 28