Inhaltsübersicht für heute:

Transkript

1 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren

3 Freie Nichtlineare Optimierung Verfahren zur Minimierung glatter Funktionen ohne Nebenbedingungen, min f (), f : R Rn R hinreichend glatt n Hinreichend glatt bedeutet, dass f so oft stetig differenzierbar sein soll, wie für das jeweilige Verfahren erforderlich. Ziele für die Verfahren: Finde ein lokales Minimum (sogar weniger: finde ein, das die notwendigen Opt.-Bed.. Ordnung erfüllt, s. dort) Schnelle Konvergenz in der Nähe lokaler Optima Der Rechenaufwand soll möglichst klein bleiben Numerische Stabilität und hohe Genauigkeit Anwendungen: Nichltineare kleinste Quadrate Probleme Als Löser für Optimierungsprobleme mit Nebenbedingungen [s. Barriere-, Straf- und augmentierte Lagrange-Verfahren] In welcher Form soll f für die Verfahren zugänglich sein?

5 Orakel allgemein und Orakel. Ordnung In vielen Anwendungen ist die Funktion f nicht analytisch verfügbar, sondern ergibt sich z.b. aus der Lösung eines Systems partieller Differentialgleichungen oder einer Simulation. Daher setzen allgemeine Optimierungsverfahren nur eine Unterroutine voraus, die das Verfahren nach dem Wert der Funktion und eventuell auch nach Ableitungsinformation in dem jeweils betrachteten Punkt befragen kann Orakel. Ist die Funktion analytisch gegeben, erzeugen Modellierungssprachen wie AMPL, GAMS,... automatisch entsprechende Orakel/Unterroutinen, die Wert und Ableitungsinformation liefern.

6 Orakel allgemein und Orakel. Ordnung In vielen Anwendungen ist die Funktion f nicht analytisch verfügbar, sondern ergibt sich z.b. aus der Lösung eines Systems partieller Differentialgleichungen oder einer Simulation. Daher setzen allgemeine Optimierungsverfahren nur eine Unterroutine voraus, die das Verfahren nach dem Wert der Funktion und eventuell auch nach Ableitungsinformation in dem jeweils betrachteten Punkt befragen kann Orakel. Ist die Funktion analytisch gegeben, erzeugen Modellierungssprachen wie AMPL, GAMS,... automatisch entsprechende Orakel/Unterroutinen, die Wert und Ableitungsinformation liefern. Ein Orakel. Ordnung berechnet für gegebenes R n nur den Funktionswert f (), aber keine Ableitungsinformation. Verfahren für glatte Funktionen benötigen Ableitungsinformation und approimieren diese numerisch durch vielfache Funktionsaufrufe (s. später).

7 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet.

8 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =., y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () f(,y) y f y 3

9 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =., y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y f y 3

10 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =, y=.5 f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ) y y Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h f 3

11 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.9, y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y y f 3

12 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.8, y=.5 f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () y f Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y 3

13 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.7, y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () f Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y y 3

14 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)]

15 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.8,.8) (,y)=(.,), h=(.8,.8).5 f(,y) y h f y 3 Φ(α), lineares Modell α

16 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(,.5) (,y)=(.,), h=(,.5).5 f(,y) y h f y 3 Φ(α), lineares Modell α

17 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.8,.5), h=(, ) (,y)=(.8,.5), h=(, ).5 f(,y) y y f h 3 Φ(α), lineares Modell α

18 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.8,.5), h=(.,.8) (,y)=(.8,.5), h=(.,.8).5 f(,y) y y f h 3 Φ(α), lineares Modell α

19 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) [D λh f ( ) = λd h f ( )] α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.8,.8) (,y)=(.,), h=(.8,.8).5 f(,y) y h f y 3 Φ(α), lineares Modell α

20 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) [D λh f ( ) = λd h f ( )] α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.3,.3) (,y)=(.,), h=(.3,.3).5 f(,y) y h f y 3 Φ(α), lineares Modell α

21 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet.

22 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =., y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

23 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =, y=.5 n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

24 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.9, y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

25 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.8, y=.5 n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

26 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.7, y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

27 Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)]

28 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.,), h=(.8,.8) y h f y 3 (,y)=(.,), h=(.8,.8).5 Φ(α), quadratisches Modell α

29 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.,), h=(,.5) y y h f 3 Φ(α), quadratisches Modell (,y)=(.,), h=(,.5) α

30 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.8,.5), h=(, ) y y f h 3 Φ(α), quadratisches Modell (,y)=(.8,.5), h=(, ) α

31 Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.8,.5), h=(.,.8) f(,y) y y f h 3 (,y)=(.8,.5), h=(.,.8).5 Φ(α), quadratisches Modell α

32 Der Satz von Taylor/Mittelwertsatz Satz (Taylor/Mittelwertsatz) Sei f oft genug stetig differenzierbar und, h R n, dann θ (, ): f ( + h)= f ( )+ f ( +θ h) T h, θ (, ): f ( + h)= f ( )+ f ( ) T h+ ht f ( +θ h)h, θ 3 (, ): f ( + h)= f ( )+ f ( ) T h+ ht f ( )h f ( +θ 3 h)[h, h, h] [ 3 steht für die 3. Ableitung] Taylor-Entwicklung von f um Illustration des ersten Falls des Mittelwertsatzes: f f() f()+ f(+ θ h) Th +θ h +h

33 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!]

34 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!] Jede auf R n stetig differenzierbare Funktion ist für jedes R n und ρ > auf der ρ-kugel um, B ρ ( ) := { R n : ρ} Lipschitz-stetig. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das lineare Modell auf B ρ eine gute Näherung an f. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das quadratische Modell auf B ρ eine gute Näherung an f.

35 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!] Jede auf R n stetig differenzierbare Funktion ist für jedes R n und ρ > auf der ρ-kugel um, B ρ ( ) := { R n : ρ} Lipschitz-stetig. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das lineare Modell auf B ρ eine gute Näherung an f. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das quadratische Modell auf B ρ eine gute Näherung an f. Aus dem Satz von Taylor und der Lipschitz-Stetigkeit von k f folgt f ( + h)= f ( )+ f ( ) T h+ o( h ), f ( + h)= f ( )+ f ( ) T h+ ht f ( )h + o( h ) Das Landau-Symbol o(g(y)) steht immer als Ersatz für eine nicht weiter interessierende Funktion g g (y) mit der Eigenschaft lim (y) y g(y), also ein g, das schneller klein wird als g. Bei Folgen g(y (k) ) steht es für ein g (y (k) g ) mit lim (y (k) ) k g(y (k) ).

36 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der r Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f S (f) r

37 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q positiv definit

38 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q indefinit

39 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q negativ definit

40 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q positiv semidefinit

41 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: Rosenbrock-Funktion (banana shape) f (, y) = 4 [(y ) + ( ) ] Minimum wird in (,) angenommen. y

43 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) >

44 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =.

45 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum!

46 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Bsp: f () = T Q + q T + c mit Q ist (streng) konve. Mit f () = Q + q bestimmt f ( ) = das Minimum eindeutig, = Q q.

47 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Geometrisch bedeutet f () =, dass die Tangentialebene an f in waagrecht liegt. Ist sie nicht waagrecht, kann man sicher noch ein wenig hinunterrutschen.

48 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Konsequenz für Optimierungsverfahren: Ist f (), so kann man die Funktion in Richtung f () immer verbessern (u.u. nur für sehr kleine Schrittweite). Die Schrittrichtung h = f () heißt steilster Abstieg (steepest descent).

49 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Min. einer hinr. glatten Funktion f : R n R, gilt f ( ) = und f ( ). Sonst gibt es ein h R n mit h T f ( )h <, Taylor ergibt für kleine α f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) < f ( ). }{{} = ( f ( )=) < Die Bedingung ist wieder nur notwendig [ und i.a. nicht ] hinreichend. Bsp: f (, y) = y 4, f (, y) = y für (, y) = (, ). Konsequenz für Optimierungsverfahren: Ist zwar f ( ) = aber λ min ( f ( )) <, so kann f in Richtung eines Eigenvektors zu λ min verbessert werden.

50 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) >

51 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) > Die Bedingung ist hinreichend, aber nicht notwendig: f () = 4 in =. In der Prais ist sie erstaunlich oft erfüllt.

52 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) > Die Bedingung ist hinreichend, aber nicht notwendig: f () = 4 in =. In der Prais ist sie erstaunlich oft erfüllt. Konsequenz für Optimierungsverfahren: In der Nähe eines lokalen Minimums sieht die Funktion wie eine konvee quadratische Funktion aus, das quadratische Modell ist dort eine gute Approimation!

53 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich.

54 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich. Stationäre Punkte sind entweder lokale Minima, lokale Maima oder Sattelpunkte (manche Richtungen führen aufwärts, manche abwärts).

55 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich. Stationäre Punkte sind entweder lokale Minima, lokale Maima oder Sattelpunkte (manche Richtungen führen aufwärts, manche abwärts). Alle Optimierungsverfahren versuchen eine Folge zu erzeugen, die gegen einen stationären Punkt konvergiert. In der Nähe eines stationären Punktes soll die Konvergenz möglichst quadratisch sein, wie beim Newton-Verfahren.

57 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, 8 f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] y

58 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =.5, y= Newton =.4989, y=

59 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =.4989, y= Newton =., y=

60 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =., y= Newton =., y=

61 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =., y=.5.5 Newton =.37, y=

62 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =.37, y= Newton =.99774, y=

63 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =.99774, y= Newton =.99775, y=

64 Satz (lokal-quadratische Konvergenz des Newton-Verfahrens) Sei f zweimal stetig differenzierbar, ein lokales Minimum, das die hinreichenden Optimalitätsbedingungen erfüllt, f sei Lipschitz-stetig in einer Umgebung von. Für jeden nahe genug an gelegenen Startpunkt () gilt für die Folge (k+) := (k) f ( (k) ) f ( (k) ). Die (k) konvergieren quadratisch gegen, d.h., K N, c > : (k+) c (k) für k > K.. Die Gradienten-Normen f ( (k) ) konvergieren quadratisch gegen.

65 Satz (lokal-quadratische Konvergenz des Newton-Verfahrens) Sei f zweimal stetig differenzierbar, ein lokales Minimum, das die hinreichenden Optimalitätsbedingungen erfüllt, f sei Lipschitz-stetig in einer Umgebung von. Für jeden nahe genug an gelegenen Startpunkt () gilt für die Folge (k+) := (k) f ( (k) ) f ( (k) ). Die (k) konvergieren quadratisch gegen, d.h., K N, c > : (k+) c (k) für k > K.. Die Gradienten-Normen f ( (k) ) konvergieren quadratisch gegen. Der Satz gilt nur lokal und gibt keine Konvergenzgarantie für weit entfernte Startpunkte (das kann selbst für konvees f fehlschlagen). Die Funktionswerte f ( (k) ) müssen keineswegs monoton fallen. Startet die Folge in der Nähe eines anderen stationären Punktes (Maimum oder Sattelpunkt), konvergiert die Folge zu diesem. Kommt man ins Gebiet quadratischer Konvergenz, verdoppelt sich pro Iteration die Anzahl korrekt berechneter Stellen.

66 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren.

67 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar.

68 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.]

69 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.] Durch die Bedingung f ( (k+) ) < f ( (k) ) hoffen die Verfahren im Konvergenzfall ein Minimum gefunden zu haben, manchmal ist es jedoch ein Sattelpunkt. Für den Anwender ist das meist leicht zu erkennen, für das Verfahren nicht besseren Startpunkt wählen.

70 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.] Durch die Bedingung f ( (k+) ) < f ( (k) ) hoffen die Verfahren im Konvergenzfall ein Minimum gefunden zu haben, manchmal ist es jedoch ein Sattelpunkt. Für den Anwender ist das meist leicht zu erkennen, für das Verfahren nicht besseren Startpunkt wählen. Wir nutzen die Kurzschreibweise f k für f ( (k) ), f k für f ( (k) ) und f k für f ( (k) ).

72 Line-Search-Verfahren Schematischer Ablauf von Line-Search-Verfahren:. Rufe das Orakel für (k) auf f k, f k, (vielleicht auch f k ).. Ist f k klein genug, STOP. 3. Abstiegsrichtung: Wähle h (k) R n mit fk T h(k) <. 4. Line-Search: Finde eine Schrittweite α k mit f ( (k) + α k h (k) ) ausreichend kleiner als f k 5. Setze (k+) := (k) + α k h (k), k k +, gehe zu. Zwei Hauptaufgaben: Bestimmung einer Abstiegsrichtung Bestimmung einer Schrittweite (Line-Search)

73 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <.

74 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <. Die meisten Algorithmen bestimmen h für ein B in der Form h := B f ( ), denn f ( ) T h = f ( ) T B f ( ) <. }{{} > Beispiele (s. später zu Vor- und Nachteilen): B = I : steilster Abstieg h = f ( ) (steepest descent). B = f ( ) Newton-Richtung (Abstiegsrichtung für f ( ) ) B = [ f ( ) + λi ] modifizierte Newton-Richtung B als Approimation von f ( ) Quasi-Newton-Richtung

75 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <. Die meisten Algorithmen bestimmen h für ein B in der Form h := B f ( ), denn f ( ) T h = f ( ) T B f ( ) <. }{{} > Beispiele (s. später zu Vor- und Nachteilen): B = I : steilster Abstieg h = f ( ) (steepest descent). B = f ( ) Newton-Richtung (Abstiegsrichtung für f ( ) ) B = [ f ( ) + λi ] modifizierte Newton-Richtung B als Approimation von f ( ) Quasi-Newton-Richtung Für globale Konvergenz der Line-Search Verfahren ist nur wichtig, dass die Richtungen nicht orthogonal zur steilsten Abstiegsrichtung werden: δ > : f T k h (k) f k h (k) = cos ( f k, h (k) ) δ > für k >. Das ist erfüllt, falls λma(b k ) λ min (B k ) < κ für ein κ > und gilt z.b. für B =I oder Newton-Richtung in der Nähe von unter den Vor. des Newton-Satzes.

76 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Φ () f() =Φ() Φ= f(+ αh) α

77 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Φ () f() =Φ() Φ= f(+ αh) α

78 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt] Φ () f() =Φ() Φ= f(+ αh) Armijo Φ()+αγ Φ () α

79 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt] Φ () f() =Φ() Φ= f(+ αh) Armijo Φ()+αγ Φ () ( ] [ ] α

80 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt]. An der Stelle ᾱ ist der Abstieg Φ schlecht ( < γ < γ < ): Φ (ᾱ) γ Φ () (Krümmungs-Bedingung) [ f T h stark geändert] Φ () f() =Φ() Φ= f(+ αh) Krümmung γ Φ () Armijo Φ()+αγ Φ () ( ] [ ] α [ ] [ ] [

81 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt]. An der Stelle ᾱ ist der Abstieg Φ schlecht ( < γ < γ < ): Φ (ᾱ) γ Φ () (Krümmungs-Bedingung) [ f T h stark geändert] Φ () f() =Φ() Φ= f(+ αh) Krümmung γ Φ () Armijo Φ()+αγ Φ () Wolfe [ ] [ ] [ ] ( [ α [ ] [ ] [ Armijo- und Krümmungs- Bedingung gemeinsam heißen Wolfe-Bedingungen und Schrittweiten, die diese erfüllen, garantieren ausreichenden Abstieg. [γ = 4, γ {.,.9}]

82 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist.

83 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist. Satz (Globale Konvergenz von Line-Search-Verfahren) Sei f nach unten beschränkt. Für den Startpunkt () sei f auf der Niveaumenge { R n : f () < f } Lipschitz-stetig. Garantiert ein f T k h(k) Line-Search-Verfahren f k δ für ein δ > sowie die h (k) Wolfe-Bedingungen für die Schrittweiten α k, dann gilt f k.

84 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist. Satz (Globale Konvergenz von Line-Search-Verfahren) Sei f nach unten beschränkt. Für den Startpunkt () sei f auf der Niveaumenge { R n : f () < f } Lipschitz-stetig. Garantiert ein f T k h(k) Line-Search-Verfahren f k δ für ein δ > sowie die h (k) Wolfe-Bedingungen für die Schrittweiten α k, dann gilt f k. Vorsicht: Man hofft auf Konvergenz gegen ein Minimum, aber sowohl (k) als auch Konvergenz gegen einen Sattelpunkt sind nicht ausgeschlossen!

85 Bestimmung der Schrittweite in der Prais Ziel ist, mit möglichst wenig Funktionsauswertungen einen Wolfepunkt zu finden. Die vorhergehende Schrittweite dient meist als Startwert, beim allerersten Mal nutzt man gerne α = h. Der nächsten Kandidat wird z.b. über kubische Interpolation, die neue und alte Funktionswerte und Ableitungen nutzt, bestimmt. Jeder Fehl-Versuch erlaubt, das Suchintervall zu verkleinern. Eine solide und effiziente Implementation, die auch mit numerischen Schwierigkeiten umgehen kann, ist sehr schwer und aufwendig. Entscheidend für den Erfolg ist vor allem die Schrittrichtung! AUSNAHME: Für Newton-ähnliche Richtungen wird immer Schrittweite zuerst probiert und nur auf Armijo getestet. Solange Armijo nicht erfüllt ist, reduziert man die Schrittweite (durch Interpolation oder einfaches Backtracking, d.h., Multiplikation der Schrittweite mit einem Faktor < σ < ).