Inhaltsübersicht für heute:

Größe: px
Ab Seite anzeigen:

Download "Inhaltsübersicht für heute:"

Transkript

1 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren

2 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren

3 Freie Nichtlineare Optimierung Verfahren zur Minimierung glatter Funktionen ohne Nebenbedingungen, min f (), f : R Rn R hinreichend glatt n Hinreichend glatt bedeutet, dass f so oft stetig differenzierbar sein soll, wie für das jeweilige Verfahren erforderlich. Ziele für die Verfahren: Finde ein lokales Minimum (sogar weniger: finde ein, das die notwendigen Opt.-Bed.. Ordnung erfüllt, s. dort) Schnelle Konvergenz in der Nähe lokaler Optima Der Rechenaufwand soll möglichst klein bleiben Numerische Stabilität und hohe Genauigkeit Anwendungen: Nichltineare kleinste Quadrate Probleme Als Löser für Optimierungsprobleme mit Nebenbedingungen [s. Barriere-, Straf- und augmentierte Lagrange-Verfahren] In welcher Form soll f für die Verfahren zugänglich sein?

4 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren

5 Orakel allgemein und Orakel. Ordnung In vielen Anwendungen ist die Funktion f nicht analytisch verfügbar, sondern ergibt sich z.b. aus der Lösung eines Systems partieller Differentialgleichungen oder einer Simulation. Daher setzen allgemeine Optimierungsverfahren nur eine Unterroutine voraus, die das Verfahren nach dem Wert der Funktion und eventuell auch nach Ableitungsinformation in dem jeweils betrachteten Punkt befragen kann Orakel. Ist die Funktion analytisch gegeben, erzeugen Modellierungssprachen wie AMPL, GAMS,... automatisch entsprechende Orakel/Unterroutinen, die Wert und Ableitungsinformation liefern.

6 Orakel allgemein und Orakel. Ordnung In vielen Anwendungen ist die Funktion f nicht analytisch verfügbar, sondern ergibt sich z.b. aus der Lösung eines Systems partieller Differentialgleichungen oder einer Simulation. Daher setzen allgemeine Optimierungsverfahren nur eine Unterroutine voraus, die das Verfahren nach dem Wert der Funktion und eventuell auch nach Ableitungsinformation in dem jeweils betrachteten Punkt befragen kann Orakel. Ist die Funktion analytisch gegeben, erzeugen Modellierungssprachen wie AMPL, GAMS,... automatisch entsprechende Orakel/Unterroutinen, die Wert und Ableitungsinformation liefern. Ein Orakel. Ordnung berechnet für gegebenes R n nur den Funktionswert f (), aber keine Ableitungsinformation. Verfahren für glatte Funktionen benötigen Ableitungsinformation und approimieren diese numerisch durch vielfache Funktionsaufrufe (s. später).

7 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet.

8 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =., y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () f(,y) y f y 3

9 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =., y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y f y 3

10 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =, y=.5 f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ) y y Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h f 3

11 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.9, y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y y f 3

12 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.8, y=.5 f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () y f Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y 3

13 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.7, y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () f Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y y 3

14 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)]

15 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.8,.8) (,y)=(.,), h=(.8,.8).5 f(,y) y h f y 3 Φ(α), lineares Modell α

16 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(,.5) (,y)=(.,), h=(,.5).5 f(,y) y h f y 3 Φ(α), lineares Modell α

17 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.8,.5), h=(, ) (,y)=(.8,.5), h=(, ).5 f(,y) y y f h 3 Φ(α), lineares Modell α

18 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.8,.5), h=(.,.8) (,y)=(.8,.5), h=(.,.8).5 f(,y) y y f h 3 Φ(α), lineares Modell α

19 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) [D λh f ( ) = λd h f ( )] α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.8,.8) (,y)=(.,), h=(.8,.8).5 f(,y) y h f y 3 Φ(α), lineares Modell α

20 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) [D λh f ( ) = λd h f ( )] α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.3,.3) (,y)=(.,), h=(.3,.3).5 f(,y) y h f y 3 Φ(α), lineares Modell α

21 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet.

22 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =., y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

23 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =, y=.5 n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

24 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.9, y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

25 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.8, y=.5 n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

26 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.7, y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)

27 Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)]

28 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.,), h=(.8,.8) y h f y 3 (,y)=(.,), h=(.8,.8).5 Φ(α), quadratisches Modell α

29 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.,), h=(,.5) y y h f 3 Φ(α), quadratisches Modell (,y)=(.,), h=(,.5) α

30 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.8,.5), h=(, ) y y f h 3 Φ(α), quadratisches Modell (,y)=(.8,.5), h=(, ) α

31 Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.8,.5), h=(.,.8) f(,y) y y f h 3 (,y)=(.8,.5), h=(.,.8).5 Φ(α), quadratisches Modell α

32 Der Satz von Taylor/Mittelwertsatz Satz (Taylor/Mittelwertsatz) Sei f oft genug stetig differenzierbar und, h R n, dann θ (, ): f ( + h)= f ( )+ f ( +θ h) T h, θ (, ): f ( + h)= f ( )+ f ( ) T h+ ht f ( +θ h)h, θ 3 (, ): f ( + h)= f ( )+ f ( ) T h+ ht f ( )h f ( +θ 3 h)[h, h, h] [ 3 steht für die 3. Ableitung] Taylor-Entwicklung von f um Illustration des ersten Falls des Mittelwertsatzes: f f() f()+ f(+ θ h) Th +θ h +h

33 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!]

34 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!] Jede auf R n stetig differenzierbare Funktion ist für jedes R n und ρ > auf der ρ-kugel um, B ρ ( ) := { R n : ρ} Lipschitz-stetig. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das lineare Modell auf B ρ eine gute Näherung an f. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das quadratische Modell auf B ρ eine gute Näherung an f.

35 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!] Jede auf R n stetig differenzierbare Funktion ist für jedes R n und ρ > auf der ρ-kugel um, B ρ ( ) := { R n : ρ} Lipschitz-stetig. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das lineare Modell auf B ρ eine gute Näherung an f. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das quadratische Modell auf B ρ eine gute Näherung an f. Aus dem Satz von Taylor und der Lipschitz-Stetigkeit von k f folgt f ( + h)= f ( )+ f ( ) T h+ o( h ), f ( + h)= f ( )+ f ( ) T h+ ht f ( )h + o( h ) Das Landau-Symbol o(g(y)) steht immer als Ersatz für eine nicht weiter interessierende Funktion g g (y) mit der Eigenschaft lim (y) y g(y), also ein g, das schneller klein wird als g. Bei Folgen g(y (k) ) steht es für ein g (y (k) g ) mit lim (y (k) ) k g(y (k) ).

36 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der r Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f S (f) r

37 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q positiv definit

38 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q indefinit

39 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q negativ definit

40 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q positiv semidefinit

41 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: Rosenbrock-Funktion (banana shape) f (, y) = 4 [(y ) + ( ) ] Minimum wird in (,) angenommen. y

42 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren

43 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) >

44 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =.

45 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum!

46 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Bsp: f () = T Q + q T + c mit Q ist (streng) konve. Mit f () = Q + q bestimmt f ( ) = das Minimum eindeutig, = Q q.

47 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Geometrisch bedeutet f () =, dass die Tangentialebene an f in waagrecht liegt. Ist sie nicht waagrecht, kann man sicher noch ein wenig hinunterrutschen.

48 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Konsequenz für Optimierungsverfahren: Ist f (), so kann man die Funktion in Richtung f () immer verbessern (u.u. nur für sehr kleine Schrittweite). Die Schrittrichtung h = f () heißt steilster Abstieg (steepest descent).

49 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Min. einer hinr. glatten Funktion f : R n R, gilt f ( ) = und f ( ). Sonst gibt es ein h R n mit h T f ( )h <, Taylor ergibt für kleine α f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) < f ( ). }{{} = ( f ( )=) < Die Bedingung ist wieder nur notwendig [ und i.a. nicht ] hinreichend. Bsp: f (, y) = y 4, f (, y) = y für (, y) = (, ). Konsequenz für Optimierungsverfahren: Ist zwar f ( ) = aber λ min ( f ( )) <, so kann f in Richtung eines Eigenvektors zu λ min verbessert werden.

50 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) >

51 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) > Die Bedingung ist hinreichend, aber nicht notwendig: f () = 4 in =. In der Prais ist sie erstaunlich oft erfüllt.

52 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) > Die Bedingung ist hinreichend, aber nicht notwendig: f () = 4 in =. In der Prais ist sie erstaunlich oft erfüllt. Konsequenz für Optimierungsverfahren: In der Nähe eines lokalen Minimums sieht die Funktion wie eine konvee quadratische Funktion aus, das quadratische Modell ist dort eine gute Approimation!

53 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich.

54 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich. Stationäre Punkte sind entweder lokale Minima, lokale Maima oder Sattelpunkte (manche Richtungen führen aufwärts, manche abwärts).

55 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich. Stationäre Punkte sind entweder lokale Minima, lokale Maima oder Sattelpunkte (manche Richtungen führen aufwärts, manche abwärts). Alle Optimierungsverfahren versuchen eine Folge zu erzeugen, die gegen einen stationären Punkt konvergiert. In der Nähe eines stationären Punktes soll die Konvergenz möglichst quadratisch sein, wie beim Newton-Verfahren.

56 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren

57 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, 8 f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] y

58 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =.5, y= Newton =.4989, y=

59 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =.4989, y= Newton =., y=

60 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =., y= Newton =., y=

61 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =., y=.5.5 Newton =.37, y=

62 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =.37, y= Newton =.99774, y=

63 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =.99774, y= Newton =.99775, y=

64 Satz (lokal-quadratische Konvergenz des Newton-Verfahrens) Sei f zweimal stetig differenzierbar, ein lokales Minimum, das die hinreichenden Optimalitätsbedingungen erfüllt, f sei Lipschitz-stetig in einer Umgebung von. Für jeden nahe genug an gelegenen Startpunkt () gilt für die Folge (k+) := (k) f ( (k) ) f ( (k) ). Die (k) konvergieren quadratisch gegen, d.h., K N, c > : (k+) c (k) für k > K.. Die Gradienten-Normen f ( (k) ) konvergieren quadratisch gegen.

65 Satz (lokal-quadratische Konvergenz des Newton-Verfahrens) Sei f zweimal stetig differenzierbar, ein lokales Minimum, das die hinreichenden Optimalitätsbedingungen erfüllt, f sei Lipschitz-stetig in einer Umgebung von. Für jeden nahe genug an gelegenen Startpunkt () gilt für die Folge (k+) := (k) f ( (k) ) f ( (k) ). Die (k) konvergieren quadratisch gegen, d.h., K N, c > : (k+) c (k) für k > K.. Die Gradienten-Normen f ( (k) ) konvergieren quadratisch gegen. Der Satz gilt nur lokal und gibt keine Konvergenzgarantie für weit entfernte Startpunkte (das kann selbst für konvees f fehlschlagen). Die Funktionswerte f ( (k) ) müssen keineswegs monoton fallen. Startet die Folge in der Nähe eines anderen stationären Punktes (Maimum oder Sattelpunkt), konvergiert die Folge zu diesem. Kommt man ins Gebiet quadratischer Konvergenz, verdoppelt sich pro Iteration die Anzahl korrekt berechneter Stellen.

66 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren.

67 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar.

68 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.]

69 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.] Durch die Bedingung f ( (k+) ) < f ( (k) ) hoffen die Verfahren im Konvergenzfall ein Minimum gefunden zu haben, manchmal ist es jedoch ein Sattelpunkt. Für den Anwender ist das meist leicht zu erkennen, für das Verfahren nicht besseren Startpunkt wählen.

70 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.] Durch die Bedingung f ( (k+) ) < f ( (k) ) hoffen die Verfahren im Konvergenzfall ein Minimum gefunden zu haben, manchmal ist es jedoch ein Sattelpunkt. Für den Anwender ist das meist leicht zu erkennen, für das Verfahren nicht besseren Startpunkt wählen. Wir nutzen die Kurzschreibweise f k für f ( (k) ), f k für f ( (k) ) und f k für f ( (k) ).

71 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren

72 Line-Search-Verfahren Schematischer Ablauf von Line-Search-Verfahren:. Rufe das Orakel für (k) auf f k, f k, (vielleicht auch f k ).. Ist f k klein genug, STOP. 3. Abstiegsrichtung: Wähle h (k) R n mit fk T h(k) <. 4. Line-Search: Finde eine Schrittweite α k mit f ( (k) + α k h (k) ) ausreichend kleiner als f k 5. Setze (k+) := (k) + α k h (k), k k +, gehe zu. Zwei Hauptaufgaben: Bestimmung einer Abstiegsrichtung Bestimmung einer Schrittweite (Line-Search)

73 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <.

74 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <. Die meisten Algorithmen bestimmen h für ein B in der Form h := B f ( ), denn f ( ) T h = f ( ) T B f ( ) <. }{{} > Beispiele (s. später zu Vor- und Nachteilen): B = I : steilster Abstieg h = f ( ) (steepest descent). B = f ( ) Newton-Richtung (Abstiegsrichtung für f ( ) ) B = [ f ( ) + λi ] modifizierte Newton-Richtung B als Approimation von f ( ) Quasi-Newton-Richtung

75 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <. Die meisten Algorithmen bestimmen h für ein B in der Form h := B f ( ), denn f ( ) T h = f ( ) T B f ( ) <. }{{} > Beispiele (s. später zu Vor- und Nachteilen): B = I : steilster Abstieg h = f ( ) (steepest descent). B = f ( ) Newton-Richtung (Abstiegsrichtung für f ( ) ) B = [ f ( ) + λi ] modifizierte Newton-Richtung B als Approimation von f ( ) Quasi-Newton-Richtung Für globale Konvergenz der Line-Search Verfahren ist nur wichtig, dass die Richtungen nicht orthogonal zur steilsten Abstiegsrichtung werden: δ > : f T k h (k) f k h (k) = cos ( f k, h (k) ) δ > für k >. Das ist erfüllt, falls λma(b k ) λ min (B k ) < κ für ein κ > und gilt z.b. für B =I oder Newton-Richtung in der Nähe von unter den Vor. des Newton-Satzes.

76 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Φ () f() =Φ() Φ= f(+ αh) α

77 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Φ () f() =Φ() Φ= f(+ αh) α

78 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt] Φ () f() =Φ() Φ= f(+ αh) Armijo Φ()+αγ Φ () α

79 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt] Φ () f() =Φ() Φ= f(+ αh) Armijo Φ()+αγ Φ () ( ] [ ] α

80 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt]. An der Stelle ᾱ ist der Abstieg Φ schlecht ( < γ < γ < ): Φ (ᾱ) γ Φ () (Krümmungs-Bedingung) [ f T h stark geändert] Φ () f() =Φ() Φ= f(+ αh) Krümmung γ Φ () Armijo Φ()+αγ Φ () ( ] [ ] α [ ] [ ] [

81 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt]. An der Stelle ᾱ ist der Abstieg Φ schlecht ( < γ < γ < ): Φ (ᾱ) γ Φ () (Krümmungs-Bedingung) [ f T h stark geändert] Φ () f() =Φ() Φ= f(+ αh) Krümmung γ Φ () Armijo Φ()+αγ Φ () Wolfe [ ] [ ] [ ] ( [ α [ ] [ ] [ Armijo- und Krümmungs- Bedingung gemeinsam heißen Wolfe-Bedingungen und Schrittweiten, die diese erfüllen, garantieren ausreichenden Abstieg. [γ = 4, γ {.,.9}]

82 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist.

83 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist. Satz (Globale Konvergenz von Line-Search-Verfahren) Sei f nach unten beschränkt. Für den Startpunkt () sei f auf der Niveaumenge { R n : f () < f } Lipschitz-stetig. Garantiert ein f T k h(k) Line-Search-Verfahren f k δ für ein δ > sowie die h (k) Wolfe-Bedingungen für die Schrittweiten α k, dann gilt f k.

84 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist. Satz (Globale Konvergenz von Line-Search-Verfahren) Sei f nach unten beschränkt. Für den Startpunkt () sei f auf der Niveaumenge { R n : f () < f } Lipschitz-stetig. Garantiert ein f T k h(k) Line-Search-Verfahren f k δ für ein δ > sowie die h (k) Wolfe-Bedingungen für die Schrittweiten α k, dann gilt f k. Vorsicht: Man hofft auf Konvergenz gegen ein Minimum, aber sowohl (k) als auch Konvergenz gegen einen Sattelpunkt sind nicht ausgeschlossen!

85 Bestimmung der Schrittweite in der Prais Ziel ist, mit möglichst wenig Funktionsauswertungen einen Wolfepunkt zu finden. Die vorhergehende Schrittweite dient meist als Startwert, beim allerersten Mal nutzt man gerne α = h. Der nächsten Kandidat wird z.b. über kubische Interpolation, die neue und alte Funktionswerte und Ableitungen nutzt, bestimmt. Jeder Fehl-Versuch erlaubt, das Suchintervall zu verkleinern. Eine solide und effiziente Implementation, die auch mit numerischen Schwierigkeiten umgehen kann, ist sehr schwer und aufwendig. Entscheidend für den Erfolg ist vor allem die Schrittrichtung! AUSNAHME: Für Newton-ähnliche Richtungen wird immer Schrittweite zuerst probiert und nur auf Armijo getestet. Solange Armijo nicht erfüllt ist, reduziert man die Schrittweite (durch Interpolation oder einfaches Backtracking, d.h., Multiplikation der Schrittweite mit einem Faktor < σ < ).

Optimierung für Nichtmathematiker

Optimierung für Nichtmathematiker Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren

Mehr

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn

Optimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum

Mehr

3 Optimierung mehrdimensionaler Funktionen f : R n R

3 Optimierung mehrdimensionaler Funktionen f : R n R 3 Optimierung mehrdimensionaler Funktionen f : R n R 31 Optimierung ohne Nebenbedingungen Optimierung heißt eigentlich: Wir suchen ein x R n so, dass f(x ) f(x) für alle x R n (dann heißt x globales Minimum)

Mehr

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R

9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 91 Optimierung ohne Nebenbedingungen Ein Optimum zu suchen heißt, den größten oder den kleinsten Wert zu suchen Wir suchen also ein x R n, sodass

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung

Mehr

Vorlesung: Analysis II für Ingenieure. Wintersemester 07/08. Michael Karow. Themen: Niveaumengen und Gradient

Vorlesung: Analysis II für Ingenieure. Wintersemester 07/08. Michael Karow. Themen: Niveaumengen und Gradient Vorlesung: Analysis II für Ingenieure Wintersemester 07/08 Michael Karow Themen: Niveaumengen und Gradient Wir betrachten differenzierbare reellwertige Funktionen f : R n G R, G offen Zur Vereinfachung

Mehr

Wir untersuchen in diesem Abschnitt das (lokale) Newton Verfahren zur Lösung eines nichtlinearen Gleichungssystems

Wir untersuchen in diesem Abschnitt das (lokale) Newton Verfahren zur Lösung eines nichtlinearen Gleichungssystems Kapitel 2 Newton Verfahren 2.1 Das lokale Newton Verfahren Wir untersuchen in diesem Abschnitt das (lokale) Newton Verfahren zur Lösung eines nichtlinearen Gleichungssystems F (x) = 0 (2.1) mit einer zumindest

Mehr

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.

Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt. Kapitel 3 Konvexität 3.1 Konvexe Mengen Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt. Definition 3.1 Konvexer Kegel. Eine Menge Ω R n heißt konvexer Kegel, wenn mit x

Mehr

Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2

Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2 Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II Wiederholungsblatt: Analysis Sommersemester 2011 W. Werner, F. Springer erstellt von: Max Brinkmann Aufgabe 1: Untersuchen Sie, ob die

Mehr

Rückblick auf die letzte Vorlesung. Bemerkung

Rückblick auf die letzte Vorlesung. Bemerkung Bemerkung 1) Die Bedingung grad f (x 0 ) = 0 T definiert gewöhnlich ein nichtlineares Gleichungssystem zur Berechnung von x = x 0, wobei n Gleichungen für n Unbekannte gegeben sind. 2) Die Punkte x 0 D

Mehr

6.8 Newton Verfahren und Varianten

6.8 Newton Verfahren und Varianten 6. Numerische Optimierung 6.8 Newton Verfahren und Varianten In den vorherigen Kapiteln haben wir grundlegende Gradienten-basierte Verfahren kennen gelernt, die man zur numerischen Optimierung von (unbeschränkten)

Mehr

Partielle Ableitungen, Gradient, Lineare Näherung, Extrema, Fehlerfortpflanzung

Partielle Ableitungen, Gradient, Lineare Näherung, Extrema, Fehlerfortpflanzung Partielle Ableitungen, Gradient, Lineare Näherung, Extrema, Fehlerfortpflanzung Jörn Loviscach Versionsstand: 29. Juni 2009, 18:41 1 Partielle Ableitungen, Gradient Die Ableitung einer Funktion f an einer

Mehr

3 Nichtlineare Gleichungssysteme

3 Nichtlineare Gleichungssysteme 3 Nichtlineare Gleichungsssteme 3.1 Eine Gleichung in einer Unbekannten Problemstellung: Gegeben sei die stetige Funktion f(). Gesucht ist die Lösung der Gleichung f() = 0. f() f() a) f ( ) 0 b) f ( )

Mehr

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)

Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA) Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA) Wintersemester 2014/15 Hochschule Augsburg : Gliederung 1 Grundlegende 2 Grundlegende 3 Aussagenlogik 4 Lineare Algebra

Mehr

Kapitel 16 : Differentialrechnung

Kapitel 16 : Differentialrechnung Kapitel 16 : Differentialrechnung 16.1 Die Ableitung einer Funktion 16.2 Ableitungsregeln 16.3 Mittelwertsätze und Extrema 16.4 Approximation durch Taylor-Polynome 16.5 Zur iterativen Lösung von Gleichungen

Mehr

f(x) f(x 0 ) lokales Maximum x U : gilt, so heißt x 0 isoliertes lokales Minimum lokales Minimum Ferner nennen wir x 0 Extremum.

f(x) f(x 0 ) lokales Maximum x U : gilt, so heißt x 0 isoliertes lokales Minimum lokales Minimum Ferner nennen wir x 0 Extremum. Fabian Kohler Karolina Stoiber Ferienkurs Analsis für Phsiker SS 4 A Extrema In diesem Abschnitt sollen Extremwerte von Funktionen f : D R n R diskutiert werden. Auch hier gibt es viele Ähnlichkeiten mit

Mehr

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme

Newton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme Newton-Verfahren zur gleichungsbeschränkten Optimierung Armin Farmani Anosheh (afarmani@mail.uni-mannheim.de) 3.Mai 2016 1 Gleichungsbeschränkte Optimierungsprobleme Einleitung In diesem Vortrag geht es

Mehr

Der CG-Algorithmus (Zusammenfassung)

Der CG-Algorithmus (Zusammenfassung) Der CG-Algorithmus (Zusammenfassung) Michael Karow Juli 2008 1 Zweck, Herkunft, Terminologie des CG-Algorithmus Zweck: Numerische Berechnung der Lösung x des linearen Gleichungssystems Ax = b für eine

Mehr

KLAUSUR zu Einführung in die Optimierung. Studiengang: Bachelor Master Diplom (bitte ankreuzen)

KLAUSUR zu Einführung in die Optimierung. Studiengang: Bachelor Master Diplom (bitte ankreuzen) Mathematisches Institut WS 2012/13 der Heinrich-Heine-Universität 7.02.2013 Düsseldorf Prof. Dr. Achim Schädle KLAUSUR zu Einführung in die Optimierung Bitte folgende Angaben ergänzen und DEUTLICH LESBAR

Mehr

Nichtlineare Gleichungssysteme

Nichtlineare Gleichungssysteme Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische

Mehr

Mathematik 2 für Wirtschaftsinformatik

Mathematik 2 für Wirtschaftsinformatik für Wirtschaftsinformatik Sommersemester 2012 Hochschule Augsburg Hinreichende Bedingung für lokale Extrema Voraussetzungen Satz D R n konvex und offen Funktion f : D R zweimal stetig partiell differenzierbar

Mehr

40 Lokale Extrema und Taylor-Formel

40 Lokale Extrema und Taylor-Formel 198 VI. Differentialrechnung in mehreren Veränderlichen 40 Lokale Extrema und Taylor-Formel Lernziele: Resultate: Satz von Taylor und Kriterien für lokale Extrema Methoden aus der linearen Algebra Kompetenzen:

Mehr

Numerische Ableitung

Numerische Ableitung Numerische Ableitung Die Ableitung kann angenähert werden durch den Differentenquotient: f (x) f(x + h) f(x) h oder f(x + h) f(x h) 2h für h > 0, aber h 0. Beim numerischen Rechnen ist folgendes zu beachten:

Mehr

INGENIEURMATHEMATIK. 9. Differentialrechnung für Funktionen mehrerer Variablen. Sommersemester Prof. Dr. Gunar Matthies

INGENIEURMATHEMATIK. 9. Differentialrechnung für Funktionen mehrerer Variablen. Sommersemester Prof. Dr. Gunar Matthies Mathematik und Naturwissenschaften Fachrichtung Mathematik, Institut für Numerische Mathematik INGENIEURMATHEMATIK 9. Differentialrechnung für Funktionen mehrerer Variablen Prof. Dr. Gunar Matthies Sommersemester

Mehr

8 Extremwerte reellwertiger Funktionen

8 Extremwerte reellwertiger Funktionen 8 Extremwerte reellwertiger Funktionen 34 8 Extremwerte reellwertiger Funktionen Wir wollen nun auch Extremwerte reellwertiger Funktionen untersuchen. Definition Es sei U R n eine offene Menge, f : U R

Mehr

Problem lokaler Minima

Problem lokaler Minima Optimierung Optimierung Häufige Aufgabe bei Parameterschätzung: Minimierung der negativen log-likelihood-funktion F(a) oder der Summe der quadratischen Abweichungen S(a) und Berechnung der Unsicherheit

Mehr

5.10. Mehrdimensionale Extrema und Sattelpunkte

5.10. Mehrdimensionale Extrema und Sattelpunkte 5.1. Mehrdimensionale Extrema und Sattelpunkte Zur Erinnerung: Eine Funktion f von einer Teilmenge A des R n nach R hat im Punkt a ein (strenges) globales Maximum, falls f( x ) f( a ) (bzw. f( x ) < f(

Mehr

Technische Universität Berlin Fakultät II Institut für Mathematik SS 13 G. Bärwolff, C. Mehl, G. Penn-Karras

Technische Universität Berlin Fakultät II Institut für Mathematik SS 13 G. Bärwolff, C. Mehl, G. Penn-Karras Technische Universität Berlin Fakultät II Institut für Mathematik SS 3 G. Bärwolff, C. Mehl, G. Penn-Karras 9..3 Oktober Klausur Analysis II für Ingenieure Rechenteil. Aufgabe Punkte i) Wir berechnen zunächst

Mehr

Mathematischer Vorkurs für Physiker WS 2012/13

Mathematischer Vorkurs für Physiker WS 2012/13 TU München Prof. P. Vogl Mathematischer Vorkurs für Physiker WS 2012/13 Übungsblatt 2 Wichtige Formeln aus der Vorlesung: Basisaufgaben Beispiel 1: 1 () grad () = 2 (). () () = ( 0 ) + grad ( 0 ) ( 0 )+

Mehr

Höhere Mathematik für Physiker II

Höhere Mathematik für Physiker II Universität Heidelberg Sommersemester 2013 Wiederholungsblatt Übungen zur Vorlesung Höhere Mathematik für Physiker II Prof Dr Anna Marciniak-Czochra Dipl Math Alexandra Köthe Fragen Machen Sie sich bei

Mehr

Kapitel 8: Suche nach Nullstellen und Extremwerten

Kapitel 8: Suche nach Nullstellen und Extremwerten Kapitel 8: Suche nach Nullstellen und Extremwerten Nullstellensuche (root finding) Einfachste Variante: Suche Nullstelle(n) einer 1D-Funktion: f(x) = 0 (1) Dies umfaßt bereits scheinbar andere Fälle, z.b.

Mehr

Extrema von Funktionen mit zwei Variablen

Extrema von Funktionen mit zwei Variablen Extrema von Funktionen mit zwei Variablen Es gilt der Satz: Ist an einer Stelle x,y ) f x x,y ) = und f y x,y ) = und besteht außerdem die Ungleichung f xx x,y )f yy x,y ) f xy x,y ) >, so liegt an dieser

Mehr

B Lösungen. Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R 2 Berechnen Sie zur Abbildung. f(x, y) := x sin(xy) f : R 2 R,

B Lösungen. Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R 2 Berechnen Sie zur Abbildung. f(x, y) := x sin(xy) f : R 2 R, B en Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R Berechnen Sie zur Abbildung f : R R, f(x, y) : x sin(xy) das totale Differenzial f df, die Jacobi-Matrix J f (x, y) und den Gradienten ( f)(x,

Mehr

28 Taylor-Formel, lokale Extrema

28 Taylor-Formel, lokale Extrema VII. Differentialrechnung in mehreren Variablen 458 28 Taylor-Formel, lokale Extrema Wir erinnern an den Mittelwertsatz für differenzierbare Funktionen f : D R (D R n offen) (vgl. 26.1): Sind a,b D Punkte,

Mehr

Anwendungen der Differentialrechnung

Anwendungen der Differentialrechnung KAPITEL 5 Anwendungen der Differentialrechnung 5.1 Maxima und Minima einer Funktion......................... 80 5.2 Mittelwertsatz.................................... 82 5.3 Kurvendiskussion..................................

Mehr

Thema 12 Differentialrechnung, Partielle Ableitungen, Differenzierbarkeit, Taylor-Formel, Lokale Extrema

Thema 12 Differentialrechnung, Partielle Ableitungen, Differenzierbarkeit, Taylor-Formel, Lokale Extrema Thema 12 Differentialrechnung, Partielle Ableitungen, Differenzierbarkeit, Taylor-Formel, Lokale Extrema In diesem Kapitel befassen wir uns mit der Ableitung von Funktionen f : R m R n. Allein die Schreibweise

Mehr

4.7 Der Taylorsche Satz

4.7 Der Taylorsche Satz 288 4 Differenziation 4.7 Der Taylorsche Satz Die Differenzierbarkeit, also die Existenz der ersten Ableitung einer Funktion, erlaubt bekanntlich, diese Funktion lokal durch eine affine Funktion näherungsweise

Mehr

Mathematik 3 für Informatik

Mathematik 3 für Informatik Gunter Ochs Wintersemester 5/6 Mathematik 3 für Informatik Lösungen zum Hausaufgabenblatt Lösungshinweise ohne Garnatie auf Fehlerfreiheit c 5. Berechnen Sie die folgenden unbestimmten Integrale: a x 4

Mehr

8.3 Lösen von Gleichungen mit dem Newton-Verfahren

8.3 Lösen von Gleichungen mit dem Newton-Verfahren 09.2.202 8.3 Lösen von Gleichungen mit dem Newton-Verfahren Beispiel: + 2 e Diese Gleichung kann nicht nach aufgelöst werden, da die beiden nicht zusammengefasst werden können. e - - 2 0 Die gesuchten

Mehr

Mathematik für Wirtschaftswissenschaftler Kapitel 4-6. Universität Trier Wintersemester 2013 / 2014

Mathematik für Wirtschaftswissenschaftler Kapitel 4-6. Universität Trier Wintersemester 2013 / 2014 Mathematik für Kapitel 4-6 Universität Trier Wintersemester 2013 / 2014 Kapitel 4 1. Extremwerte 2. Lokale Optimalpunkte 3. Wendepunkte 2 Kapitel 4.1 EXTREMWERTE 3 Extrempunkte und Extremwerte 4 Strikte

Mehr

(x, x + y 2, x y 2 + z 3. = e x sin y. sin y. Nach dem Umkehrsatz besitzt f dann genau auf der Menge

(x, x + y 2, x y 2 + z 3. = e x sin y. sin y. Nach dem Umkehrsatz besitzt f dann genau auf der Menge ÜBUNGSBLATT 0 LÖSUNGEN MAT/MAT3 ANALYSIS II FRÜHJAHRSSEMESTER 0 PROF DR CAMILLO DE LELLIS Aufgabe Finden Sie für folgende Funktionen jene Punkte im Bildraum, in welchen sie sich lokal umkehren lassen,

Mehr

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.

f f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0. Mehrdimensionale Dierenzialrechnung 9 Optimierung 9 Optimierung Definition Seien U R n oen, f : U R, x U x heiÿt lokales Maximum, falls eine Umgebung V U von x existiert mit y V : fx fy x heiÿt lokales

Mehr

Taylorreihen. Kapitel 9. Lernziele. Taylorreihe. (x x 0 ) + f (x 0 ) 2! (x x 0 ) f (n) (x 0 ) (x x 0 ) n. Taylorreihe und MacLaurinreihe

Taylorreihen. Kapitel 9. Lernziele. Taylorreihe. (x x 0 ) + f (x 0 ) 2! (x x 0 ) f (n) (x 0 ) (x x 0 ) n. Taylorreihe und MacLaurinreihe Kapitel 9 Taylorreihen Josef Leydold c 2006 Mathematische Methoden IX Taylorreihen 1 / 25 Lernziele Taylorreihe und MacLaurinreihe Beispiele Alternative Schreibweisen Approimation der Veränderung einer

Mehr

Stetigkeit an der Stelle X0 2 Rn (Folgen) f : Rn! Rm. Stetigkeit an der Stelle X0 2 Rn

Stetigkeit an der Stelle X0 2 Rn (Folgen) f : Rn! Rm. Stetigkeit an der Stelle X0 2 Rn Body-Mass-nde/Ko rpermasseinde BM = Gewicht (Gro ße) Ko rpermasseinde (betrachte aber nur > 0, y > 0) fu r y = c fest: eine Gerade B() = c fu r = c fest: eine Hyperbel B(y ) = yc BM = Ko rpermasseinde

Mehr

Mathematik Übungsblatt - Lösung. b) x=2

Mathematik Übungsblatt - Lösung. b) x=2 Hochschule Regensburg Fakultät Informatik/Mathematik Christoph Böhm Sommersemester 204 Technische Informatik Bachelor IT2 Vorlesung Mathematik 2 Mathematik 2 4. Übungsblatt - Lösung Differentialrechnung

Mehr

Nichtlineare Optimierung

Nichtlineare Optimierung Technische Universität Berlin Fakultät II Institut für Mathematik Nichtlineare Optimierung Vorlesung im Wintersemester 05/06 Dietmar Hömberg Im WS 01/0.2 gehalten von F. Tröltzsch. Grundlage der Vorlesung

Mehr

Lösungen zu den Hausaufgaben zur Analysis II

Lösungen zu den Hausaufgaben zur Analysis II Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin

Mehr

Abb lokales Maximum und Minimum

Abb lokales Maximum und Minimum .13 Lokale Extrema, Monotonie und Konvexität Wir kommen nun zu den ersten Anwendungen der Dierentialrechnung. Zwischen den Eigenschaten einer Funktion, dem Verlau des zugehörigen Graphen und den Ableitungen

Mehr

Nichtlineare Gleichungen

Nichtlineare Gleichungen Nichtlineare Gleichungen Ein wichtiges Problem in der Praxis ist die Bestimmung einer Lösung ξ der Gleichung f(x) =, () d.h. das Aufsuchen einer Nullstelle ξ einer (nicht notwendig linearen) Funktion f.

Mehr

Nichtlineare Optimierung ohne Nebenbedingungen

Nichtlineare Optimierung ohne Nebenbedingungen Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt

Mehr

Differentialrechnung

Differentialrechnung Kapitel 7 Differentialrechnung Josef Leydold Mathematik für VW WS 205/6 7 Differentialrechnung / 56 Differenzenquotient Sei f : R R eine Funktion. Der Quotient f = f ( 0 + ) f ( 0 ) = f () f ( 0) 0 heißt

Mehr

Multivariate Analysis

Multivariate Analysis Kapitel Multivariate Analysis Josef Leydold c 6 Mathematische Methoden I Multivariate Analysis / 38 Lernziele Funktionen in mehreren Variablen Graph und Niveaulinien einer Funktion in zwei Variablen Partielle

Mehr

Mathematik M 1/Di WS 2001/02 1. Sei f : D R eine Funktion mit nichtleerem Definitionsbereich D. Sei a D. f heißt stetig in a, falls gilt

Mathematik M 1/Di WS 2001/02 1. Sei f : D R eine Funktion mit nichtleerem Definitionsbereich D. Sei a D. f heißt stetig in a, falls gilt Mathematik M 1/Di WS 2001/02 1 b) Stetigkeit Sei f : D R eine Funktion mit nichtleerem Definitionsbereich D Sei a D f heißt stetig in a, falls gilt lim f() = f(a) a f heißt stetig auf D, wenn f in jedem

Mehr

Stetigkeit von Funktionen

Stetigkeit von Funktionen 9 Stetigkeit von Funktionen Definition 9.1 : Sei D R oder C und f : D R, C. f stetig in a D : ε > 0 δ > 0 mit f(z) f(a) < ε für alle z D, z a < δ. f stetig auf D : f stetig in jedem Punkt a D. f(a) ε a

Mehr

Funktionen mehrerer Variabler

Funktionen mehrerer Variabler Funktionen mehrerer Variabler Fakultät Grundlagen Juli 2015 Fakultät Grundlagen Funktionen mehrerer Variabler Übersicht Funktionsbegriff 1 Funktionsbegriff Beispiele Darstellung Schnitte 2 Partielle Ableitungen

Mehr

Mathematik für Anwender I. Beispielklausur I mit Lösungen

Mathematik für Anwender I. Beispielklausur I mit Lösungen Fachbereich Mathematik/Informatik Prof. Dr. H. Brenner Mathematik für Anwender I Beispielklausur I mit en Dauer: Zwei volle Stunden + 10 Minuten Orientierung, in denen noch nicht geschrieben werden darf.

Mehr

Übung 22: Gradient und Richtungsableitung; Extremwertaufgaben für Funktionen mehrerer Veränderlicher

Übung 22: Gradient und Richtungsableitung; Extremwertaufgaben für Funktionen mehrerer Veränderlicher Technische Universität Chemnitz 1. Juli 20 Fakultät für Mathematik Höhere Mathematik I.2 Übung 22: Gradient und Richtungsableitung; Extremwertaufgaben für Funktionen mehrerer Veränderlicher 1. Durch ein

Mehr

Kurvendiskussion für Funktionen mit einer Variablen

Kurvendiskussion für Funktionen mit einer Variablen Kurvendiskussion für Funktionen mit einer Variablen Unter der Kurvendiskussion einer Funktionsgleichung versteht man die Zusammenstellung der wichtigsten Eigenschaften ihres Bildes mit anschließender Zeichnung.

Mehr

18 Höhere Ableitungen und Taylorformel

18 Höhere Ableitungen und Taylorformel 8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a

Mehr

11 Optimierung von Funktionen einer Veränderlichen

11 Optimierung von Funktionen einer Veränderlichen 11 Optimierung von Funktionen einer Veränderlichen In diesem Kapitel werden die bis hier behandelten Grundlagen der Analysis genutzt, um Methoden aus der Optimierungstheorie für eindimensionale Entscheidungsmengen

Mehr

Lineare und nichtlineare Optimierung

Lineare und nichtlineare Optimierung Lineare und nichtlineare Optimierung AXEL DREVES Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Universität der Bundeswehr München Werner-Heisenberg-Weg 39 85577 Neubiberg/München

Mehr

Taylor-Entwicklung der Exponentialfunktion.

Taylor-Entwicklung der Exponentialfunktion. Taylor-Entwicklung der Exponentialfunktion. Betrachte die Exponentialfunktion f(x) = exp(x). Zunächst gilt: f (x) = d dx exp(x) = exp(x). Mit dem Satz von Taylor gilt um den Entwicklungspunkt x 0 = 0 die

Mehr

Mathematik 1 für Wirtschaftsinformatik

Mathematik 1 für Wirtschaftsinformatik Mathematik 1 für Wirtschaftsinformatik Wintersemester 2012/13 Hochschule Augsburg : Gliederung 7 Folgen und Reihen 8 Finanzmathematik 9 Reelle Funktionen 10 Differenzieren 1 11 Differenzieren 2 12 Integration

Mehr

11 Untermannigfaltigkeiten des R n und lokale Extrema mit Nebenbedingungen

11 Untermannigfaltigkeiten des R n und lokale Extrema mit Nebenbedingungen 11 Untermannigfaltigkeiten des R n und lokale Extrema mit Nebenbedingungen Ziel: Wir wollen lokale Extrema von Funktionen f : M R untersuchen, wobei M R n eine k-dimensionale Untermannigfaltigkeit des

Mehr

Kapitel 6 Folgen und Stetigkeit

Kapitel 6 Folgen und Stetigkeit Kapitel 6 Folgen und Stetigkeit Mathematischer Vorkurs TU Dortmund Seite 76 / 226 Definition 6. (Zahlenfolgen) Eine Zahlenfolge (oder kurz: Folge) ist eine Funktion f : 0!. Statt f(n) schreiben wir x n

Mehr

10.4 Funktionen von mehreren Variablen

10.4 Funktionen von mehreren Variablen 10.4 Funktionen von mehreren Variablen 87 10.4 Funktionen von mehreren Variablen Veranschaulichung von Funktionen eine Variable wei Variablen f() oder = f() (, ) f(, ) oder = f(, ) D(f) IR; Darstellung

Mehr

Gradient, Hessematrix, Definitheit, Taylorentwicklung und Extremwertaufgaben von Funktionen mehrerer Variabler

Gradient, Hessematrix, Definitheit, Taylorentwicklung und Extremwertaufgaben von Funktionen mehrerer Variabler Rolf Haftmann Gradient, Hessematri, Definitheit, Talorentwicklung und Etremwertaufgaben von Funktionen mehrerer Variabler Gradient: Spaltenvektor der partiellen Ableitungen f 1 f f 1 f = grad f = 2 = f

Mehr

II. Nichtlineare Optimierung

II. Nichtlineare Optimierung II. Nichtlineare Optimierung 1. Problemstellungen 2. Grundlagen 3. Probleme ohne Nebenbedingungen 4. Probleme mit Nebenbedingungen Theorie 5. Probleme mit Nebenbedingungen Verfahren H. Weber, FHW, OR SS06,

Mehr

Einführung in die nichtlineare Optimierung

Einführung in die nichtlineare Optimierung Einführung in die nichtlineare Optimierung Prof. Dr. Walter Alt Semester: SS 2010 1 Vorwort Dieses Dokument wurde als Skript für die auf der Titelseite genannte Vorlesung erstellt und wird jetzt im Rahmen

Mehr

Numerische Methoden und Algorithmen in der Physik

Numerische Methoden und Algorithmen in der Physik Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 11.12.2008 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Einführung Verfahren für

Mehr

Outline. 1 Funktionen von mehreren Veränderlichen. 2 Grenzwert und Stetigkeit. 3 Partielle Ableitungen. 4 Die verallgemeinerte Kettenregel

Outline. 1 Funktionen von mehreren Veränderlichen. 2 Grenzwert und Stetigkeit. 3 Partielle Ableitungen. 4 Die verallgemeinerte Kettenregel Outline 1 Funktionen von mehreren Veränderlichen 2 Grenzwert und Stetigkeit 3 Partielle Ableitungen 4 Die verallgemeinerte Kettenregel 5 Das totale Differential 6 Extremstellen Roman Wienands (Universität

Mehr

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen

Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Dr. Nico Düvelmeyer Freitag, 1. Juli 2011 1: 1 [1,1] Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel

Mehr

Teil II. Nichtlineare Optimierung

Teil II. Nichtlineare Optimierung Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene

Mehr

2. Optimierungsprobleme 6

2. Optimierungsprobleme 6 6 2. Beispiele... 7... 8 2.3 Konvexe Mengen und Funktionen... 9 2.4 Konvexe Optimierungsprobleme... 0 2. Beispiele 7- Ein (NP-)Optimierungsproblem P 0 ist wie folgt definiert Jede Instanz I P 0 hat einen

Mehr

Formelsammlung zum Starterstudium Mathematik

Formelsammlung zum Starterstudium Mathematik Formelsammlung zum Starterstudium Mathematik Universität des Saarlandes ¼ Version.3 Inhaltsverzeichnis. Potenzgesetze. Vollständige Induktion 3. Betragsgleichungen, Betragsungleichungen 4 4. Folgen und

Mehr

Analysis I. 4. Beispielklausur mit Lösungen

Analysis I. 4. Beispielklausur mit Lösungen Fachbereich Mathematik/Informatik Prof. Dr. H. Brenner Analysis I 4. Beispielklausur mit en Aufgabe 1. Definiere die folgenden (kursiv gedruckten) Begriffe. (1) Eine bijektive Abbildung f: M N. () Ein

Mehr

Iterative Verfahren, Splittingmethoden

Iterative Verfahren, Splittingmethoden Iterative Verfahren, Splittingmethoden Theodor Müller 19. April 2005 Sei ein lineares Gleichungssystem der Form Ax = b b C n, A C n n ( ) gegeben. Es sind direkte Verfahren bekannt, die ein solches Gleichungssystem

Mehr

f(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J}

f(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J} 9 Der Satz über implizite Funktionen 41 9 Der Satz über implizite Funktionen Wir haben bisher Funktionen g( von einer reellen Variablen immer durch Formelausdrücke g( dargestellt Der Zusammenhang zwischen

Mehr

Kursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL (Prof. Dr. Lutz Arnold) Wintersemester 2009/

Kursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL (Prof. Dr. Lutz Arnold) Wintersemester 2009/ Kursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL (Prof. Dr. Lutz Arnold) Wintersemester 2009/10 2.3.2010 Bitte gut leserlich ausfüllen: Name: Vorname: Matr.-nr.: Wird vom Prüfer ausgefüllt:

Mehr

Großes Lehrbuch der Mathematik für Ökonomen

Großes Lehrbuch der Mathematik für Ökonomen Großes Lehrbuch der Mathematik für Ökonomen Von Professor Dr. Karl Bosch o. Professor für angewandte Mathematik und Statistik an der Universität Stuttgart-Hohenheim und Professor Dr. Uwe Jensen R. Oldenbourg

Mehr

ε δ Definition der Stetigkeit.

ε δ Definition der Stetigkeit. ε δ Definition der Stetigkeit. Beweis a) b): Annahme: ε > 0 : δ > 0 : x δ D : x δ x 0 < δ f (x δ f (x 0 ) ε Die Wahl δ = 1 n (n N) generiert eine Folge (x n) n N, x n D mit x n x 0 < 1 n f (x n ) f (x

Mehr

Technische Universität München Zentrum Mathematik. Übungsblatt 4

Technische Universität München Zentrum Mathematik. Übungsblatt 4 Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 4 Hausaufgaben Aufgabe 4. Gegeben sei die Funktion f : D R mit f(x) :=

Mehr

NICHTLINEARE GLEICHUNGSSYSTEME

NICHTLINEARE GLEICHUNGSSYSTEME NICHTLINEARE GLEICHUNGSSYSTEME Christian Kanzow Julius Maximilians Universität Würzburg Institut für Mathematik Am Hubland 97074 Würzburg e-mail: kanzow@mathematik.uni-wuerzburg.de URL: http://www.mathematik.uni-wuerzburg.de/

Mehr

2. Stetige lineare Funktionale

2. Stetige lineare Funktionale -21-2. Stetige lineare Funktionale Die am Ende von 1 angedeutete Eigenschaft, die ein lineares Funktional T : D(ú) 6 verallgemeinerten Funktion macht, ist die Stetigkeit von T in jedem n 0 0 D(ú). Wenn

Mehr

Analysis II WS 11/12 Serie 9 Musterlösung

Analysis II WS 11/12 Serie 9 Musterlösung Analysis II WS / Serie 9 Musterlösung Aufgabe Bestimmen Sie die kritischen Punkte und die lokalen Extrema der folgenden Funktionen f : R R: a fx, y = x + y xy b fx, y = cos x cos y Entscheiden Sie bei

Mehr

26. Höhere Ableitungen

26. Höhere Ableitungen 26. Höhere Ableitungen 331 26. Höhere Ableitungen Im letzten Kapitel haben wir gesehen, wie man für Abbildungen zwischen mehrdimensionalen Räumen das Konzept der Differenzierbarkeit definieren und für

Mehr

Definition: Differenzierbare Funktionen

Definition: Differenzierbare Funktionen Definition: Differenzierbare Funktionen 1/12 Definition. Sei f :]a, b[ R eine Funktion. Sie heißt an der Stelle ξ ]a, b[ differenzierbar, wenn der Grenzwert existiert. f(ξ + h) f(ξ) lim h 0 h = lim x ξ

Mehr

2 Stetigkeit und Differenzierbarkeit

2 Stetigkeit und Differenzierbarkeit 2.1) Sei D R. a) x 0 R heißt Häufungspunkt von D, wenn eine Folge x n ) n N existiert mit x n D,x n x 0 und lim n x n = x 0. D sei die Menge der Häufungspunkte von D. b) x 0 D heißt innerer Punkt von D,

Mehr

15 Hauptsätze über stetige Funktionen

15 Hauptsätze über stetige Funktionen 15 Hauptsätze über stetige Funktionen 15.1 Extremalsatz von Weierstraß 15.2 Zwischenwertsatz für stetige Funktionen 15.3 Nullstellensatz von Bolzano 15.5 Stetige Funktionen sind intervalltreu 15.6 Umkehrfunktionen

Mehr

55 Lokale Extrema unter Nebenbedingungen

55 Lokale Extrema unter Nebenbedingungen 55 Lokale Extrema unter Nebenbedingungen Sei f : O R mit O R n differenzierbar. Notwendige Bescheinigung für ein lokales Extremum in p 0 ist dann die Bedingung f = 0 (siehe 52.4 und 49.14). Ist nun F :

Mehr

Näherungsverfahren zur Berechnung von Nullstellen. Das Newtonsche Iterationsverahren

Näherungsverfahren zur Berechnung von Nullstellen. Das Newtonsche Iterationsverahren Näherungsverfahren zur Berechnung von Nullstellen Das Newtonsche Iterationsverahren. Dieses Verfahren der Nullstellenanäherung macht von der Tatsache Gebrauch, dass der Funktionsgraph einer differenzierbaren

Mehr

31 Die Potentialgleichung

31 Die Potentialgleichung 3 Die Potentialgleichung Die Potentialgleichung oder auch Poisson-Gleichung ist die lineare Gleichung zweiter Ordnung u = f in einem Gebiet R n. Im homogenen Fall f = 0 spricht man auch von der Laplace-

Mehr

7.2.1 Zweite partielle Ableitungen

7.2.1 Zweite partielle Ableitungen 72 72 Höhere Ableitungen 72 Höhere Ableitungen Vektorwertige Funktionen sind genau dann differenzierbar, wenn ihre Koordinatenfunktionen differenzierbar sind Es ist also keine wesentliche Einschränkung,

Mehr

Modulabschlussklausur Analysis II

Modulabschlussklausur Analysis II Modulabschlussklausur Analysis II. Juli 015 Bearbeitungszeit: 150 min Aufgabe 1 [5/10 Punkte] Es sei a R und f a : R 3 R mit f a (x, y, z) = x cos(y) + z 3 sin(y) + a 3 + (z + ay a y) cos(x) a) Bestimmen

Mehr

LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN. 2. Übung/Lösung Mathematik für Studierende der Biologie

LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN. 2. Übung/Lösung Mathematik für Studierende der Biologie LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR BIOLOGIE Prof. Anreas Herz, Dr. Stefan Häusler email: haeusler@biologie.uni-muenchen.e Department Biologie II Telefon: 089-80-74800 Großhaernerstr. Fa:

Mehr

= (n 2 ) 1 (Kurzschreibweise: a n = n 2 ) ergibt die Zahlenfolge 1, 4, 9, 16, 25, 36,.

= (n 2 ) 1 (Kurzschreibweise: a n = n 2 ) ergibt die Zahlenfolge 1, 4, 9, 16, 25, 36,. 2 Folgen, Reihen, Grenzwerte 2.1 Zahlenfolgen Definition: Eine Folge ist eine geordnete Menge von Elementen an (den sogenannten Gliedern ), die eindeutig den natürlichen Zahlen zugeordnet sind (n N; auch

Mehr

Wirtschaftsmathematik Plus für International Management (BA) und Betriebswirtschaft (BA)

Wirtschaftsmathematik Plus für International Management (BA) und Betriebswirtschaft (BA) Wirtschaftsmathematik Plus für International Management (BA) und Betriebswirtschaft (BA) Wintersemester 2012/13 Hochschule Augsburg Aufgabe 98 12.12.2012 Untersuchen Sie die Funktion f W R! R mit f.x/

Mehr

Differenzial- und Integralrechnung II

Differenzial- und Integralrechnung II Differenzial- und Integralrechnung II Rainer Hauser Dezember 011 1 Einleitung 1.1 Ableitung Die Ableitung einer Funktion f: R R, x f(x) ist definiert als f (x) = df(x) dx = d f(x + h) f(x) f(x) = lim dx

Mehr

Serie 4. Analysis D-BAUG Dr. Cornelia Busch FS 2015

Serie 4. Analysis D-BAUG Dr. Cornelia Busch FS 2015 Analysis D-BAUG Dr. Cornelia Busch FS 05 Serie 4. Finden Sie die lokalen Extrema der Funktionen f : R R auf dem Einheitskreis S = {x, y R : x + y = } und geben Sie an, ob es sich um ein lokales Minimum

Mehr

Mathematik II für Inf und WInf

Mathematik II für Inf und WInf Gruppenübung Mathematik II für Inf und WInf 8. Übung Lösungsvorschlag G 28 (Partiell aber nicht total differenzierbar) Gegeben sei die Funktion f : R 2 R mit f(x, ) := x. Zeige: f ist stetig und partiell

Mehr