Inhaltsübersicht für heute:
|
|
- Kora Hermann
- vor 6 Jahren
- Abrufe
Transkript
1 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren
2 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren
3 Freie Nichtlineare Optimierung Verfahren zur Minimierung glatter Funktionen ohne Nebenbedingungen, min f (), f : R Rn R hinreichend glatt n Hinreichend glatt bedeutet, dass f so oft stetig differenzierbar sein soll, wie für das jeweilige Verfahren erforderlich. Ziele für die Verfahren: Finde ein lokales Minimum (sogar weniger: finde ein, das die notwendigen Opt.-Bed.. Ordnung erfüllt, s. dort) Schnelle Konvergenz in der Nähe lokaler Optima Der Rechenaufwand soll möglichst klein bleiben Numerische Stabilität und hohe Genauigkeit Anwendungen: Nichltineare kleinste Quadrate Probleme Als Löser für Optimierungsprobleme mit Nebenbedingungen [s. Barriere-, Straf- und augmentierte Lagrange-Verfahren] In welcher Form soll f für die Verfahren zugänglich sein?
4 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren
5 Orakel allgemein und Orakel. Ordnung In vielen Anwendungen ist die Funktion f nicht analytisch verfügbar, sondern ergibt sich z.b. aus der Lösung eines Systems partieller Differentialgleichungen oder einer Simulation. Daher setzen allgemeine Optimierungsverfahren nur eine Unterroutine voraus, die das Verfahren nach dem Wert der Funktion und eventuell auch nach Ableitungsinformation in dem jeweils betrachteten Punkt befragen kann Orakel. Ist die Funktion analytisch gegeben, erzeugen Modellierungssprachen wie AMPL, GAMS,... automatisch entsprechende Orakel/Unterroutinen, die Wert und Ableitungsinformation liefern.
6 Orakel allgemein und Orakel. Ordnung In vielen Anwendungen ist die Funktion f nicht analytisch verfügbar, sondern ergibt sich z.b. aus der Lösung eines Systems partieller Differentialgleichungen oder einer Simulation. Daher setzen allgemeine Optimierungsverfahren nur eine Unterroutine voraus, die das Verfahren nach dem Wert der Funktion und eventuell auch nach Ableitungsinformation in dem jeweils betrachteten Punkt befragen kann Orakel. Ist die Funktion analytisch gegeben, erzeugen Modellierungssprachen wie AMPL, GAMS,... automatisch entsprechende Orakel/Unterroutinen, die Wert und Ableitungsinformation liefern. Ein Orakel. Ordnung berechnet für gegebenes R n nur den Funktionswert f (), aber keine Ableitungsinformation. Verfahren für glatte Funktionen benötigen Ableitungsinformation und approimieren diese numerisch durch vielfache Funktionsaufrufe (s. später).
7 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet.
8 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =., y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () f(,y) y f y 3
9 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =., y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y f y 3
10 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =, y=.5 f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ) y y Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h f 3
11 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.9, y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y y f 3
12 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.8, y=.5 f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () y f Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y 3
13 Orakel. Ordnung: f (), f () Für R n wird Funktionswert f ( ) und Gradient f ( ) R n berechnet. Der Gradient: f () Gradient in =.7, y= f () :=..5 f () zeigt in Richtung des steilsten Anstiegs von f in. f n () f () misst die Größe des Anstiegs. [ ] f () ist der Normalvektor zur Tangentialebene ] } an den Graphen ] : R n von f in. {[ f () [ f () f Die Tangentialebene bildet das lineare Modell von f um, f(,y) f () := f ( ) + f ( ) T ( ). Für nahe bei ist es eine gute Näherung an f : für glattes f erfüllt f f () f ( ) f ( ) T ( ) f ( + h) f ( ) f ( ) T h lim = lim =. h h y y 3
14 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)]
15 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.8,.8) (,y)=(.,), h=(.8,.8).5 f(,y) y h f y 3 Φ(α), lineares Modell α
16 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(,.5) (,y)=(.,), h=(,.5).5 f(,y) y h f y 3 Φ(α), lineares Modell α
17 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.8,.5), h=(, ) (,y)=(.8,.5), h=(, ).5 f(,y) y y f h 3 Φ(α), lineares Modell α
18 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.8,.5), h=(.,.8) (,y)=(.8,.5), h=(.,.8).5 f(,y) y y f h 3 Φ(α), lineares Modell α
19 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) [D λh f ( ) = λd h f ( )] α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.8,.8) (,y)=(.,), h=(.8,.8).5 f(,y) y h f y 3 Φ(α), lineares Modell α
20 Gradient und Richtungsableitung, lineares Modell Das lineare Modell von f in hat in jede Richtung h R n den gleichen Anstieg wie f in : die Richtungsableitung von f in in Richtung h, f ( ) T f ( + αh) f ( ) h = lim =: D h f ( ) [D λh f ( ) = λd h f ( )] α α [= Ableitung d dαφ() der -D Funktion Φ : R R, Φ(α) := f ( + αh)] Gradient in (,y)=(.,), h=(.3,.3) (,y)=(.,), h=(.3,.3).5 f(,y) y h f y 3 Φ(α), lineares Modell α
21 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet.
22 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =., y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)
23 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =, y=.5 n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)
24 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.9, y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)
25 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.8, y=.5 n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)
26 Orakel. Ordnung: f (), f (), f () Für R n werden f ( ), f ( ) und Hessematri f ( ) (. Abl.) berechnet. f ()... f Quadratisches Modell in =.7, y= n () f () := f n ()... f n n ().5 f () ist symmetrisch, falls f zweimal stetig differenzierbar ist..5 f () ist die Krümmung von f in..5 3 Das quadrat. Modell aus[ f (),] f (), 3 f () schmiegt sich in f () an den ] } Graphen : R n y von f an. {[ f () f ( ), f ( ) und f ( ) bilden das quadratische Modell von f um, f () := f ( ) + f ( ) T ( ) + ( )T f ( )( ). Für nahe bei ist es eine sehr gute Näherung an f : für glattes f erfüllt f lim f () f ( ) f ( ) T ( ) ( )T f ( )( ) =. f(,y)
27 Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)]
28 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.,), h=(.8,.8) y h f y 3 (,y)=(.,), h=(.8,.8).5 Φ(α), quadratisches Modell α
29 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.,), h=(,.5) y y h f 3 Φ(α), quadratisches Modell (,y)=(.,), h=(,.5) α
30 f(,y) Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.8,.5), h=(, ) y y f h 3 Φ(α), quadratisches Modell (,y)=(.8,.5), h=(, ) α
31 Quadratisches Modell in Richtung h Das quadratische Modell von f in hat in jede Richtung h R n die gleiche Steigung und Krümmung wie f in. f ( + αh) = f ( ) + α f ( ) T h + α ht f ( )h. [Taylor-Entw.. Ord. der -D Funktion Φ : R R, Φ(α) := f ( + αh)] quad. Modell in (,y)=(.8,.5), h=(.,.8) f(,y) y y f h 3 (,y)=(.8,.5), h=(.,.8).5 Φ(α), quadratisches Modell α
32 Der Satz von Taylor/Mittelwertsatz Satz (Taylor/Mittelwertsatz) Sei f oft genug stetig differenzierbar und, h R n, dann θ (, ): f ( + h)= f ( )+ f ( +θ h) T h, θ (, ): f ( + h)= f ( )+ f ( ) T h+ ht f ( +θ h)h, θ 3 (, ): f ( + h)= f ( )+ f ( ) T h+ ht f ( )h f ( +θ 3 h)[h, h, h] [ 3 steht für die 3. Ableitung] Taylor-Entwicklung von f um Illustration des ersten Falls des Mittelwertsatzes: f f() f()+ f(+ θ h) Th +θ h +h
33 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!]
34 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!] Jede auf R n stetig differenzierbare Funktion ist für jedes R n und ρ > auf der ρ-kugel um, B ρ ( ) := { R n : ρ} Lipschitz-stetig. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das lineare Modell auf B ρ eine gute Näherung an f. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das quadratische Modell auf B ρ eine gute Näherung an f.
35 Lipschitz-Stetigkeit, Klein-o-Notation Eine Funktion G : R n R m heißt Lipschitz-stetig auf einer Menge S R n, falls es eine Konstante L > gibt mit G() G(y) L y, y S. [ Die Werte können sich nur bei größerem Abstand stark ändern!] Jede auf R n stetig differenzierbare Funktion ist für jedes R n und ρ > auf der ρ-kugel um, B ρ ( ) := { R n : ρ} Lipschitz-stetig. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das lineare Modell auf B ρ eine gute Näherung an f. Ist f um für großes ρ Lipschitz-stetig mit kleinem L, dann ist das quadratische Modell auf B ρ eine gute Näherung an f. Aus dem Satz von Taylor und der Lipschitz-Stetigkeit von k f folgt f ( + h)= f ( )+ f ( ) T h+ o( h ), f ( + h)= f ( )+ f ( ) T h+ ht f ( )h + o( h ) Das Landau-Symbol o(g(y)) steht immer als Ersatz für eine nicht weiter interessierende Funktion g g (y) mit der Eigenschaft lim (y) y g(y), also ein g, das schneller klein wird als g. Bei Folgen g(y (k) ) steht es für ein g (y (k) g ) mit lim (y (k) ) k g(y (k) ).
36 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der r Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f S (f) r
37 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q positiv definit
38 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q indefinit
39 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q negativ definit
40 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: quadratische Funktion T Q + q T + d mit Q positiv semidefinit
41 Niveaumengen und Niveaulinien Verfahren der freien nichtlinearen Optimierung suchen nur Punkte mit besserem Zielfunktionswert als dem derzeitigen, also nur Punkte aus der Niveaumenge von f zu einem Wert r R, S r (f ) := { R n : f () r}. f r S (f) r Funktionsdarstellungen über Niveaulinien [ Linien ] N r (f ) := { R n : f () = r} (contour plots) helfen, Verfahren zu illustrieren. [Höhenlinien in Landkarten, Wetterkarten] Beachte: Der Gradient ist immer orthogonal zur Niveaulinie, denn für, + h N r (f ) gilt = f ( + h) f () = f () T h + o( h ) Bsp: Rosenbrock-Funktion (banana shape) f (, y) = 4 [(y ) + ( ) ] Minimum wird in (,) angenommen. y
42 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren
43 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) >
44 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =.
45 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum!
46 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Bsp: f () = T Q + q T + c mit Q ist (streng) konve. Mit f () = Q + q bestimmt f ( ) = das Minimum eindeutig, = Q q.
47 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Geometrisch bedeutet f () =, dass die Tangentialebene an f in waagrecht liegt. Ist sie nicht waagrecht, kann man sicher noch ein wenig hinunterrutschen.
48 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Minimum einer glatten Funktion f : R n R, so gilt f ( ) =. Sonst wäre (setze h = f ( ) in Taylor) für α klein genug f ( α f ( )) = f ( ) α f ( ) T f ( ) +o(α) < f ( ). }{{} = f ( ) > Ein Punkt mit f ( ) = heißt stationärer Punkt von f. Stationarität ist notwendig, aber i.a. nicht hinreichend für Minimalität! Bsp: = ist stationärer Punkt von f () = 3 oder f () =. Ausnahme: Für konvees f ist jeder stationäre Punkt globales Minimum! Konsequenz für Optimierungsverfahren: Ist f (), so kann man die Funktion in Richtung f () immer verbessern (u.u. nur für sehr kleine Schrittweite). Die Schrittrichtung h = f () heißt steilster Abstieg (steepest descent).
49 Notwendige Optimalitätsbedingung. Ordnung Satz (Notwendige Optimalitätsbedingung. Ordnung) Ist R n ein lokales Min. einer hinr. glatten Funktion f : R n R, gilt f ( ) = und f ( ). Sonst gibt es ein h R n mit h T f ( )h <, Taylor ergibt für kleine α f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) < f ( ). }{{} = ( f ( )=) < Die Bedingung ist wieder nur notwendig [ und i.a. nicht ] hinreichend. Bsp: f (, y) = y 4, f (, y) = y für (, y) = (, ). Konsequenz für Optimierungsverfahren: Ist zwar f ( ) = aber λ min ( f ( )) <, so kann f in Richtung eines Eigenvektors zu λ min verbessert werden.
50 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) >
51 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) > Die Bedingung ist hinreichend, aber nicht notwendig: f () = 4 in =. In der Prais ist sie erstaunlich oft erfüllt.
52 Hinreichende Optimalitätsbedingung. Ordnung Satz (Hinreichende Optimalitätsbedingung. Ordnung) Gilt für ein R n sowohl f ( ) = als auch f ( ), so ist ein lokales Minimum von f. Denn für beliebiges h R n \ {} und α klein genug gilt mit Taylor f ( + αh) = f ( ) + α f ( ) T h + α }{{} ht f ( )h +o(α ) > f ( ). }{{} = ( f ( )=) > Die Bedingung ist hinreichend, aber nicht notwendig: f () = 4 in =. In der Prais ist sie erstaunlich oft erfüllt. Konsequenz für Optimierungsverfahren: In der Nähe eines lokalen Minimums sieht die Funktion wie eine konvee quadratische Funktion aus, das quadratische Modell ist dort eine gute Approimation!
53 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich.
54 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich. Stationäre Punkte sind entweder lokale Minima, lokale Maima oder Sattelpunkte (manche Richtungen führen aufwärts, manche abwärts).
55 Bemerkungen In Optimalitätsbedingungen für Maimierungsprobleme muss man nur f ( ) durch f ( ) ersetzen, der Rest bleibt gleich. Stationäre Punkte sind entweder lokale Minima, lokale Maima oder Sattelpunkte (manche Richtungen führen aufwärts, manche abwärts). Alle Optimierungsverfahren versuchen eine Folge zu erzeugen, die gegen einen stationären Punkt konvergiert. In der Nähe eines stationären Punktes soll die Konvergenz möglichst quadratisch sein, wie beim Newton-Verfahren.
56 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren
57 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, 8 f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] y
58 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =.5, y= Newton =.4989, y=
59 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =.4989, y= Newton =., y=
60 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =., y= Newton =., y=
61 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y.5 =., y=.5.5 Newton =.37, y=
62 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =.37, y= Newton =.99774, y=
63 Das Newton-Verfahren [Eigentlich sucht es Nullstellen von Funktionen F : R n R m (s. später), hier suchen wir ein mit f () =.] Ist ein lokales Minimum mit f ( ) und ändert sich f nicht zu schnell ( f Lipschitz-stetig), gilt f () für alle nahe bei. Für jedes (k) nahe bei ist dann das quadratische Modell streng konve, f ( (k) ) + f ( (k) ) T h + ht f ( (k) )h [= c + q T h + ht Qh] Das Newton-Verfahren wählt als nächsten Punkt (k+) = (k) + h den stationären Punkt des quadratischen Modells (= das Minimum falls f ( (k) ) ), h (k) N := f ( (k) ) f ( (k) ). [= Q q] h (k) N ist der Newton-Schritt und ist für f ( (k) ) regulär definiert. f(,y) y y =.99774, y= Newton =.99775, y=
64 Satz (lokal-quadratische Konvergenz des Newton-Verfahrens) Sei f zweimal stetig differenzierbar, ein lokales Minimum, das die hinreichenden Optimalitätsbedingungen erfüllt, f sei Lipschitz-stetig in einer Umgebung von. Für jeden nahe genug an gelegenen Startpunkt () gilt für die Folge (k+) := (k) f ( (k) ) f ( (k) ). Die (k) konvergieren quadratisch gegen, d.h., K N, c > : (k+) c (k) für k > K.. Die Gradienten-Normen f ( (k) ) konvergieren quadratisch gegen.
65 Satz (lokal-quadratische Konvergenz des Newton-Verfahrens) Sei f zweimal stetig differenzierbar, ein lokales Minimum, das die hinreichenden Optimalitätsbedingungen erfüllt, f sei Lipschitz-stetig in einer Umgebung von. Für jeden nahe genug an gelegenen Startpunkt () gilt für die Folge (k+) := (k) f ( (k) ) f ( (k) ). Die (k) konvergieren quadratisch gegen, d.h., K N, c > : (k+) c (k) für k > K.. Die Gradienten-Normen f ( (k) ) konvergieren quadratisch gegen. Der Satz gilt nur lokal und gibt keine Konvergenzgarantie für weit entfernte Startpunkte (das kann selbst für konvees f fehlschlagen). Die Funktionswerte f ( (k) ) müssen keineswegs monoton fallen. Startet die Folge in der Nähe eines anderen stationären Punktes (Maimum oder Sattelpunkt), konvergiert die Folge zu diesem. Kommt man ins Gebiet quadratischer Konvergenz, verdoppelt sich pro Iteration die Anzahl korrekt berechneter Stellen.
66 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren.
67 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar.
68 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.]
69 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.] Durch die Bedingung f ( (k+) ) < f ( (k) ) hoffen die Verfahren im Konvergenzfall ein Minimum gefunden zu haben, manchmal ist es jedoch ein Sattelpunkt. Für den Anwender ist das meist leicht zu erkennen, für das Verfahren nicht besseren Startpunkt wählen.
70 Bemerkungen Um von lokalen zu globalen Minimierungsverfahren zu kommen, wird in Globalisierungsstrategien f ( (k+) ) < f ( (k) ) gefordert, siehe z.b. Line-Search- und Trust-Region-Verfahren. Die Bestimmung von f ist oft zu aufwendig bzgl. Rechenzeit und Speicherbedarf. Meist setzen Verfahren daher nur Orakel. Ordnung voraus und approimieren f lokal zur Konvergenzverbesserung. Damit sind aber die Bedingungen. Ordnung nicht gut überprüfbar. Ein nichtlineares Optimierungsverfahren heißt global konvergent, wenn es für jede nach unten beschränkte Funktion und jeden Startpunkt () eine Punktfolge (k) mit f ( (k) ) erzeugt. [Das kann auch (k) bedeuten, etwa für f () =.] Durch die Bedingung f ( (k+) ) < f ( (k) ) hoffen die Verfahren im Konvergenzfall ein Minimum gefunden zu haben, manchmal ist es jedoch ein Sattelpunkt. Für den Anwender ist das meist leicht zu erkennen, für das Verfahren nicht besseren Startpunkt wählen. Wir nutzen die Kurzschreibweise f k für f ( (k) ), f k für f ( (k) ) und f k für f ( (k) ).
71 Inhaltsübersicht für heute: Freie Nichtlineare Optimierung Orakel, lineares/quadratisches Modell Optimalitätsbedingungen Das Newton-Verfahren Line-Search-Verfahren
72 Line-Search-Verfahren Schematischer Ablauf von Line-Search-Verfahren:. Rufe das Orakel für (k) auf f k, f k, (vielleicht auch f k ).. Ist f k klein genug, STOP. 3. Abstiegsrichtung: Wähle h (k) R n mit fk T h(k) <. 4. Line-Search: Finde eine Schrittweite α k mit f ( (k) + α k h (k) ) ausreichend kleiner als f k 5. Setze (k+) := (k) + α k h (k), k k +, gehe zu. Zwei Hauptaufgaben: Bestimmung einer Abstiegsrichtung Bestimmung einer Schrittweite (Line-Search)
73 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <.
74 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <. Die meisten Algorithmen bestimmen h für ein B in der Form h := B f ( ), denn f ( ) T h = f ( ) T B f ( ) <. }{{} > Beispiele (s. später zu Vor- und Nachteilen): B = I : steilster Abstieg h = f ( ) (steepest descent). B = f ( ) Newton-Richtung (Abstiegsrichtung für f ( ) ) B = [ f ( ) + λi ] modifizierte Newton-Richtung B als Approimation von f ( ) Quasi-Newton-Richtung
75 Abstiegsrichtung (für mit f ( ) ) Eine Richtung h R n heißt Abstiegsrichtung für f in, falls f ( ) T h <. Die meisten Algorithmen bestimmen h für ein B in der Form h := B f ( ), denn f ( ) T h = f ( ) T B f ( ) <. }{{} > Beispiele (s. später zu Vor- und Nachteilen): B = I : steilster Abstieg h = f ( ) (steepest descent). B = f ( ) Newton-Richtung (Abstiegsrichtung für f ( ) ) B = [ f ( ) + λi ] modifizierte Newton-Richtung B als Approimation von f ( ) Quasi-Newton-Richtung Für globale Konvergenz der Line-Search Verfahren ist nur wichtig, dass die Richtungen nicht orthogonal zur steilsten Abstiegsrichtung werden: δ > : f T k h (k) f k h (k) = cos ( f k, h (k) ) δ > für k >. Das ist erfüllt, falls λma(b k ) λ min (B k ) < κ für ein κ > und gilt z.b. für B =I oder Newton-Richtung in der Nähe von unter den Vor. des Newton-Satzes.
76 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Φ () f() =Φ() Φ= f(+ αh) α
77 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Φ () f() =Φ() Φ= f(+ αh) α
78 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt] Φ () f() =Φ() Φ= f(+ αh) Armijo Φ()+αγ Φ () α
79 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt] Φ () f() =Φ() Φ= f(+ αh) Armijo Φ()+αγ Φ () ( ] [ ] α
80 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt]. An der Stelle ᾱ ist der Abstieg Φ schlecht ( < γ < γ < ): Φ (ᾱ) γ Φ () (Krümmungs-Bedingung) [ f T h stark geändert] Φ () f() =Φ() Φ= f(+ αh) Krümmung γ Φ () Armijo Φ()+αγ Φ () ( ] [ ] α [ ] [ ] [
81 Line-Search für Abstiegsrichtung h Bestimme Schrittweite ᾱ als Näherung zu min α Φ(α) := f ( + αh). Berechnung von ᾱ Argmin α Φ(α) (eakter Line-Search) wäre sinnlos aufwendig, da die Richtung h meist weit am Optimum vorbeiführt. Anfangs sehr wenig Information: Φ() = f ( ), Ableitung Φ () = f ( ) T h Ein ᾱ mit ausreichendem Abstieg (sufficient decrease) erfüllt:. Mindestanteil < γ < an dem durch Φ () versprochenen Abstieg: Φ(ᾱ) Φ() + ᾱγ Φ () (Armijo-Bedingung) [für kleine α erfüllt]. An der Stelle ᾱ ist der Abstieg Φ schlecht ( < γ < γ < ): Φ (ᾱ) γ Φ () (Krümmungs-Bedingung) [ f T h stark geändert] Φ () f() =Φ() Φ= f(+ αh) Krümmung γ Φ () Armijo Φ()+αγ Φ () Wolfe [ ] [ ] [ ] ( [ α [ ] [ ] [ Armijo- und Krümmungs- Bedingung gemeinsam heißen Wolfe-Bedingungen und Schrittweiten, die diese erfüllen, garantieren ausreichenden Abstieg. [γ = 4, γ {.,.9}]
82 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist.
83 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist. Satz (Globale Konvergenz von Line-Search-Verfahren) Sei f nach unten beschränkt. Für den Startpunkt () sei f auf der Niveaumenge { R n : f () < f } Lipschitz-stetig. Garantiert ein f T k h(k) Line-Search-Verfahren f k δ für ein δ > sowie die h (k) Wolfe-Bedingungen für die Schrittweiten α k, dann gilt f k.
84 Wolfe-Bedingungen und globale Konvergenz Für <γ < γ < erfüllt Schrittweite α k die Wolfe-Bedingungen, wenn f ( (k) + α k h (k) ) f k + α k γ fk T h(k) f ( (k) + α k h (k) ) T h (k) γ fk T h(k) (Armijo) (Krümmung) Armijo sichert Abstieg, Krümmung eine Mindestschrittweite, falls f Lipschitz-stetig ist. Beides ist mit einem Orakel. Ordnung überprüfbar. Solche Schrittweiten gibt es immer, wenn f nach unten beschränkt ist. Satz (Globale Konvergenz von Line-Search-Verfahren) Sei f nach unten beschränkt. Für den Startpunkt () sei f auf der Niveaumenge { R n : f () < f } Lipschitz-stetig. Garantiert ein f T k h(k) Line-Search-Verfahren f k δ für ein δ > sowie die h (k) Wolfe-Bedingungen für die Schrittweiten α k, dann gilt f k. Vorsicht: Man hofft auf Konvergenz gegen ein Minimum, aber sowohl (k) als auch Konvergenz gegen einen Sattelpunkt sind nicht ausgeschlossen!
85 Bestimmung der Schrittweite in der Prais Ziel ist, mit möglichst wenig Funktionsauswertungen einen Wolfepunkt zu finden. Die vorhergehende Schrittweite dient meist als Startwert, beim allerersten Mal nutzt man gerne α = h. Der nächsten Kandidat wird z.b. über kubische Interpolation, die neue und alte Funktionswerte und Ableitungen nutzt, bestimmt. Jeder Fehl-Versuch erlaubt, das Suchintervall zu verkleinern. Eine solide und effiziente Implementation, die auch mit numerischen Schwierigkeiten umgehen kann, ist sehr schwer und aufwendig. Entscheidend für den Erfolg ist vor allem die Schrittrichtung! AUSNAHME: Für Newton-ähnliche Richtungen wird immer Schrittweite zuerst probiert und nur auf Armijo getestet. Solange Armijo nicht erfüllt ist, reduziert man die Schrittweite (durch Interpolation oder einfaches Backtracking, d.h., Multiplikation der Schrittweite mit einem Faktor < σ < ).
Optimierung für Nichtmathematiker
Optimierung für Nichtmathematiker Prof. Dr. R. Herzog WS/ / Inhaltsübersicht 3Einführung in die freie Optimierung 4Orakel und Modellfunktionen 5Optimalitätsbedingungen der freien Optimierung 6Das Newton-Verfahren
MehrOptimierung. Optimierung. Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren. 2013 Thomas Brox, Fabian Kuhn
Optimierung Vorlesung 2 Optimierung ohne Nebenbedingungen Gradientenverfahren 1 Minimierung ohne Nebenbedingung Ein Optimierungsproblem besteht aus einer zulässigen Menge und einer Zielfunktion Minimum
Mehr3 Optimierung mehrdimensionaler Funktionen f : R n R
3 Optimierung mehrdimensionaler Funktionen f : R n R 31 Optimierung ohne Nebenbedingungen Optimierung heißt eigentlich: Wir suchen ein x R n so, dass f(x ) f(x) für alle x R n (dann heißt x globales Minimum)
Mehr9 Optimierung mehrdimensionaler reeller Funktionen f : R n R
9 Optimierung mehrdimensionaler reeller Funktionen f : R n R 91 Optimierung ohne Nebenbedingungen Ein Optimum zu suchen heißt, den größten oder den kleinsten Wert zu suchen Wir suchen also ein x R n, sodass
MehrNichtlineare Gleichungssysteme
Kapitel 5 Nichtlineare Gleichungssysteme 51 Einführung Wir betrachten in diesem Kapitel Verfahren zur Lösung von nichtlinearen Gleichungssystemen Nichtlineares Gleichungssystem: Gesucht ist eine Lösung
MehrVorlesung: Analysis II für Ingenieure. Wintersemester 07/08. Michael Karow. Themen: Niveaumengen und Gradient
Vorlesung: Analysis II für Ingenieure Wintersemester 07/08 Michael Karow Themen: Niveaumengen und Gradient Wir betrachten differenzierbare reellwertige Funktionen f : R n G R, G offen Zur Vereinfachung
MehrWir untersuchen in diesem Abschnitt das (lokale) Newton Verfahren zur Lösung eines nichtlinearen Gleichungssystems
Kapitel 2 Newton Verfahren 2.1 Das lokale Newton Verfahren Wir untersuchen in diesem Abschnitt das (lokale) Newton Verfahren zur Lösung eines nichtlinearen Gleichungssystems F (x) = 0 (2.1) mit einer zumindest
MehrDer Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt.
Kapitel 3 Konvexität 3.1 Konvexe Mengen Der Begriff der konvexen Menge ist bereits aus Definition 1.4, Teil I, bekannt. Definition 3.1 Konvexer Kegel. Eine Menge Ω R n heißt konvexer Kegel, wenn mit x
MehrMusterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II. x 2
Musterlösung zu den Übungen zur Vorlesung Mathematik für Physiker II Wiederholungsblatt: Analysis Sommersemester 2011 W. Werner, F. Springer erstellt von: Max Brinkmann Aufgabe 1: Untersuchen Sie, ob die
MehrRückblick auf die letzte Vorlesung. Bemerkung
Bemerkung 1) Die Bedingung grad f (x 0 ) = 0 T definiert gewöhnlich ein nichtlineares Gleichungssystem zur Berechnung von x = x 0, wobei n Gleichungen für n Unbekannte gegeben sind. 2) Die Punkte x 0 D
Mehr6.8 Newton Verfahren und Varianten
6. Numerische Optimierung 6.8 Newton Verfahren und Varianten In den vorherigen Kapiteln haben wir grundlegende Gradienten-basierte Verfahren kennen gelernt, die man zur numerischen Optimierung von (unbeschränkten)
MehrPartielle Ableitungen, Gradient, Lineare Näherung, Extrema, Fehlerfortpflanzung
Partielle Ableitungen, Gradient, Lineare Näherung, Extrema, Fehlerfortpflanzung Jörn Loviscach Versionsstand: 29. Juni 2009, 18:41 1 Partielle Ableitungen, Gradient Die Ableitung einer Funktion f an einer
Mehr3 Nichtlineare Gleichungssysteme
3 Nichtlineare Gleichungsssteme 3.1 Eine Gleichung in einer Unbekannten Problemstellung: Gegeben sei die stetige Funktion f(). Gesucht ist die Lösung der Gleichung f() = 0. f() f() a) f ( ) 0 b) f ( )
MehrWirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA)
Wirtschaftsmathematik für International Management (BA) und Betriebswirtschaft (BA) Wintersemester 2014/15 Hochschule Augsburg : Gliederung 1 Grundlegende 2 Grundlegende 3 Aussagenlogik 4 Lineare Algebra
MehrKapitel 16 : Differentialrechnung
Kapitel 16 : Differentialrechnung 16.1 Die Ableitung einer Funktion 16.2 Ableitungsregeln 16.3 Mittelwertsätze und Extrema 16.4 Approximation durch Taylor-Polynome 16.5 Zur iterativen Lösung von Gleichungen
Mehrf(x) f(x 0 ) lokales Maximum x U : gilt, so heißt x 0 isoliertes lokales Minimum lokales Minimum Ferner nennen wir x 0 Extremum.
Fabian Kohler Karolina Stoiber Ferienkurs Analsis für Phsiker SS 4 A Extrema In diesem Abschnitt sollen Extremwerte von Funktionen f : D R n R diskutiert werden. Auch hier gibt es viele Ähnlichkeiten mit
MehrNewton-Verfahren zur gleichungsbeschränkten Optimierung. 1 Gleichungsbeschränkte Optimierungsprobleme
Newton-Verfahren zur gleichungsbeschränkten Optimierung Armin Farmani Anosheh (afarmani@mail.uni-mannheim.de) 3.Mai 2016 1 Gleichungsbeschränkte Optimierungsprobleme Einleitung In diesem Vortrag geht es
MehrDer CG-Algorithmus (Zusammenfassung)
Der CG-Algorithmus (Zusammenfassung) Michael Karow Juli 2008 1 Zweck, Herkunft, Terminologie des CG-Algorithmus Zweck: Numerische Berechnung der Lösung x des linearen Gleichungssystems Ax = b für eine
MehrKLAUSUR zu Einführung in die Optimierung. Studiengang: Bachelor Master Diplom (bitte ankreuzen)
Mathematisches Institut WS 2012/13 der Heinrich-Heine-Universität 7.02.2013 Düsseldorf Prof. Dr. Achim Schädle KLAUSUR zu Einführung in die Optimierung Bitte folgende Angaben ergänzen und DEUTLICH LESBAR
MehrNichtlineare Gleichungssysteme
Kapitel 2 Nichtlineare Gleichungssysteme Problem: Für vorgegebene Abbildung f : D R n R n finde R n mit oder ausführlicher f() = 0 (21) f 1 ( 1,, n ) = 0, f n ( 1,, n ) = 0 Einerseits führt die mathematische
MehrMathematik 2 für Wirtschaftsinformatik
für Wirtschaftsinformatik Sommersemester 2012 Hochschule Augsburg Hinreichende Bedingung für lokale Extrema Voraussetzungen Satz D R n konvex und offen Funktion f : D R zweimal stetig partiell differenzierbar
Mehr40 Lokale Extrema und Taylor-Formel
198 VI. Differentialrechnung in mehreren Veränderlichen 40 Lokale Extrema und Taylor-Formel Lernziele: Resultate: Satz von Taylor und Kriterien für lokale Extrema Methoden aus der linearen Algebra Kompetenzen:
MehrNumerische Ableitung
Numerische Ableitung Die Ableitung kann angenähert werden durch den Differentenquotient: f (x) f(x + h) f(x) h oder f(x + h) f(x h) 2h für h > 0, aber h 0. Beim numerischen Rechnen ist folgendes zu beachten:
MehrINGENIEURMATHEMATIK. 9. Differentialrechnung für Funktionen mehrerer Variablen. Sommersemester Prof. Dr. Gunar Matthies
Mathematik und Naturwissenschaften Fachrichtung Mathematik, Institut für Numerische Mathematik INGENIEURMATHEMATIK 9. Differentialrechnung für Funktionen mehrerer Variablen Prof. Dr. Gunar Matthies Sommersemester
Mehr8 Extremwerte reellwertiger Funktionen
8 Extremwerte reellwertiger Funktionen 34 8 Extremwerte reellwertiger Funktionen Wir wollen nun auch Extremwerte reellwertiger Funktionen untersuchen. Definition Es sei U R n eine offene Menge, f : U R
MehrProblem lokaler Minima
Optimierung Optimierung Häufige Aufgabe bei Parameterschätzung: Minimierung der negativen log-likelihood-funktion F(a) oder der Summe der quadratischen Abweichungen S(a) und Berechnung der Unsicherheit
Mehr5.10. Mehrdimensionale Extrema und Sattelpunkte
5.1. Mehrdimensionale Extrema und Sattelpunkte Zur Erinnerung: Eine Funktion f von einer Teilmenge A des R n nach R hat im Punkt a ein (strenges) globales Maximum, falls f( x ) f( a ) (bzw. f( x ) < f(
MehrTechnische Universität Berlin Fakultät II Institut für Mathematik SS 13 G. Bärwolff, C. Mehl, G. Penn-Karras
Technische Universität Berlin Fakultät II Institut für Mathematik SS 3 G. Bärwolff, C. Mehl, G. Penn-Karras 9..3 Oktober Klausur Analysis II für Ingenieure Rechenteil. Aufgabe Punkte i) Wir berechnen zunächst
MehrMathematischer Vorkurs für Physiker WS 2012/13
TU München Prof. P. Vogl Mathematischer Vorkurs für Physiker WS 2012/13 Übungsblatt 2 Wichtige Formeln aus der Vorlesung: Basisaufgaben Beispiel 1: 1 () grad () = 2 (). () () = ( 0 ) + grad ( 0 ) ( 0 )+
MehrHöhere Mathematik für Physiker II
Universität Heidelberg Sommersemester 2013 Wiederholungsblatt Übungen zur Vorlesung Höhere Mathematik für Physiker II Prof Dr Anna Marciniak-Czochra Dipl Math Alexandra Köthe Fragen Machen Sie sich bei
MehrKapitel 8: Suche nach Nullstellen und Extremwerten
Kapitel 8: Suche nach Nullstellen und Extremwerten Nullstellensuche (root finding) Einfachste Variante: Suche Nullstelle(n) einer 1D-Funktion: f(x) = 0 (1) Dies umfaßt bereits scheinbar andere Fälle, z.b.
MehrExtrema von Funktionen mit zwei Variablen
Extrema von Funktionen mit zwei Variablen Es gilt der Satz: Ist an einer Stelle x,y ) f x x,y ) = und f y x,y ) = und besteht außerdem die Ungleichung f xx x,y )f yy x,y ) f xy x,y ) >, so liegt an dieser
MehrB Lösungen. Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R 2 Berechnen Sie zur Abbildung. f(x, y) := x sin(xy) f : R 2 R,
B en Aufgabe 1 (Begriffe zur Differenziation) Sei (x, y) R Berechnen Sie zur Abbildung f : R R, f(x, y) : x sin(xy) das totale Differenzial f df, die Jacobi-Matrix J f (x, y) und den Gradienten ( f)(x,
Mehr28 Taylor-Formel, lokale Extrema
VII. Differentialrechnung in mehreren Variablen 458 28 Taylor-Formel, lokale Extrema Wir erinnern an den Mittelwertsatz für differenzierbare Funktionen f : D R (D R n offen) (vgl. 26.1): Sind a,b D Punkte,
MehrAnwendungen der Differentialrechnung
KAPITEL 5 Anwendungen der Differentialrechnung 5.1 Maxima und Minima einer Funktion......................... 80 5.2 Mittelwertsatz.................................... 82 5.3 Kurvendiskussion..................................
MehrThema 12 Differentialrechnung, Partielle Ableitungen, Differenzierbarkeit, Taylor-Formel, Lokale Extrema
Thema 12 Differentialrechnung, Partielle Ableitungen, Differenzierbarkeit, Taylor-Formel, Lokale Extrema In diesem Kapitel befassen wir uns mit der Ableitung von Funktionen f : R m R n. Allein die Schreibweise
Mehr4.7 Der Taylorsche Satz
288 4 Differenziation 4.7 Der Taylorsche Satz Die Differenzierbarkeit, also die Existenz der ersten Ableitung einer Funktion, erlaubt bekanntlich, diese Funktion lokal durch eine affine Funktion näherungsweise
MehrMathematik 3 für Informatik
Gunter Ochs Wintersemester 5/6 Mathematik 3 für Informatik Lösungen zum Hausaufgabenblatt Lösungshinweise ohne Garnatie auf Fehlerfreiheit c 5. Berechnen Sie die folgenden unbestimmten Integrale: a x 4
Mehr8.3 Lösen von Gleichungen mit dem Newton-Verfahren
09.2.202 8.3 Lösen von Gleichungen mit dem Newton-Verfahren Beispiel: + 2 e Diese Gleichung kann nicht nach aufgelöst werden, da die beiden nicht zusammengefasst werden können. e - - 2 0 Die gesuchten
MehrMathematik für Wirtschaftswissenschaftler Kapitel 4-6. Universität Trier Wintersemester 2013 / 2014
Mathematik für Kapitel 4-6 Universität Trier Wintersemester 2013 / 2014 Kapitel 4 1. Extremwerte 2. Lokale Optimalpunkte 3. Wendepunkte 2 Kapitel 4.1 EXTREMWERTE 3 Extrempunkte und Extremwerte 4 Strikte
Mehr(x, x + y 2, x y 2 + z 3. = e x sin y. sin y. Nach dem Umkehrsatz besitzt f dann genau auf der Menge
ÜBUNGSBLATT 0 LÖSUNGEN MAT/MAT3 ANALYSIS II FRÜHJAHRSSEMESTER 0 PROF DR CAMILLO DE LELLIS Aufgabe Finden Sie für folgende Funktionen jene Punkte im Bildraum, in welchen sie sich lokal umkehren lassen,
Mehrf f(x ɛξ) f(x) 0, d.h. f (x)ξ = 0 für alle ξ B 1 (0). Also f (x) = 0. In Koordinaten bedeutet dies gerade, dass in Extremstellen gilt: f(x) = 0.
Mehrdimensionale Dierenzialrechnung 9 Optimierung 9 Optimierung Definition Seien U R n oen, f : U R, x U x heiÿt lokales Maximum, falls eine Umgebung V U von x existiert mit y V : fx fy x heiÿt lokales
MehrTaylorreihen. Kapitel 9. Lernziele. Taylorreihe. (x x 0 ) + f (x 0 ) 2! (x x 0 ) f (n) (x 0 ) (x x 0 ) n. Taylorreihe und MacLaurinreihe
Kapitel 9 Taylorreihen Josef Leydold c 2006 Mathematische Methoden IX Taylorreihen 1 / 25 Lernziele Taylorreihe und MacLaurinreihe Beispiele Alternative Schreibweisen Approimation der Veränderung einer
MehrStetigkeit an der Stelle X0 2 Rn (Folgen) f : Rn! Rm. Stetigkeit an der Stelle X0 2 Rn
Body-Mass-nde/Ko rpermasseinde BM = Gewicht (Gro ße) Ko rpermasseinde (betrachte aber nur > 0, y > 0) fu r y = c fest: eine Gerade B() = c fu r = c fest: eine Hyperbel B(y ) = yc BM = Ko rpermasseinde
MehrMathematik Übungsblatt - Lösung. b) x=2
Hochschule Regensburg Fakultät Informatik/Mathematik Christoph Böhm Sommersemester 204 Technische Informatik Bachelor IT2 Vorlesung Mathematik 2 Mathematik 2 4. Übungsblatt - Lösung Differentialrechnung
MehrNichtlineare Optimierung
Technische Universität Berlin Fakultät II Institut für Mathematik Nichtlineare Optimierung Vorlesung im Wintersemester 05/06 Dietmar Hömberg Im WS 01/0.2 gehalten von F. Tröltzsch. Grundlage der Vorlesung
MehrLösungen zu den Hausaufgaben zur Analysis II
Christian Fenske Lösungen zu den Hausaufgaben zur Analysis II Blatt 6 1. Seien 0 < b < a und (a) M = {(x, y, z) R 3 x 2 + y 4 + z 4 = 1}. (b) M = {(x, y, z) R 3 x 3 + y 3 + z 3 = 3}. (c) M = {((a+b sin
MehrAbb lokales Maximum und Minimum
.13 Lokale Extrema, Monotonie und Konvexität Wir kommen nun zu den ersten Anwendungen der Dierentialrechnung. Zwischen den Eigenschaten einer Funktion, dem Verlau des zugehörigen Graphen und den Ableitungen
MehrNichtlineare Gleichungen
Nichtlineare Gleichungen Ein wichtiges Problem in der Praxis ist die Bestimmung einer Lösung ξ der Gleichung f(x) =, () d.h. das Aufsuchen einer Nullstelle ξ einer (nicht notwendig linearen) Funktion f.
MehrNichtlineare Optimierung ohne Nebenbedingungen
Kapitel 2 Nichtlineare Optimierung ohne Nebenbedingungen In diesem Abschnitt sollen im wesentlichen Verfahren zur Bestimmung des Minimums von nichtglatten Funktionen in einer Variablen im Detail vorgestellt
MehrDifferentialrechnung
Kapitel 7 Differentialrechnung Josef Leydold Mathematik für VW WS 205/6 7 Differentialrechnung / 56 Differenzenquotient Sei f : R R eine Funktion. Der Quotient f = f ( 0 + ) f ( 0 ) = f () f ( 0) 0 heißt
MehrMultivariate Analysis
Kapitel Multivariate Analysis Josef Leydold c 6 Mathematische Methoden I Multivariate Analysis / 38 Lernziele Funktionen in mehreren Variablen Graph und Niveaulinien einer Funktion in zwei Variablen Partielle
MehrMathematik M 1/Di WS 2001/02 1. Sei f : D R eine Funktion mit nichtleerem Definitionsbereich D. Sei a D. f heißt stetig in a, falls gilt
Mathematik M 1/Di WS 2001/02 1 b) Stetigkeit Sei f : D R eine Funktion mit nichtleerem Definitionsbereich D Sei a D f heißt stetig in a, falls gilt lim f() = f(a) a f heißt stetig auf D, wenn f in jedem
MehrStetigkeit von Funktionen
9 Stetigkeit von Funktionen Definition 9.1 : Sei D R oder C und f : D R, C. f stetig in a D : ε > 0 δ > 0 mit f(z) f(a) < ε für alle z D, z a < δ. f stetig auf D : f stetig in jedem Punkt a D. f(a) ε a
MehrFunktionen mehrerer Variabler
Funktionen mehrerer Variabler Fakultät Grundlagen Juli 2015 Fakultät Grundlagen Funktionen mehrerer Variabler Übersicht Funktionsbegriff 1 Funktionsbegriff Beispiele Darstellung Schnitte 2 Partielle Ableitungen
MehrMathematik für Anwender I. Beispielklausur I mit Lösungen
Fachbereich Mathematik/Informatik Prof. Dr. H. Brenner Mathematik für Anwender I Beispielklausur I mit en Dauer: Zwei volle Stunden + 10 Minuten Orientierung, in denen noch nicht geschrieben werden darf.
MehrÜbung 22: Gradient und Richtungsableitung; Extremwertaufgaben für Funktionen mehrerer Veränderlicher
Technische Universität Chemnitz 1. Juli 20 Fakultät für Mathematik Höhere Mathematik I.2 Übung 22: Gradient und Richtungsableitung; Extremwertaufgaben für Funktionen mehrerer Veränderlicher 1. Durch ein
MehrKurvendiskussion für Funktionen mit einer Variablen
Kurvendiskussion für Funktionen mit einer Variablen Unter der Kurvendiskussion einer Funktionsgleichung versteht man die Zusammenstellung der wichtigsten Eigenschaften ihres Bildes mit anschließender Zeichnung.
Mehr18 Höhere Ableitungen und Taylorformel
8 HÖHERE ABLEITUNGEN UND TAYLORFORMEL 98 8 Höhere Ableitungen und Taylorformel Definition. Sei f : D R eine Funktion, a D. Falls f in einer Umgebung von a (geschnitten mit D) differenzierbar und f in a
Mehr11 Optimierung von Funktionen einer Veränderlichen
11 Optimierung von Funktionen einer Veränderlichen In diesem Kapitel werden die bis hier behandelten Grundlagen der Analysis genutzt, um Methoden aus der Optimierungstheorie für eindimensionale Entscheidungsmengen
MehrLineare und nichtlineare Optimierung
Lineare und nichtlineare Optimierung AXEL DREVES Institut für Mathematik und Rechneranwendung Fakultät für Luft- und Raumfahrttechnik Universität der Bundeswehr München Werner-Heisenberg-Weg 39 85577 Neubiberg/München
MehrTaylor-Entwicklung der Exponentialfunktion.
Taylor-Entwicklung der Exponentialfunktion. Betrachte die Exponentialfunktion f(x) = exp(x). Zunächst gilt: f (x) = d dx exp(x) = exp(x). Mit dem Satz von Taylor gilt um den Entwicklungspunkt x 0 = 0 die
MehrMathematik 1 für Wirtschaftsinformatik
Mathematik 1 für Wirtschaftsinformatik Wintersemester 2012/13 Hochschule Augsburg : Gliederung 7 Folgen und Reihen 8 Finanzmathematik 9 Reelle Funktionen 10 Differenzieren 1 11 Differenzieren 2 12 Integration
Mehr11 Untermannigfaltigkeiten des R n und lokale Extrema mit Nebenbedingungen
11 Untermannigfaltigkeiten des R n und lokale Extrema mit Nebenbedingungen Ziel: Wir wollen lokale Extrema von Funktionen f : M R untersuchen, wobei M R n eine k-dimensionale Untermannigfaltigkeit des
MehrKapitel 6 Folgen und Stetigkeit
Kapitel 6 Folgen und Stetigkeit Mathematischer Vorkurs TU Dortmund Seite 76 / 226 Definition 6. (Zahlenfolgen) Eine Zahlenfolge (oder kurz: Folge) ist eine Funktion f : 0!. Statt f(n) schreiben wir x n
Mehr10.4 Funktionen von mehreren Variablen
10.4 Funktionen von mehreren Variablen 87 10.4 Funktionen von mehreren Variablen Veranschaulichung von Funktionen eine Variable wei Variablen f() oder = f() (, ) f(, ) oder = f(, ) D(f) IR; Darstellung
MehrGradient, Hessematrix, Definitheit, Taylorentwicklung und Extremwertaufgaben von Funktionen mehrerer Variabler
Rolf Haftmann Gradient, Hessematri, Definitheit, Talorentwicklung und Etremwertaufgaben von Funktionen mehrerer Variabler Gradient: Spaltenvektor der partiellen Ableitungen f 1 f f 1 f = grad f = 2 = f
MehrII. Nichtlineare Optimierung
II. Nichtlineare Optimierung 1. Problemstellungen 2. Grundlagen 3. Probleme ohne Nebenbedingungen 4. Probleme mit Nebenbedingungen Theorie 5. Probleme mit Nebenbedingungen Verfahren H. Weber, FHW, OR SS06,
MehrEinführung in die nichtlineare Optimierung
Einführung in die nichtlineare Optimierung Prof. Dr. Walter Alt Semester: SS 2010 1 Vorwort Dieses Dokument wurde als Skript für die auf der Titelseite genannte Vorlesung erstellt und wird jetzt im Rahmen
MehrNumerische Methoden und Algorithmen in der Physik
Numerische Methoden und Algorithmen in der Physik Hartmut Stadie, Christian Autermann 11.12.2008 Numerische Methoden und Algorithmen in der Physik Hartmut Stadie 1/ 18 Einführung Einführung Verfahren für
MehrOutline. 1 Funktionen von mehreren Veränderlichen. 2 Grenzwert und Stetigkeit. 3 Partielle Ableitungen. 4 Die verallgemeinerte Kettenregel
Outline 1 Funktionen von mehreren Veränderlichen 2 Grenzwert und Stetigkeit 3 Partielle Ableitungen 4 Die verallgemeinerte Kettenregel 5 Das totale Differential 6 Extremstellen Roman Wienands (Universität
MehrOptimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen
Optimierung für Wirtschaftsinformatiker: Analytische Optimierung ohne Nebenbedingungen Dr. Nico Düvelmeyer Freitag, 1. Juli 2011 1: 1 [1,1] Inhaltsübersicht für heute 1 Einführung und Wiederholung Beispiel
MehrTeil II. Nichtlineare Optimierung
Teil II Nichtlineare Optimierung 60 Kapitel 1 Einleitung In diesem Abschnitt wird die Optimierung von Funktionen min {f(x)} x Ω betrachtet, wobei Ω R n eine abgeschlossene Menge und f : Ω R eine gegebene
Mehr2. Optimierungsprobleme 6
6 2. Beispiele... 7... 8 2.3 Konvexe Mengen und Funktionen... 9 2.4 Konvexe Optimierungsprobleme... 0 2. Beispiele 7- Ein (NP-)Optimierungsproblem P 0 ist wie folgt definiert Jede Instanz I P 0 hat einen
MehrFormelsammlung zum Starterstudium Mathematik
Formelsammlung zum Starterstudium Mathematik Universität des Saarlandes ¼ Version.3 Inhaltsverzeichnis. Potenzgesetze. Vollständige Induktion 3. Betragsgleichungen, Betragsungleichungen 4 4. Folgen und
MehrAnalysis I. 4. Beispielklausur mit Lösungen
Fachbereich Mathematik/Informatik Prof. Dr. H. Brenner Analysis I 4. Beispielklausur mit en Aufgabe 1. Definiere die folgenden (kursiv gedruckten) Begriffe. (1) Eine bijektive Abbildung f: M N. () Ein
MehrIterative Verfahren, Splittingmethoden
Iterative Verfahren, Splittingmethoden Theodor Müller 19. April 2005 Sei ein lineares Gleichungssystem der Form Ax = b b C n, A C n n ( ) gegeben. Es sind direkte Verfahren bekannt, die ein solches Gleichungssystem
Mehrf(x, y) = 0 Anschaulich bedeutet das, dass der im Rechteck I J = {(x, y) x I, y J}
9 Der Satz über implizite Funktionen 41 9 Der Satz über implizite Funktionen Wir haben bisher Funktionen g( von einer reellen Variablen immer durch Formelausdrücke g( dargestellt Der Zusammenhang zwischen
MehrKursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL (Prof. Dr. Lutz Arnold) Wintersemester 2009/
Kursprüfung Methoden der VWL Klausurteil Dynamische Methoden der VWL (Prof. Dr. Lutz Arnold) Wintersemester 2009/10 2.3.2010 Bitte gut leserlich ausfüllen: Name: Vorname: Matr.-nr.: Wird vom Prüfer ausgefüllt:
MehrGroßes Lehrbuch der Mathematik für Ökonomen
Großes Lehrbuch der Mathematik für Ökonomen Von Professor Dr. Karl Bosch o. Professor für angewandte Mathematik und Statistik an der Universität Stuttgart-Hohenheim und Professor Dr. Uwe Jensen R. Oldenbourg
Mehrε δ Definition der Stetigkeit.
ε δ Definition der Stetigkeit. Beweis a) b): Annahme: ε > 0 : δ > 0 : x δ D : x δ x 0 < δ f (x δ f (x 0 ) ε Die Wahl δ = 1 n (n N) generiert eine Folge (x n) n N, x n D mit x n x 0 < 1 n f (x n ) f (x
MehrTechnische Universität München Zentrum Mathematik. Übungsblatt 4
Technische Universität München Zentrum Mathematik Mathematik (Elektrotechnik) Prof. Dr. Anusch Taraz Dr. Michael Ritter Übungsblatt 4 Hausaufgaben Aufgabe 4. Gegeben sei die Funktion f : D R mit f(x) :=
MehrNICHTLINEARE GLEICHUNGSSYSTEME
NICHTLINEARE GLEICHUNGSSYSTEME Christian Kanzow Julius Maximilians Universität Würzburg Institut für Mathematik Am Hubland 97074 Würzburg e-mail: kanzow@mathematik.uni-wuerzburg.de URL: http://www.mathematik.uni-wuerzburg.de/
Mehr2. Stetige lineare Funktionale
-21-2. Stetige lineare Funktionale Die am Ende von 1 angedeutete Eigenschaft, die ein lineares Funktional T : D(ú) 6 verallgemeinerten Funktion macht, ist die Stetigkeit von T in jedem n 0 0 D(ú). Wenn
MehrAnalysis II WS 11/12 Serie 9 Musterlösung
Analysis II WS / Serie 9 Musterlösung Aufgabe Bestimmen Sie die kritischen Punkte und die lokalen Extrema der folgenden Funktionen f : R R: a fx, y = x + y xy b fx, y = cos x cos y Entscheiden Sie bei
Mehr26. Höhere Ableitungen
26. Höhere Ableitungen 331 26. Höhere Ableitungen Im letzten Kapitel haben wir gesehen, wie man für Abbildungen zwischen mehrdimensionalen Räumen das Konzept der Differenzierbarkeit definieren und für
MehrDefinition: Differenzierbare Funktionen
Definition: Differenzierbare Funktionen 1/12 Definition. Sei f :]a, b[ R eine Funktion. Sie heißt an der Stelle ξ ]a, b[ differenzierbar, wenn der Grenzwert existiert. f(ξ + h) f(ξ) lim h 0 h = lim x ξ
Mehr2 Stetigkeit und Differenzierbarkeit
2.1) Sei D R. a) x 0 R heißt Häufungspunkt von D, wenn eine Folge x n ) n N existiert mit x n D,x n x 0 und lim n x n = x 0. D sei die Menge der Häufungspunkte von D. b) x 0 D heißt innerer Punkt von D,
Mehr15 Hauptsätze über stetige Funktionen
15 Hauptsätze über stetige Funktionen 15.1 Extremalsatz von Weierstraß 15.2 Zwischenwertsatz für stetige Funktionen 15.3 Nullstellensatz von Bolzano 15.5 Stetige Funktionen sind intervalltreu 15.6 Umkehrfunktionen
Mehr55 Lokale Extrema unter Nebenbedingungen
55 Lokale Extrema unter Nebenbedingungen Sei f : O R mit O R n differenzierbar. Notwendige Bescheinigung für ein lokales Extremum in p 0 ist dann die Bedingung f = 0 (siehe 52.4 und 49.14). Ist nun F :
MehrNäherungsverfahren zur Berechnung von Nullstellen. Das Newtonsche Iterationsverahren
Näherungsverfahren zur Berechnung von Nullstellen Das Newtonsche Iterationsverahren. Dieses Verfahren der Nullstellenanäherung macht von der Tatsache Gebrauch, dass der Funktionsgraph einer differenzierbaren
Mehr31 Die Potentialgleichung
3 Die Potentialgleichung Die Potentialgleichung oder auch Poisson-Gleichung ist die lineare Gleichung zweiter Ordnung u = f in einem Gebiet R n. Im homogenen Fall f = 0 spricht man auch von der Laplace-
Mehr7.2.1 Zweite partielle Ableitungen
72 72 Höhere Ableitungen 72 Höhere Ableitungen Vektorwertige Funktionen sind genau dann differenzierbar, wenn ihre Koordinatenfunktionen differenzierbar sind Es ist also keine wesentliche Einschränkung,
MehrModulabschlussklausur Analysis II
Modulabschlussklausur Analysis II. Juli 015 Bearbeitungszeit: 150 min Aufgabe 1 [5/10 Punkte] Es sei a R und f a : R 3 R mit f a (x, y, z) = x cos(y) + z 3 sin(y) + a 3 + (z + ay a y) cos(x) a) Bestimmen
MehrLUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN. 2. Übung/Lösung Mathematik für Studierende der Biologie
LUDWIG-MAXIMILIANS-UNIVERSITÄT MÜNCHEN FAKULTÄT FÜR BIOLOGIE Prof. Anreas Herz, Dr. Stefan Häusler email: haeusler@biologie.uni-muenchen.e Department Biologie II Telefon: 089-80-74800 Großhaernerstr. Fa:
Mehr= (n 2 ) 1 (Kurzschreibweise: a n = n 2 ) ergibt die Zahlenfolge 1, 4, 9, 16, 25, 36,.
2 Folgen, Reihen, Grenzwerte 2.1 Zahlenfolgen Definition: Eine Folge ist eine geordnete Menge von Elementen an (den sogenannten Gliedern ), die eindeutig den natürlichen Zahlen zugeordnet sind (n N; auch
MehrWirtschaftsmathematik Plus für International Management (BA) und Betriebswirtschaft (BA)
Wirtschaftsmathematik Plus für International Management (BA) und Betriebswirtschaft (BA) Wintersemester 2012/13 Hochschule Augsburg Aufgabe 98 12.12.2012 Untersuchen Sie die Funktion f W R! R mit f.x/
MehrDifferenzial- und Integralrechnung II
Differenzial- und Integralrechnung II Rainer Hauser Dezember 011 1 Einleitung 1.1 Ableitung Die Ableitung einer Funktion f: R R, x f(x) ist definiert als f (x) = df(x) dx = d f(x + h) f(x) f(x) = lim dx
MehrSerie 4. Analysis D-BAUG Dr. Cornelia Busch FS 2015
Analysis D-BAUG Dr. Cornelia Busch FS 05 Serie 4. Finden Sie die lokalen Extrema der Funktionen f : R R auf dem Einheitskreis S = {x, y R : x + y = } und geben Sie an, ob es sich um ein lokales Minimum
MehrMathematik II für Inf und WInf
Gruppenübung Mathematik II für Inf und WInf 8. Übung Lösungsvorschlag G 28 (Partiell aber nicht total differenzierbar) Gegeben sei die Funktion f : R 2 R mit f(x, ) := x. Zeige: f ist stetig und partiell
Mehr