Optimierung II Sommersemester 2008 Page 1 of 92 Literatur: C. Geiger, C. Kanzow: Theorie und Numerik restringierter Optimierungsaufgaben, Springer, 2002
Inhalt Einleitung (Begriffsbildung, Beispiele) ungen Linare Programme Innere Punkte Methoden Nichtlineare Optimierung Page 2 of 92
1. Einleitung: Begriffsbildung und Beispiele Auswahl der besten aus einer Vielzahl vom möglichen Entscheidungen. Optimierung (optimization, programming) Zulässigkeitsbereich (feasible set): Menge der möglichen Entscheidungen X Zielfunktion (cost function, objective): Bewertung jeder möglichen Entscheidung f : X R (Fall mehrerer konkurrierender Zielfunktionen f : X R k, k 2: Vektoroptimierung, multicriteria optimization) allgemeines Optimierungsproblem (k = 1): kurz: Gegeben: Menge X, Funktion f : X R Gesucht: x X so dass für alle x X : f(x ) f(x) min f(x) u.d.n. x X (Behandlung von Maximierungsproblemen durch f f.) Page 3 of 92
Nebenbedingungen X X, X (un)endlichdim. Raum (un)endlichdimensionale Opt. im weiteren: X = R n : X = R n... freie (unrestringierte) Optimierung X R n... restringierte Optimierung (Opt. mit Nebenbedingungen) (weitgehend) allg. Form der Nebenbedingungen in R n : X = X 1 X 2 X 3 X 1 = {x R n : c i (x) = 0, i I 1 }... Gleichungsrestriktionen X 2 = {x R n : c i (x) 0, i I 2 }... Ungleichungsrestriktionen X 3 = {x R n : x i Z, i I 3 }... Ganzzahligkeitsrestriktionen I 1 N, card(i 1 ) <, I 2 N (falls card(i 2 ) =... semi-infinite Optimierung), I 3 {1,... n} (falls I 3... gemischt-ganzzahlige Opt.), c i : R n R, i {1,... n} card(x) <... diskrete Optimierung, sonst stetige Optimierung Page 4 of 92
Klassifizierung stetiger Optimierungsprobleme Klasse Zielfunktion f Restriktionen c i Lineare Optimierung linear linear Quadratische Optimierung quadratisch linear Nichtlin.Opt. mit lin. Restr. nichtlinear linear Nichtlin.Opt. mit nichtlin. Restr. nichtlinear nichtlinear Eine Funktion f : R n R heißt linear f(x) = g T x + f 0 g R n, f 0 R quadratisch f(x) = x T Gx + g T x + f 0 G R n n, g R n, f 0 R nichtlinear sonst f oder c i nicht differenzierbar... nichtdifferenzierbare (nonsmooth) Optimierung Optimierung I: freie nichtlineare Optimierung Optimierung II: restringierte Optimierung... weitere Spezialvorlesungen Page 5 of 92
Lösungsbegriffe Definition 1. Sei f : X R mit X R n. Ein Punkt x X heißt (i) (globales) Minimum von f (auf X) wenn gilt x X : f(x ) f(x) (ii) striktes globales Minimum von f (auf (X) wenn gilt x X, x x : f(x ) < f(x) (iii) lokales Minimum von f (auf (X) wenn gilt U Umgebung von x : x U : f(x ) f(x) Page 6 of 92 (iv) striktes lokales Minimum von f (auf (X) wenn gilt U Umgebung von x : x U, x x : f(x ) < f(x)
x striktes globales Minimum x globales Minimum x striktes lokales Minimum x lokales Minimum x globales Minimum x lokales Minimum x striktes globales Minimum x striktes lokales Minimum Definition 2. Sei X R n offen und f : X R stetig differenzierbar. Ein Punkt x X heißt stationärer Punkt wenn f(x ) = 0 d.h., i {1,..., n} f x i (x ) = 0 x lokales Minimum x stationärer Punkt (siehe nächster Abschnitt) Veranschaulichung in 1-d:,,Kurvendiskussion ; in 2-d: Niveaulinien Page 7 of 92
2. ungen Theoretische Grundlagen: Konvexität, Projektionssatz, Trennungssätze, Farkas-Lemma Optimalitätskriterien: Tangentialkegel, Nichtlineare Restriktionen, Lineare Restriktionen, Konvexe Probleme, Fritz-John-Bedingungen, Bedingungen 2.Ordnung Page 8 of 92
Konvexe Mengen Definition 3.. X R n konvex : x, y X λ (0, 1) : λx + (1 λ)y X Lemma 1. (X j ) j J Familie v. konvexen Mengen j J X j konvex. Lemma 2. X konvex cl X konvex. Definition 4. x R n Konvexkombination von x 1,... x m R n : λ 1,... λ m 0, m λ i = 1 : x = i=1 m λ i x i i=1 Lemma 3.. X konvex X enthält alle Konvexkombinationen ihrer Elemente. Page 9 of 92
Definition 5.. Die konvexe Hülle conv(x) einer Menge X R n ist die kleinste (bzgl der Ordnungsrelation ) konvexe Menge die X enthält. Lemma 4. X R n : conv(x) = {C C R n konvex mit X C} Lemma 5. X R n : conv(x) = {x R n x 1,... x m X : x Konvexkombination von x 1,... x m } Lemma 6. X R n konvex, x 1 cl X, x 2 int X λ [0, 1) : λx 1 + (1 λ)x 2 int(x) Korollar 1. X R n konvex, int(x). (a) int(x) = int(cl(x)) (a) X = (cl(x)) Page 10 of 92
Konvexe Funktionen Definition 6. X R n konvex,f : X R. (a) f konvex : x, y X λ (0, 1) : f(λx + (1 λ)y) λf(x) + (1 λ)f(y); (b) f strikt konvex : x y X λ (0, 1) : f(λx + (1 λ)y) < λf(x) + (1 λ)f(y); (c) f gleichmäßig konvex : µ > 0 x, y X λ (0, 1) : f(λx + (1 λ)y) λf(x) + (1 λ)f(y) µλ(1 λ) x y 2 ; Satz 1. X R n offen und konvex, f : X R stet.diffb. (a) f konvex x, y X : f(x) f(y) f(y) T (x y); (b) f str. konv. x y X : f(x) f(y) > f(y) T (x y); (c) f glm. konv. µ > 0 x, y X : f(x) f(y) f(y) T (x y) + µ x y 2 ; Page 11 of 92
Monotonie und Konvexität Definition 7. X R n, F : X R n. (a) F monoton : x, y X : (x y) T (F (x) F (y)) 0; (b) F strikt monoton : x y X : (x y) T (F (x) F (y)) > 0; (a) F gleichmäßig monoton : µ > 0 x, y X : (x y) T (F (x) F (y)) µ x y 2 ; Satz 2. X R n offen und konvex, f : X R stet.diffb. f (strikt/gleichmäßig) konvex f (strikt/gleichmäßig) monoton Satz 3. X R n offen und konvex, f : X R zweimal stet.diffb. Page 12 of 92 (a) x X : 2 f pos.semidef. f konvex; (b) x X : 2 f pos.def. f str. konvex; (c) 2 f glm. pos.def. f glm. konvex; 2 f glm. pos.def. : µ > 0 x X, d R n : d T 2 f(x)d µ d 2
Lemma 7.. g : R n R m, h : R n R p, i {1,... m} : g i konvex, j {1,... p} : h j affin-linear, X = {x R n g(x) 0, h(x) = 0} konvex Lemma 8.. X R n konvex, f i : X R, α i > 0, i = 1,... r (a) i : f i konvex r i=1 α if i konvex. (b) i : f i konvex i : f i strikt konvex r i=1 α if i strikt konvex. Page 13 of 92
Optimierung mit konvexer Zielfunktion min f(x) u.d.n. x X ( ) Satz 4. X R n konvex, f : R n R stet.diffb. (a) f konvex auf X Die Lösungsmenge von ( ) ist konvex; (b) f str. konvex auf X Es gibt höchstens eine Lösung von ( ). } f glm. konvex auf X (c) Es gibt genau eine Lsg von ( ). X, X abgeschlossen Satz 5. X R n konvex, f : X R konvex, x lok. Min von (*) x glob. Min von (*). Satz 6. f : X = R n R stet.diffb. und konvex, f(x ) = 0 x glob. Min von f Page 14 of 92
Projektionssatz Lemma 9. X R n abgeschlossen und konvex. y R n z X : x X : y z y x. z = Proj X y... Projektion von y auf X. Satz 7.* (Projektionssatz) X R n abgeschlossen und konvex, y R n. z = Proj X y ( x X : (y z) T (x z) 0) Lemma 10. X R n abgeschlossen und konvex. x, y R n : Proj X x Proj X y x y Lemma 11. X R n abgeschlossen und konvex. x, y R n, Proj X x Proj X y : (x y) T (Proj X x Proj X y) > 0 Page 15 of 92
Trennungssätze Lemma 12. X R n konvex, x int(x) a 0 R n x X : a T x a T x Satz 8. (Trennungssatz) X 1, X 2 R n konvex, X 1 X 2 = a 0 R n x 1 X 1, x 2 X 2 : a T x 1 a T x 2 Lemma 13. X 1, X 2 R n konvex, X 1 abgeschlossen, X 2 kompakt X 1 +X 2 := {x 1 +x 2 x 1 X 1, x 2 X 2 } abgeschlossen und konvex Satz 9. (strikter Trennungssatz) X 1, X 2 R n konvex, X 1 abgeschlossen, X 2 kompakt, X 1 X 2 = a 0 R n, β R x 1 X 1, x 2 X 2 : a T x 1 < β < a T x 2 Page 16 of 92
Farkas-Lemma Definition 8. X R n Kegel (cone) : x X, λ > 0 : λx X Definition 9. a 1,... a m R n : cone(a 1,... a m ) := {x 1 a 1 +... + x m a m x i 0 i {1,... m}... durch a 1,... a m erzeugter Kegel Lemma 14.. A R m n X := {A T x x 0} abgeschlossener konvexer Kegel Lemma 15.* (Farkas) A R m n, b R n, dann sind äquivalent: (a) x R m : A T x = b x 0 (b) d R n : Ad 0 b T d 0 Lemma 16. (Farkas, alternative Formulierung) A R m n, b R n, dann gilt: entweder x R n : A T x = b x 0 oder d R n : Ad 0 b T d < 0 Page 17 of 92
Tangentialkegel X R n Definition 10. d R n tangential zu X im Punkt x X : (x k ) k N X, (t k ) k N R : x k x k x x, t k 0, d t k Tangentialkegel von X in x: T X (x) := {d R n d tang. zu X im Pkt x} Lemma 17. x X T X (x) abgeschlossen. Lemma 18. f : R n R stetig diffbar x lok.min. v. min f(x) u.d.n. x X d T X (x) : f(x ) T d 0 }{{} x stationärer Punkt X = {x R n g i (x) 0, i = 1,..., m, h j (x) = 0, j = 1,... p} Definition 11. linearisierter Tangentialkegel von X in x X: T lin (x) := {d R n g i (x) T d 0, i I(x), h j (x) T d = 0, j = 1,... p} Menge der aktiven UngleichungsNB I(x) = {i {1,..., m} g i (x) = 0} Lemma 19. x X T X (x) T lin (x) Definition 12. Abadie constraint qualification : T X (x) = T lin (x) Page 18 of 92
Lagrangefunktion und Karush-Kuhn-Tucker Bed. min f(x) u.d.n. g i (x) 0 i = 1,... m, ( ) h j (x) = 0 j = 1,... p Definition 13. Lagrangefunktion L : R n R m R p R: m p L(x, λ, µ) := f(x) + λ i g i (x) + µ j h j (x) i=1 j=1 Definition 14. Karush-Kuhn-Tucker Bedingungen: x L(x, λ, µ) = f(x) + m i=1 λ i g i (x) + p j=1 µ j h j (x) = 0 h(x) = 0 λ 0, g(x) 0, λ T g(x) = 0 (KKT ) (x, λ, µ ) KKT-Punkt : (x, λ, µ ) erfüllt (KKT ). λ, µ... Lagrange-Multiplikatoren, λ T g(x ) = 0... Komplementaritätsbed. Satz 10.* x lokales Min. von ( ) in dem die Abadie CQ erfüllt sind. Dann existieren λ, µ sodass (x, λ, µ ) KKT-Punkt ist. Page 19 of 92
Nichtlineare Restriktionen x X, I(x ) = {i {1,..., m} g i (x ) = 0} Lemma 20. h j (x ), j = 1,... p linear unabhängig. d R n mit g i (x ) T d < 0, i I(x ), h j (x ) T d = 0, j = 1,... p. Dann existiert ε > 0 und Kurve x : ( ε, +ε) R n sodass: (a) x stetig diffbar. auf ( ε, +ε) (b) t [0, +ε) : (c) x(0) = x (d) x (0) = d x(t) X Page 20 of 92
Mangasarian-Fromowitz CQ/ Linear independence CQ Definition 15. x X erfüllt die Mangasarian-Fromowitz CQ (MFCQ) : (a) h j (x ), j = 1,... p linear unabhängig. (b) d R n : g i (x ) T d < 0, i I(x ), h j (x ) T d = 0, j = 1,... p Satz 11. x lokales Min. von ( ) in dem die MFCQ erfüllt sind. Dann existieren λ, µ sodass (x, λ, µ ) KKT-Punkt ist. Definition 16. x X erfüllt die linear independence CQ (LICQ) : g i (x ), i I(x ), h j (x ), j = 1,... p linear unabhängig. Satz 12. x lokales Min. von ( ) in dem die LICQ erfüllt sind. Dann existieren λ, µ sodass (x, λ, µ ) KKT-Punkt ist. λ, µ sind eindeutig. Page 21 of 92
Lineare Restriktionen min f(x) u.d.n. a T i x α i i = 1,... m, b T j x = β ( lin) j j = 1,... p Karush-Kuhn-Tucker Bedingungen: f(x) + m i=1 λ ia i + p j=1 µ jb j = 0 b T j x = β j j = 1,... p λ i 0, a T i x α i, λ i (a T i x α i) = 0 i = 1,... m Satz 13. x lokales Min. von ( lin ). Dann existieren λ, µ sodass (x, λ, µ ) KKT-Punkt ist. (KKT lin) Page 22 of 92
Konvexe Probleme f, g i stet.diffb. und konvex. min f(x) u.d.n. g i (x) 0 i = 1,... m, b T j x = β ( kon) j j = 1,... p Definition 17. ( kon ) erfüllt die Slater-Bedingung : ˆx R n : g i (ˆx) < 0, i = 1,..., m, b T j ˆx = β j, j = 1,... p Karush-Kuhn-Tucker Bedingungen: f(x) + m i=1 λ i g i (x) + p j=1 µ jb j = 0 b T j x = β j j = 1,... p (KKT kon) λ i 0, g i (x) 0, λ i g i (x) = 0 i = 1,... m Satz 14. x lokales(=globales) Min. und die Slater-Bed. sei erfüllt. Dann existieren λ, µ sodass (x, λ, µ ) KKT-Punkt ist. Satz 15. (x, λ, µ ) KKT-Punkt x lokales(=globales) Min. Korollar 2. g i affin linear, i = 1,..., m. Dann gilt: λ, µ : (x, λ, µ ) KKT-Punkt x lokales(=globales) Min. Page 23 of 92
Sattelpunkte Definition 18.. (x, λ, µ ) R n R m R p mit λ 0 Sattelpunkt der Lagrangefkt. : (x, λ, µ) R n R m R p, λ 0 : L(x, λ, µ) L(x, λ, µ ) L(x, λ, µ ) Satz 16.* (Sattelpunkt-Theorem) (x, λ, µ ) KKT-Punkt von ( kon ) (x, λ, µ ) Sattelpunkt von L Korollar 3. (a) (x, λ, µ ) Sattelpunkt von L x glob. Min von ( kon ) (b) Slater-Bed. erfüllt und x lokales(=globales) Min. von ( kon ) (x, λ, µ ) Sattelpunkt von L (c) g i affin linear, i = 1,..., m. Dann gilt: ( λ, µ : (x, λ, µ ) Sattelpkt. v. L) (x lok.(=glob.) Min. v. ( kon )) Page 24 of 92
Fritz John - Bedingungen allg. Problem ( ); x X, I(x ) = {i {1,..., m} g i (x ) = 0} Lemma 21.. x lok. Min. v. ( ), h j (x ), j = 1,... p linear unabhängig. Dann gilt d R n, g i (x ) T d < 0, i I(x ), h j (x ) T d = 0, j = 1,... p : f(x ) T d 0 Definition 19. Fritz John - Bedingungen: r f(x) + m i=1 λ i g i (x) + p j=1 µ j h j (x) = 0 h(x) = 0 r 0, λ 0, g(x) 0, λ T g(x) = 0 (F J) (r, x, λ, µ ) Fritz John-Punkt : (r, x, λ, µ ) erfüllt (F J). Satz 17. (Fritz John - Bedingungen) x lokales Min. von ( ). Dann exist. (r, λ, µ ) (0, 0, 0) sodass (r, x, λ, µ ) FJ-Punkt ist. Page 25 of 92
Bedingungen 2.Ordnung (x, λ, µ ) KKT Punkt: I(x ) = I 0 (x ) I > (x ) I 0 (x ) = {i I(x ) λ i = 0} I >(x ) = {i I(x ) λ i > 0} T 0 (x ) := {d R n h j (x ) T d = 0, j = 1,..., p} T 1 (x ) := {d R n g i (x ) T d = 0, i I(x )} T 0 (x ) T 2 (x ) := {d R n g i (x ) T d = / 0, i I >/0 (x )} T 0 (x ) T 3 (x ) := {d R n g i (x ) T d = 0, i I > (x )} T 0 (x ) λ i + g i (x ) 0, i = 1,..., m }{{} strikte Komplementarität T 1 (x ) = T 2 (x ) = T 3 (x ) Satz 18. (notwendige Bedingung 2.Ordnung) x lok. Min. v. ( ), LICQ erfüllt. Dann gilt mit λ, µ gem. Satz 12: d T 2 (x ) : d T 2 xxl(x, λ, µ )d 0 Satz 19.* (hinreichende Bedingung 2.Ordnung) (x, λ, µ ) KKT-Pkt. und d 0 T 2 (x ) : d T 2 xxl(x, λ, µ )d > 0 Dann ist x striktes lokales Min. von ( ) Page 26 of 92
3. Lineare Programme LP in Normalform: c R n, A R p n, b R p (LP ) min c T x u.d.n. Ax = b, x 0 Theoretische Grundlagen: Polyeder und Ecken, Dualität und Optimalität, Fehlerschranke von Hoffmann Simplex-Verfahren: Simplex-Schritt, Simplex-Verfahren, Zyklenvermeidung, Start, Komplexität Page 27 of 92
Polyeder Definition 20. A R p n, Ã R p ñ, B R m ñ, b R p, b R p, d R p P = {x Rñ Ãx = b, Bx d}... Polyeder. P = {x R n Ax = b, x 0}... Polyeder in Normal-(Standard-)form Definition 21. x Ecke eines Polyeders P (in Normalform) : λ (0, 1), x 1, x 2 P : x = λx 1 + (1 λ)x 2 x = x 1 = x 2 Satz 20. P Polyeder in NF, x P, Ī(x) := {i {1,..., n} x i > 0}. x Ecke von P die Spalten (a i ) i Ī(x) von A sind linear unabhängig. Definition 22. P Polyeder in NF, x P... Basisvektor von P : I {1,..., n}, card(i) = p : ( j {1,..., n}\i : x j = 0) (a i ) i I l.u. Satz 21. P Polyeder in NF, Rang(A) = p. Dann gilt: x Ecke v. P x Basisvektor v. P Page 28 of 92
Satz 22.* P Polyeder in NF, Rang(A) = p. Dann gilt: (a) Falls P so besitzt P mindestens einen Basisvektor. (b) P hat höchstens endlich viele Basisvektoren. (c) Falls (LP ) eine Lösung hat, dann gibt es auch eine Lösung, die Basisvektor ist. Page 29 of 92
Dualität und Optimalität (LP ) min c T x u.d.n. Ax = b, x 0... primales Problem (DP ) max b T λ u.d.n. A T λ c... duales Problem (DP ) max b T λ u.d.n. A T λ + s = c, s 0 Satz 23. Folgende Aussagen sind äquivalent: (a) x löst (LP ) (b) (λ, s ) löst (DP ) (c) (x, λ, s ) : A T λ + s = c Ax = b x 0, s 0, x T s = 0... Optimalitätsbed. Satz 24.* (Schwache Dualität) x zulässig für (LP ) und λ zulässig für (DP ) b T λ c T x Korollar 4. x zulässig für (LP ) und λ zulässig für (DP ). Dann gilt: b T λ = c T x x löst (LP ) und λ löst (DP ). Page 30 of 92
inf(p ) := inf{c T x Ax = b, x 0} sup(d) := sup{b T λ A T λ c} Satz 25.* (Starke Dualität) (LP ) lösbar oder (DP ) lösbar inf(p ) = sup(d) Satz 26. (Existenz) inf(p ) R (LP ) lösbar. sup(d) R (DP ) lösbar. Satz 27.. Sind die Zulässigkeitsbereiche von (LP ) und von (DP ) beide nichtleer, so sind (LP ) und (DP ) beide lösbar. Page 31 of 92
Fehlerschranke von Hoffmann Lemma 22. e i R n... i-ter Einheitsvektor, e = (1,..., 1) T R 2n, B R 2n n Matrix, in deren Zeilen alle Kombinationen von ±1 stehen. F := {e 1,..., e n } { e 1,..., e n }. Dann gilt: {u R n Bu e} = {u R n u 1 1} = conv(f ) Satz 28. (Fehlerschranke von Hoffmann) P b := {x R n Ax b} Korollar 5. A R p n C A > 0 b R p s.d. P b x R n : min x P b x x C A max{0, Ax b} A R p n κ A > 0 b R p s.d. P b x R n : dist Pb (x ) κ A max{0, Ax b} Korollar 6. P b,d := {x R n Ax b, Bx = d} A R p n, B R m n κ A,B > 0 b R p, d R m s.d. P b,d x R n : dist Pb (x ) κ A,B (max{0, Ax b}, Bx d) T Page 32 of 92
Simplex-Schritt x Basisvektor, I = (i 1,..., i p ), J = {1,..., n} \ I, (a i ) i=1,...,n Spalten von A, B := (a i ) i I R p p, N := (a j ) j J R p n p v R n : v I := (v i ) i I, v J := (v j ) j J Lemma 23. y := B T c I R p, u j := c j a T j y, j J. Damit gilt: Lemma 24. y, u wie oben, d (r) j j J : u j 0 x löst (LP ) := B 1 a r. Damit gilt: ( r J : u r < 0 i I : d (r) i 0) (LP ) nicht lösbar Satz 29. y, u, d (r) wie oben. r J : u r < 0 i I : d (r) i > 0 x x i ˆtd i i I \ {s} i s arg min, ˆt := x s i I,d (r) i >0 d d s x neu i := ˆt i = r i 0 sonst (a) x neu ist Basisvektor mit Indexmenge I neu := (I {r}) \ {s}. (b) Für den Zielfunktionswert gilt: c T x neu c T x. (c) Falls x nicht entartet ist gilt: c T x neu < c T x. Page 33 of 92
Page 34 of 92
Simplex-Verfahren k = 0: Wähle x 0 R n Basisvektor von P mit Indexmenge I 0 ; setze J = {1,..., n} \ I 0, B 0 = (a i ) i I0 For k = 0, 1, 2... Berechne die Lsg. y k R p des lin. Glsys Bk T y = c I k. Berechne u k j = c j a T j yk, j J k. Falls j J k : u k j 0 STOP I. Wähle r k J k mit u k r k < 0. Berechne die Lsg. d k R p des lin. Glsys B k d = a rk. Falls i I k : d k i 0 STOP II. Wähle Berechne x k i s k arg min i I k,d k i >0 d k. i ˆt k = xk s k d k s k. x k+1 i = x k i ˆt k d k i i I k \ {s k } ˆt k i = r k 0 sonst Setze I k+1 = (I k {r k }) \ {s k }, J k+1 = {1,..., n} \ I k+1, B k+1 = (a i ) i Ik+1. Page 35 of 92
Satz 30.. (a) Alle vom Simplex-Verf. erzeugten x k sind Basisvektoren von P. (b) Bricht das Simplex-Verf. bei STOP I ab, so ist x k Lösung von (LP ) (und (y k, u k ) mit u k i := 0, i I k Lösung von (DP )). (c) Bricht das Simplex-Verf. bei STOP II ab, so ist (LP ) nicht lösbar. (d) Wenn alle vom Simplex-Verfahren erzeugten Basisvektoren x k nicht entartet sind, so bricht es nach endlich vielen Schritten bei STOP I oder STOP II ab. Page 36 of 92
Page 37 of 92
Zyklenvermeidung Bland sche Zusatzregel k = 0: Wähle x 0 R n Basisvektor von P mit Indexmenge I 0 ; setze J = {1,..., n} \ I 0, B 0 = (a i ) i I0 For k = 0, 1, 2... Berechne die Lsg. y k R p des lin. Glsys Bk T y = c I k. Berechne u k j = c j a T j yk, j J k. Falls j J k : u k j 0 STOP I. Wähle r k J k minimal mit u k r k < 0. Berechne die Lsg. d k R p des lin. Glsys B k d = a rk. Falls i I k : d k i 0 STOP II. Wähle Berechne s k = min(arg min x k i i I k,d k i >0 d k i ˆt k = xk s k d k s k. x k+1 i = ). x k i ˆt k d k i i I k \ {s k } ˆt k i = r k 0 sonst Setze I k+1 = (I k {r k }) \ {s k }, J k+1 = {1,..., n} \ I k+1, B k+1 = (a i ) i Ik+1. Page 38 of 92
Satz 31.. (a) Alle vom SV & Bland-Regel erzeugten x k sind Basisvektoren von P. (b) Bricht das SV & Bland-Regel bei STOP I ab, so ist x k Lösung von (LP ) (und (y k, u k ) mit u k i := 0, i I k Lösung von (DP )). (c) Bricht das SV & Bland-Regel bei STOP II ab, so ist (LP ) nicht lösbar. (d) Das SV & Bland-Regel bricht es nach endlich vielen Schritten bei STOP I oder STOP II ab. Page 39 of 92
Start o.b.d.a. b 0 Satz 32. (Phase I des Simplex-Verfahrens) (a) (LP P I ) min e T z u.d.n. Ax + z = b, x 0, z 0 ( ) ( ) x 0 = ist BV von (LP z b P I ) mit I = {n + 1,..., n + p}. (b) (LP P I ) ist lösbar. ( ) x (c) Bezeichne z einen optimalen BV f. (LP P I ). { z 0 P = z = 0 Rang(A) = p x BV v.(lp ) Page 40 of 92
Satz 33. (Big M-Methode) (LP M ) min c T x + Me T z u.d.n. Ax + z = b, x 0, z 0 ( ) ( ) x 0 (a) = ist BV von (LP z b P I ) mit I = {n + 1,..., n + p}. ( ) x (b) Ist Lsg. von (LP M ), mit z = 0, so ist x Lsg von (LP ) z (c) Sei (LP ) lösbar. Dann gilt: M > 0 M > M : (LP M ) lösbar und für alle Lsgn ( ) x ist z = 0. z Page 41 of 92
Komplexität Maximale Anzahl der Ecken k ST OP ( p m ) Beispiel (Klee&Minty): ν N : k ST OP > (pn) ν polynomiale Komplexität im Mittel Ellipsoid-Algoritmus von Khachian, Innere-Punkte-Methode von Karmakar (LP ) nicht NP-vollständig. Page 42 of 92
4. Innere Punkte Methoden Theoretische Grundlagen: Der zentrale Pfad, Prinzip der Innere Punkte Methoden Pfadverfolgung: zulässiges Verfahren, unzulässiges Verfahren, Semidefinite Programme Glättungsverfahren: Glättungsfunktionen, Konvergenzanalyse Page 43 of 92
Der zentrale Pfad (LP ) min c T x u.d.n. Ax = b, x 0... primales Problem (DP ) max b T λ u.d.n. A T λ + s = c, s 0... duales Problem ungen: A T λ + s = c Ax = b x 0, s 0, x i s i = 0 Barriereprobleme: (LBP ) gestörte Optimalitätsbed. (τ > 0): A T λ + s = c Ax = b (CP ) x>0, s>0, x i s i = τ τ (x τ, λ τ, s τ ) Lsg.v. (CP)... zentraler Pfad min c T x τ n i=1 log(x i) u.d.n. Ax = b, x > 0 (DBP ) max b T λ τ n i=1 log(s i) u.d.n. A T λ + s = c, s > 0 Page 44 of 92
Satz 34. τ > 0. Dann sind folgende Aussagen äquivalent: (a) Das primale Barriereproblem (LBP ) hat eine Lösung x τ. (b) Das duale Barriereproblem (DBP ) hat eine Lösung (λ τ, s τ ). (c) Die zentrale Pfad-Bedingung (CP ) hat eine Lösung (x τ, λ τ, s τ ) F := {(x, λ, s) Ax = b, x 0, A T λ + s = c, s 0}... (primal-dual) zulässige Menge F o := {(x, λ, s) Ax = b, x > 0, A T λ + s = c, s > 0}... (primal-dual) strikt zul. Menge Page 45 of 92 Satz 35. F o τ > 0 x τ Lösung von (LBP ). Satz 36.* F o τ > 0 (x τ, λ τ, s τ ) Lösung von (CP ). x τ, s τ eindeutig. Falls Rang(A) = p ist auch λ τ eindeutig.
Prinzip der Innere Punkte Methoden F τ (x, λ, s) := }{{} =:w A T λ + s c Ax b XSe τe X := diag(x 1,..., x n ) S := diag(s 1,..., s n ) e := (1,..., 1) T Newtonverfahren für F τ (x, λ, s) = 0 x > 0, s > 0 0 A T E p F τ(x, λ, s) := A 0 0 S 0 X Page 46 of 92 Satz 37. x > 0, s > 0, Rang(A) = p τ > 0 : F τ(x, λ, s) regulär
Ein allgemeines Innere-Punkte Verfahren k = 0: Wähle w 0 = (x 0, λ 0, s 0 ) T F o, ε (0, 1) While µ k := x kt s k /n > ε do: Wähle σ k [0, 1], setze τ k := σ k µ k Berechne die Lsg. w k := ( x k, λ k, s k ) T des lin. Glsys. (NG) 0 A T I A 0 0 S k 0 X k x λ s = A T λ k s k + c Ax k + b X k S k e + τ k e Setze w k+1 = w k + t k w k mit t k > 0 so dass x k+1 > 0, s k+1 > 0. Setze k = k + 1. (x k (t), λ k (t), s k (t)) T := (x k, λ k, s k ) T + t( x k, λ k, s k ) T, µ k (t) := x k (t) T s k (t)/n. Lemma 25. Für die Lösung ( x k, λ k, s k ) T von (NG) gilt: (a) ( x k ) T s k = 0 Page 47 of 92 (b) µ k (t) = (1 t(1 σ k ))µ k
Satz 38. Sei ε (0, 1) und (µ k ) k N eine Folge sodass δ (0, 1], ω, κ > 0 existieren mit µ 0 ε κ Dann existiert ein K N mit µ k+1 (1 δn ω ) µ k k = 0, 1, 2,... K = O(n ω log ε ) k K : µ k ε Page 48 of 92
Ein zulässiges Pfadverfolgungs - Verfahren N (γ) := {(x, λ, s) F o i {1,... n} : x i s i γ x T s/n} }{{} =µ k = 0: Wähle γ (0, 1), 0 < σ min < σ max < 1, ε (0, 1) w 0 = (x 0, λ 0, s 0 ) T N (γ), While µ k := x kt s k /n > ε do: Wähle σ k [σ min, σ max ], setze τ k := σ k µ k Berechne die Lsg. w k := ( x k, λ k, s k ) T des lin. Glsys. (NG) 0 A T I A 0 0 S k 0 X k x λ s = 0 0 X k S k e + τ k e Setze w k+1 = w k + t k w k mit t k > 0 max. s.d. w k+1 N (γ) Setze k = k + 1. Page 49 of 92
Lemma 26. u, v R n, u T v 0, U := diag(u 1,..., u n ), V := diag(v 1,..., v n ). Dann gilt UV e 2 3/2 u + v 2 Lemma 27. (x k, λ k, s k ) N (γ). Dann gilt X k S k e 2 3/2 (1 + 1/γ)nµ k Lemma 28. (x k, λ k, s k ) N (γ), t k := 2 3/2 γ 1 γ 1+γ σ k/n. Dann gilt Satz 39. t [0, t k ] : δ > 0 k k stop : (x k (t), λ k (t), s k (t)) N (γ) µ k+1 (1 δ/n)µ k Satz 40. Es existiere κ > 0 sodass µ 0 ε κ. Dann existiert ein K N mit K = O(n ω log ε ) sodass Page 50 of 92 k K : µ k ε
Ein unzulässiges Pfadverfolgungs - Verfahren r (k) b r c (k) := Ax (k) b := A T λ (k) + s (k) c N (γ, β) := {(x, λ, s) x > 0, s > 0, i {1,... n} : x i s i γµ, (r b, r c ) / (r 0 b, r 0 c) βµ/µ 0 } k = 0: Wähle γ (0, 1), β 1, 0 < σ min < σ max 0.5, ε (0, 1) w 0 = (x 0, λ 0, s 0 ) T N (γ, β) While µ k := x kt s k /n > ε do: Wähle σ k [σ min, σ max ] Berechne die Lsg. w k := ( x k, λ k, s k ) T des lin. Glsys. (NG) 0 A T I A 0 0 S k 0 X k x λ s = r k c r k b X k S k e + σ k µ k e Setze w k+1 = w k + t k w k mit t k > 0 max. s.d. w k+1 N (γ, β) u. µ k (t) (1 0.01t)µ k Setze k = k + 1. Page 51 of 92
Satz 41. (ohne Beweis) (a) µ k konvergiert Q-linear gegen Null. (b) (r k b, rk c ) konvergiert R-linear gegen Null. Page 52 of 92
Semi-Definite Programme S n n := {A R n n A symmetrisch} S+ n n := {A R n n A positiv semidefinit} S++ n n := {A R n n A positiv definit} A 0 : A S+ n n A, B := n n A B = a ij b ij A F := A A A i R n n, i = 1,... p, b R p min C X (SDP ) u.d.n. A i X = b i, i = 1,... p X 0 max b T λ (DDP ) u.d.n. p i=1 λ ia i + S = C S 0 i=1 j=1 Page 53 of 92
inf(p ) := inf{c X A i X = b i, i = 1,... p, X 0} p sup(d) := sup{b T λ λ i A i + S = C, S 0} i=1 Satz 42. (Schwache Dualität für SDPs): sup(d) inf(p ) Satz 43. (Starke Dualität für SDPs) Es existiere strikt zulässiges ( ˆX, ˆλ, Ŝ), d.h. A i X = b i, i = 1,... p, ˆX 0, p i=1 λ ia i + S = C, S 0. Dann gilt (a) (SDP ) lösbar und (DDP ) lösbar. (b) sup(d) = inf(p ) Page 54 of 92
Innere Punkte Verfahren für SDPs ungen: p i=1 λ ia i + S = C A i X = b i, i = 1,... p X 0, S 0, SX = 0 gestörte Optimalitätsbed. (τ > 0): p i=1 λ ia i + S = C A i X = b i, i = 1,... p X 0, S 0, SX = τi Newton-Verfahren: (X k+1, λ k+1, S k+1 ) = (X k, λ k, S k )+t k ( X k, λ k, S k ) t k so dass X k+1 0, S k+1 0 p λ i A i + S i=1 A i X S k X + X k S = p λ k i A i + S k C =: rc k i=1 = A i X k + b i =: rb k i, i = 1,... p = τi S k X k Page 55 of 92
Start mit zulässigem (X 0, λ 0, S 0 ) ( r k C = 0, rk b = 0); Projekton von X k auf S n n : M k λ = c k p X k = τ k (S k ) 1 X k + λ k i (S k ) 1 A i X k X k = 1 2 ( X k + X kt ) p S k = λ k i A i i=1 mit m k ij := Spur(A i (S k ) 1 A j X k ), c k i := Spur(A i X k τ k A i (S k ) 1 ) i=1 Page 56 of 92 Satz 44. X k, S k S++ n n, A 1,..., A p S n n l.u. M k S++ n n
Glättungsverfahren ungen: A T λ + s = c Ax = b x 0, s 0, x T s = 0 Definition 23. ϕ : R 2 R heißt NCP-Funktion : α, β R : ϕ(α, β) = 0 α 0, β 0, αβ = 0 φ(x, s) := (ϕ(x 1, s 1 ),..., ϕ(x n, s n )) T R n ; Φ : R n R p R n R n R p R n Φ(w) := Φ(x, λ, s) := A T λ + s c Ax b φ(x, s) Page 57 of 92 Satz 45. w = (x, λ, s ) Lsg. d. Optimalitätsbed. Φ(w ) = 0
Beispiele für NCP-Funktionen: Minimum-Funktion ϕ(α, β) = 2 min{α, β} Fischer-Burmeister-Fkt. ϕ(α, β) = a + b a 2 + b 2 Penalized Minimum-Fkt. ϕ(α, β) = λ2 min{α, β} +(1 λ)α + β + Penalized Fischer-Burmeister-Fkt. ϕ(α, β) = λ(a + b a 2 + b 2 ) +(1 λ)α + β + ϕ nicht differenzierbar ϕ ϕ τ mit differenzierbarem ϕ τ. Beispiele für geglättete NCP-Funktionen: Gegl. Min.-Fkt ϕ τ (α, β) = α + β (α β) 2 + 4τ 2 Gegl. F-B-Fkt. ϕ τ (α, β) = α + β α 2 + β 2 + 2τ 2 Gegl. Pen. Min.-Fkt. ϕ τ (α, β) = λ(α + β (α β) 2 + 4τ 2 ) +(1 λ) α 2 +β 2 + + 4τ 2 Gegl. Pen. F-B-Fkt. ϕ τ (α, β) = λ(α + β α 2 + β 2 + 2τ 2 ) +(1 λ) α 2 +β 2 + + 4τ 2 Page 58 of 92
Lemma 29.. (a) C > 0 τ > 0 α, β R : ϕ(α, β) ϕ τ (α, β) C τ. (b) κ > 0 τ > 0 w R n R p R n : Φ(w) Φ τ (w) κ τ. Newtonverfahren für Φ τ (w) = 0: 0 A T I Φ (w) = A 0 0 D α 0 D β D α/β = diag ( ϕτ α/β (x 1, s 1 ),..., ) ϕ τ α/β (x n, s n ) Satz 46. Rang(A) = p, dann gilt: τ > 0 w R n R p R n : Φ τ(w) regulär Satz 47.* Φ τ... gegl. Min.Fkt. oder gegl. F-B-Fkt. Dann gilt A T λ + s = c Φ τ (w) = 0 Ax = b x > 0, s > 0, x i s i = τ 2 (CP ) Page 59 of 92
Globale Konvergenz eines Glättungsverfahrens N (β) := {w τ > 0 : Φ τ (w) βτ} Ψ τ (w) := 1 2 Φ τ(w) 2 k = 0: Wähle w 0 = (x 0, λ 0, s 0 ) T, τ 0 > 0, β Φ τ0 (w 0 ) /τ 0 ρ, σ (0, 1), ε (0, 1) While Φ τk (w k ) > ε do: Berechne Lsg. w k := ( x k, λ k, s k ) T des lin. Glsys. (NG) Φ τ k (w k ) w k = Φ τk (w k ) Berechne t k = max{ρ l l = 0, 1, 2,...} s.d. Ψ τk (w k + t k w k ) Ψ τk (w k ) + t k σ Ψ τk (w k ) T w k Setze w k+1 = w k + t k w k Bestimme γ k = max{ρ l l = 0, 1, 2,...} s.d. Φ (1 γk )τ k (w k+1 ) β(1 γ k )τ k Setze τ k+1 = (1 γ k )τ k. Setze k = k + 1. Page 60 of 92
Lemma 30. Sei Rang(A) = p. Dann ist obiger Algoritmus wohldefiniert und erzeugt Folgen (w k ) k N, (τ k ) k N mit k N : Φ τk (w k ) βτ k. Satz 48. Die durch obigen Algoritmus erzeugte Folgen (w k ) k N habe einen Häufungspunkt. Dann gilt τ k 0 für k. Satz 49.. Jeder Häufungspunkt von (w k ) k N ist Lösung der Optimaltitätsbedingungen. Page 61 of 92
5. Nichtlineare Optimierung min f(x) u.d.n. g i (x) 0 i = 1,... m, (NLP ) h j (x) = 0 j = 1,... p x L(x, λ, µ) = f(x) + m i=1 λ i g i (x) + p j=1 µ j h j (x) = 0 h(x) = 0 λ 0, g(x) 0, λ T g(x) = 0 Quadratische Programme Penalty- und Barriere-Methoden Exakte Penalty-Funktionen Multiplier-Penalty-Methoden SQP Verfahren (KKT ) Page 62 of 92
Quadratische Programme Probleme ohne Ungleichungsrestriktionen min f(x) = 1 2 xt Qx + c T x + γ u.d.n. b T j x = β j Qx + c + p j=1 µ jb j = 0 b t j (x) = β j j = 1,... p j = 1,... p } (KKT lin gl ) } (QP lin gl ) Satz 50. x k zulässig für (QP lin gl ), B T := (b 1,..., b p ), β := (β 1,..., β p ) T. Dann ist (x, µ ) genau dann KKT-Punkt, wenn ( x, µ ) := (x x k, µ ) das Gleichungssystem ( ) ( ) ( ) Q B T x f(x = k ) B 0 µ 0 löst. Page 63 of 92
Probleme mit Ungleichungsrestriktionen: Aktive Indexmengen Strategie min f(x) = 1 2 xt Qx + c T x + γ u.d.n. a T i x α i i = 1,... m, b T j x = β (QP ) j j = 1,... p A k I(x k ) := {i {1,... m} a T i x k = α i } A T k := (a i ) i Ak, B T := (b j ) j {1,...,p} Page 64 of 92
k = 0: Wähle x 0 zulässig, λ 0, µ 0, A 0 := {i {1,... m} a T i x0 = α i } While ((x k, λ k, µ k ) nicht KKT-Punkt) do: Setze λ k+1 i := 0 i A k und berechne Lsg. ( x k, λ k+1 A k, µ k+1 ) T von Q A T k B T x f(x k ) A k 0 0 λ Ak = 0 B 0 0 µ 0 Falls x k = 0 und λ k+1 0: STOP Falls x k = 0 und λ k+1 0: Wähle q argmin{λ k+1 i i A k }, Setze A k+1 := A k \ {q}, x k+1 := x k. Falls x k 0 und x k + x k zulässig, Setze A k+1 := A k, x k+1 := x k + x k Falls x k 0 und x k + x k unzulässig: Wähle r argmin{t (i) k i A k, a T i xk > 0} mit t (i) k Setze A k+1 := A k {r}, x k+1 := x k + t (r) k xk Setze k = k + 1. := α i a T i xk a T i xk, Page 65 of 92
Satz 51.. (a) Q pos. def. und (a i ) i Ak, (b j ) j {1,...,p} l.u. Dann ist das lin.glsys. in obigem Algoritmus eindeutig lösbar. (b) (a i ) i Ak, (b j ) j {1,...,p} l.u. (und kein Abbruch bei STOP) Dann gilt: (a i ) i Ak+1, (b j ) j {1,...,p} l.u. (c) Q pos. def. und x k 0. Dann gilt f(x k ) T x k < 0 Page 66 of 92
Penaltyverfahren P (x; α) = f(x) + α h(x), max{0, g(x)} 2 k = 0: Wähle α 0 > 0 While ( h(x k ), max{0, g(x)} > ɛ) do: Bestimme x k als Lösung des unrestr. Opt.Probl. min x P (x, α k ) Wähle α k+1 > α k. Setze k = k + 1. Satz 52. Sei X = {x R n h(x) = 0, g(x) 0}, α k (a) P (x k ; α k ) monoton wachsend (b) h(x k ), max{0, g(x k )} monoton fallend (c) f(x k ) monoton wachsend (d) lim k h(x k ), max{0, g(x k )} = 0 (e) Jeder Häufungspunkt der Folge x k ist Lösung von (NLP ). Page 67 of 92
Barriereverfahren Probleme mit Ungleichungsrestriktionen: min f(x) u.d.n. g i (x) 0 i = 1,... m, Ersetze durch unrestringiertes Problem mittels logarithmischer Barrierefunktion: inverser Barrierefunktion: α k 0 min f(x) α x m log( g i (x)) i=1 min f(x) α x m i=1 Nachteil von Penalty-und Barriereverfahren: schlechte Kondition der Hessematrix 1 g i (x)) } Page 68 of 92
Exakte Penaltyfunktionen Ansatz: ( ) P r (x; α) = f(x) + αr(x) mit r 0 so dass r(x) = 0 h(x) = 0 g(x) 0 Definition 24.. P r der Form ( ) heißt exakt in einem lokalen Min. x von (NLP ) : ᾱ > 0 : α ᾱ : x lokales Min. von P r ( ; α) Satz 53. Sei P r der Form ( ) exakt in einem lokalen Min. x von (NLP ) mit f(x ) 0. Dann ist r in x nicht differenzierbar. r q (x) := h(x), max{0, g(x)} l q, P q (x, α) = f(x) + αr q (x) Page 69 of 92 Satz 54.. Sei für ein q 0 [1, ] P q0 exakt in einem lokalen Min. x von (NLP ). Dann ist für alle q [1, ] P q exakt in x.
Exaktheit bei konvexen Problemen: Satz 55. *. Seien f, g i konvex und stetig diffbar, h j affin, (x, λ, µ ) KKT-Punkt. Dann ist für alle q [1, ] P q exakt in x. Exaktheit bei nichtlinearen Problemen: Satz 56.. Sei x isoliertes lokales Minimum, in dem die (MFCQ) erfüllt ist. Dann ist für alle q [1, ] P q exakt in x. Exaktheit bei linearen Restriktionen: Satz 57.. Seien g i, h j affin, (x, λ, µ ) lokales Minimum. Dann ist für alle q [1, ] P q exakt in x. Page 70 of 92
Multiplier-Penalty Methoden Gleichungsrestringierte Probleme min f(x) u.d.n. h(x) = 0 L a (x, µ; α) = f(x) + α 2 h(x) 2 + µ T h(x) L a... erweiterte Lagrangefunktion (augmented Lagrangean) Lemma 31.. Q R n n symm. pos. semidef., P R n n symm. pos. def. auf N (Q), d.h. x R n : x T Qx 0 ((Qx = 0 x 0) x T P x > 0) Dann gilt: α > 0 α α : P + αq pos.def. Page 71 of 92
Satz 58.* (Exaktheit der erweiterten Lagrangefunktion) (x, µ ) KKT-Pkt. und d 0 T 0 (x ) : d T 2 xxl(x, µ )d > 0, T 0 (x ) := {d R n h j (x ) T d = 0, j = 1,..., p} (hinr. Bed. 2.Ord., Satz 19). Dann gilt: α > 0 α α : x ist striktes lokales Min. v. L a (, µ ; α) k = 0: Wähle x 0 R n, µ 0 R p, α 0 > 0, c (0, 1), ρ > 1. While ((x k, µ k ) nicht KKT-Punkt) do: Bestimme x k+1 als Lösung des unrestr. Opt.Probl. min x L a (x, µ k ; α k ) Setze µ k+1 = µ k { + α k h(x k+1 ) ραk falls h(x Wähle α k+1 := k+1 ) c h(x k ). α k sonst Setze k = k + 1. Page 72 of 92
Gleichungs- und Ungleichungsrestringierte Probleme min x f(x) u.d.n. h(x) = 0, g(x) 0 min x,s f(x) u.d.n. h(x) = 0, g(x) + s2 = 0 L a (x, λ, µ; α) = f(x) + µ T h(x) + α 2 h(x) 2 + 1 2α ( max{0, λ + αg(x)} 2 λ 2 ) µ k+1 = µ k + α k h(x k+1 ), λ k+1 = max{0, λ k + α k g(x k+1 )} Page 73 of 92
SQP Verfahren Newtonverfahren für nichtlineare Gleichungssysteme F (x) = 0 k = 0: Wähle x 0 R n. While (F (x k ) 0) do: Bestimme d k als Lösung des lin. Glsys. F (x k )d k = F (x k ) Setze x k+1 = x k + d k Setze k = k + 1. Satz 59. F stetig diffbar, x Nullstelle von F, F (x ) regulär. Dann existiert ε > 0 sodass für alle x 0 B ε (x ) (a) Das Newtonverfahren ist wohldefiniert und konvergent gegen x (b) x k x superlinear. (c) Falls F lokal Lipschitzstetig: x k x quadratisch. Page 74 of 92
Lagrange-Newton-Iteration Gleichungsrestringierte Probleme min f(x) u.d.n. h(x) = 0 (x, µ )löst KKT-Sys. Φ(x, µ ) = 0 mit Φ(x, µ) = Newtonverfahren für Glsys. Φ(x, µ) = 0 : Φ (x k, µ k )( x k, µ k ) = Φ(x k, µ k ) ( x L(x, µ) h(x) ) x k+1 = x k + x k, µ k+1 = µ k + µ k Satz 60. Sei (x, µ ) KKT-Punkt mit (a) ( h j (x )) j=1,...,p linear unabhängig (LICQ) (b) d 0 T 0 (x ) : d T 2 xxl(x, λ, µ )d > 0 (hinr.bed. 2. Ord.) Dann ist Φ (x, µ ) regulär. Page 75 of 92
Gleichungs- und Ungleichungsrestringierte Probleme min x f(x) u.d.n. h(x) = 0, g(x) 0 (x, λ, µ )löst KKT-Sys. Φ(x, λ, µ ) = 0 x L(x, λ, µ) mit Φ(x, µ) = h(x) φ( g(x), λ) und φ... komponentenweise NCP Funktion: φ( α, β) := (ϕ(α i, β i )) i=1...m α, β R : ϕ(α, β) = 0 α 0, β 0, αβ = 0 Problem: ϕ nichtdifferenzierbar oder Φ nicht regulär. Page 76 of 92
SQP Verfahren min x f(x) u.d.n. h(x) = 0, g(x) 0 (NLP ) Lokales SQP Verfahren k = 0: Wähle (x 0, λ 0, µ 0 ) R n R m R p, H 0 R n n symmetrisch. While ((x k, λ k, µ k ) nicht KKT-Punkt) do: Berechne einen KKT-Punkt (x k+1, λ k+1, µ k+1 ) des quadratischen Teilproblems min f(x k ) T (x x k ) + 1 2 (x xk ) T H k (x x k ) u.d.n. h(x k ) + h (x)(x x k ) = 0 g(x k ) + g (x)(x x k ) 0 Falls mehrere KKT-Punkte existieren: Minimiere zusätzlich (x k+1, λ k+1, µ k+1 ) (x k, λ k, µ k ). Wähle H k+1 symmetrisch. Setze k = k + 1. Page 77 of 92
Satz 61. H k := 2 L(x k, λ k, µ k ), (x, λ, µ ) KKT-Punkt mit (i) i {1,..., m} : g i (x ) + λ i 0 (strikte Komplementarität) (ii) g i (x ), i I(x ), h j (x ), j = 1,... p lin. unabh. (LICQ) (iii) d 0 T 2 (x ) : d T 2 xxl(x, λ, µ )d > 0, (hinr. Bed. 2.Ord.) T 2 (x ) := {d R n h j (x ) T d = 0, j = 1,..., p, g i (x ) T d = 0, i I(x )} Dann existiert ε > 0 sodass für alle (x 0, λ 0, µ 0 ) B ε (x, λ, µ ) (a) Das SQP Verfahren ist wohldefiniert und konvergent gegen (x, λ, µ ). (b) (x k, λ k, µ k ) (x, λ, µ ) superlinear. (c) Falls 2 f, g, h lokal Lipschitzstetig: (x k, λ k, µ k ) (x, λ, µ ) quadratisch. Page 78 of 92
l 1 Straffunktion P 1 (x; α) = f(x) + α Globales SQP Verfahren m max{0, g i (x)} + α i=1 p h j (x) k = 0: Wähle (x 0, λ 0, µ 0 ) R n R m R p, H 0 R n n symmetrisch. α > 0 hinreichend groß, β (0, 1), σ (0, 1) While ((x k, λ k, µ k ) nicht KKT-Punkt) do: Berechne einen KKT-Punkt ( x k, λ k+1, µ k+1 ) des quadratischen Teilproblems min f(x k ) T x k + 1 2 ( xk ) T H k x k u.d.n. h(x k ) + h (x) x k = 0 g(x k ) + g (x) x k 0 Berechne t k = max{β l l = 0, 1, 2,...} s.d. P 1 (x k + t k x k ; α) P 1 (x k ; α) + t k σ P 1 (x k ; α) T x k Setze x k+1 = x k + t k x k Wähle H k+1 symmetrisch, Setze k = k + 1. α := α k > max{λ k+1 1,..., λ k+1 m, µ k+1 1,..., µ k+1 p } j=1 Page 79 of 92
Fragestellungen Ist x k eine Abstiegsrichtung für P 1? (Wohldefiniertheit Armijo- Schrittweite) Existiert eine Lösung der quadratischen Teilproblems? Wird ab einem hinreichend großen Iterationsindex die Schrittweite t k = 1 akzeptiert? Wahl der Matritzen H k Page 80 of 92
x k Abstiegsrichtung für P 1 P 1 (x; α) = f(x) + α m i=1 max{0, g i(x)} + α p j=1 h j(x) Lemma 32. (Richtungsableitung von und max{0, }) x, d R d für x > 0 (a) θ(x) = x θ (x; d) = d für x = 0 d für x < 0 (b) θ(x) = max{0, x} θ (x; d) = Lemma 33. (Kettenregel für Richtungsableitung) (a) h : R n R m richtungsdiffbar in x d für x > 0 max{0, d} für x = 0 0 für x < 0 (b) g : R m R p richtungsdiffbar und lokal Lipschitzstetig in h(x) f = g h richtungsdiffbar in x f (x; d) = g (h(x); h (x; d)) d R n Page 81 of 92
Lemma 34. (Richtungsableitung der l 1 -Penaltyfunktion) P 1(x; d; α) = f(x) T d +α g i (x) T d + α i: g i (x)>0 +α j: h j (x)>0 h j (x) T d α i: g i (x)=0 j: h j (x)<0 max{0, g i (x) T d} h j (x) T d + α j: h j (x)=0 Lemma 35. *. ( x k = 0, λ k+1, µ k+1 ) KKT-Punkt des quadrat. Teilprob. (x k, λ k+1, µ k+1 ) KKT-Punkt von (NLP). Satz 62.* ( x k Abstiegsrichtung für P 1 ( ; α)) ( x k 0, λ k+1, µ k+1 ) KKT-Punkt des quadrat. Teilprob. H k pos.def. α max{λ k+1 1,..., λ k+1 m, µ k+1 1,..., µ k+1 p }. Dann gilt P 1(x k ; x k ; α) ( x k ) T H k x k < 0 h j (x) T d Page 82 of 92
Wahl von H k : modifizierte BFGS-Formel σ (0, 1/2) (e.g., σ = 0.2) s k = x k+1 x k y k = L(x k+1, λ k, µ k ) L(x k, λ k, µ k ) { 1 falls s k T y k σs kt H k s k θ k = η k H k+1 (1 σ) s kt H k s k s kt H k s k s kt y k = θ k y k + (1 θ k )H k s k = H k + ηk η kt s kt η H ks k s kt Hk k s kt H k s k Lemma 36. H k symm.pos.def., s k 0 (a) s kt η k > 0 (b) H k+1 symm.pos.def. sonst Page 83 of 92
Schrittweite t k = 1: der Maratos-Effekt Information 2.Ordnung der Nebenbedingungen: min f(x k ) T x k + 1 2 ( xk ) T H k x k u.d.n. g i (x k ) + g i (x k ) T x k 0 i {1,..., m} h j (x k ) + h j (x k ) T x k = 0 j {1,..., p} min f(x k ) T d + 1 d T 2 H k d u.d.n. g i (x k ) + g i (x) T d + 1 d T 2 2 g i (x k ) d 0 i {1,..., m} h j (x k ) + h j (x k ) T d + 1 d T 2 2 h j (x k ) d = 0 j {1,..., p} min p kt d k + 1 2 dkt H k d k u.d.n. g i (x k ) + ( g i (x k ) + 1 2 2 g i (x k ) x k ) T d k 0 i {1,..., m} h j (x k ) + ( h j (x k ) + 1 2 2 h j (x k ) x k ) T d k = 0 j {1,..., p} mit p k := f(x k ) 1 m 2 i=1 λk+1 i 2 g i (x k ) x k 1 m 2 j=1 µk+1 j 2 h j (x k ) x k Liniensuche entlang Kurve x(t) = x k + t x k + t 2 (d k x k ) Alternativen: Watchdog-Technik, nichtmonotone Liniensuchstrategien Page 84 of 92
Zulässigkeit der quadratischen Teilprobleme min f(x k ) T x + 1 2 ( x)t H k x u.d.n. g i (x k ) + g i (x k ) T x 0 i {1,..., m} h j (x k ) + h j (x k ) T (QP ) x = 0 j {1,..., p} Lemma 37. (NLP) zulässig, g i konvex, h j affin (QP ) zulässig. min f(x k ) T x + 1 2 ( x)t H k x + α( m i=1 ξ i + p j=1 (η+ j + η j )) u.d.n. g i (x k ) + g i (x k ) T x ξ i, ξ i 0, h j (x k ) + h j (x k ) T x = η j + η j, η+ j, ( QP ) η j 0, Lemma 38.. (a) ( QP ) zulässig. (b) x k zulässig für (QP ) ( x k, 0, 0, 0) zulässig für ( QP ) Page 85 of 92
KKT-Bedingungen für ( QP ): m p f(x k ) + H k x + λ i g(x k ) + µ j h(x k ) = 0 i=1 j=1 α λ i λ + i = 0 α µ j µ + j = 0 α + µ j µ j = 0 λ i 0, g i (x k ) + g i (x k ) T x k ξ i 0, λ i (g i (x k ) + g i (x k ) T x k ξ i ) = 0 λ + i 0, ξ i 0, λ + i ξ i = 0 h j (x k ) + h j (x k ) T x η j + + η j = 0 µ + j 0, η+ j 0, µ + j η+ j = 0 µ j 0, η j 0, µ j η j = 0 Page 86 of 92
Lemma 39. H k pos.def.: (a) ( QP ) lösbar. (b) (( x k, λ k+1, µ k+1 ) KKT-Punkt für (QP ) mit α max{λ k+1 i, µ k+1 j }) ( x k, 0, 0, 0) löst ( QP ) Lemma 40.. (0, 0, 0, 0, λ k+1, λ + k+1, µ k+1, µ + k+1, µ k+1 ) KKT-Pkt v ( QP ) (x k, λ k+1, µ k+1 ) KKT-Punkt von (NLP ). Page 87 of 92
x aus Lösung von ( QP ) Abstiegsrichtung für P 1 ( ; α)): Φ(x; x; α) = f(x) + f(x) T x m +α( max{0, g i (x) + g i (x) T x} + i=1 Lemma 41. α > 0 (a) x, x : Φ(x; x; α) P 1 (x; α) + P 1(x, x; α) p h j (x) + h j (x) T x ) j=1 (b) x δ(x) x δ(x) : Φ(x; x; α) = P 1 (x; α) + P 1(x, x; α) Lemma 42. ( x k, ξ, η +, η ) löst ( QP ). Dann gilt: Φ(x k, x k ; α) P 1 (x k ; α) x kt H k x k Satz 63. ( x k Abstiegsrichtung für P 1 ( ; α)) H k pos.def. ( x k 0, ξ k, η +k, η k, λ k+1, λ + k+1, µ k+1, µ + k+1, µ k+1 ) KKT-Pkt v ( QP ). Dann gilt P 1(x k ; x k ; α) ( x k ) T H k x k < 0 Page 88 of 92
Satz 64.. (a) (0, ξ k, η +k, η k, λ k+1, λ + k+1, µ k+1, µ + k+1, µ k+1 ) KKT-Pkt v ( QP ) d R n : P 1(x k ; d, α) 0. (b) H k pos.def., d R n : P 1(x k ; d, α) 0 und ( x k, ξ k, η +k, η k, λ k+1, λ + k+1, µ k+1, µ + k+1, µ k+1 ) KKT-Pkt v ( QP ) x k = 0. Page 89 of 92
Modifiziertes globales SQP Verfahren k = 0: Wähle (x 0, λ 0, µ 0 ) R n R m R p, H 0 R n n symmetrisch. α > 0 hinreichend groß, β (0, 1), σ (0, 1) While ((x k, λ k, µ k ) nicht KKT-Punkt) do: Berechne einen KKT-Punkt ( x k, λ k+1, µ k+1 ) des modifizierten quadratischen Teilproblems ( QP ) Berechne t k = max{β l l = 0, 1, 2,...} s.d. P 1 (x k + t k x k ; α) P 1 (x k ; α) t k σ x kt H k x k Setze x k+1 = x k + t k x k Wähle H k+1 symmetrisch Setze k = k + 1. Satz 65. c 1, c 2 > 0 k N d R n : c 1 d 2 d T H k d c 2 d 2 Dann ist jeder Häufungspunkt von (x k ) k N stationärer Punkt von P 1 (, α) Page 90 of 92
Projektionsverfahren min f(x) u.d.n. x X Satz 66. *. f : R n R stetig diffbar, X R n nichtleer, abgeschlossen u. konvex. (a) x lokales Minimum x X : f(x ) T (x x ) 0 (b) f konvex u. x X : f(x ) T (x x ) 0 x globales Minimum. Satz 67. *. f : R n R stetig diffbar, X R n nichtl., abg. u. konvex, γ > 0. x X : f(x ) T (x x ) 0 x = Proj X (x γ f(x )) Fixpunktiteration x k+1 = Proj X (x k t k f(x k )). Liniensuche entlang von x k (t) := Proj X (x k t f(x k )) Page 91 of 92
Projiziertes Gradientenverfahren: k = 0: Wähle x 0 X, β (0, 1), σ (0, 1), ε > 0. While x k x k (1) > ε do: Berechne t k = max{β l l = 0, 1, 2,...} s.d. f(x k (t k )) f(x k ) + t k σ f(x k ) T (x k (t k ) x k ) Setze x k+1 = x k (t k ) Setze k = k + 1. Lemma 43. u, v R n, v T (u v) > 0 : u v ut (u v) v T (u v) Lemma 44. X R n nichtleer, abgeschlossen u. konvex, x, d R n α θ(α) := Proj X(x + αd) x α monoton fallend auf R + Lemma 45. Für alle k ist t k in obigem Algo. wohldef. und t k > 0 Satz 68.. Jeder Häufungspunkt x von (x k ) k N genügt der notwendigen ung x X : f(x ) T (x x ) 0. Page 92 of 92