von: Veronika Kühl 1 Konvexe Optimierungsprobleme Betrachtet werden Probleme der Form (P) min x C f(x) wobei f : C R eine auf C konvexe, aber nicht notwendigerweise differenzierbare Funktion ist. Ziel dieses Vortrags ist es, Optimalitätsbedingungen für solche Probleme herzuleiten. Dazu betrachten wir zunächst unrestringierte Probleme, d.h. C = R n. 1 Unrestringierte Probleme 1.1 Satz : Für eine konvexe Funktion f : R n R sind folgende Aussagen äquivalent: (i) x ist Lösung von (P) (ii) 0 f(x ) (iii) f (x, d) 0 für alle d R n Beweis : (i) (iii) : klar nach [4]. (i) (ii) : 0 f(x ) f(x + d) f(x )+ 0, d für alle d R n f(x + d) f(x ) für alle d R n x ist lokales Minimum von (P). Motiviert durch diesen Zusammenhang möchte man nun Abstiegsverfahren finden, die, ausgehend von einem Startpunkt x (0) eine Folge {x (k) } so konstruieren, daß f(x (k+1) ) < f(x (k) ), k = 0, 1,... gilt, wobei x (k+1) = x (k) + t k d (k) für eine Schrittweite t k > 0 und eine Abstiegsrichtung d (k) R n. Wir betrachten zunächst die Eigenschaften von Abstiegsrichtungen: 1.2 Definition : Für f : R n R und x R n heißt ein Vektor d R n Abstiegsrichtung von f in x, wenn es ein t > 0 mit f(x + td) < f(x) gibt. (Dies ist äquivalent zu der bisherigen Definition einer Abstiegsrichtung, da f konvex ist) 1.3 Satz : Für eine konvexe Funktion f : R n R und x, d R n sind folgende Aussagen äquivalent: (i) d ist Abstiegsrichtung von f in x (ii) f (x, d) < 0 (iii) max s, d < 0 s f(x) Beweis : (i) (ii) : klar nach [4]. (ii) (iii) : folgt aus f (x, d) = sup s f(x) s, d (siehe [6]) Für differenzierbare Funktionen f gilt f(x ) = f(x ). Gibt es bei konvexen Funktionen die Möglichkeit, wie bei den differenzierbaren Funktionen, z.b. beim Newton-Verfahren, eine
Unrestringierte Optimierungsprobleme 2 Abstiegsrichtung aus f(x ) zu basteln? Ist bei einem Iterationsverfahren x (k) nicht optimal, so gibt es nach Satz 1.1 eine Richtung d (k) mit f (x (k), d (k) ) < 0. Diese ist nach Satz 1.3 eine Abstiegsrichtung. 1.4 Satz : Ist s (k) := P f(x (k) )(0) 0 die eindeutig bestimmte Projektion von 0 auf f(x (k) ), dann ist d (k) := s (k) / s (k) eine Abstiegsrichtung von f in x (k), und es gilt: f (x (k), d (k) ) = s (k), f (x (k), s (k) ) = s (k) 2 Beweis : Nach [2] gilt, da f(x (k) ) konvex und kompakt ist: 0 s (k), s s (k) 0 s f(x (k) ). Setze d (k) := s (k) / s (k). s s (k), d (k) 0 s f(x (k) ) s, d (k) s (k), d (k) = s (k) s f(x (k) ). Wegen s (k) f(x (k) ) gilt dann f (x (k), d (k) ) = max s, d (k) = s (k) < 0 s f(x (k) ) Nach Satz 1.3 gilt, daß d (k) eine Abstiegsrichtung ist. Da f (x (k), ) positiv homogen ist, folgt die zweite Gleichung. Man erhält so aus P f(x (k) )(0) eine Abstiegsrichtung. In der Praxis scheitert diese Vorgehensweise daran, daß das Subdifferential nicht oder nur teilweise berechnet werden kann. Trotzdem gibt es einige Verfahren, die auf dieser Idee beruhen: Subgradientenverfahren Ist mindestens ein s (k) f(x (k) )) bekannt, so wird d (k) := s (k) als Suchrichtung benutzt. Man erhält in der Regel keine Abstiegsrichtung, aber bei geeigneten Schrittweiten zumindest schwache Konvergenzresultate. Dieses Verfahren wird im nächsten Vortrag genauer behandelt. Bundle-Verfahren Man berechnet approximative Abstiegsrichtungen und dazu passende Schrittweiten. Bundle-Trust-Region-Verfahren Wie Bundle-Verfahren, nur mit einem Trust-Region-Parameter, der die Schrittweite steuert. Diese Verfahren sind allerdings nur dann möglich, wenn f(x (k) ) gilt. 2 Restringierte Probleme Wir betrachten nun Probleme der Form (P) min x C f(x) wobei f : C R konvex auf einer konvexen Menge C R n, C R n ist. Für (P) werden wir ähnliche Bedingungen wie die KKT-Bedingungen für differenzierbare Funktionen herleiten. Dazu wiederholen wir zunächst den Begriff der Kegel: 2.1 Definition : Für eine Menge C R n und x C heißt K(C, x) := {α(y x) y C, α > 0} der von C x erzeugte Kegel. Ist x C, dann nennt man eine Richtung d R n zulässige Richtung in x, wenn auch x+td C
Restringierte Optimierungsprobleme 3 ist für hinreichend kleines t > 0. d ist zulässige Richtung in x genau dann, wenn d K(C, x) gilt. K(C, x) heißt daher auch Kegel der zulässigen Richtungen. Man sieht leicht, daß für eine konvexe Menge C der Kegel K(C, x) konvex ist. 2.2 Definition : Ist K R n ein konvexer Kegel, dann heißt K := {s R n s, d 0 d K} Dualkegel von K. In der Optimierung hatten wir den Dualkegel bisher auch als polaren Kegel bezeichnet. Es gilt 0 K und K ist konvex und abgeschlossen. Ist 0 im Inneren von K enthalten, so folgt K = R n und K = {0} Für zwei konvexe Kegel K 1 K 2 R n gilt K 1 K 2. 2.3 Beispiele : Ist K = U ein Unterraum des R n, dann ist K = U der zu U orthogonale Unterraum. Ist K = {x R n x > 0}. Dann ist K = {x R n x 0}. K ist offen, K ist abgeschlossen. 2.4 Definition : Für eine konvexe Menge C R n und x C heißt s R n Normalenrichtung von C in x, wenn s, y x 0 für alle y C gilt. Die Menge N(C, x) := {s R n s, y x 0 y C} heißt Normalenkegel von C in x. Der Normalenkegel ist konvex und abgeschlossen. Es gilt immer 0 N(C, x). Liegt x im Inneren von C, so gilt sogar N(C, x) = {0}. Es ist N(C, x) = N(C x, 0) = N(K(C, x), 0). Für eine Normalenrichtung s in x wird verlangt, daß der Winkel zwischen s und den Elementen aus K(C, x) mindestens 90 Grad ist. 2.5 Lemma : Für eine konvexe Menge C R n und x C ist N(C, x) = K(C, x). Beweis : s N(C, x) s, (y x) 0 y C s, α(y x) 0 y C, α > 0 s, z 0 z K(C, x) s K(C, x) s K(C, x) s, z 0 z K(C, x), insbesondere s, y x 0 y C, d.h. s N(C, x) 2.6 Satz : Ist f : R n R eine konvexe Funktion, C R n eine konvexe Menge und x C. Dann sind folgende Aussagen äquivalent : (i) x ist Lösung von (P); (ii) f (x, x x ) 0 für alle x C; (iii) f (x, d) 0 für alle d K(C, x ); (iv) es gibt ein s f(x ) mit s N(C, x ); (v) 0 f(x ) + N(C, x )
Restringierte Optimierungsprobleme 4 Beweis : (i) (ii) : Für beliebiges x C ist auch x + t(x x ) C für alle t [0, 1], da C konvex ist. Es gilt f(x + t(x x )) f(x ) für alle t [0, 1], weil x optimal ist. Es folgt f(x + t(x x )) f(x ) t 0 t ]0, 1]. Für t 0 erhalten wir f (x, x x ) 0. (ii) (i) : Für beliebiges x C ist nach Definition der Richtungsableitung 0 f (x, x x ) f(x + (x x )) f(x ) 1 = f(x) f(x ). (siehe zweite Gleichung in [4]) (ii) (iii) : Nach [5] gilt f (x, α(x x )) = αf (x, x x ) 0 für alle x C und α > 0. (iii) (ii) : gilt wegen C x K(C, x ). (iv) (v) : klar. Um (iii) (v) und (iv) (iii) zeigen zu können, benötigen wir leider noch einige weitere Vorbereitungen. 2.7 Lemma : seinen f : R n R konvex, x R n. f sei endlich in einer Umgebung von x. Dann ist die Funktion der Richtungsableitungen, f (x, ), lipschitzstetig mit der lokalen Lipschitzkonstante L(x) von f. Beweis : [5] besagt, daß f (x, d) L(x) d gilt für alle d R n, und f (x, ) ist subadditiv. Daher gilt f (x, x 1 ) f (x, x 2 ) f (x, x 1 x 2 ) L(x) x 1 x 2 für alle x 1, x 2 R n. Das Gleiche funktioniert auch für x 2 x 1, also erhält man insgesamt f (x, x 1 ) f (x, x 2 ) L(x) x 1 x 2. 2.8 Lemma : Seien K R n ein abgeschlossener, konvexer Kegel und x K, dann gibt es ein s R n mit s, x > 0 = max s, y. Beweis : Nach dem Trennungssatz [3] gibt es ein s R n mit x, s > sup s, y. Da K abgeschlossen ist, folgt 0 K und damit auch sup s, y s, 0 = 0. Annahme : Es gibt ein z K mit s, z > 0. Dann würde aber, da K ein Kegel ist, sup x, s > sup s, y. Also ist sup s, y = 0 = max s, y = + folgen. Dies ist ein Widerspruch zu s, y. 2.9 Lemma : Ist C R n eine konvexe Menge und x C, dann gilt d K(C, x) max s, d = 0 s N(C,x) und sup s, d = + für d K(C, x). s N(C,x) Beweis : : Da d K(C, x) ist, gibt es Folgen {y k } C, {α k } R + mit d = lim α k(y k x). Nach Definition gilt für belieges s N(C, x): k
Restringierte Optimierungsprobleme 5 α k s, y k x 0 für alle k N. Läßt man k gegen Unendlich laufen, so ergibt sich s, d 0 für alle s N(C, x). Wegen 0 N(C, x) folgt damit s, d = 0 max s N(C,x) : Annahme : d K(C, x). K(C, x) ist konvex (vgl. [1]). Nach Lemma 2.8 gibt es daher ein s R n mit s, d > 0 = max s, y max s, y (C,x) (C,x) Dies zeigt mit Lemma 2.5 s K(C, x) = N(C, x) und ist zusammen mit s, d > 0 ein Widerspruch zu der obigen Annahme. Also gilt d K(C, x). Gilt aber doch d K(C, x), so gibt es wie oben gezeigt ein s N(C, x) mit s, d > 0. Wegen αs N(C, x) für α > 0 beliebig folgt dann sup s N(C,x) s, d = +. Nun können wir den Beweis von Satz 2.6 vervollständigen. Beweis (Fortsezung): (iii) (v) : Definiere F := f(x ) + N(C, x ). Annahme : 0 F F ist abgeschlossen und konvex, da N(C, x ) abgeschlossen und konvex und f(x ) kompakt und konvex ist. Nach dem Trennungssatz ([3]) existiert ein d R n, so daß: 0, d = 0 > sup s, d = s F Wäre d K(C, x ), so würde aus Lemma 2.9 max s 1, d + s 1 f(x ) zu (1). Also ist d K(C, x ), und damit gilt nach Lemma 2.9 sup s 2, d = max s 2, d = 0 s 2 N(C,x ) s 2 N(C,x ) Aus (1) folgt 0 > sup s 2 N(C,x ) s 2, d. (1) sup s 2, d = + folgen, im Widerspruch s 2 N(C,x ) max s 1, d = f (x, d). (vgl. [6]). Die ist ein Widerspruch zur Vorraus- s 1 f(x ) setzung (iii), da wegen der Stetigkeit von f (x, ) die Ungleichung f (x, d) 0 gelten muß (vgl. Lemma 2.7). Also gilt 0 F (v). (iv) (iii) : Ist s f(x ) mit s N(C, x ), dann ist nach Lemma 2.5 s K(C, x ) und daher s, d 0 für alle d K(C, x ). [6] liefert f (x, d) = max g, d s, d 0 (iii) g f(x ) Ist f in x differenzierbar, dann gelten f(x ) = { f(x )} und f (x, d) = f(x ), d. Als Spezialfall von Satz 2.6 erhalten wir daher das entsprechende Resultat aus der differenzierbaren Optimierung. Im nächsten Abschnitt werden wir weitere Parallelen zur differenzierbaren Optimierung kennenlernen.
Optimierungsprobleme mit linearen Nebenbedingungen 6 3 Probleme mit linearen Nebenbedingungen Wir betrachten jetzt den Fall, das die Nebenbedingungen durch lineare Gleichungen und Ungleichungen definiert werden. (PL) min x C f(x) C := { x R n a i, x = b i, i = 1,..., m, g j, x r j, j = 1,..., p } wobei f : R n R eine konvexe, überall endliche Funktion ist. Die Menge C ist abgeschlossen und konvex, daher definiert (PL) einen Spezialfall von (P). Wir fassen im Folgenden die Zeilenvektoren a i zu einer m n-matrix A und die g j zu einer p n-matrix G zusammen. Es ist dann (PL) min { f(x) Ax = b, Gx r } x Rn Sei J(x) := { j 1 j p, g j, x = r j } die Menge der aktiven Indizes 3.1 Lemma : Sind A, b, G, r und C wie oben definiert, dann gilt für x C: K(C, x) = K := { d R n Ad = 0, g j, d 0, j J(x)} Insbesondere ist K(C, x) abgeschlossen. Beweis : K(C, x) K : Sei d := α(y x) K(C, x) für y C, α 0 beliebig gegeben. Wegen x, y C ist Ax = Ay = b und damit αa(y x) = 0. Desweiteren gilt g j, y r j = g j, x für alle j J(x). Also ist g j, d = α g j, y x 0 für alle j J(x). Daher ist d K. K K(C, x) : Sei d K beliebig gegeben. Wir zeigen x+td C für hinreichend kleines t > 0. Dann ist td C x und d K(C, x) (siehe Anfang Kapitel 2). Für j J(x) ist g j, x < r j. Daher gibt es ein ε j > 0 mit g j, x + td < r j für alle t ]0, ε j ]. Setze ε := min j J(x) ε j. Dann ist g j, x + td < r j für alle t ]0, ε], j J(x). Für j J(x) ist nach Definition g j, d 0 und daher g j, x + td = g j, x + t g j, d g j, x = r j. für alle t > 0 Für die Gleichungsrestriktionen ist A(x + td) = Ax + tad = Ax = b für alle t 0. Daher folgt x + td C, t ]0, ε]. Um den Normalenkegel zu berechnen, benötigen wir noch ein Hilfsresultat: 3.2 Lemma : Für einen abgeschlossenen konvexen Kegel K ist (K ) = K. Beweis : Zur Erinnerung: K = { d R n s, d 0 s K}, (K ) = { d R n s, d 0 s K } K (K ) : Sei d K beliebig. Für s K ist dann d, s 0 für alle s K. Also gilt auch d (K ). (K ) K : Sei d (K ) beliebig. Annahme : d K. Nach Lemma 2.8 gibt es dann ein s R n mit s, d > 0 = max s, y, d.h. s K, also müßte wegen d (K ) s, d 0 gelten, im Widerspruch zur Annahme.
Optimierungsprobleme mit linearen Nebenbedingungen 7 Im Folgenden setzen wir G(x) := (g j ) j J(x). Sei N(A, G, x) = { A λ + G(x) µ λ i, µ j R, i {1,..., m}, j J(x), µ 0} Die Menge N(A, G, x) ist ein abgeschlossener konvexer Kegel. 3.3 Lemma : Für (PL) und x C gilt N(A, G, x) = N(C, x). Beweis : : Ist s N(A, G, x), d R n, so gilt s, d = n λ i a i, d + µ j g j, d i=1 j J(x) Für d K(C, x) ist nach Lemma 3.1 a i, d = 0, i = 1..., m und g j, d 0, j J(x). Wegen µ 0 folgt daraus s, d 0 für alle d K(C, x), also s K(C, x) = N(C, x). : Es ist nach Lemma 3.1 N(A, G, x) K(C, x) und damit N(C, x) = K(C, x) (N(A, G, x) ) = N(A, G, x) Lemma 3.3 besagt, daß man jedes s N(C, x) in der Form s = A λ + G(x) µ, µ 0 darstellen kann. Definiert man µ j = 0 für j J(x), so erhält man die Darstellung s = A λ + G µ, λ R m, µ R p, µ 0. Sind die Zeilenvektoren a i, i = 1,..., m, g j, j J(x) linear unabhängig, so werden λ und µ durch s eindeutig bestimmt. 3.4 Definition und Satz : Ein Punkt x C ist genau dann Lösung von (PL), wenn es λ R m und µ R p zu x gibt, so daß (i) 0 f(x ) + A λ + G µ (ii) µ j 0, j = 1,..., p (iii) µ j ( g j, x r j ) = 0, j = 1,..., p Die Bedingung (iii) nennt man auch Komplementarität. Die (λ, µ) heißen Lagrangemultiplikatoren. Beweis : Nach Satz 2.6, (i) und (iv) ist x genau dann eine Lösung von (PL), wenn es ein s f(x ) gibt, für das s N(C, x ) gilt. Nach Lemma 3.3 ist N(C, x ) = N(A, G, x ). Nach Definition von N(A, G, x ) folgt daraus die Behauptung, wenn man µ j = 0 für j J(x ) setzt. Wenn f in x differenzierbar ist, gilt f(x ) = { f(x )} und wir erhalten das entsprechende, wohlbekannte Resultat aus der differenzierbaren Optimierung.
Optimierungsprobleme mit linearen Nebenbedingungen 8 Wir weisen noch auf einige praktische Eigenschaften der Lagrangemultiplikatoren hin. Sei dazu M(x) := { λ i, µ j i = 1,..., m, j = 1,..., p } die Menge der Langrangemultiplikatoren zu einer Lösung x von (PL). 3.5 Lemma : Die Menge M(x) ist abgeschlossen und konvex. Beweis : Die Konvexität der Menge M(x) folgt aus der Konvexität der Menge f(x). Zum Beweis der Abgeschlossenheit betrachten wir eine Folge {(λ (k), µ (k) ) k N } M(x) mit (λ (k), µ (k) ) (λ, µ). Wegen µ (k) 0 für alle k N ist auch µ 0. Da µ (k) j ( g j, x r j ) = 0, j = 1,..., p, für alle k N gilt, folgt µ j ( g j, x r j ) = 0, j = 1,..., p. Zu jedem k N gibt es ein s (k) f(x) mit 0 = s (k) + A λ (k) + G µ (k). Da f(x) kompakt ist, gibt es eine Teilfolge (s (l) ) von (s (k) ) mit s (l) s f(x). Daher gilt 0 = s (l) + A λ (l) + G µ (l) s + A λ + G µ = 0, d.h. (λ, µ) M(x) Die Lösung des Problems (PL) muß nicht eindeutig bestimmt sein. Wir zeigen, daß die Menge M(x) unabhängig von der Lösung x ist. 3.6 Lemma : Sind x und z Lösungen von (PL), so ist M(x) = M(z). Beweis : Wir zeigen M(x) M(z). Die umgekehrte Inklusion folgt dann aus dem Vertauschen von x und z. Sei (λ, µ) M(x) beliebig gegeben. Dann gilt 0 f(x) + A λ + G µ, und µ j 0, µ j ( g j, x r j ) = 0, j = 1,..., p. Sei l : R n R die Lagrange-Funktion, l(x) = f(x) + λ (Ax b) + µ (Gx r). Es ist 0 l(x), was nach Satz 1.1 äquivalent dazu ist, daß x unrestringierter Minimalpunkt von l ist. Also muß l(z) l(x) gelten. Wegen x C ist (Ax b) = 0, wegen der Komplementarität ist µ (Gx r) = 0, also gilt l(x) = f(x). Nach Voraussetzung ist f(x) = f(z), (Az b) = 0, damit folgt l(z) = f(z) + µ (Gz r) l(x) = f(x) = f(z). Daher muß µ (Gz r) 0 sein. Wegen µ j 0 und g j, z r j, j = 1,..., p folgt µ j ( g j, z r j ) = 0, j = 1,..., p. Also ist l(z) = f(z) = f(x) = l(x), d.h. z ist auch Minimalpunkt von l. Nach Satz 1.1 ist dann auch 0 l(z), was nach Definition von l äquivalent ist zu 0 f(z) + A λ + G µ. Insgesamt folgt also (λ, µ) M(z)
Benutzte Zusammenhänge aus dem Buch 9 Literatur [1] Lemma 2.1.11 : Sei C R n konvex. Dann ist auch der Abschluß C konvex. [2] Satz 2.2.1 (Charakterisierung von Projektionen): Sei C R n nichtleer, abgeschlossen und konvex, x C und x R n. Dann gilt x = P C (x) genau dann, wenn z x, x x 0 z C [3] Satz 2.3.1 (Trennungssatz): Ist C R n nichtleer, abgeschlossen und kovex und x C, x R n, s R n, s 0 mit sup s, y < s, x y C dann gibt es ein [4] Satz 2.8.5 : Sei f : R n R und x R n mit f endlich in einer Umgebung von x. Dann existiert f (x, d) = lim t 0 f(x + td) f(x) t f(x + td) f(x) = inf t>0 t [5] Satz 2.8.10 : Sei f : R n R und x R n mit f endlich in einer Umgebung von x. Dann ist f (x, ) sublinear und beschränkt durch die lokale Lipschitzkonstante L(x) von f, Das heißt es gilt: f (x, d) L(x) d für alle d R n. Insbesondere ist f (x, 0) = 0. [6] Satz 2.8.12 : Sei f : R n R und x R n mit f endlich in einer Umgebung von x. Dann ist f (x, d) = sup s, d s f(x)