Skript zur Vorlesung im SS 2013+SS Konvexe Optimierung. Thorsten Raasch. 14. August 2014

Transkript

1 Skript zur Vorlesung im SS 2013+SS 2014 Konvexe Optimierung Thorsten Raasch 14. August 2014

2

3 Inhaltsverzeichnis I. Konvexe Optimierung I 5 1. Einführung 7 2. Konvexe Mengen Konvexe Funktionen Numerische Verfahren für unrestringierte Optimierungsaufgaben Numerische Verfahren für lineare Optimierungsaufgaben 17 II. Konvexe Optimierung II Numerische Verfahren für restringierte Optimierungsaufgaben Lösungstheorie und Optimalitätskriterien Optimalitätskriterien 1. Ordnung Dualität Lagrange-Dualität Dualitätssätze Nichtglatte konvexe Optimierung Konvexes Subdifferential Konvexes Subdifferential für erweiterte Funktionen Proximal-Punkt-Verfahren Subgradienten-Verfahren

4

5 Teil I. Konvexe Optimierung I 5

6

7 1. Einführung Wir befassen uns mit Minimierungsaufgaben der Form min f(x), (1.1) x X d.h. wir minimieren eine Zielfunktion f : X R unter der Nebenbedingung x X R n. X heißt auch zulässiger Bereich. x R n heißt zulässig, wenn x X. Ist X = R n, so heißt das Minimierungsproblem (1.1) unbeschränkt/unrestringiert, andernfalls beschränkt/restringiert. Maximierungsaufgaben max x X f(x) können auf (1.1) zurückgeführt werden mit f(x) := f(x), min f(x). x X In beiden Fällen sprechen wir von einem Optimierungsproblem Definition 1.1. Sei x R n zulässig, d.h. x X. (i) x heißt globales Minimum von (1.1), wenn f(x ) f(x) für alle x X. (1.2) (ii) x heißt lokales Minimum von (1.1), wenn es ein ɛ > 0 gibt mit f(x ) f(x) für alle x X mit x x < ɛ. (1.3) (iii) x heißt striktes globales Minimum von (1.1), wenn f(x ) < f(x) für alle x X \ {x }. (1.4) (iv) x heißt striktes lokales Minimum von (1.1), wenn es ein ɛ > 0 gibt mit f(x ) < f(x) für alle x X \ {x } mit x x < ɛ. (1.5) Dabei bedeutet durchgängig die Euklidnorm auf R n. 7

8 1. Einführung Bemerkung 1.2. Der zulässige Bereich X R n hat häufig die Form X = { x R n : g(x) 0, h(x) = 0 } (1.6) mit g : R n R p und h : R n R q. Die Nebenbedingung g(x) 0 ist dabei komponentenweise zu verstehen, g(x) 0 : g k (x) 0 für alle 1 k p. (1.7) Beispiel 1.3. (i) Ein nichtlineares Gleichungssystem F(x) = 0, F : R n R m lässt sich als unbeschränktes Minimierungsproblem schreiben via (1.8) heißt Ausgleichsproblem. min f(x), f(x) := n F(x) 2 = F k (x) 2. (1.8) x R n (ii) Ein Beispiel aus der Produktionsplanung: In einem Unternehmen können Produkte P 1,..., P n erzeugt werden unter der Nutzung der Ressourcen R 1,..., R m (Zeit, Rohstoffe, Energie,... ). Bei der Produktion einer Einheit von P k werden von Ressource R j genau a j,k Einheiten verbraucht. Der Gewinn bei der Produktion einer Einheit von P k sei c k, von der Ressource R j seien b j Einheiten verfügbar. Ziel ist es, Produktionsmengen x k 0 von P k derart zu bestimmen, dass unter den Ressourcenbeschränkungen der Gewinn maximiert wird. Die mathematische Formulierung als (lineares) Optimierungsproblem lautet n max c k x k = c, x x X k=1 { n } X := x R n, (1.9) : a j,k x k b j, 1 j m, x l 0, 1 l n k=1 = {x R n : Ax b, x 0} mit A = (a j,k ) 1 j m,1 k n. Insbesondere für n = 2 lassen sich Optimierungsprobleme der Form (1.8) auch graphisch visualisieren. Ein Beispiel mit n = 2 Produkten, Gewinnen c 1 = 4, c 2 = 3 und Einschränkungen für m = 3 Ressourcen: Arbeitsaufwand R 1 : x 1 + x 2 16 (z.b. gleicher Arbeitsaufwand für beide Produkte) Lagerkapazität R 2 : x 2 12 (z.b. Rohstoffe müssen nur für P 2 gelagert werden) Energie R 3 : 3x 1 + x 2 36 (z.b. dreifacher Energiebedarf für P 1 ) k=1 8

9 Weitere Einschränkungen sind x 1, x 2 0 (Produktionsmengen sind nichtnegativ). Insgesamt haben wir nur Ungleichungsrestriktionen, und das Optimierungsproblem (1.8) lautet ( 4 3 ), x ( ) max( ) x x 0 Der Gradient der Zielfunktion f (=Richtung des stärksten Anstiegs) ist c = ( 4 3 ), das Maximum wird daher im Randpunkt x = ( 10 6 ) von X angenommen, mit Zielfunktionswert f( x) = ( 4 3 ), ( 10 6 ) = 58, vergleiche Abbildung 1.1. x 2 R 1 R 3 12 R 2 x c x 1 Abbildung 1.1.: Graphische Visualisierung des Produktionsproblems aus Beispiel 1.3(ii) 9

10

11 2. Konvexe Mengen Inhalt wird nachgereicht 11

12

13 3. Konvexe Funktionen Inhalt wird nachgereicht 13

14

15 4. Numerische Verfahren für unrestringierte Optimierungsaufgaben Inhalt wird nachgereicht 15

16

17 5. Numerische Verfahren für lineare Optimierungsaufgaben Inhalt wird nachgereicht 17

18

19 Teil II. Konvexe Optimierung II 19

20

21 6. Numerische Verfahren für restringierte Optimierungsaufgaben In diesem Kapitel diskutieren wir Algorithmen für restringierte Optimierungsprobleme mit stetig differenzierbaren Zielfunktionen und Nebenbedingungen min g(x) 0 h(x)=0 f(x), f C 1 (R n ), g C 1 (R n, R p ), h C 1 (R n, R q ). (6.1) 6.1. Lösungstheorie und Optimalitätskriterien Wir studieren im Folgenden notwendige und hinreichende algebraische Optimalitätskriterien 1. und 2. Ordnung für (6.1). Die Bedingungen 1. Ordnung werden im Allgemeinen als KKT-Bedingungen bezeichnet, nach Karush 1, Kuhn 2 und Tucker 3. Die logischen Zusammenhänge werden wie folgt aussehen. Ein lokales Minimum x von (6.1) erfüllt die zu (6.1) gehörenden KKT-Bedingungen, sofern der zulässige Bereich X := {x R n : g(x) 0, h(x) = 0} gewissen Regularitätseigenschaften genügt, sogenannten constraint qualifications (CQ). Diese können entweder geometrisch oder algebraisch formuliert werden. Umgekehrt ist ein zulässiger Punkt x X, der die KKT-Bedingungen erfüllt, unter zusätzlichen Annahmen wie etwa Konvexität von f, g und h, oder auch Optimalitätsbedingungen 2. Ordnung zumindest ein lokales Minimum von (6.1). Lokale Minima von (6.1) sind z.b. unter diesen Konvexitätsannahmen auch global. Wir vergleichen hierzu die Kernaussage von Satz 5.20 zu Optimalitätsbedingungen bei linearen Problemen: x R n optimal für min c, x Ax=b x 0 Ax = b, x 0 und y R n mit A y c und x, c A y = 0. 1 William Karush ( ) 2 Harold W. Kuhn (*1925) 3 Albert W. Tucker ( ) 21

22 6. Numerische Verfahren für restringierte Optimierungsaufgaben Die algebraischen Bedingungen Ax = b, x 0, A y c, x, c A y = 0 sind genau die KKT-Bedingungen für den Fall eines linearen Optimierungsproblems. Der Nachweis der Äquivalenz zur globalen Optimalität benutzte die starken algebraischen Eigenschaften (Linearität und insbesondere Konvexität) der Zielfunktion und der die Nebenbedingung beschreibenden Funktionen Optimalitätskriterien 1. Ordnung Zur Herleitung von Optimalitätskriterien 1. Ordnung benutzen wir einen geometrischen Zugang über Tangentialkegel des zulässigen Bereichs X von (6.1). Definition 6.1 (Tangentialkegel). Sei = X R n. Dann heißt d R n tangential zu X in x X, wenn Folgen (x (k) ) k N X und (t k ) k N (0, ) existieren mit x (k) x, t k 0, x (k) x t k d, k. (6.2) Die Menge aller solcher Richtungen heißt Tangentialkegel T X (x) von X in x, d.h. T X (x) = { d R n : (x (k) ) k N X, (t k ) k N R mit (6.2) }. (6.3) Bemerkung 6.2. (i) Der Tangentialkegel T X (x) ist auch wirklich ein Kegel: x (k) x x (k) x d = lim T X (x) λd = lim T X (x), λ > 0. k t k k t k /λ (ii) Es ist T X (x) = R n, falls x int(x); ansonsten ist T X (x) nichttrivial, d.h. im Allgemeinen eine echte Teilmenge von R n. So erhalten wir zum Beispiel bei einem abgeschlossenen Halbraum X = H (a, b) = {x R n : a, x b} den Tangentialkegel T X (x) = { R n, a, x > b, H (a, 0), a, x = b. Wir zeigen zunächst, dass Tangentialkegel immer abgeschlossen sind. Lemma 6.3. Seien X R n und x X. Dann ist T X (x) abgeschlossen. Beweis: Seien d (k) T X (x) mit d (k) d R n für k. Nach Definition existieren zu jedem k N Punkte x (k,l) X und t k,l R mit (6.2), d.h. x (k,l) x, t k,l 0, x (k,l) x t k,l d (k), l. 22

23 6.1. Lösungstheorie und Optimalitätskriterien Es existieren daher l(k) N mit x (k,l(k)) x 1 k, t k,l(k) 1 k und x(k,l(k)) x t k,l(k) 1 k, so dass mit k die Vektoren x (k) := x (k,l(k)) die Tangentialbedingung (6.2) erfüllen, d.h. es gilt d T X (x). Wir kommen nun zum Zusammenhang zwischen den lokalen Minima x einer Funktion f : R n R auf einer Teilmenge X R n und algebraischen Optimalitätsbedingungen. Das notwendige Kriterium im Fall X = R n und stetig differenzierbarem f lautet f(x ) = 0, d.h. es darf keine Abstiegsrichtung existieren, vgl. Satz 4.1. Falls X R n und x auf dem Rand von X liegt, sind nur solche Abstiegsrichtungen auszuschließen, die in X hinein zeigen, d.h. die in T X (x ) liegen. Dies ist der Inhalt des folgenden Lemmas. Lemma 6.4. Seien X R n, f C 1 (R n ) und x X ein lokales Minimum von Dann gilt min f(x). (6.4) x X f(x ), d 0 für alle d T X (x ). (6.5) Beweis: Sei d T X (x ) beliebig. Dann existieren x (k) X und t k > 0 mit x (k) x, t k 0 und x(k) x t k d für k. Da f C 1 (R n ), existieren nach dem Mittelwertsatz ξ (k) conv{x (k), x } mit f(x (k) ) f(x ) = f(ξ (k) ), x (k) x, also insbesondere ξ (k) x für k. Da x ein lokales Minimum von (6.4) ist, gibt es ein k 0 N mit f(x (k) ) f(x ) für alle k k 0, also f(ξ (k) ), x (k) x 0 für k k 0 und damit 0 1 t k f(ξ (k) ), x (k) x = f(ξ (k) ), x(k) x t k f(x ), d, k. Definition 6.5. Ein zulässiger Punkt x X mit (6.5) heißt stationär für das Minimierungsproblem (6.4). Die Stationaritätsbedingung (6.5) ist noch recht abstrakt und im Allgemeinen leider nur schwer zu handhaben, da T X (x ) eine komplizierte Struktur haben kann. Für den Fall eines Minimierungsproblems der Form (6.1) mit stetig differenzierbarer Zielfunktion f und stetig differenzierbaren Nebenbedingungen g, h führen wir daher den sogenannten linearisierten Tangentialkegel ein. Definition 6.6 (linearisierter Tangentialkegel). Sei X := {x R n : g(x) 0, h(x) = 0} der zulässige Bereich von (6.1), und sei x X ein zulässiger Punkt. Dann heißt TX lin (x) := { d R n : g j (x), d 0 f.a. j I(x), h k (x), d = 0 f.a. 1 k q } der linearisierte Tangentialkegel von X in x. Dabei bezeichnet (6.6) I(x) := { 1 j q : g j (x) = 0 } (6.7) die Menge der aktiven Ungleichungsrestriktionen in x X. 23

24 6. Numerische Verfahren für restringierte Optimierungsaufgaben T lin X (x) ist algebraisch einfacher zu handhaben und stimmt in vielen Fällen mit T X(x) überein. Eine der beiden Inklusionen ist dabei trivialerweise erfüllt. Lemma 6.7. Sei X := {x R n : g(x) 0, h(x) = 0} der zulässige Bereich von (6.1), und sei x X ein zulässiger Punkt. Dann gilt T X (x) T lin X (x). Beweis: Sei d T X (x) beliebig. Nach Definition existieren x (k) X und t k > 0 mit x (k) x, t k 0 und x(k) x t k d für k. Sei zunächst j I(x) fest gewählt, also g j (x) = 0. Wegen x (k) X und nach dem Mittelwertsatz der Differentialrechnung existieren ξ (k) conv{x (k), x} mit und somit 0 g j (x (k) ) = g j (x) + g j (ξ (k) ), x (k) x = g j (ξ (k) ), x (k) x gj (x), d = lim g j (ξ (k) ), x(k) x 0. k t k Sei weiter 1 k q beliebig und somit h k (x) = 0. Mit x (l) X und dem Mittelwertsatz folgt ähnlich 0 = h k (x (l) ) = h k (x) + h k (ξ (l) ), x (l) x = h k (ξ (l) ), x (l) x und somit hk (x), d = lim h k (ξ (l) ), x(l) x = 0. l t l Die umgekehrte Inklusion ist nicht immer erfüllt, wie folgendes Beispiel zeigt. Beispiel 6.8. Betrachte das Optimierungsproblem min x 3 1 +x 2 0 x 2 0 ( x 1 ) Der zulässige Bereich X wird von der negativen Halbachse (, 0] {0} und dem Parabelstück {(x 1, x 3 1 ) : x 1 0} begrenzt. Das eindeutige Minimum liegt bei x = (0, 0). Setzt man g 1 (x) := x x 2 und g 2 (x) := x 2, so sind in x beide Ungleichungsrestriktionen aktiv, also nach Definition für den linearisierten Tangentialkegel T lin X (x ) = { d R 2 : g 1 (x ), d 0, g 2 (x ), d 0 } = { d R 2 : ( 0 1 ), d 0, ( 0 1 ), d 0} = R {0}. Für den Tangentialkegel selbst gilt aber T X (x ) = (, 0] {0} = TX lin(x ). Denn sei einerseits d T X (x ). Dann existieren x (k) = ( u k v k ) X und t k > 0 mit u k 0, v k 0, 24

25 6.1. Lösungstheorie und Optimalitätskriterien t k 0 und d = lim k ( u k/t k v k /t k ). Aus x (k) folgt u 3 k + v k 0 v k, also u k 0 v k und damit u k d 1 = lim k t k v k 0 lim = d 2. k t k Ferner gilt v ( k d 2 = lim lim u3 ) ( k = lim k t k k t k k u2 k u ) k = 0, t k also insgesamt d (, 0] {0}. Ist umgekehrt d (, 0] {0} vorgegeben, so erfüllen x (k) := 1 k d = ( d 1/k 0 ) X und t k := 1 k die Bedingung (6.2). Definition 6.9 (ACQ). Wir sagen, ein zulässiger Punkt x X des restringierten Optimierungsproblems (6.1) erfüllt die Regularitätsbedingung von Abadie 4 (engl. Abadie constraint qualification) bzw. es ist ACQ(x) erfüllt, wenn T X (x) = TX lin (x) gilt. Ein wichtige Klasse von Minimierungsproblemen, bei denen ACQ(x) für alle zulässigen x erfüllt ist, sind solche mit linearen Nebenbedingungen. Lemma Seien A R p n, C R q n, b R p und d R q. Dann erfüllt jeder Punkt des konvexen Polyeders X := {x R n : Ax b, Cx = d} die Regularitätsbedingung von Abadie. Beweis: Sei x X beliebig. Wegen Lemma 6.7 genügt es, TX lin(x) T X(x) zu zeigen. Sei also d TX lin (x), d.h. mit g(y) := Ay b und h(y) := Cy d wegen (6.6) und (6.7) { gj (x), d = A e j, d 0, falls j I(x) g j (x) = (Ax b) j = 0, hk (x), d = C e k, d = 0, für alle 1 k q. Sind nun t l > 0 beliebig mit t l 0 für l und setzt man x (l) := x + t l d, so gilt für genügend große l N (Ax (l) b) j = (Ax b) j + t l (Ad) j = t j A e j, d 0, falls (Ax b) j = 0, (Ax (l) b) j = (Ax b) j + t l (Ad) j 1 2 (Ax b) j < 0, falls (Ax b) j < 0, (Cx (l) d) k = (Cx d) k + t l (Cd) k = t l C e k, d = 0, für alle 1 k q, d.h. x (l) X für genügend großes l N sowie x (l) x und x(l) x t l = d d für l, also d T X (x). Wir werden nun unter der Abadie-Regularitätsbedingung nachweisen, dass ein lokales Minimum x von (6.1) die KKT-Optimalitätsbedingungen erfüllt. Zu deren Definition betrachten wir die sogenannte Lagrange-Funktion von (6.1). Definition 6.11 (Lagrange-Funktion). Die durch L(x, λ, µ) := f(x) + λ, g(x) + µ, h(x) für alle x R n (6.8) festgelegte Funktion L : R n R p R q R heißt Lagrange-Funktion von (6.1). 4 Jean M. Abadie 25

26 6. Numerische Verfahren für restringierte Optimierungsaufgaben Definition 6.12 (KKT-Bedingungen). λ 0, g(x) 0, heißen KKT-Bedingungen von (6.1), wobei x L(x, λ, µ) = f(x) + (i) Die Bedingungen x L(x, λ, µ) = 0 h(x) = 0 (6.9) λ, g(x) = 0 p λ j g j (x) + j=1 q µ k h k (x) k=1 den Gradienten der Lagrange-Funktion L nach x bezeichnet. (ii) Ein Punkt (x, λ, µ ) R n R p R q, der die KKT-Bedingungen (6.9) erfüllt, heißt KKT-Punkt von (6.1). Die Vektoren λ und µ bzw. ihre Komponenten werden als Lagrange-Multiplikatoren bezeichnet. Bemerkung (i) Liegen keine Restriktionen vor (p = q = 0), so reduzieren sich die KKT-Bedingungen (6.9) auf f(x) = 0. (ii) Die letzte Teilbedingung in (6.9) ist offenbar äquivalent zu λ j 0, g j (x) 0, λ j g j (x) = 0 für alle 1 j p, d.h. in einem KKT-Punkt (x, λ, µ ) ist stets λ j = 0 oder g j(x ) = 0. Wenn diese beiden Fälle nicht gleichzeitig auftreten können, also wenn λ j + g j(x ) 0 gilt für alle 1 j p, so sagt man, der KKT-Punkt (x, λ, µ ) erfüllt strikte Komplementarität. (iii) Die KKT-Bedingungen (6.9) können geometrisch interpretiert werden. Liegen z.b. keine Gleichheitsrestriktionen vor (q = 0) und ist (x, λ ) R n R p ein KKT- Punkt mit aktiver Indexmenge I(x ) = {1 j p : g j (x ) = 0}, so bedeutet (6.9), dass f(x ) eine nichtnegative Linearkombination der Vektoren g j (x) mit j I(x ) ist, d.h. f(x ) cone { g j (x ) : j I(x ) }. Denn die inaktiven Restriktionen erfüllen g j (x ) < 0 und erzwingen wegen (6.9) λ j = 0, so dass die entsprechende Richtung in der konischen Linearkombination f(x ) der Vektoren g l (x ) nicht auftaucht. Satz 6.14 (KKT-Bedingungen unter ACQ). Sei x ein lokales Minimum von (6.1) mit ACQ(x ). Dann existieren Lagrange-Multiplikatoren λ R p + und µ R q derart, dass (x, λ, µ ) ein KKT-Punkt von (6.1) ist. 26

27 6.1. Lösungstheorie und Optimalitätskriterien Beweis: Wegen Lemma 6.4 und der Bedingung ACQ(x ) gilt f(x ), d 0, für alle d T X (x ) = T lin X (x ), d.h. nach (6.6) f(x ), d 0, für alle d R n mit Ad 0, wobei A R ( I(x ) +2q) n als Blockmatrix gegeben ist durch ( gj (x ) ) ( j I(x ) A := hk (x ) ) ( 1 k q hk (x ) ). 1 k q Nach dem Farkas-Lemma 5.5, siehe Äquivalenz (5.3), ist die Lösungsmenge { y R I(x ) +2q : A y = f(x ), y 0 } nicht leer (meistens enthält sie sogar unendlich viele Punkte). Zerlegt man einen solchen Vektor y analog zu A in die Blöcke (λ j ) j I(x ) y = (µ + j ) 1 k q (µ j ) 1 k q und setzt noch λ j := 0 für j {1,..., p} \ I(x ) sowie µ := µ + µ, so erfüllt (x, λ, µ ) offenbar die KKT-Bedingungen 6.9. Wir diskutieren zwei Beispiele zur Formulierung von KKT-Bedingungen und deren Lösbarkeit. Beispiel (i) Betrachte das lineare Optimierungsproblem min c, x Ax b Cx=d zu Daten A R p n, C R q n, b R p, d R q und c R n. Mit f(x) := c, x, g(x) := Ax b und h(x) := Cx d hat das Problem die Form (6.1). Da die Nebenbedingung linear ist, erfüllt wegen Lemma 6.10 jeder zulässige Punkt die Regularitätsbedingung von Abadie. Mit Satz 6.14, f(x) = c, g j (x) = A e j und h k (x) = C e k gelten für ein lokales Minimum x also die KKT-Bedingungen c + p j=1 λ ja e j + q k=1 µ kc e k = c + A λ + C µ = 0 Cx d = 0 λ 0, Ax b 0, λ, Ax b = 0. 27

28 6. Numerische Verfahren für restringierte Optimierungsaufgaben Für ein Problem der Form min c, x Ax=b x 0 erhalten wir analog die KKT-Bedingungen c λ + A µ = 0 Ax b = 0 λ 0, x 0, λ, x = 0, was der Aussage von Satz 5.20 entspricht, wenn man y := µ und λ := c A y wählt. Jeder KKT-Punkt ist auch lokales Minimum (sogar global). Je nach Lage des Kostenvektors zu den niederdimensionalen Seitenflächen des Polyeders X sind Minima und damit KKT-Punkte eindeutig oder nicht. Als Lösungsverfahren zum Auffinden von KKT-Punkten bzw. globalen Minima haben wir in Kapitel 5 den Simplex-Algorithmus sowie Innere-Punkt-Verfahren diskutiert. (ii) Betrachte das unrestringierte Minimierungsproblem der l 1 -Tikhonov-Regularisierung 1 min x R n 2 Ax b α x 1, mit A R m n, b R m und einem Regularisierungsparameter α 0. Dieses Minimierungsproblem wird z.b. betrachtet, um schlecht konditionierte lineare Gleichungssystem Ax = b exakt auch bei gestörten Messdaten b b exakt stabil lösen zu können. Die ursprüngliche Zielfunktion x 1 2 Ax b α x 1 ist zwar konvex bezüglich x, d.h. lokale Minima sind global, aber sie ist nicht stetig differenzierbar. Spaltet man die Unbekannte R n x = x + x in Positiv- und Negativteil x ± 0 auf und erzwingt die Eindeutigkeit dieser Zerlegung via x +, x = 0, so kann das ursprüngliche Problem wegen x 1 = 1, x + + x als restringiertes Optimierungsproblem mit stetig differenzierbarer Zielfunktion beschrieben werden: min R n x ± 0 x +,x =0 1 2 A(x + x ) b α 1, x+ + x min ( ) x + x R 2n ( )( ) I 0 x + 0 I x x +,x =0 ( 0 0 ) 1 2 A(x + x ) b α 1, x+ + x. Man beachte, dass das transformierte Problem durch die eindeutige Zerlegung von x = x + x mit x +, x = 0 die gleichen lokalen Minima besitzt wie das ursprüngliche Problem. Jedes lokale Minimum ( x+ x ) R 2n erfüllt die folgenden KKT- 28

29 6.1. Lösungstheorie und Optimalitätskriterien Bedingungen mit Lagrange-Multiplikatoren λ R 2n und µ R: ( A ( A(x + x ) b ) ) ( ) ( ) + α1 A ( A(x + x ) b ) I 0 x + λ + µ + α1 0 I x + = 0 x +, x = 0,. ( ) λ 0, x + 0, x x + 0, λ, x = 0 Also gilt z.b. beim naheliegenden Ansatz λ := ( u v ) mit u, v R n sowie x ± 0, u 0 und v 0, also u = A ( A(x + x ) b ) + α1 + µx, v = A ( A(x + x ) b ) + α1 + µx +, 0 = x +, u = x, v = x +, x, u + v = 2α1 + µ(x + + x ), u v = 2A ( A(x + x ) b ) + 2α1. Die Anzahl der KKT-Punkte ist unendlich, denn µ R kann wegen x ± 0 beliebig vergrößert werden, ohne die KKT-Eigenschaft zu verletzen. Für jeden KKT-Punkt kann man folgende Aussagen für die Komponenten von x = x + x treffen: Ist x j > 0, so folgt u j = 0 und damit wegen x j = 0 ( A (Ax b) ) j = u j α µx j = α = sgn(x j)α. Ist x j < 0, so folgt v j = 0 und damit wegen x + j = 0 ( A (Ax b) ) j = v j α + µx + j = α = sgn(x j)α. Ist x j = 0, so folgt x + j = x j = 0 und damit wegen u j 0, v j 0 α ( A (Ax b) ) j α. Es folgt für jeden KKT-Punkt ( A (b Ax) ) j = sgn(x j)α, x j 0 ( A (b Ax) ) j α, x j = 0. Umgekehrt kann man eine Lösung x = x + x dieser Bedingungen mit x ± 0 und x +, x = 0 zu einem KKT-Punkt auffüllen mit u := A (Ax b) + α1 0, v := A (Ax b) + α1 0, µ := 0. 29

30 6. Numerische Verfahren für restringierte Optimierungsaufgaben Bei einem Optimierungsproblem mit nichtlinearen Nebenbedingungen ist zunächst unklar, ob die Regularitätsbedingung ACQ von Abadie überhaupt gilt. Wir geben zwei verschiedene praktikable, hinreichende Kriterien an, unter denen jeweils ACQ erfüllt ist. Zunächst diskutieren wir eine Bedingung, die auch bei nichtkonvexen zulässigen Bereichen einsetzbar ist. Definition 6.16 (LICQ). Wir sagen, ein zulässiger Punkt x des restringierten Optimierungsproblems (6.1) erfüllt die Regularitätsbedingung der linearen Unabhängigkeit (engl.: linear inequality constraint qualification) bzw. es ist LICQ(x) erfüllt, wenn die Menge { gj (x) : j I(x) } { h k (x) : 1 k q } linear unabhängig ist, wobei I(x) die Menge der aktiven Ungleichungsrestriktionen von x aus (6.7) bezeichnet. Wir werden zeigen, dass aus der handlichen Bedingung LICQ(x) bereits ACQ(x) folgt und benutzen dazu den folgenden Hilfssatz. Lemma Sei x zulässig für (6.1), und sei I(x) = {1 j p : g j (x) = 0} die Menge der aktiven Ungleichungsrestriktionen bei x. Die Gradienten { h k (x) : 1 k q} seien linear unabhängig, und d R n sei ein Vektor mit gj (x), d < 0, für alle j I(x), hk (x), d = 0, für alle 1 k q. (6.10) Dann existieren ein ɛ > 0 und eine stetig differenzierbare Kurve ϕ : ( ɛ, ɛ) R n mit ϕ(0) = x, ϕ (0) = d und ϕ(t) X für alle 0 t < ɛ. Beweis: Definiere eine Abbildung H : R q+1 R q via H(t, y) := h ( x + td + h (x) y ), für alle t R, y R q. Das nichtlineare Gleichungssystem H(t, y) = 0 besitzt wegen h(x) = 0 die Lösung (t, y ) = (0, 0). Die Jacobimatrix von H nach y in diesem Punkt lautet H y(0, 0) = h (x)h (x) R q q. Nach Voraussetzung hat h (x) R q n vollen Rang n, also gilt q n und H y(0, 0) ist invertierbar. Nach dem Satz über implizite Funktionen existiert ein ɛ > 0 und eine stetig differenzierbare Kurve ψ : ( ɛ, ɛ) R n mit ψ(0) = 0 und H ( t, ψ(t) ) = 0, für alle t ( ɛ, ɛ). Es folgt mit der Kettenregel ψ (t) = H y( t, ψ(t) ) 1H t ( t, ψ(t) ), für alle t ( ɛ, ɛ), 30

31 6.1. Lösungstheorie und Optimalitätskriterien also ψ (0) = H y(0, 0) 1 H t (0, 0) = H y(0, 0) 1 h (x) d = 0. }{{} =0 Definiere dann eine Kurve ϕ : ( ɛ, ɛ) R n durch ϕ(t) := x + td + h (x) ψ(t), für alle t ( ɛ, ɛ). Es gilt zunächst ϕ(0) = x und ϕ (0) = d sowie h(ϕ(t)) = 0 für alle t ( ɛ, ɛ). Zu zeigen bleibt noch, dass ϕ(t) auch bezüglich der Ungleichungsrestriktionen zulässig bleibt, ggf. für ein verkleinertes ɛ. Aus Stetigkeitsgründen gilt g j (ϕ(t)) < 0 für alle j / I(x) und alle t hinreichend nahe bei 0. Für jeden Index j I(x) und η j (t) := g j (ϕ(t)) gilt η j (t) = g j(ϕ(t)), ϕ (t), mit η j (0) = g j(ϕ(t)), d < 0. Also ist η j in einer Umgebung von 0 streng monoton fallend, d.h. g(ϕ(t)) 0 für t [0, ɛ) und ein ɛ > 0. Satz Aus LICQ(x) folgt ACQ(x). Beweis: Sei x X. Wegen Lemma 6.7 reicht es, TX lin(x) T X(x) zu zeigen. Sei also d TX lin (x) beliebig, d.h. gj (x), d 0, für alle j I(x), hk (x), d = 0, für alle 1 k q. Wegen LICQ(x) gilt I(x) +q n, denn n+1 Vektoren im R n wären ja linear abhängig. Sei A R n n eine reguläre Matrix, die in den ersten I(x) Zeilen aus den Vektoren g j (x) besteht, deren nächste q Zeilen die Vektoren g k (x) enthalten und deren restliche Zeilen passend ergänzt wurden (Basisergänzungssatz der Linearen Algebra). Definiere dann einen Vektor b R n, dessen erste I(x) Einträge 1 sind, die nächsten p Einträge 0 sind und dessen restliche Einträge beliebig sind. Das lineare Gleichungssystem A d = b ist eindeutig lösbar und liefert einen Vektor d R n mit gj (x), d < 0, für alle j I(x), hj (x), d = 0, für alle 1 k q. Wir setzen d(δ) := d + δ d, für alle δ > 0, und zeigen, dass d(δ) T X (x) für alle δ > 0, denn hieraus folgt d = lim δ 0 d(δ) T X (x) mit Hilfe von Lemma 6.3. Für festes δ > 0 erfüllt der Vektor d(δ) die Bedingungen aus Lemma 6.17, die auch als Regularitätsbedingung von Mangasarian und Fromovitz (MFCQ) bezeichnet werden. Somit existiert ein ɛ > 0 und eine stetig differenzierbare Kurve ϕ : ( ɛ, ɛ) R n mit ϕ(0) = x, ϕ (0) = d(δ) und ϕ(t) X für alle 0 t < ɛ. Ist nun t k 0, so setzen wir x (k) := ϕ(t k ), und wir erhalten eine ab k k 0 zulässige Folge mit x (k) x und x(k) x t k = ϕ(t k) ϕ(0) t k ϕ (0) = d(δ), k, d.h. d(δ) T X (x). Wie man in folgendem Beispiel sieht, folgt aus ACQ(x) nicht immer LICQ(x). 31

32 6. Numerische Verfahren für restringierte Optimierungsaufgaben Beispiel Betrachte das Optimierungsproblem min x 2 1 +x 2 0 x 2 0 x (x 2 + 1) 2. Das globale Minimum liegt bei x = 0, denn für jeden zulässigen Punkt gilt x (x 2 + 1) 2 = x 2 1 +x x = (0 + 1) 2. }{{} x 2 }{{} 0 Die zulässige Menge liegt zwischen der x 1 -Achse und der Normalparabel x 2 = x 2 1. Im Punkt x = 0 gilt für den Tangentialkegel { } T X (0) = d R 2 : u k 0, v k 0, t k 0 mit 0 v k u 2 k, ( u k/t k v k /t k ) d, k = R {0}, denn aus v k, t k 0 folgt d 2 0, und 0 d 2 v k /t k u 2 k /t k 0 wie in Beispiel 6.8; ferner kann man zu beliebigem d = ( d 1 0 ) und t k 0 die Folge x (k) := x + t k d X betrachten, die die Bedingung (6.2) erfüllt. Für den linearisierten Tangentialkegel in x = 0 rechnen wir wegen I(0) = {1, 2} { TX lin (0) = d R 2 : ( 0 1 ), d 0, } ( 1 0 ), d 0 = R {0}, also ist ACQ(0) erfüllt. Aber die beiden Gradienten g 1 (0) = ( 0 1 ) und g 2(0) = ( 0 1 ) sind linear abhängig, so dass LICQ(0) nicht gilt. Für die zweite populäre hinreichende Bedingung im Fall nichtlinearer Nebenbedingungen in (6.1) nehmen wir an, dass das Minimierungsproblem (6.1) die folgende spezielle Form hat: min x R n g(x) 0 Ax=b f(x), (6.11) wobei f : R n R und alle g j : R n R, 1 j p, stetig differenzierbare und konvexe Funktionen sind, sowie A R q n, b R q. Wegen der Konvexität aller g j ist X := {x R n : g(x) 0, Ax = b} konvex, und wegen der Konvexität von f sprechen wir von einem konvexen Optimierungsproblem. Definition 6.20 (Slater-Bedingung). Wir sagen, das Minimierungsproblem (6.11) mit erfüllt die Slater-Bedingung, wenn ein x X existiert mit g j ( x) < 0, für alle 1 j p, A x = b, (6.12) d.h. I( x) =, x ist strikt zulässig bzgl. der Ungleichungsrestriktionen. 32

33 6.1. Lösungstheorie und Optimalitätskriterien Die Slater-Bedingung bedeutet geometrisch, dass der zulässige Bereich einen inneren Punkt bezüglich der Ungleichungsrestriktionen enthält. Dies erscheint zunächst als relativ schwache Bedingung, allerdings wurde ja auch zusätzlich die Konvexität des zulässigen Bereichs vorausgesetzt. Um zu zeigen, dass lokale Minima von (6.11) unter der Slater- Bedingung auch die KKT-Bedingungen 6.9 erfüllen, benutzen wir folgenden Hilfssatz. Lemma Sei X := {x R n : g(x) 0, Ax = b} der zulässige Bereich von (6.11), Betrachte zu jedem x X die Menge TX strict (x) := { d R n : g j (x), d < 0 für alle j I(x), Ad = 0 } TX lin (x). (6.13) Dann gilt TX strict (x) T X (x). Beweis: Seien x X und d TX strict (x). Setze x (k) := x + 1 k d für alle k N, mit x (k) x und x(k) x 1/k = d d für k. Es gilt x (k) X für genügend große k. Denn die Gleichungsrestriktion ist für alle k erfüllt, Ax (k) = }{{} Ax + 1 k }{{} Ad = 0. =b =0 Für die Ungleichungsrestriktion überlegen wir uns zunächst, dass für jedes 1 j p und k N wegen des Mittelwertsatzes ξ (j,k) [x, x (k) ] existieren, so dass g j (x (k) ) = g j (x) + g(ξ (j,k) ), x (k) x = g j (x) + 1 k g(ξ (j,k) ), d. Falls j I(x), folgt g j (x) = 0 und g(ξ (j,k) ), d < 0 für genügend große k wegen gj (x), d < 0 und ξ (j,k) x für k, also g j (x (k) ) 0 ab k k 0 = k 0 (j). Falls j / I(x), folgt g j (x) < 0 und 1 k g(ξ (j,k) ), d 0 für k, also wieder g j (x) 0 ab k k 0 = k 0 (j), und insgesamt d T X (x). Satz Das Minimierungsproblem (6.11) erfülle die Slater-Bedingung. Dann folgt ACQ(x) für alle zulässigen x. Beweis: Zu X := {x R n : g(x) 0, Ax = b} rechnen wir gemäß Lemma 6.7 nur TX lin(x) T X(x) für alle x X nach. Sei dazu x X ein strikt zulässiger Punkt aus der Slater-Bedingung (6.12), und sei d TX lin(x). Wir setzen d := x x. Aus der Konvexität der Funktionen g j folgt mit Satz 3.3 über die Charakterisierung der Konvexität stetig differenzierbarer Funktionen zunächst für alle j I(x) = {1 j p : g j (x) = 0} gj (x), d g j ( x) g j (x) = g j ( x) < 0. }{{} =0 Ferner gilt für alle 1 k q wegen h k (y) = A e k hk (x), d = A e k, d = e k, }{{} A x e k, }{{} Ax = 0, =b =b 33

34 6. Numerische Verfahren für restringierte Optimierungsaufgaben also d TX strict (x) mit dem strikten Tangentialkegel aus (6.13). Analog erfüllt auch der Vektor d(δ) := d + δ d, für alle δ > 0, für jedes feste δ > 0 die Ungleichungen gj (x), d(δ) < 0, für alle j I(x), hk (x), d(δ) = 0, für alle 1 k q, und damit d(δ) TX strict (x) für alle δ > 0. Lemma 6.21 liefert daher d(δ) T X (x) für alle δ > 0 und wegen der Abgeschlossenheit des Tangentialkegels d = lim δ 0 d(δ) T X (x). Die Minimalität von KKT-Punkten bei einem konvexen Minimierungsproblem der Form (6.11) folgt bereits, ohne die Slater-Bedingung zu benutzen. Satz Sei (x, λ, µ ) R n R p + Rq ein KKT-Punkt von (6.11). Dann ist x ein globales Minimum von f auf X := {x R n : g(x) 0, Ax = b}. Beweis: Für einen KKT-Punkt (x, λ, µ ) R n R p + Rq von (6.11) gilt wegen der Konvexität von f und g j für alle x R n f(x) f(x ) + f(x ), x x p = f(x ) + λ j g j (x ) = f(x ) j=1 q k=1 p λ j gj (x ), x x j=1 = f(x ) f(x ), 1 j p j I(x ) λ j }{{} 0 µ k h k(x ), x x }{{} =A e k q k=1 gj (x ), x x }{{} g j (x) g j (x )=g j (x) 0 d.h. x ist ein globales Minimum von f auf X. µ k ek, A(x x ) }{{} + 1 j p j / I(x ) =0 λ j }{{} =0 gj (x ), x x Korollar Bei einem Minimierungsproblem min Ax b Cx=d f(x), f C 1 (R n ) konvex, A R p n, b R p, C R q n, d R q (6.14) ist ein zulässiger Punkt x genau dann ein (lokales=globales) Minimum, wenn Lagrange- Multiplikatoren λ R p + und µ R q existieren, so dass (x, λ, µ ) ein KKT-Punkt von (6.14) ist. Beweis: Wegen der polyedrischen Nebenbedingungen ist nach Lemma 6.10 die Regularitätsbedingung ACQ(x ) erfüllt, so dass die Existenz von Lagrange-Multiplikatoren mit Satz 6.14 folgt. Satz 6.23 liefert umgekehrt die Minimalität von KKT-Punkten. 34

35 7. Dualität Wir betrachten in diesem Kapitel ein allgemeines Optimierungsproblem der Form min g(x) 0 h(x)=0 x M f(x), f : R n R, g : R n R p, h : R n R q, M R n. (7.1) Dabei modelliert M R n Restriktionen, die sich nicht durch Gleichungen oder Ungleichungen ausdrücken lassen, z.b. strikte Ungleichungen oder Ganzzahligkeit. Ziel der Dualitätstheorie ist es, durch Zuordnung eines dualen Optimierungsproblems zum primalen Problem (7.1) untere Schranken für den Optimalwert der Zielfunktion f zu gewinnen, sowie Optimalitätskriterien zu entwickeln. Duale Optimierungsprobleme sind häufig leichter zu lösen als die entsprechenden primalen Probleme Lagrange-Dualität Wie üblich sei L(x, λ, µ) := f(x) + λ, g(x) + µ, h(x), für alle (x, λ, µ) R n R p + Rq, die Lagrange-Funktion von (7.1). Wir erinnern uns an die Sattelpunktbedingung L(x, λ, µ) L(x, λ, µ ) L(x, λ, µ ), für alle (x, λ, µ) R n R p + Rq. (7.2) Bei konvexen Optimierungsproblemen mit stetig differenzierbarer Zielfunktion ist (7.2) äquivalent zu den KKT-Bedingungen und hinreichend für Optimalität von (x, λ, µ ) (Sattelpunktsatz). Definition 7.1. Die Funktion ϕ(λ, µ) := inf x M L(x, λ, µ), für alle (λ, µ) Rp + Rq, (7.3) heißt duale Funktion von (7.1). Das Optimierungsproblem max ϕ(λ, µ) (7.4) (λ,µ) R p + Rq heißt (Lagrange-)duales Problem zum primalen Problem (7.1). Bemerkung 7.2. (i) Das duale Problem (7.4) hat sehr einfache Restriktionen, allerdings ist die duale Funktion ϕ im Allgemeinen nur schwer zu berechnen. 35

36 7. Dualität (ii) ϕ ist im Allgemeinen nicht differenzierbar und auch nicht für alle Argumente endlich. Wir setzen dom(ϕ) := { (λ, µ) R p + Rq : ϕ(λ, µ) > }. (7.5) Beispiel 7.3. (i) Wir betrachten zunächst lineare Programme, z.b. in der Normalform min c, x, A R q n, b R q, c R n, M := R n. (7.6) Ax=b x 0 Die Lagrange-Funktion zu (7.6) lautet z.b. L(x, λ, µ) = c, x λ, x + µ, b Ax, für alle (x, λ, µ) R n R n + R q, wobei man bei der Gleichheitsrestriktion auch das umgekehrte Vorzeichen wählen könnte, d.h. L(x, λ, µ) = c, x λ, x + µ, Ax b, für alle (x, λ, µ) R n R n + R q. Beide Lagrange-Funktionen führen im Wesentlichen auf das gleiche duale Problem. Die duale Funktion ϕ zu L lautet ϕ(λ, µ) = inf L(x, λ, µ) x Rn = inf x R n c λ A µ, x + µ, b {, c λ A µ 0 = µ, b, c λ A µ = 0, so dass dom(ϕ) = { (λ, µ) : λ 0, λ = c A µ } = { (c A µ, µ) : A µ c } und das duale Problem hat die Form max ϕ(λ, µ) = max ϕ(λ, µ) = max µ, b, (7.7) (λ,µ) R n + Rq λ=c A µ 0,µ Rq A µ c was genau dem dualen linearen Programm aus Kapitel 5 entspricht. Wählt man stattdessen die Lagrange-Funktion L, erhält man analog das duale Programm max ( ) µ, b µ:= µ A µ c max µ, b. A µ c (ii) Beim Minimierungsproblem min (x 2 x 2 1 +x x 2 2), M := R 2, 36

37 7.1. Lagrange-Dualität ist die Zielfunktion f(x) := x 2 1 x2 2 nicht konvex, wohl aber die Nebenbedingungsfunktion g(x) := x x Die duale Funktion lautet ( ϕ(λ) = inf x 2 1 x 2 x R λ(x x 2 2 1) ) ( = inf (1 + λ)x (λ 1)x 2 x R 2 2 λ ) {, 0 λ < 1 =, für alle λ 0, λ, λ 1 also dom(ϕ) = [1, ) mit dualem Programm max ϕ(λ) = ϕ(1) = 1. λ 0 Wir beachten, dass f(x) = x 2 1 x2 2 auf X = {x R2 : x x } minimal wird bei x = (0, ±1) mit f(0, ±1) = 1, denn f(x) = x 2 1 x 2 2 x 2 1 (1 x 2 1) = 2x , für alle x X, und damit min f(x) = max ϕ(λ). x X λ 0 (iii) Beim Minimierungsproblem min x 1 +x 2 3=0 x M ( x 1 ), M := { ( 0 0 ), ( 2 1 ), ( 1 2 ), ( 4 0 ), ( 0 4 )}, ist die Zielfunktion f(x) = x 1 linear und damit konvex. Die Nebenbedingung ist konvex, allerdings nicht die diskrete Extra-Nebenbedingungsmenge M. Für die duale Funktion rechnen wir ( ϕ(µ) = min x1 + µ(x 1 + x 2 3) ) x M = min{ 3µ, 2, 1, 4 + µ, µ} { 4 + µ, µ 1 =, für alle µ R, 3µ, µ > 1 also dom(ϕ) = R mit dualem Programm Wegen min f(x) = x M max ϕ(µ) = 3. µ R min x 1 +x 2 3=0 x M ( x 1 ) = 2 > 3 liegt eine sogenannte Dualitätslücke vor, d.h. das duale Programm hat einen echt schlechteren Optimalwert als das primale Programm. 37

38 7. Dualität 7.2. Dualitätssätze Satz 7.4 (Schwache Dualität). Für alle x X := {x R n : g(x) 0, h(x) = 0, x M} und (λ, µ) R p + Rq gilt ϕ(λ, µ) f(x), (7.8) also auch wobei sup D inf P, (7.9) P := { f(x) : x X }, D := { ϕ(λ, µ) : (λ, µ) R p + Rq}. (7.10) Beweis: Für alle x X M und (λ, µ) R p + Rq rechnen wir ϕ(λ, µ) = inf L(z, λ, µ) z M L(x, λ, µ) = f(x) + }{{} λ, g(x) }{{} 0 0 f(x), + µ, h(x) }{{} =0 also gilt (7.8). (7.9) folgt direkt aus (7.8) durch Supremums- bzw. Infimumsbildung. Bevor wir versuchen, die Gleichheit in (7.9) unter Zusatzvoraussetzungen zu zeigen, notieren wir noch einfache Eigenschaften der dualen Funktion aus (7.3). Lemma 7.5. Es gilt für die duale Funktion ϕ aus (7.3): (i) Die Menge dom(ϕ) ist konvex. (ii) ϕ : dom(ϕ) R ist konkav, d.h. ϕ ist konvex. Beweis: Für (λ (j), µ (j) ) dom(ϕ) j {1, 2} und α (0, 1) gilt αλ (1) +(1 α)λ (2) 0 sowie ϕ ( αλ (1) + (1 α)λ (2), αµ (1) + (1 α)µ (2)) = inf L( x, αλ (1) + (1 λ)λ (2), αµ (1) + (1 α)µ (2)) x M = inf (f(x) + αλ (1) + (1 α)λ (2), g(x) + αµ (1) + (1 α)µ (2), h(x) ) x M ( = inf αl(x, λ (1), µ (1) ) + (1 α)l(x, λ (2), µ (2) ) ) x M α inf x M L(x, λ(1), µ (1) ) + (1 α) inf y M L(y, λ(2), µ (2) ) = αϕ(λ (1), µ (1) ) + (1 α)ϕ(λ (2), µ (2) ) >, also insbesondere α(λ (1), µ (1) ) + (1 α)(λ (2), µ (2) ) dom(ϕ), d.h. (i), und ϕ ist konkav, d.h. (ii). 38

39 7.2. Dualitätssätze Satz 7.6 (Starke Dualität). Seien M R n nichtleer und konvex, f : R n R und g j : R n R konvex für 1 j p, und sei h(x) = Ax b mit A R q n, b R q. Falls inf(p ) >, d.h. ist das primale Problem beschränkt, und existiert ein x M, das zum relativen Inneren von M gehört (d.h. es existiert eine offene Kugel U x mit U aff(m) M) sowie die Slater-Bedingung erfüllt, d.h. so ist das duale Problem (7.4) lösbar, mit Beweis: g j ( x) < 0, für alle 1 j m, h( x) = 0, (7.11) sup(d) = inf(p ). (7.12) 1. Seien zunächst die Zeilen A e j, 1 j 1, linear unabhängig, und es gelte int(m). Wir setzen Q := { (y, z, w) R p R q R : x M : g(x) y, h(x) = z, f(x) w }. Dann ist Q konvex, da f und alle g j konvex sind und h affin-linear ist. Außerdem gilt Q, da M. Betrachte den Punkt (0, 0, inf(p )) R p R q R. Dies ist kein innerer Punkt von Q, da sonst auch (0, 0, inf(p ) δ) Q gelten müsste für ein δ > 0, im Widerspruch zur Minimalität von inf(p ). Somit existiert eine Q und (0, 0, inf(p )) trennende Hyperebene, d.h. (λ, µ, γ ) (R p R q R) \ {0} mit R γ inf(p ) λ, y + µ, z + γ w, für alle (y, z, w) Q. Da mit (y, z, w) Q und τ > 0 auch (y, z, w + τ) Q gilt, muss γ 0 sein, ansonsten könnte man die rechte Seite der Trennungsungleichung gegen schicken, im Widerspruch zu γ inf(p ) R. Analoges gilt auch für die Komponenten von y: Mit (y, z, w) Q und τ > 0 ist auch (y + τe j, z, w) Q für 1 j p, so dass λ j 0 gelten muss. Wir zeigen jetzt, dass γ > 0 gilt. Angenommen, dies sei nicht der Fall und es gelte γ = 0. Dann folgt aus der Trennungsungleichung für alle y = g(x), z = h(x) 0 λ, y + µ, z = λ, g(x) + µ, h(x). Speziell für x M aus (7.11) erhalten wir 0 λ, g( x) + µ, h( x), }{{}}{{} <0 =0 also λ = 0. Rückeinsetzen liefert wegen h( x) = 0 0 µ, h(x) = µ, h(x) h( x) = µ, A(x x) = A µ, x x, für alle x M. 39

40 7. Dualität Wegen int(m) gilt aff(m) = R n, d.h. x ist ein innerer Punkt von M. Für hinreichend kleine δ j > 0 gilt somit x ± δ j e j M für alle 1 j n und daher 0 A µ, ±δ j e j = ±δ j (A µ ) j, für alle 1 j n, d.h. A µ = 0. Da die Zeilen von A linear unabhängig sind, folgt µ = 0, also (λ, µ, γ ) = 0 im Widerspruch zum Trennungssatz. Also gilt doch γ > 0. Wir wählen o.b.d.a. γ = 1, nach Streckung des Normalenvektors (λ, µ, γ ). Aus der Trennungsungleichung erhalten wir für alle y = g(x), z = h(x) und w = f(x) mit x M also auch inf(p ) λ, y + µ, z + w = }{{} λ, g(x) }{{} µ, h(x) + f(x), }{{} =0 inf(p ) inf L(x, x M λ, µ ) = ϕ(λ, µ ) sup ϕ(λ, µ) = sup(d). (λ,µ) R p + Rq Der schwache Dualitätssatz 7.4 liefert somit (7.12). 2. Sind die Zeilen A e j, 1 j p, von A linear abhängig, aber noch int(m), kann man das Problem durch Elimination redundanter Gleichheitsrestriktionen auf Fall 1 zurückführen, denn das lineare Gleichungssystem Ax = b besitzt nach (7.11) zumindest die Lösung x. Ist J {1,..., p} die Menge der Indizes redundanter, weggelassener Gleichungen (Ax) j = b j, so kann man durch Auffüllen des Lagrange- Multiplikators µ aus 1. mit µ j := 0 für alle j J in den letzten Beweisschritt von 1. einsteigen und ebenfalls inf(p ) sup(d) zeigen, woraus mit schwacher Dualität (7.12) folgt. 3. Sei schließlich int(m) =, d.h. aff(m) sei ein affiner, echter Unterraum von R n mit Dimension s. Dann existiert eine Matrix C R n s vom Rang s und ein Vektor d R n mit der Parametrisierung aff(m) = {ψ(u) := Cu + d : u R s }. Betrachtet man das Urbild U := ψ 1 (M) R s und definiert f := f ψ, g j := g j ψ sowie h k := h k ψ für 1 j p und 1 k q, so ist das Minimierungsproblem min f(u) g(u) 0 h(u)=0 u U äquivalent zum ursprünglichen Minimierungsproblem (7.1), und die Bedingungen für Fall 1. sind erfüllt. Denn û := ψ 1 ( x) ist ein innerer Punkt von U, da x nach Voraussetzung zum relativen Inneren von M gehört. 40

41 8. Nichtglatte konvexe Optimierung Wir diskutieren jetzt nichtglatte, konvexe Optimierungsprobleme min f(x), X x X Rn konvex, f : X R konvex. (8.1) Um Optimalitätsbedingungen im nichtglatten Fall herzuleiten, benötigen wir einen verallgemeinerten Ableitungsbegriff, da konvexe Funktionen nicht überall differenzierbar sind und daher die KKT-Bedingungen glatter Optimierungsbedingungen hier nicht ohne weiteres formulierbar sind Konvexes Subdifferential Wir beobachten zunächst, dass konvexe Funktionen auf offenen Mengen lokal Lipschitzstetig sind. Satz 8.1. Seien = X R n konvex und f : X R konvex. Dann ist f auf int(x) lokal Lipschitz-stetig. Beweis: Sei x int(x). Dann existiert wegen der Offenheit von int(x) ein δ > 0, so dass S := {y R n : x y 2δ} X. Die Menge S ist ein konvexer, beschränkter Polyeder mit N := 2 n Ecken v (1),..., v (N), und es gilt S = conv{v (1),..., v (N) }. Jedes y S sieht also aus wie N y = λ j v (j), λ j 0, j=1 N λ j = 1. j=1 Es folgt mit Hilfe der Jensen-Ungleichung wegen der Konvexität von f ( N f(y) = f λ j v (j)) j=1 N j=1 λ j f(v (j) ) max 1 k N f(v(k) ) } {{ } =:M N j=1 λ j }{{} =1 = M, für alle y S, d.h. f ist auf S nach oben durch M beschränkt. Definiert man zu y S den an x gespiegelten Vektor z := x (y x) = 2x y S, so folgt wegen der Konvexität von f ( y + z ) f(x) = f f(y) f(z) 1 2 f(y) + M 2, also die untere Schranke f(y) 2f(x) M =: m, für alle y S. 41

42 8. Nichtglatte konvexe Optimierung Wir erhalten also m f(y) M, für alle y S. Seien jetzt u, v R n mit u v sowie u x 2 δ und v x 2 δ. Setzt man so folgt y := v + δ v u, v u 2 y x 2 v x 2 +δ v u 2 2δ, }{{} v u 2 δ }{{} =1 also y S wegen 2. Mit der Beobachtung v = v u 2 δ y + u δ + v u 2 δ + v u 2 erhalten wir wegen der Konvexität von f und den Schranken von f auf S f(v) f(u) v u 2 δ f(y) + f(u) f(u) δ + v u 2 δ + v u 2 = v u 2 ( ) f(y) f(u) δ + v u 2 }{{} M m M m v u 2. δ Vertauscht man die Rollen von v und u, erhält man wie behauptet f(v) f(u) M m v u 2, für alle u, v R n, u x 2 δ, v x 2 δ. δ Bemerkung 8.2. Eine konvexe Funktion f : X R auf einer konvexen Menge X R n ist im Allgemeinen nur auf dem Inneren von X stetig, was man an der konvexen Funktion f : [0, 1] R, { 0, 0 x < 1 f(x) := 1, x = 1 sehen kann. Nach dem Satz von Rademacher ist jede lokal Lipschitz-stetige Funktion f : X R bereits fast überall (klassisch) differenzierbar. Für unsere Zwecke wird allerdings der folgende Hilfssatz über die Richtungsdifferenzierbarkeit konvexer Funktionen entscheidender sein. 42

43 8.1. Konvexes Subdifferential Lemma 8.3. Seien X R n offen und konvex, f : X R konvex, x X und d R n. Dann gilt: (i) Der Differenzenquotient f(x + td) f(x) q(t) := t ist für alle 0 < t t 0 = t 0 (x, d) definiert und auf diesem Laufbereich monoton wachsend. (ii) Die Richtungsableitung f (x; d) := lim t 0 q(t) von f in x in Richtung d existiert, und es gilt mit t 0 > 0 aus (i) Beweis: f (x; d) = inf q(t). (8.2) 0<t<t 0 (i) Ist x X, und d R n beliebig, so ist x + td X für alle hinreichend kleinen 0 < t t 0 (x, d), da X offen ist. Folglich ist der Differenzenquotient q(t) für alle 0 < t t 0 wohldefiniert. Seien dann 0 < t 1 < t 2 t 0. Aus der Konvexität von f folgt f(x + t 1 d) = f ( t 1 t2 (x + t 2 d) + (1 t 1 t2 )x ) t 1 t2 f(x + t 2 d) + (1 t 1 t2 )f(x), also nach Umstellen und Division durch t 1 > 0 f(x + t 1 d) f(x) } t {{ 1 } =q(t 1 ) f(x + t 2d) f(x) t 2 } {{ } =q(t 2 ) (ii) Wegen der nach (i) geltenden Monotonie von q auf seinem Definitionsbereich (0, t 0 ) reicht es für die Existenz der Richtungsableitung f (x; d), die Beschränktheit von q nach unten zu zeigen. Seien dazu x X sowie s, t > 0 mit x sd, x + td X gegeben. Wir rechnen mit der Konvexität von f f(x) = f ( t s+t (x sd) + s s+t (x + td)) t s+tf(x sd) + s also nach Umstellen und Multiplikation mit s+t st = 1 s + 1 t > 0 f(x + td) f(x) }{{ t } =q(t) f(x) f(x sd). s Da die rechte Seite nicht von t abhängt, gilt auch noch f(x) f(x sd) inf q(t) >, 0<t<t 0 s. s+tf(x + td), so dass f (x; d) = lim t 0 q(t) existiert. Die Monotonie von q liefert daher (8.2). 43

44 8. Nichtglatte konvexe Optimierung Definition 8.4 (konvexes Subdifferential/Subgradient). Seien X R n offen und konvex, f : X R n konvex und x X. Dann heißt s R n Subgradient von f in x, falls f(y) f(x) + s, y x, für alle y R n, (8.3) d.h. wenn der Graph von f oberhalb der Hyperebene {(y, f(x) + s, y x ) : y R n } liegt. Die Menge aller Subgradienten von f in x wird als (konvexes) Subdifferential f(x) bezeichnet, d.h. f(x) = { s R n : f(y) f(x) + s, y x für alle y R n}. Bemerkung 8.5. Sei f : X R konvex und differenzierbar in x X. Dann folgt f(x) f(x), denn die Gradienten konvexer Funktionen sind monoton. Gilt umgekehrt s f(x), so folgt nach Definition eines Subgradienten (8.3), also für y := x + td mit beliebigen t > 0 und d R n f(x + td) f(x) + t s, d f(x + td) f(x) t s, d, also nach Grenzübergang t 0 wegen der Differenzierbarkeit von f bei x f(x), d s, d, für alle d R n. Wählt man d := s f(x), so erhält man f(x), s f(x) s, s f(x) und damit s f(x) 2 0, d.h. s = f(x). Beispiel 8.6. Wir berechnen das Subdifferential der Betragsfunktion f(x) = x. f ist offenbar konvex. Für x 0 ist f bei x differenzierbar mit f (x) = sgn(x) = x x, also gilt f(x) = {sgn(x)}. Für x = 0 rechnen wir f(0) = { s R : y sy für alle y R } = { s R : y sy für alle y R \ {0} } = { s R : 1 s 1 } = [ 1, 1], also insgesamt { 1}, x < 0 f(x) = [ 1, 1], x = 0. {1}, x > 0 44

45 8.1. Konvexes Subdifferential Den Zusammenhang zwischen Richtungsableitung und Subdifferential stellt der folgende Satz her. Satz 8.7. Seien X R n offen und konvex, f : X R konvex und x X. Dann gilt: (i) f(x) ist nichtleer, konvex und kompakt; (ii) f(x) = {s R n : s, d f (x; d) für alle d R n }; (iii) f (x; d) = Beweis: max s, d für alle d s f(x) Rn. (ii) Die Richtungsableitung f (x; d) existiert für alle x X und d R n nach Lemma 8.3, da f konvex ist. Die behauptete Charakterisierung folgt aus der Äquivalenz s f(x) f(y) f(x) + s, y x für alle y X f(x + td) f(x) + s, td für alle d R n, t > 0, x + td(=: y) X f(x + td) f(x) t so dass Lemma 8.3 die Behauptung liefert, s f(x) f (x; d) = (i) Wegen (ii) gilt die Darstellung f(x) = s, d für alle d R n, t > 0, x + td(=: y) X, f(x + td) f(x) inf s, d für alle d R n. t>0 t x+td X d R n { s R n : s, d f (x; d) } von f(x) als unendlicher Schnitt abgeschlossener Halbräume { s R n : s, d f (x; d) } mit Normalenvektoren d R n. Also ist f(x) abgeschlossen und konvex. Für die Beschränktheit von f(x) beobachtet man, dass wegen (ii) für alls s f(x) gilt { s k = s, e k f (x; e k ) s k = s, e k f, für alle 1 k n, (x; e k ) so dass f(x) beschränkt ist mit s max 1 k n max { f (x; e k ), f (x; e k ) }, für alle s f(x). Nach dem Satz von Heine-Borel ist f(x) kompakt. 45

46 8. Nichtglatte konvexe Optimierung Die Existenz von Subgradienten zeigt man mit Hilfe eines Trennungsarguments. Betrachte dazu zu beliebigem d R n die Mengen K 1 := { (y, z) X R : f(y) < z }, K 2 := { (x + td, f(x) + tf (x; d)) X R : t > 0}. Dabei ist K 1 der (offene) Epigraph von f, d.h. alle Punkte strikt oberhalb des Graphen von f. K 2 ist ein von (x, f(x)) ausgehender Strahl in Richtung (d, f (x; d)), wobei der Startpunkt (x, f(x)) ausgenommen ist. Beide Mengen K 1 und K 2 sind offensichtlich nichtleer (wegen X ) und konvex. So gilt z.b. für (y, z), (ỹ, z) K 1 und 0 < λ < 1, dass λz + (1 λ) z > λf(y) + (1 λ)f(ỹ) f ( λy + (1 λ)ỹ ), also λ(y, z) + (1 λ)(ỹ, z) K 1. Der Strahl K 2 ist konvex als affines Bild der offenen, konvexen Halbgerade (0, ). Weiter sind die Mengen K 1 und K 2 disjunkt. Denn aus (y, z) K 1 K 2 folgt mit y = x + td für t > 0 und d R n, dass und somit f(x + td) = f(y) < z = f(x) + tf (x; d) f(x + td) f(x) t < f (x; d), im Widerspruch zu (8.2). Somit sind K 1, K 2 nichtleer, konvex und disjunkt, d.h. es existiert ein Normalenvektor (s, γ) (R n R) \ {0}, so dass s, y +γz s, x+td +γ ( f(x)+tf (x; d) ), für alle y X, z R, z > f(y), t > 0. Wir behaupten, dass hierin γ < 0 gilt. Denn gälte γ > 0, könnte man mit y := x folgern, dass γz s, td + γ ( f(x) + tf (x; d) ), für alle z R, z > f(x), t > 0, also mit t 0 γz γf(x), für alle z R, z > f(x), was wegen γ > 0 ein Widerspruch wäre. Gälte γ = 0, so folgt ähnlich s, y s, x + td, für alle y X, t > 0, also mit t 0 s, y s, x, für alle y X, also insbesondere für y := x + δs X mit hinreichend kleinem δ > 0 s, x + δs s, x δ s

47 8.1. Konvexes Subdifferential und somit der Widerspruch s = 0. Also gilt doch γ < 0 und daher o.b.d.a. γ = 1, durch Normierung des Normalenvektors (s, γ) der trennenden Hyperebene. Wir erhalten die Ungleichung s, y z s, x + td ( f(x) + tf (x; d) ), für alle y X, z R, z > f(y), t > 0, also mit t 0 und z f(y) d.h. und damit s f(x). s, y f(y) s, x f(x), für alle y X, f(y) f(x) + s, y x, für alle y X (iii) Setzt man in der in Teil (i) auftauchenden Ungleichung für die trennende Hyperebene y := x, erhält man für das dort berechnete s f(x) also mit z f(x) und somit z s, td ( f(x) + tf (x; d) ), für alle z > f(x), t > 0, 0 s, td tf (x; d), für alle t > 0, f (x; d) s, d. Die Charakterisierung aus (ii) liefert wegen f (x; d) u, d für alle u f(x) die Behauptung (iii). Mit diesen Hilfsmitteln kann man Optimalitätskriterien für (unrestringierte) konvexe Minimierungsprobleme angeben. Satz 8.8. Seien = X R n offen und konvex, f : X R konvex und x X. Dann sind äquivalent: (i) f nimmt in x sein globales Minimum über X an, d.h. es gilt f(x ) f(x) für alle x X; (ii) 0 f(x ); (iii) f (x, d) 0 für alle d R n. Beweis: Es gelte zunächst (i), d.h. x X sei ein globales Minimum von f auf X. Da X offen ist, gilt für festes d R n, dass x + td X und damit f(x + td) f(x ) für alle hinreichend kleinen t > 0. Es folgt f (x f(x + td) f(x ), d) = lim 0, für alle d R n, t 0 t 47

48 8. Nichtglatte konvexe Optimierung und damit (iii). Es gelte (iii). Sei also x X mit f (x, d) 0 = 0, d für alle d R n. Nach der Charakterisierung von f(x) aus Satz 8.7(ii) folgt, dass 0 f(x ), also (ii). Es gelte schließlich (ii), also 0 f(x ). Nach Definition des Subdifferentials erhalten wir f(x) f(x ) + 0, x x = f(x ) für alle x X, d.h. x ist ein globales Minimum von f auf X und (i) gilt. Folgender Hilfssatz ist bei der Behandlung konkreter konvexer Funktionale nützlich: Lemma 8.9. Seien X R n offen und konvex, f 1,..., f m : X R konvex und α 1,..., α m > 0. Dann gilt ( m m α j f j )(x) = α j f j (x). (8.4) j=1 j=1 Beweis: Wegen α j > 0 und der Konvexität von f j für alle 1 j m ist f := m j=1 α jf j : X R konvex. Somit ist die linke Seite f(x) in (8.4) für alle x X wohldefiniert. Wir definieren die rechte Seite in (8.4) als m K(x) := α j f j (x) R n, für alle x X. j=1 Nach Satz 8.7 sind die einzelnen Summanden in K(x) nichtleer, konvex und kompakt, also auch K(x) selbst. Sei dann s K(x), und es gelte die Zerlegung s = m j=1 α js (j) mit s (j) f j (x). Nach Definition folgt, dass f j (y) f j (x) + s (j), y x, für alle 1 j n, y X, also nach Multiplikation mit α j > 0 und Summation über n n α j f j (y) j=1 } {{ } =f(y) n n α j f j (x) + α j s (j), y x, für alle y X, j=1 } {{ } =f(x) j=1 } {{ } =s und damit s f(x), d.h. K(x) f(x). Zum Nachweis der umgekehrten Inklusion betrachte zunächst beliebige x X und 48